پیش نیازهای نصب Hadoop روی اوبونتو
قبل از نصب Hadoop روی اوبونتو، مطمئن شوید که سیستم شما مشخصات زیر را برآورده می کند:
- یک سرور مجازی لینوکس که اوبونتو اجرا می کند.
- یک کاربر غیر ریشه با دسترسی sudo
- دسترسی به ترمینال / خط فرمان
مراحل کامل برای نصب Hadoop روی اوبونتو
هنگامی که گزینه های مورد نیاز برای نصب Hadoop روی اوبونتو از جمله خرید VPS لینوکس را فراهم کردید، آماده اید تا مراحل این راهنما را دنبال کنید.
در نهایت، قادر خواهید بود از قابلیت های آن برای مدیریت و تجزیه و تحلیل کارآمد مجموعه داده های بزرگ استفاده کنید.
مرحله ۱: نصب کیت توسعه جاوا (JDK)
از آنجایی که Hadoop برای اجرا به جاوا نیاز دارد، از دستور زیر برای نصب JDK و JRE پیش فرض استفاده کنید:
sudo apt install default-jdk default-jre -y
سپس، برای تأیید نصب با بررسی نسخه جاوا، دستور زیر را اجرا کنید:
java -version
خروجی:
java version "11.0.16" 2021-08-09 LTSOpenJDK 64-Bit Server VM (build 11.0.16+8-Ubuntu-0ubuntu0.22.04.1)
همانطور که می بینید، اگر جاوا نصب شده باشد، اطلاعات نسخه را خواهید دید.
مرحله ۲: ایجاد یک کاربر اختصاصی برای Hadoop و پیکربندی SSH
برای ایجاد یک کاربر جدید، دستور زیر را اجرا کنید و کاربر Hadoop را ایجاد کنید:
sudo adduser hadoop
برای افزودن کاربر به گروه sudo، تایپ کنید:
sudo usermod -aG sudo hadoop
برای سوئیچ کردن به کاربر Hadoop دستور زیر را اجرا کنید:
sudo su - hadoop
برای نصب سرور و کلاینت OpenSSH، اجرا کنید:
sudo apt install openssh-server openssh-client -y
سپس، با اجرای دستور زیر کلیدهای SSH ایجاد کنید:
ssh-keygen -t rsa
توجه داشته باشید:
- برای ذخیره کلید در مکان پیش فرض، Enter را فشار دهید.
- در صورت تمایل می توانید برای امنیت بیشتر یک عبارت عبور تنظیم کنید.
اکنون می توانید کلید عمومی را به authorized_keys اضافه کنید:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
برای تنظیم مجوزات روی فایل authorized_keys، اجرا کنید:
sudo chmod 640 ~/.ssh/authorized_keys
در نهایت، برای تست پیکربندی SSH آماده اید:
ssh localhost
توجه داشته باشید:
- اگر گذرواژه ای تنظیم نکرده باشید، باید به طور خودکار وارد سیستم شوید.
- اگر یک گذرواژه تنظیم کرده باشید، از شما خواسته می شود آن را وارد کنید.
مرحله ۳: دانلود آخرین نسخه پایدار
برای دانلود آپاچی Hadoop، به صفحه دانلود آپاچی Hadoop مراجعه کنید. آخرین نسخه پایدار (به عنوان مثال، ۳.۳.۴) را پیدا کنید و لینک دانلود را کپی کنید.
همچنین، می توانید نسخه را با استفاده از دستور wget دانلود کنید:
wget https://downloads.apache.org/hadoop/common/stable/hadoop-3.3.4.tar.gz
سپس، فایل دانلود شده را استخراج کنید:
tar -xvzf hadoop-3.3.4.tar.gz
برای جابجایی دایرکتوری استخراج شده، اجرا کنید:
sudo mv hadoop-3.3.4 /usr/local/hadoop
از دستور زیر برای ایجاد یک دایرکتوری برای لاگ ها استفاده کنید:
sudo mkdir /usr/local/hadoop/logs
اکنون، باید مالکیت دایرکتوری Hadoop را تغییر دهید. بنابراین، استفاده کنید:
sudo chown -R hadoop:hadoop /usr/local/hadoop
مرحله ۴: پیکربندی متغیرهای محیطی Hadoop
فایل .bashrc را با استفاده از دستور زیر ویرایش کنید:
sudo nano ~/.bashrc
با اجرای دستور زیر، متغیرهای محیطی را به انتهای فایل اضافه کنید:
export HADOOP_HOME=/usr/local/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$H
مرحله ۵: پیکربندی متغیرهای محیطی Hadoop
اول، فایل hadoop-env.sh را با اجرای دستور زیر ویرایش کنید:
sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
حالا، باید مسیر جاوا را اضافه کنید. اگر قبلا متغیر JAVA_HOME را در فایل .bashrc خود اضافه نکرده اید، آن را در اینجا قرار دهید:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"
بعد از اتمام کار، تغییرات را ذخیره کرده و خارج شوید.
سپس، پوشه کاری جاری خود را به /usr/local/hadoop/lib تغییر دهید:
cd /usr/local/hadoop/lib
دستور زیر به شما امکان دانلود فایل javax.activation را می دهد:
sudo wget https://jcenter.bintray.com/javax/activation/javax.activation-api/1.2.0/javax.activation-api-1.2.0.jar
وقتی کارتان تمام شد، می توانید نسخه Hadoop را بررسی کنید:
hadoop version
اگر مراحل را به درستی طی کرده باشید، اکنون می توانید هسته سایت Hadoop را پیکربندی کنید. برای ویرایش فایل core-site.xml، دستور زیر را اجرا کنید:
sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml
شناسه پیش فرض سیستم فایل را اضافه کنید:
<configuration> <property> <name>fs.default.name</name> <value>hdfs://0.0.0.0:9000</value> <description>The default file system URI</description> </property></configuration>
تغییرات را ذخیره کرده و خارج شوید.
از دستور زیر برای ایجاد دایرکتوری برای NameNode و DataNode استفاده کنید:
sudo mkdir -p /home/hadoop/hdfs/{namenode,datanode}
سپس، مالکیت دایرکتوری ها را تغییر دهید:
sudo chown -R hadoop:hadoop /home/hadoop/hdfs
برای تغییر مالکیت دایرکتوری ایجاد شده به کاربر hadoop:
sudo chown -R hadoop:hadoop /home/hadoop/hdfs
برای ویرایش فایل hdfs-site.xml، ابتدا اجرا کنید:
sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
سپس، خط زیر را برای تنظیم ضریب تکرار جایگذاری کنید:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property></configuration>
تغییرات را ذخیره کرده و خارج شوید.
در این مرحله، می توانید MapReduce را پیکربندی کنید. دستور زیر را برای ویرایش فایل mapred-site.xml اجرا کنید:
sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
برای تنظیم چارچوب MapReduce، خط زیر را جایگذاری کنید:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>
تغییرات را ذخیره کرده و خارج شوید.
برای پیکربندی YARN، دستور زیر را اجرا کرده و فایل yarn-site.xml را ویرایش کنید:
sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
برای فعال کردن سرویس توزیع مجدد MapReduce، موارد زیر را جایگذاری کنید:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property></configuration>
تغییرات را ذخیره کرده و خارج شوید.
با اجرای دستور زیر NameNode را فرمت کنید:
hdfs namenode -format
این کار سیستم فایل توزیع شده Hadoop (HDFS) را راه اندازی می کند.
مرحله ۶: راه اندازی خوشه Hadoop
دستور زیر را برای راه اندازی NameNode و DataNode اجرا کنید:
start-dfs.sh
برای راه اندازی ResourceManager و NodeManager، دستور زیر را اجرا کنید:
start-yarn.sh
مرحله ۷: دسترسی به DataNodes و YARN Resource Manager
برای دسترسی به DataNodes، از URL http://your-server-ip:9864 برای مشاهده صفحه زیر استفاده کنید:
همچنین، می توانید از URL http://your-server-ip:8088 برای دسترسی به YARN Resource Manager همانطور که در زیر می بینید استفاده کنید:
Resource Manager یک ابزار ضروری برای نظارت بر تمام فرآیندهای در حال اجرا در خوشه Hadoop شما است.
چه چیزی Hadoop است و چرا باید آن را روی اوبونتو لینوکس نصب کرد؟
Hadoop یک چارچوب محاسباتی توزیع شده طراحی شده برای پردازش و ذخیره مقادیر عظیمی از داده ها به طور کارآمد است.
این روی سیستم عامل های مختلف از جمله اوبونتو اجرا می شود و قابلیت های ذخیره سازی داده های مقیاس پذیر و پردازش موازی را ارائه می دهد.
نصب Hadoop روی اوبونتو به شما امکان می دهد تا چالش های داده های بزرگ را مدیریت کنید، بینش های ارزشمندی را استخراج کنید و وظایف پیچیده تجزیه و تحلیل داده ها را انجام دهید که روی یک ماشین منفرد غیر عملی خواهد بود.
بهترین ویژگی ها و مزایای Hadoop روی اوبونتو کدام ها هستند؟
- مقیاس پذیری: به راحتی خوشه های Hadoop را برای مدیریت حجم رو به رشد داده ها با افزودن گره های بیشتر مقیاس بندی کنید.
- تحمل خطا: داده ها در چندین گره تکثیر می شوند، که دوام و در دسترس بودن داده ها را تضمین می کند.
- پردازش موازی: Hadoop وظایف پردازش داده ها را در چندین گره توزیع می کند، که عملکرد را تسریع می کند.
- هزینه موثر: Hadoop می تواند روی سخت افزارهای معمولی اجرا شود، که آن را به یک راه حل مقرون به صرفه برای پردازش داده های بزرگ تبدیل می کند.
- منبع باز: Hadoop آزادانه در دسترس است و دارای یک جامعه بزرگ و فعال است که پشتیبانی و توسعه را ارائه می دهد.
- ادغام با ابزارهای دیگر: Hadoop به راحتی با سایر ابزارهای داده بزرگ مانند Spark، Hive و Pig ادغام می شود و قابلیت های آن را گسترش می دهد.
- انعطاف پذیری: Hadoop از فرمت های مختلف داده پشتیبانی می کند و می تواند برای رفع نیازهای خاص سفارشی شود.
بعد از نصب Hadoop روی اوبونتو چه کاری باید انجام داد؟
- خوشه Hadoop را پیکربندی و راه اندازی کنید: خدمات Hadoop مانند NameNode، DataNode، ResourceManager و NodeManager را راه اندازی کنید.
- داده ها را به HDFS بارگیری کنید: فایل های داده خود را برای ذخیره سازی و پردازش به سیستم فایل توزیع شده Hadoop (HDFS) آپلود کنید.
- کارهای MapReduce را اجرا کنید: از MapReduce برای انجام وظایف پردازش داده ها مانند شمارش کلمات، فیلتر کردن و جمع بندی استفاده کنید.
- از سایر اجزای Hadoop استفاده کنید: ابزارهایی مانند Hive، Pig و Spark را برای تجزیه و تحلیل داده های پیشرفته تر و وظایف یادگیری ماشین کاوش کنید.
- خوشه را نظارت و مدیریت کنید: از رابط وب Hadoop برای نظارت بر استفاده از منابع، اجرای کارها و رفع مشکلات استفاده کنید.
- با سیستم های دیگر ادغام کنید: Hadoop را برای خطوط لوله و گردش کار داده ها به برنامه ها و پایگاه های داده دیگر متصل کنید.
چگونه عملکرد خوشه Hadoop را نظارت کنیم؟
از رابط وب Hadoop برای نظارت بر استفاده از منابع، اجرای کارها و سایر معیارها استفاده کنید.
همچنین می توانید از ابزارهایی مانند Ganglia یا Nagios برای نظارت پیشرفته تر استفاده کنید.
چرا خدمات Hadoop روی اوبونتو شروع نمی شوند؟
ممکن است دلایل مختلفی برای این وجود داشته باشد. برای عیب یابی، موارد زیر را در نظر بگیرید:
- خطاهای پیکربندی: بررسی کنید که فایل های پیکربندی شما (core-site.xml، hdfs-site.xml و غیره) صحیح هستند و حاوی ویژگی های لازم هستند.
- فرمت NameNode: اطمینان حاصل کنید که NameNode را با استفاده از hdfs namenode -format فرمت کرده اید.
- درگیری پورت: بررسی کنید که آیا برنامه های دیگر از پورت های مشخص شده در پیکربندی Hadoop شما (مثلاً ۹۰۰۰ برای NameNode) استفاده می کنند.
- مشکلات فایروال: مطمئن شوید که فایروال شما برای اجازه ارتباط خدمات Hadoop پیکربندی شده است.
چگونه مشکلات HDFS را عیب یابی کنیم؟
از دستور hdfs dfs -ls برای فهرست کردن فایلها و دایرکتوریها در HDFS استفاده کنید.
اگر با خطاهایی مواجه شدید، برای یافتن سرنخها به لاگها مراجعه کنید. همچنین میتوانید از دستور hdfs dfs -tail <filename> برای مشاهده آخرین خطوط یک فایل لاگ استفاده کنید.
چرا کارهای MapReduce من در حال شکست هستند؟
ممکن است دلایل مختلفی برای شکست کارها وجود داشته باشد، از جمله:
- خطاهای ورودی/خروجی: اطمینان حاصل کنید که مسیرهای ورودی و خروجی شما صحیح هستند و قالب داده با کار MapReduce شما سازگار است.
- مسائل پیکربندی کار: پیکربندی کار خود را برای خطاها یا ناسازگاری بررسی کنید.
- محدودیتهای منابع: اگر خوشه شما تحت بار سنگین است، ممکن است کار شما به دلیل منابع ناکافی شکست بخورد.
- خطاهای برنامه نویسی: کد MapReduce خود را برای خطاهای منطقی یا اشکالات بررسی کنید.
نتیجه گیری
مراحل این راهنما به شما کمک می کند تا Hadoop را با موفقیت نصب و پیکربندی کنید و به شما امکان می دهد داده های عظیم را به طور کارآمد پردازش و ذخیره کنید.
با پیروی موفقیت آمیز از مراحل ذکر شده در این آموزش، پتانسیل Hadoop را در سیستم اوبونتو خود آزاد کرده اید.