🎯HPE Integrated Lights-Out (iLO) ابزاری قدرتمند برای مدیریت و مانیتورینگ سرورهای HPE است که به شما امکان میدهد سلامت سرورها را بررسی و اجزای کلیدی مثل فنها، دما، و پاور را مدیریت کنید—حتی وقتی سرور خاموش است. 🖥 این راهنما، با زبانی ساده و حرفهای، بر اساس مستندات HPE و تجربیات عملی، به تنظیم و نظارت سرورهایی مثل DL380 یا DL360 در نسلهای مختلف مثل: Gen9، Gen10، و Gen11 میپردازد تا به مدیران IT و مهندسان سرور کمک کند زیرساختها را بهینه نگه دارند.
💡 مقدمه: چرا مدیریت و مانیتورینگ با iLO مهم است؟
فنهای سرورهای HPE بهصورت Hot-Plug طراحی شدهاند و وظیفه خنکسازی قطعات (مثل CPU، RAM، و رید کنترلر) را بر عهده دارند. 🔺 اگر دما یا فنها بهدرستی مدیریت نشوند، سرور ممکن است خاموش شود یا قطعات آسیب ببینند. بخش Health Summary در System Information iLO، یک داشبورد جامع است که وضعیت سلامت تمام اجزای سرور (مانند پاور، فنها، دما، پردازنده، حافظه، ذخیرهسازی، و شبکه) را در یک نگاه نمایش میدهد و با استفاده از رنگها (سبز، زرد، قرمز) و اعلانها، مشکلات احتمالی را بهسرعت شناسایی میکند. این مقاله هم تنظیمات عملی و هم نظارت را پوشش میدهد تا به شما کمک کند سرورها را در شرایط بهینه نگه دارید و از خرابیهای احتمالی جلوگیری کنید. 🚀
✅ پیشنیازها
- 🔹 آشنایی با سرورهای HPE: مدلهایی مثل DL380 یا DL360 (Gen9، Gen10، Gen11).
- 🛠 دسترسی به iLO و BIOS: آدرس IP iLO و حساب کاربری با دسترسی مناسب برای تنظیمات فنها و بررسی وضعیت.
- 🔵 اتصال شبکه: سرور باید به شبکه متصل باشد تا iLO اطلاعات را نمایش دهد.
- ⚠️ بهروزرسانی iLO: مطمئن شوید فرمور iLO بهروز است.
- 📞 مشاوره تخصصی: در صورت نیاز، با شرکتهایی مثل اچ اسک (تأمینکننده سرور و خدمات ۲۴/۷) تماس بگیرید.
- 💡 نکته: صدای بلند فنها یا هشدارهای Health Summary میتواند نشانه مشکل باشد؛ همیشه iLO را چک کنید.
🛠 مدیریت و مانیتورینگ سرورهای HPE با iLO
🔵 ۱. چرا فنها با سرعت بالا کار میکنند؟
فنهای سرور بهصورت خودکار سرعت خود را بر اساس دمای داخلی تنظیم میکنند. دلایل رایج سرعت بالای فنها:
- خرابی فن: اگر یک فن خراب شود، سایر فنها با سرعت بالاتر کار میکنند تا کمبود خنکسازی جبران شود.
- دمای بالا: محیط گرم یا تهویه نامناسب اتاق سرور.
- تنظیمات نادرست: سیاست خنکسازی (Cooling Policy) روی حداکثر (Maximum Cooling) تنظیم شده باشد.
- بار کاری سنگین: CPU یا GPU در حال پردازش سنگین هستند و گرمای بیشتری تولید میکنند.
🔵 ۲. تنظیمات فنها و دما در BIOS
برای مدیریت سرعت فنها و دمای سرور، باید به تنظیمات BIOS/Platform Configuration دسترسی پیدا کنید. مراحل زیر را دنبال کنید:
- ورود به BIOS:
- سرور را ریاستارت کنید.
- در زمان بوت، کلید F9 را فشار دهید تا وارد System Utilities شوید.
- دسترسی به تنظیمات فنها:
- به مسیر زیر بروید:
System Configuration > BIOS/Platform Configuration > Advanced Options > Fan and Thermal Options
- به مسیر زیر بروید:
- تنظیمات Thermal Configuration:
- Optimal Cooling: خنکسازی متعادل (مناسب برای اکثر محیطها، دمای هدف ۳۵ درجه سانتیگراد).
- Increased Cooling: خنکسازی بیشتر (برای محیطهای گرمتر یا بار کاری سنگین).
- Maximum Cooling: حداکثر خنکسازی (فنها با سرعت بالا کار میکنند، مناسب برای محیطهای خیلی گرم یا تهویه ضعیف).
- انتخاب بر اساس شرایط اتاق سرور:
- محیط با تهویه خوب: Optimal Cooling.
- محیط گرم بدون تهویه مناسب: Maximum Cooling.
- تنظیم دمای هدف (Extended Ambient Temperature):
- دمای پیشفرض سرور ۳۵ درجه سانتیگراد است (ایدهآل برای اتاق سرور).
- میتوانید دمای هدف را به ۴۰ یا ۴۵ درجه افزایش دهید:
- ۴۰ درجه: برای محیطهای کمی گرمتر.
- ۴۵ درجه: برای محیطهای خیلی گرم (با احتیاط، ممکن است عمر قطعات کاهش یابد).
- توصیه: اگر دما را افزایش میدهید، Maximum Cooling را انتخاب کنید.
- سیاست خرابی فن (Fan Failure Policy):
- Shutdown: اگر فن خراب شد، سرور خاموش میشود (ایمنترین گزینه).
- Allow Operation with Critical Fan Failure: سرور با فن خراب به کار ادامه میدهد (ریسک آسیب به سختافزار).
- پیشفرض: Shutdown (توصیه میشود برای جلوگیری از آسیب).
- ذخیره و ریاستارت:
- تغییرات را با کلید Esc و سپس F10 ذخیره کنید.
- سرور را ریاستارت کنید تا تنظیمات اعمال شوند.
🔵 ۳. مانیتورینگ با System Information – Health Summary در iLO
برای بررسی سلامت و عملکرد اجزای سرور (از جمله فنها و دما)، از HPE iLO استفاده کنید:
- ورود به iLO:
- از مرورگر، آدرس IP iLO را وارد کنید (مثلاً https://192.168.1.100).
- با نام کاربری و رمز عبور وارد شوید.
- دسترسی به Health Summary:
- از منوی سمت چپ، System Information را انتخاب کنید.
- روی Health Summary کلیک کنید تا نمای کلی ظاهر شود.
- رابط کاربری و رنگها:
- سبز: همهچیز نرمال است (No Issues).
- زرد: هشدار (Warning) وجود دارد (مثلاً دمای بالا یا خرابی جزئی).
- قرمز: وضعیت بحرانی (Critical) (مثلاً خرابی پاور یا آرایه RAID).
- کاربردها:
- نظارت سریع: بدون نیاز به ورود به سرور، سلامت کلی را بررسی کنید.
- تشخیص اولیه: مشکلات را قبل از قطع شدن سرور شناسایی کنید.
- گزارشدهی: لاگها و جزئیات برای عیبیابی در دسترس هستند.
- مدیریت از راه دور: با iLO، نیازی به حضور فیزیکی نیست.
🛠 جزئیات بخشهای Health Summary
وقتی به Health Summary در iLO وارد شوید، یک نمای کلی از وضعیت سرور مشاهده میکنید. این بخش شامل تبهای زیر است که هر یک اطلاعات خاصی ارائه میدهند:
🔵 ۳.۱. Overview (نمای کلی)
- توضیح: این تب اطلاعات پایهای سرور را نمایش میدهد و بهعنوان یک نقطه شروع برای بررسی کلی عمل میکند.
- موارد نمایششده:
- Server Name: نام سرور (مثلاً DL380-Gen10).
- Product ID: شناسه محصول (برای شناسایی مدل سرور).
- Serial Number: شماره سریال سرور (برای پشتیبانی یا گارانتی).
- System Health: وضعیت کلی سلامت (سبز، زرد، یا قرمز).
- iLO Firmware Version: نسخه فریمور iLO.
- Server Power Status: وضعیت روشن/خاموش بودن سرور.
🔵 ۳.۲. Summary (خلاصه)
- توضیح: خلاصهای از وضعیت کلی سرور و اجزای اصلی آن.
- موارد نمایششده:
- Overall System Health: سلامت کلی (سبز: نرمال، زرد: هشدار، قرمز: بحرانی).
- Critical Alerts: تعداد هشدارهای بحرانی (مثلاً خرابی پاور).
- Warning Alerts: تعداد هشدارهای غیربحرانی (مثلاً دمای بالا).
- Component Status: وضعیت اجزای اصلی (پاور، فن، دما، ذخیرهسازی).
- کاربرد: شناسایی سریع مشکلات و تصمیمگیری برای بررسی تبهای دیگر.
- 💡 مثال: وقتی یک پاور جدا شد، Summary زرد شد و یک Warning Alert نمایش داده شد.
🔵 ۳.۳. Fans (فنها)
- توضیح: وضعیت و عملکرد فنهای سرور.
- موارد نمایششده:
- Fan Name: نام فن (مثلاً Fan 1، Fan 2).
- Status: وضعیت (OK: سبز، Failed: قرمز).
- Speed: سرعت فن (RPM یا درصد).
- Redundancy: وضعیت افزونگی (Redundant یا Not Redundant).
- کاربرد: شناسایی فنهای خراب یا سرعت غیرعادی (مثلاً خیلی بالا به دلیل دمای زیاد).
- اقدامات:
- اگر فن خراب است، آن را با فن Hot-Plug تعویض کنید.
- اگر دما بالاست، تهویه اتاق سرور یا تنظیمات Thermal Configuration را بررسی کنید.
- یک فن خراب (قرمز) باعث افزایش سرعت سایر فنها میشود.
🔵 ۳.۴. Temperatures (دما)
- توضیح: دمای اجزای مختلف سرور.
- موارد نمایششده:
- Sensor Name: نام سنسور (مثلاً CPU 1، Memory Zone، Chassis).
- Current Temperature: دمای فعلی (به درجه سانتیگراد).
- Threshold: آستانه دما (Caution و Critical).
- Status: وضعیت (OK: سبز، Caution: زرد، Critical: قرمز).
- کاربرد: شناسایی دمای غیرعادی (مثلاً CPU بالای ۷۰ درجه یا شاسی بالای ۶۰ درجه).
- 💡 مثال: دمای HD Controller به ۸۵ درجه رسید و زرد شد، که نیاز به بررسی تهویه را نشان داد.
🔵 ۳.۵. Power (منابع تغذیه)
- توضیح: وضعیت پاورهای سرور.
- موارد نمایششده:
- Power Supply Name: نام پاور (مثلاً PS1، PS2).
- Status: وضعیت (OK: سبز، Failed: قرمز، Not Present: خاکستری).
- Redundancy: وضعیت افزونگی (Redundant یا Not Redundant).
- Power Output: توان خروجی (وات).
- کاربرد: شناسایی خرابی پاور یا عدم اتصال.
- 💡 مثال: وقتی کابل پاور PS2 متصل نباشد، Power قرمز شد و Redundancy به Not Redundant تغییر کرد.
🔵 ۳.۶. Processors (پردازندهها)
- توضیح: سلامت و عملکرد پردازندهها.
- موارد نمایششده:
- Processor Name: نام پردازنده (مثلاً CPU 1، CPU 2).
- Status: وضعیت (OK: سبز، Failed: قرمز).
- Frequency: فرکانس فعلی (مگاهرتز).
- Temperature: دمای پردازنده.
- کاربرد: شناسایی خرابی یا دمای بالای پردازنده.
🔵 ۳.۷. Memory (حافظه)
- توضیح: وضعیت ماژولهای حافظه (RAM).
- موارد نمایششده:
- DIMM Name: نام ماژول (مثلاً DIMM 1A، DIMM 2B).
- Status: وضعیت (OK: سبز، Failed: قرمز).
- Size: ظرفیت (مثلاً ۱۶ گیگابایت).
- Speed: سرعت (مثلاً ۳۲۰۰ مگاهرتز).
- 💡 یک DIMM خراب (قرمز) باعث کاهش پرفورمنس میشود.
- کاربرد: شناسایی ماژولهای خراب یا ناسازگار.
🔵 ۳.۸. Network (شبکه)
- توضیح: وضعیت کارتها و پورتهای شبکه.
- موارد نمایششده:
- NIC Name: نام کارت شبکه (مثلاً NIC 1، NIC 2).
- Status: وضعیت (Link Up: سبز، Link Down: قرمز).
- Speed: سرعت (مثلاً ۱Gb/s).
- Port Status: وضعیت پورت (Connected یا Disconnected).
- کاربرد: شناسایی مشکلات اتصال شبکه یا خرابی کارت.
🔵 ۳.۹. Device Inventory (فهرست سختافزار)
- توضیح: فهرست سختافزارهای نصبشده.
- موارد نمایششده:
- Device Name: نام سختافزار (مثلاً رید کنترلر، کارت شبکه).
- Model: مدل (مثلاً Smart Array P408i-a).
- Status: وضعیت (OK: سبز، Failed: قرمز).
- Serial Number: شماره سریال.
- کاربرد: بررسی سختافزارهای نصبشده و سلامت آنها.
- 💡 مثال: رید کنترلر شناسایی شد و وضعیت آن سبز بود.
🔵 ۳.۱۰. Storage (ذخیرهسازی)
- توضیح: سلامت آرایهها و دیسکها.
- موارد نمایششده:
- Controller Name: نام رید کنترلر (مثلاً P408i-a).
- Array Status: وضعیت آرایه (OK: سبز، Failed: قرمز).
- Logical Drive Status: وضعیت درایوهای منطقی.
- Physical Drive Status: وضعیت دیسکها (OK یا Failed).
- کاربرد: شناسایی غیرفعال شدن آرایه RAID یا خرابی دیسک.
- اقدامات لازم:
- اگر آرایه RAID غیرفعال شده، به SSA بروید و با Re-enable مشکل را حل کنید.
- اگر آرایه RAID غیرفعال شده، به SSA بروید و با Re-enable مشکل را حل کنید.
🔵 ۳.۱۱. Firmware (فریمور)
- توضیح: نسخههای فریمور نصبشده.
- موارد نمایششده:
- Component: نام کامپوننت (مثلاً iLO، BIOS، رید کنترلر).
- Version: نسخه فعلی (مثلاً iLO 5 v2.80).
- Date: تاریخ انتشار.
- کاربرد: بررسی بهروز بودن فریمور و تصمیم برای آپدیت SPP.
🔵 ۳.۱۲. Software (نرمافزار)
- توضیح: وضعیت نرمافزارهای مدیریتشده.
- موارد نمایششده:
- Software Name: نام نرمافزار (مثلاً HPE SSA، Agentless Management).
- Version: نسخه نصبشده.
- Status: وضعیت (OK: سبز، Not Installed: خاکستری).
- کاربرد: بررسی نصب و بهروز بودن ابزارهای مدیریتی.
🔵 ۴. نکات عملی در مدیریت فنها
- تعویض فن خراب:
- فنهای HPE Hot-Plug هستند و میتوانید آنها را در حالت روشن تعویض کنید.
- قبل از تعویض، در iLO مطمئن شوید کدام فن خراب است (مثلاً Fan 1 قرمز).
- فن جدید باید با مدل سرور (مثل DL380 Gen10) سازگار باشد.
- تهویه اتاق سرور:
- دمای ایدهآل اتاق سرور ۱۸-۲۷ درجه سانتیگراد است.
- اگر تهویه ضعیف است، از Maximum Cooling و دمای هدف بالاتر (مثل ۴۵ درجه) استفاده کنید.
- مانیتورینگ مداوم:
- از iLO برای بررسی دما و سلامت فنها بهصورت دورهای استفاده کنید.
- هشدارهای دما یا خرابی فن را جدی بگیرید.
- کاهش صدای فنها:
- اگر صدای فنها آزاردهنده است، Optimal Cooling و دمای ۳۵ درجه را امتحان کنید.
- مطمئن شوید هیچ فنی خراب نیست، زیرا خرابی فن باعث افزایش صدای سایر فنها میشود.
- آلارمها: اعلانهای ایمیلی یا SNMP را برای هشدارهای بحرانی فعال کنید.
- لاگها: در Logs iLO، جزئیات مشکلات را بررسی کنید.
⚠️ نکات و هشدارهای مهم
- 🔒 مانیتورینگ iLO: همیشه وضعیت فنها، دما، و Health Summary را روزانه بررسی کنید تا از خرابیهای احتمالی جلوگیری شود.
- ❌ اشتباهات رایج:
- نادیده گرفتن خرابی فن (میتواند باعث خاموشی سرور یا آسیب به قطعات شود).
- تنظیم دمای هدف خیلی بالا (مثل ۴۵ درجه) بدون Maximum Cooling.
- جدا کردن فنهای غیر Hot-Plug در حالت روشن.
- نادیده گرفتن هشدار زرد (میتواند به وضعیت قرمز منجر شود).
- عدم بهروزرسانی iLO که باعث نمایش نادرست اطلاعات میشود.
- تعویض قطعات بدون بررسی Health Summary.
- 🛠 مشاوره تخصصی: برای خرید فن، پاور، یا خدمات پشتیبانی، با اچ اسک (تأمینکننده سرور و پشتیبانی ۲۴/۷) تماس بگیرید.
- 🔻 مشکلات رایج:
- سرعت بالای فنها: خرابی فن، دمای بالای محیط، یا تنظیم Maximum Cooling.
- خاموشی سرور: خرابی چند فن با سیاست Shutdown.
- آسیب به سختافزار: کار با فن خراب در حالت Allow Operation.
- قرمز شدن Storage: غیرفعال شدن آرایه RAID.
- زرد شدن Temperatures: دمای بالای محیط یا خرابی فن.
- قطع ارتباط iLO: مشکل شبکه یا فرمور قدیمی.
- 📊 دمای ایدهآل: دمای اتاق سرور را زیر ۳۵ درجه نگه دارید تا فشار روی فنها کاهش یابد.
- 📊 مستندات: راهنمای HPE برای مدل سرور خود را مطالعه کنید.
🎉 نتیجهگیری
مدیریت فنها و دمای سرورهای HPE با استفاده از BIOS و مانیتورینگ از طریق Health Summary در iLO به شما امکان میدهد سرور را در شرایط بهینه نگه دارید و عمر قطعات را افزایش دهید.
🏆 با تنظیم Thermal Configuration (Optimal، Increased، یا Maximum Cooling) و دمای هدف (۳۵، ۴۰، یا ۴۵ درجه)، میتوانید تعادل بین خنکسازی و صدای فنها را حفظ کنید. همچنین، بخش System Information – Health Summary ابزاری ضروری برای نظارت و مدیریت سلامت سرورهای HPE است. با استفاده از این داشبورد، میتوانید بهسرعت مشکلات پاور، فن، دما، حافظه، و ذخیرهسازی را شناسایی و برطرف کنید.
🚀 برای بهرهوری بیشتر، iLO را بهروز نگه دارید، تبهای مربوطه را بررسی کنید، و در صورت نیاز با اچ اسک برای خدمات یا قطعات تماس بگیرید. مستندات HPE را از منابع رسمی دریافت کنید.
