پیکسلر | شبکه اجتماعی برنامه نویسان

مقایسه HPE Advanced ECC Support و HPE Fast Fault Tolerance

ysorkh.m 2 سال پیش

مقایسه HPE Advanced ECC Support و HPE Fast Fault Tolerance

خراب شدن سرور می­تواند ناشی از خراب شدن حافظه باشد. در این صورت دسترسی و عملکرد سرویس نیز کاهش می­یابد. یک سرویس را در نظر بگیرید که شامل چندین سرور است. ممکن است سرور به خاطر خرابی در ماژول single memory خراب شود یا حتی به خاطر خطا در uncorrectable memory. برای اینکه از این اتفاقات بتوان جلوگیری کرد HPE فناوری RAS را ارائه داده است. عنوان RAS از حروف اول reliability یا قابلیت اطمینان، availability یا در دسترس بودن و serviceability یا سرویس­ دهی می­آید که شامل این موارد است:

HPE Fast Fault Tolerance، Advaned ECC support، Online spare with Advanced ECC support و Mirrored memory with advanced ECC support.

به دلیل مشکلات نرم ­افزاری و قطع برق همینطور خطاهای مموری ممکن است سرور ها به مشکل بخورند. بعضی خطاها را می­توان اصلاح کرد، بعضی دیگر قابلیت بازیابی دارند و سایر خطاها اصلاح ناپذیر هستند. به دلیل وجود چنین خطاهایی memory RAS نیاز است.

اصولا به خطاهایی قابل اصلاح می­گویند که توسط چیپ­ست قابل شناسایی و اصلاح هستند و به طور کلی یک بیتی هستند.

تمامی سرورهای HPE خطاهای یک بیتی را تشخیص و اصلاح می­کنند و از error-correcting code(ECC) پشتیبانی می­کنند.

سیستم­های HPE، به کاربر درباره بیش از حد شدن correctable error از طریق چراغ­ های روی پنل جلویی یا بورد سیستم هشدار می­دهد و یا به وسیله HPE Integrated Management Log(IML) این کار را می­کند.

 

به خطاهایی که توسط چیپ­ست شناسایی می­شوند ولی اصلاح نمی­شوند خطاهای غیر قابل اصلاح می­گویند که همیشه چند بیتی هستند. این خطاها در ILM ثبت می­شوند. این نوع خطاها را معمولا می­توان در یک DIMM جدا کرد. خطاهای غیر قابل اصلاح فورا سیستم را خراب و یا خاموش می­کنند. با پشتیبانی از سیستم عامل و پردازنده ­های پیشرفته مثل سری Gold یا Platinum پردازنده­ های Intel Xeon، بعضی اوقات سیستم خراب نمی­شود. به این نوع مدل خطاها، قابل بازیابی می­گویند.

 

خطاهای DRAM غالبا به دو صورت هستند:

Hard error: خطای سخت به معنای وجود مشکل در خود DIMM هست. با اینکه خطاهای قابل اصلاح سخت توسط سیستم اصلاح می­شوند، باز هم یک اشکال سخت­ افزاری است. این خطاها معمولا منجر به این می­شوند که DIMM از آستانه خطاهای قابل اصلاح سیستم­های HPE فراتر برود، به کاربر درباره این موضوع هشدار داده می­شود.

Soft error: خطای نرم  بر خلاف خطای سخت ارتباطی با DIMM ندارد و زمانی اتفاق می­افتد که داده و یا بیت­های ECC روی DIMM درست نباشند، با اصلاح این خطا، دیگر ادامه نمی­یابد. این خطاها معمولا منجر نمی­شوند که DIMM از آستانه خطاهای قابل اصلاح سیستم­های HPE فراتر برود پس هیچ خبری از مشکل سخت­ افزاری نیست.

 

خطاها اگر درست کنترل نشوند، می­توانند باعث خاموش شدن سیستم شوند. اوایل استفاده از سرور ها با ECC می­شد بیشتر خرابی­ های DRAM را رفع کرد ولی الان اوضاع متفاوت است. برای همین از ویژگی­های اضافی RAS استفاده می­شود تا پایداری و زمان­بندی مورد انتظار سرور ها فراهم شود. دستگاه­های حافظه خراب شده جایگزین می­شوند. همچنین، فناوری RAS حافظه می تواند یک دستگاه DRAM را روی DIMM که دارای خطاهای نرم زیادی است، شناسایی و قبل از خرابی سخت آن را تعویض کند.

HPE Advanced ECC Support:

حالت پیش فرض برای حفاظت از مموری برای سرورهای HPE در سیستم­های ROM revision قبل از 1.5 ، مموری Advanced ECC است. در  1.5 به بعد، HPE Fast Fault Tolerance حالت پیش فرض RAS در همه پروفایل­ های بجز پروفایل با تاخیرکم، است.

 

ECC استاندارد خطاهای یک بیتی مموری را اصلاح می­کند، همچنین خطاهای چند بیتی را تشخیص می­دهد. زمانی که این اتفاق می­افتد، خطا به سرور سیگنال شده و باعث متوقف شدن آن می­شود.

 

Advanced ECC مدت زیادی است که در سرور­های HPE، حالت پیش فرض اصلاح خطاهاست و علاوه بر محافظت از سرور مقابل خطاهای یک بیتی، مقابل بعضی خطاهای چند بیتی مخصوصا خطاها در DRAM نیز محافظت می­کند.

Advanced ECC می­تواند هم خطاهای یک بیتی و هم 4 بیتی حافظه را در صورتیکه همه بیت­های خراب در یک DRAM روی یک DIMM باشند، اصلاح کند. همچنین نسبت به ECC استاندارد حفاظت بیشتری دارد چون که می­تواند بعضی از خطاهای حافظه را اصلاح کند که درغیر اینصورت منجر به خرابی سرور می­شوند. با استفاده از فناوری تشخیص خطای حافظه HPE Advanced، سرور هنگام تخریب DIMM اعلانی را ارائه می­دهد و احتمال خطای حافظه غیر قابل اصلاح را بیشتر می کند.

برای advanced ECC support هیچ قانون یا تنظیمات RBSU نیاز نیست و به عنوان پیش فرض در پلتفرم­ های Purely  فعال شده است.

Advanced ECC فقط وقتی که خطاهای چند بیتی در یک DRAM واحد رخ می­دهند، می­تواند با اطمینان خطاها را اصلاح کند و قابلیت خرابی را ایجاد نمی­کند. بنابراین اگر حافظه خراب شد و نیاز به جایگزینی داشت، باید ابتدا سیستم خاموش شود. آخرین نسل از سرورهای HPE ProLiant/Synergy/Blade با استفاده از پردازنده ­های Intel Xeon Scalable سه سطح حافظت از حافظه پیشرفته (از جمله HPE Fast Fault Tolerance)  ارائه می­کنند که باعث افزایش تحمل خطا در برنامه­هایی می­شود که به سطح بالاتری از در دسترس بودن نیاز دارند.

HPE Fast Fault Tolerance:

یک ویژگی جدید برای HPE Memory RAS هست که بار اول در سرورهای نسل 10 با پردازنده ­های Intel Xeon Scalable مورد استفاده قرار گرفت. سرورهایی که با HPE Fast Fault Tolerance و HPE SmartMemory پیاده ­سازی شده­اند، برای مقابله با خرابی سرور یک لایه حفاظتی ارائه می­دهند.

HPE Fast Fault Tolerance نسخه پیشرفته adaptive double device data correction (ADDDC) است که با همکاری اینتل و Hewlett Packard Enterprise پدید آمد، همچنین دارای بخش­های اضافی بیشتری است و گزینه­ های بیشتری جهت ترسیم بخش­های بد مموری دارد. نسبت به بقیه که فقط از ADDDC استفاده می­کنند، قابلیت اطمینان و در دسترس بودن حافظه به مراتب بهتری ارائه می­دهد.

با شروع با ROM revision 1.50، HPE Fast Fault Tolerance به صورت پیش فرض برای همه پروفایل ­های بار کاری بجز پروفایل کم تأخیر فعال است.

 

double device data correction (DDDC) در نسل­های گذشته سرور، پیشرفته­ترین فناوری محافظت از حافظه در سرورهای ProLiant به شمار می­رفت. اصلی­ ترین مسئله این بود که باید هنگام راه اندازی فعال شود و هنگام فعال شدن میزان حافظه به طور قابل ملاحظه­ای کاهش یابد و مشتریان مجبور بودن بین انعطاف پذیری و عملکرد یکی را انتخاب می­کردند. HPE Fast Fault Tolerance نسبت به DDDC پیشرفت زیادی داشته است چون شامل مزایای عملکرد single device data correction (SDDC) با در دسترس بودن DDDC است. HPE Fast Fault Tolerance به سیستم اجازه می­دهد که با عملکرد کامل مموری بوت شود و فقط زمانی که نیاز است خرابی اصلاح شود بخش­هایی از مموری را در lockstep قرار می­دهد و از این کار عملکرد بهتری نسبت به DDDC حاصل می­شود. اگر بخش خراب از یک بانک بزرگتر باشد، ممکن است تأثیر بد بیشتری روی عملکرد دیده شود.

 

لازم است که در هر کانال پرجمعیت حداقل دو رنک وجود داشته باشد. علاوه بر این ، فقط HPE SmartMemory در organization x4 می تواند مورد استفاده قرار گیرد.

 

اکنون ، HPE Fast Fault Tolerance می­خواهد که سرور در مد closed-page اجرا شود و در برخی از بارهای کاری، کارایی کمی کاهش یابد. از مد closed-page انتظار نمی رود که برای الگوهای حافظه دسترسی تصادفی عملکرد خیلی خوبی داشته باشد (SQL یا پایگاه های داده دیگر)، اما برای الگوهای حافظه دسترسی متوالی افت عملکرد وجود خواهد دارد. اگر DRAM از کار بیفتد، حداقل عملکرد کاهش پیدا می­کند اما فقط در منطقه بسیار کوچک(رایج­ترین اندازه یک بانک) حافظه است که تحت تأثیر قرار می گیرد. برای الگوهای حافظه دسترسی تصادفی هیچ افت قابل ملاحظه­ای پیش نمی­آید زیرا به ناحیه lockstep بندرت دسترسی پیدا می شود. اگر lockstep مجازی سطح بالایی داشته باشد یا برنامه ­ای مرتباً به منطقه دسترسی پیدا کند تا زمانی که DIMM جایگزین شود، ضرر می­تواند بسیار زیاد باشد. انتظار می رود که کاهش کلی توان عملیاتی HPE Fast Fault Tolerance برای اکثر مشتریان کم باشد اما به برنامه، اندازه منطقه آسیب دیده و پیکربندی حافظه بستگی دارد.

0 دیدگاه
برای قرار دادن دیدگاه وارد شوید