امروزه
سیستمهای
بلادرنگ
کامپیوتری
بخش
مرکزی
زندگی
ما بشمار
می روند
وعملکرد
قابل
اطمینان
این
سیستمها
بزرگترین
نگرانی
برای
میلیونها
کاربری
است که
فعالیت
روزانه
آنها به
این
سیستمها
وابسته
است.
متأسفانه
هنوز
بیشترسیستمهای
بکار
گرفته
شده
جوابگوی
انتظارات
کاربران
برای
قابلیت
اطمینان
نیستند.
در
این
مقاله
تکنیکهای
اندازه
گیری و
بهبود
قابلیت
اطمینان
سیستمهای
کامپیوتری
بررسی
می شود .
- مشخصه
های
خرابی
a.
مشکلات
سخت
افزاری
مشکلات
سخت
افزاری
معمولاً
با یک
منحنی
به شکل
وان
حمام
توصیف
میشود.
در شکل
زیر این
منحنی
نمایش
داده
شده است.
در دوره
آغازین
احتمال
بروز
خرابی بالا
است، در
دوره
استفاده
از آن
این
احتمال
کاهش
یافته و
در دوره
پایانی
عمر نرخ
خرابی
مجدداً
افزایش
می یابد.
مشکلات
سخت
افزاری
در دوره
عمر یک
محصول
می
تواند
به
دلایل
زیر
باشد:
1. اشکال
در
طراحی:
این
دسته از
خرابی
ها
بدلیل
نقص در
طراحی
یک
محصول
است. در
یک
سیستم
با
طراحی
خوب این
بخش سهم
کوچکی
در کل
خرابی
های سخت
افزاری
دارد.
2. میرایی
زود
هنگام:
این
دسته از
خرابیها
ناشی از
اشکالات
کارخانه
ای و در
ساخت
محصول
مثل
لحیم
کاریهای
ضعیف و
نشت
خازنی
است.
برای
محصولی
که از
کارخانه
خارج می
شود
چنین
مشکلاتی
نباید
وجود
داشته
باشد
چرا که
وجود آن
به معنی
ضعف در
انجام
تستهای
لازم
است.
3. اشکالات
تصادفی:
در کل
طول عمر
یک
محصول
این
اشکالات
می
تواند
بروز
کند و
باید
جزء
دسته
مشکلات
سیستمی
قرار
بگیرد.
در نظر
گرفتن
اتصالات
و قطعات
اضافی
روشی
است که
در صورت
بروز
این
دسته از
اشکالات
امکان
ادامه
حیات
عملیات
را
فراهم
می کند.
4. استهلاک:
وقتی یک
قطعه
کامپیوتری
به
انتهای
دوره
عمر خود
می رسد،
کاهش
کیفیت
مشخصه
های آن
سبب
بروز
خرابی
می شود.
این نوع
از
اشکالات
را با
یکسری
اقدامات
پیشگیرانه
می توان
کنترل
نمود.
b. مشکلات
نرم
افزاری
مشکلات
نرم
افزاری
از طریق
ردیابی
چگالی
عیوب
نرم
افزاری
توصیف
می شود.
میزان
آن را
میتوان
با
نگهداری
و بررسی
تاریخچه
مشکلات
نرم
افزاری
تعیین
نمود.
چگالی
عیوب
نرم
افزاری
وابسته
به
فاکتورهای
زیر است:
1. مراحلی
که برای
طراحی ،
توسعه و
کد
نویسی
محصول
نرم
افزاری
بکار می
رود.
2. پیچیدگی
نرم
افزار
3. اندازه
نرم
افزار
4. تجربیات
گروه
تولید
کننده
نرم
افزار
5. درصد
استفاده
مجدد از
کدهای
نسخه
پایدار
قبلی
6. انجام
تستهای
دقیق و
عمیق
قبل از
ارائه
محصول
به
بازار
معمولاً
چگالی
عیوب
نرم
افزاری
بر اساس
تعداد
خرابی
ها در 1000
خط سورس
کد
برنامه
اندازه
گیری می
شود. (Defects/KLOC).
- پارامتر
های
قابلیت
اطمینان
- MTBF -
متوسط
زمانی
بین دو
خرابی:
همانطور
که از
اسم آن
مشخص
است،
این
فاکتور
برای یک
قطعه
سخت
افزاری
معرف
میانگین
بروز
خرابی
در آن
است. در
واقع یک
میانگین
زمانی
است که
توسط
کارخانه
تخمین
زده می
شود .
لذا
برای
قطعات
سخت
افزاری
فاکتور MTBFاز
فروشنده
محصول گرفته
میشود.
برای
بدست
آوردن MTBF یک
نرم
افزار،
نرخ
خرابی
در KLOC های
اجرا
شده در
ثانیه ضرب
می شود.
- FITS �
یک روش
درک
مستقیم MTBF بوده
و با
محاسبه
تعداد
خرابیها
در یک
بیلیون
ساعت
بدست می
آید.
-
- MTTR -
متوسط
زمان
لازم
برای
رفع
مشکل:
این
فاکتور
معرف
مدت
زمانی
است که
برای
رفع
مشکل از
یک
ماژول
لازم
است. در
یک
سیستم
عملیاتی
تعمیر
به معنی
تعویض
یک
ماژول
سخت
افزاری
است.
بنابر
این
برای
سخت
افزار MTTR به
معنای
میانگین
زمانی
لازم
برای
تعویض
یک قطعه
است.
برای یک
طراح
سیستمی
ایده آل
این است
که MTTR را
در
بالاترین
میزانی
که به
قابلیت
اطمینان
سیستم
لطمه
نزند
قرار
دهد. با
توجه به
جدول
زیر می
توان به
این
نتیجه
رسید که
پایین
نگه
داشتن MTTR افزایش
هزینه
های
عملیاتی
است.
تخمین MTTR سخت
افزاری
|
زمان
تخمینی
برای MTTR
|
روش
نگهداری
سایت
|
محل
نگهداری
قطعات
یدکی
|
30 دقیقه
|
نگهداری
در 24
ساعت
روزانه
|
در
سايت
|
2
ساعت
|
اپراتور
آنکال
در 24
ساعت
روزانه
|
در
سایت
|
14
ساعت
|
حضور
در
ساعات
اداری
و
همچنین
روز
های
تعطیل
رسمی و
آخر
هفته
|
در
سایت
|
سه
روز
|
حضور
تنها
در
ساعات
اداری
در
هفته
|
در
سایت
|
یک
هفته
|
در
صورت
بروز
اشکال
در
سیستم
اپراتور
پیج می
شود
|
خارج
از
سایت،
ارسال
توسط
پیک
هرگاه
مشکلی
بوجود
بیاید
|
دو
هفته
|
سیستم
در محل
دوری
قرار
دارد و
اپراتور
برای
تعویض
بایستی
به
سایت
مراجعه
کند.
|
خارج
از
سایت،
در
انباری
که
توسط
اپراتور
کنترل
می شود
نگهداری
می
گردد.
|
برای
اجزاء
نرم
افزاری، MTTR برابر
میانگین
زمانی
است که
برای
راه
اندازی
و بار
گذاری
مجدد
برنامه
بعد از
بروز
اشکال
لازم
است. یکی
از
اهداف
طراحان
سیستم
این است
که MTTR نرم
افزاری
را در
حداقل
ممکن
نگه
دارند.MTTR برای
یک
برنامه
وابسته
به
فاکتور
های زیر
است:
� تکنیکهای
استفاده
شده در
دامنه
خطای
مجاز
برنامه
� سیستم
عامل
انتخاب
شده (آیا
سیستم
عامل
امکان
بارگذاری
مجدد
برنامه
بطوررا
می دهد؟)
� روشهای
انتقالCode
Image
تخمین MTTR نرم
افزاری
|
زمان
تخمینی
برای MTTR
|
مکانیسم
بارگذاری
مجدد
بعد از
بروز
خطا
|
مکانیسم
شناسایی
خطا و
تصحیح
آن
|
30
ثانیه
|
پردازشگر
بصورت
اتوماتیک
از Image مستقر
در ROM بارگذاری
می شود.
|
خطای
برنامه
توسط Watchdog یا Health
Message آشکار
می شود
|
30
ثانیه
|
پردازشگر
بصورت
اتوماتیک
و بدون
نیاز
به
بارگذاری
مجدد
سیستم
عامل بخشهایی
از
برنامه
که سبب
بروز
خطا
شده
اند را
دوباره
راه می
اندازد.
|
خطای
برنامه
توسط Watchdog یا Health
Message آشکار
می شود
|
3
دقیقه
|
پردازشگر
بصورت
اتوماتیک
بارگذاری
شده و
بارگذاری
سیستم
عامل
نیز از
طریق
دیسک Image انجام
می شود.
برنامه
های
کاربردی
نیز
مجدداً
راه
اندازی
می
شوند
|
خطای
برنامه
توسط Watchdog یا Health
Message آشکار
می شود
|
10
دقیقه
|
پردازشگر
بصورت
اتوماتیک
بارگذاری
شده و Image های
سیستم
عامل و
برنامه
کاربردی
بایستی
از روی
کامپیوتر
دیگری
منتقل
شود.
|
خطای
برنامه
توسط Watchdog یا Health
Message آشکار
می شود
|
30
دقیقه
تا 2
هفته
|
نیازمند
بارگذاری
مجدد
توسط
اپراتور
و
بصورت
دستی
|
امکانات
آشکار
سازی
خطای
برنامه وجود
ندارد
|
- Availability -
قابلیت
دسترسی یک
سیستم
برابر
درصد
زمانی
است که
سیستم
عملیاتی
است.
پارامتر
میزان
دسترسی
سخت
افزاری/نرم
افزاری
از
فرمول
زیر
محاسبه
می شود:
سرویس
دهی
معمولاً
در
نمادی
بصورت
تعداد 9
بیان می
شود.
برای
مثال 3-
nines معادل
99.9 %
قابلیت
دسترسی
است. به
همین
ترتیب 5-nines بیانگر
سرویس
دهی 99.999%
است.
- Downtime -
مدت
زمان
قطعی
سیستم
در یک
سال روش
بهتری
برای
درک
قابلیت
سرویس
دهی است.
درجدول
زیر
مقادیر
سرویس
دهی و
قطعی
متناظر
با آن
مقایسه
می شود:
قابلیت
دسترسی
|
مدت
زمان
قطعی
سیستم
|
90%
(1-nine)
|
36.5
روز در
سال
|
99%
(2-nines)
|
3.65
روز در
سال
|
99.9%
(3-nines)
|
8.76
ساعت
در سال
|
99.99%
(4-nines)
|
52
دقیقه
در سال
|
99.999%
(5-nines)
|
5
دقیقه
در سال
|
99.9999%
(6-nines)
|
31
ثانیه
در سال
|