מהו דאטה סנטר Tier III?
דאטה סנטר Tier III (או בשמו הנפוץ יותר “Tier III”), הוא אחד מארבעת התקנים (Tier I–IV)
של מכון Uptime המשמשים להערכת רמת התשתיות והאמינות של דאטה סנטרים.
תקן זה מגדיר רמת יתירות ושרידות (Redundancy) מסוימת במערכות התומכות בדאטה סנטר,
כגון חשמל, קירור ותשתיות נוספות.
מאפיינים מרכזיים של Tier III
Concurrent Maintainability (תחזוקה תוך כדי פעולה)
המשמעות היא שניתן לבצע עבודות תחזוקה או החלפת רכיבים קריטיים
(כמו מערכות קירור או ספקי כוח) בלי להשבית לחלוטין את פעילות הדאטה סנטר.
התכנון ההנדסי כולל לפחות N+1 בכל אחד מהרכיבים הקריטיים,
כך שגם בעת הוצאת רכיב אחד לצורך תחזוקה, הדאטה סנטר ממשיך לעבוד כסדרו.
רמת זמינות (Availability) גבוהה
Uptime Institute מעריך את רמת הזמינות השנתית של Tier III בכ־99.982%,
מה שאומר שבאופן תיאורטי, זמן ההשבתה (Downtime) השנתי המרבי עומד
על כ־1.6 שעות בשנה.
ההגדרה כוללת גם עמידות בפני תקלות נקודתיות כך שלא תהיה השפעה על כלל הפעילות.
N+1 Redundancy
בכל אחד ממערכות התשתית המרכזיות (חשמל, מיזוג אוויר, UPS, גנרטורים וכו’)
ישנם רכיבים בנוסף לצריכת ה”בסיס” (N) – כך שאם רכיב אחד כושל או נמצא בתחזוקה,
המערכת כולה עדיין פעילה.
Multiple Distribution Paths
בתקן Tier III יש לפחות שני מסלולי הפצה (Path) לאספקת חשמל וקירור.
אחד מהם פעיל והשני מוגדר כגיבוי, או שניהם פעילים באופן חלקי.
כך מובטחת עבודה רציפה במקרה של כשל באחד המסלולים.
הבדלים ביחס ל-Tier II ו-Tier IV
Tier II מציע יתירות חלקית (למשל N+1 בחלק מהרכיבים),
אך לא בהכרח מאפשר תחזוקה בכל עת ללא השבתה.
Tier IV הוא הרמה הגבוהה ביותר, הכוללת Fault Tolerance אמיתית – כלומר,
הדאטה סנטר יכול לעמוד בכשל בו-זמני של רכיבים במספר מערכות,
וישנם לפחות שני מסלולי אספקה פעילים בו זמנית.
הקמה דאטה סנטר Tier III
הקמת דאטה סנטר Tier III יקרה משמעותית מזו של Tier II, משום שיש צורך ב-N+1 מלא
ותכנון הנדסי מורכב יותר (גם במערכות החשמל והגנרטורים, גם במיזוג אוויר ועוד).
עלות זו מצדיקה את עצמה עבור ארגונים שזקוקים לרמת זמינות ושרידות גבוהה
אך לא תמיד דורשים את הרמה המקסימלית של Tier IV.
שימוש נפוץ של דאטה סנטר Tier III
דאטה סנטרים ארגוניים גדולים, ספקי שירותי ענן (Cloud Providers) רבים,
וחוות שרתים לטובת קולוקציה (Colocation) שואפים לעמוד לפחות ב-Tier III
מכיוון שהוא מספק איזון טוב בין עלות לתועלת ורמת שירות (SLA) גבוהה.
ההתקדמות בין רמות ה-Tier (Tier I, Tier II, Tier III ו-Tier IV) מצביעה על הקשחה
והרחבה של אמצעי גיבוי ויתירות, וכך גם על שיפור ברמת האמינות והזמינות של השירותים
הניתנים במרכז הנתונים.
Tier III נחשב לפתרון נפוץ מאוד בארגונים המחפשים יחס טוב בין עלות לתועלת,
עם דגש משמעותי על זמינות ויכולת גיבוי ותחזוקה.
שאלות ותשובות בנושא Data Center Tier III
ש: מה ההבדל העיקרי ברמת הזמינות בין Tier III ל-Tier II,
ואיך הדבר בא לידי ביטוי בארכיטקטורת התשתית?
ת: Tier II מספק זמינות שנתית של כ-99.741% (כ-22 שעות השבתה בשנה) ומתבסס
על יתירות חלקית ברכיבי מפתח
(לרוב N+1 עבור מערכות קריטיות אך ללא יכולת תחזוקה מקבילית לכל המסלולים).
Tier III מספק זמינות שנתית של כ-99.982% (כ-1.6 שעות השבתה בשנה)
וכולל יכולת Concurrently Maintainable: לכל מסלול קריטי (חשמל, קירור, רשת) קיימת יתירות
של N+1 ומערך תשתית כפול לפחות (גם ברמה של הפצת החשמל ומיזוג האוויר),
כך שניתן לבצע תחזוקה או החלפת רכיבים ללא השבתה כוללת של המרכז.
ש: כיצד דרישות Redundancy מתבטאות בעיצוב רשת החשמל בדאטה סנטר Tier III?
ת: בדאטה סנטר Tier III, עיצוב רשת החשמל כולל:
שני מקורות חשמל שונים
(לרוב שני הזנות חשמל נפרדות מרשת החשמל העירונית או גנרטורים, וכן ספקי UPS נפרדים).
פאנלי חלוקה כפולים (A/B) עם מערכי UPS וגנרטורים בצד A ובצד B, כך שאם יש כשל במסלול אחד,
המעבר למסלול השני כמעט מיידי.
סיגמנטציה גיאוגרפית והפרדה פיזית בין המסלולים, מה שמונע תקלות עקב שריפה,
הצפה או נזק פיזי במסלול אחד מלפגוע במסלול השני.
ש: כיצד באה לידי ביטוי יכולת התחזוקה המקבילית (Concurrently Maintainable)
בהקשר של קירור ומיזוג אוויר בדאטה סנטר Tier III?
ת: ב-Tier III, המערכות מתוכננות באופן המאפשר תחזוקה והחלפת חלקים במערכות הקירור
ללא השבתה של פעילות השרתים.
לדוגמה:
Chillers או יחידות CRAC (Computer Room Air Conditioning) שיהיו יתירות,
כך שכאשר מוציאים אחת מהן לטיפול, שאר היחידות מפצות על העומס.
צנרות קירור כפולות עד לארונות השרתים, כך שבמקרה של עבודת תחזוקה בצנרת אחת –
השנייה ממשיכה לעבוד.
אפשרות לעבוד ‘און ליין’ על מערכות בקרת האקלים בלי להוריד אותן לגמרי מהמתח.
ש: אילו אתגרים קיימים בניהול תשתיות Data Center Tier III, וכיצד מומלץ להתמודד איתם?
ת: סנכרון בין צוותי תחזוקה לחברות ספקיות: נדרש ממשק תקשורת יעיל בין צוותי ה-IT, החשמל,
הקירור ואנשי הספקים, כדי לתאם חלונות תחזוקה ולמנוע תקלות זליגה (Spillover).
תהליכי Change Management קפדניים: לפני כל שינוי או שדרוג (במערכות חשמל, תוכנה או רשת),
יש לתכנן ולבחון את השפעתו על כל המערכת המקבילית.
מומלץ להיעזר ב-Runbook מפורט ובמערכות לניהול שינויים (ITSM) לצורך תיעוד ובקרה.
יכולת ניטור מתקדמת (Monitoring): נדרש מעקב בזמן אמת אחר כל המדדים הקריטיים
(טמפרטורות חדר, זרמי חשמל, לחות, תנועת אוויר וכד’), לצד התראות אוטומטיות וניתוח אנליטי
כדי לזהות תקלות לפני שהן קורות בפועל.
ריבוי ספקים ותלות ברשת החיצונית: תכנון של יותר ממסלול אחד של תקשורת (Carrier)
מספקים שונים מסייע למנוע השבתה במקרה של נפילת ספק או כבל תקשורת מרכזי.

