מהי יתירות דאטה סנטר?
יתירות דאטה סנטר (באנגלית: Data Center Redundancy) היא תפיסה הנדסית וניהולית
שמטרתה להבטיח המשכיות של שירותים ותשתיות במרכזי נתונים (Data Centers),
גם במצבי כשל או עומס בלתי צפוי.
יתירות מושגת באמצעות שכפול (או הכפלה) של רכיבים קריטיים וחלוקת עומסים
בין כמה מערכות מקבילות, כך שגם אם רכיב או תת-מערכת אחת מפסיקה לפעול,
המערכת הכוללת תוכל להמשיך לספק שירות ללא השבתה או עם השבתה מינימלית.
הגורמים העיקריים ליתירות במרכזי נתונים
יתירות חשמלית:
שימוש במספר מקורות חשמל (לדוגמה רשת החשמל הראשית וגיבוי של גנרטורים או ספקי כוח אל-פסק: UPS),
תשתית חלוקת חשמל מופרדת, ומפצלי זרם נפרדים.
יתירות תקשורתית:
חיבורי אינטרנט מרובים מספקי תקשורת שונים, תשתיות רשת עצמאיות ומשתנּות,
ונתיבים פיזיים מגוונים לכבלים.
יתירות קירור:
יחידות מיזוג אוויר נוספות, מערכות קירור כפולות ונתיבי אוורור חלופיים
להבטחת סביבת עבודה תקינה לשרתים.
יתירות שרתים ומערכי אחסון:
פריסה של מספר שרתים או מערכי אחסון (Storage Arrays) המספקים שירות זהה,
כך שכשל של שרת אחד לא יפיל את השירות כולו.
יתירות לוגית:
מערכות תוכנה וירטואליות, מערכות אוטומציה לביצוע גיבוי בזמן אמת (Replication),
מערכי התאוששות מאסון (Disaster Recovery) ועוד.
ככל שרמת היתירות גבוהה יותר, כך יורד הסיכון להשבתה מלאה (Downtime)
והארגון יכול להבטיח זמינות גבוהה של שירותיו (High Availability).
יצירת יתירות גבוהה מגיעה עם עלויות נוספות ברכישת ציוד,
בפעילות השוטפת של מערכות כפולות ובהיבטי תכנון ותחזוקה.
ארגונים נוהגים לאזן בין עלויות הקמה ותחזוקה לבין רמת הזמינות הרצויה
עבור השירותים והלקוחות.
שאלות ותשובות בנושא יתירות דאטה סנטר
ש: מה ההבדל בין שרידות (Resiliency) לבין זמינות (Availability) בהקשר של מרכזי נתונים,
וכיצד יתירות משתלבת בהבדל זה?
ת: זמינות (Availability) מתייחסת לאחוז הזמן שבו שירות או מערכת פועלים באופן תקין
(למשל 99.999% זמינות). היא משקפת את “משך החיים” ללא השבתה משמעותית.
שרידות (Resiliency) מייצגת את היכולת של מערכת להתאושש ממצבי כשל במהירות
ולחזור לפעילות שוטפת.
יתירות היא מנגנון מרכזי להשגת זמינות ושרידות בו זמנית, העתקה של רכיבי מערכת
(כמו שרתים, מערכי אחסון, חיבורי תקשורת, ועוד) מאפשרת גם זמינות גבוהה יותר
(כי פחות כשל יחיד גורם להשבתה) וגם שרידות משופרת
(כי במקרה כשל, המערכת ‘קמה’ במהירות על גבי תשתית מגובה).
ש: כיצד מיישמים ניטור (Monitoring) מתקדם בזמן אמת כדי להבטיח שטופולוגיית
היתירות בדאטה סנטר פועלת כמצופה?
ת: איסוף נתונים רב-שכבתי:
נדרש לאסוף מדדי ביצועים מכל שכבות המערכת: תשתיות חשמל וקירור, רשת תקשורת, שרתים,
רמות וירטואליזציה, מערכי אחסון, ועוד.
שימוש בכלי AIOps:
כלים מבוססי Machine Learning ו-AI מזהים אנומליות בדפוסי עבודה ומתריעים בזמן אמת
על חריגות אפשריות (כגון עלייה חריגה בצריכת חשמל או תגובה מאוחרת מאחד הצמתים).
פריסה גאוגרפית מגוונת של שרתי ניטור:
על מנת לנטר מרכז נתונים מבוזר או מרובה אזורים (Regions),
מומלץ לשלב שרתי ניטור במספר מיקומים ולתאם ביניהם באמצעות שירות בקרה מרכזי.
תהליכי Alert & Escalation מוגדרים היטב:
במידה ומתגלה תקלה, נדרש מנגנון ברמת הארגון שמופעל אוטומטית (Alert),
וכאשר לא נפתרת: גיבוי ידני של צוות מתאים (Escalation).
ש: באילו מצבים מומלץ ליישם Replication בזמן-אמת (Real-time Replication)
על פני גיבוי (Backup) קלאסי, וכיצד זה תורם ליתירות?
ת: Replication בזמן אמת מומלץ כאשר נדרשת זמינות מיידית של המידע,
ללא השבתה או אובדן נתונים בין נקודות הזמן.
למשל, בארגונים פיננסיים או בתחום הבריאות, כל איבוד מידע,
אפילו לשניות ספורות עלול לגרום לנזק כבד.
גיבוי קלאסי (רובד Snapshots, גיבוי לקלטות או לענן) מתאים יותר לשחזור מדורות אחורה,
כאשר יש צורך לשחזר גרסה קודמת של נתונים או לשמור היסטוריה ארוכת טווח.
תרומה ליתירות: Replication מגדיל את זמינות המידע ע”י החזקת עותק חי (Live)
של המידע באתרים שונים.
במקרה של כשל מוחלט באתר הראשי, ניתן להפעיל את עותק הגיבוי מיידית (Failover),
עם זמן התאוששות (RTO) וזמן אובדן נתונים (RPO) מינימליים.
ש: כיצד ארכיטקטורות Multi-Region של ספקי ענן ציבורי (למשל AWS או Azure)
משפיעות על תכנון ותפעול יתירות במרכז הנתונים הארגוני?
ת: הרחבת טווח הגאוגרפי:
Multi-Region מאפשר פיזור של משאבים במספר מיקומים גאוגרפיים המרוחקים זה מזה.
במקרה אסון (למשל אסון טבע, הפסקת חשמל נרחבת או כשל משמעותי במתקן אחד),
ניתן לעבור לאזור אחר עם מינימום פגיעה.
Hybrid Architecture:
ארגונים רבים מחזיקים דאטה סנטר פנימי (On-Premise) במקביל לשימוש בענן ציבורי.
יתירות מוצלחת תשען על תצורת Hybrid,
כך שהמשאבים בענן יוכלו לשמש כאתר DR או כאתר העמסה במצבי Peak.
שימוש בשירותי ענן מנוהלים:
ספקי הענן מציעים שירותי רפליקציה, אחסון מבוזר ובקרה בזמן אמת עם SLA גבוה.
שילוב של השירותים הללו מוריד עומס תפעולי מהצוות הארגוני ומאפשר למנף יכולות
יתירות מתקדמות במהירות יחסית.
Latency וקבלת החלטות:
במערך Multi-Region יש להשקיע בתכנון של Latency וגאוגרפיה,
כדי לוודא שמיקום מרכז הנתונים אינו גורם לעיכובים (Latency) בלתי סבירים למשתמשי הקצה.

