מהי PagerDuty?
PagerDuty היא פלטפורמה בענן שמטרתה לאפשר תגובה אוטומטית, מתוזמנת ומבוססת הקשר לתקלות ואירועים
בסביבות טכנולוגיות מורכבות.
PagerDuty מתממשקת עם כלים של ניטור, לוגים, DevOps ו-ITSM כדי לאחד נתונים ולהעביר את ההתראה
הנכונה לאדם או לצוות הנכון בזמן הנכון.
מטרות PagerDuty
זיהוי תקלות בצורה אוטומטית ומהירה
הכוונת ההתראה לאדם הרלוונטי לפי תורנויות והקשר
קיצור זמן פתרון תקלות (MTTR)
תיעוד תהליכי פתרון והפקת לקחים
אוטומציה של תגובות (runbooks, auto-remediation)
רכיבי PagerDuty
התראות (Alerts)
מקבלת אינפוט ממערכות ניטור כמו Datadog, Prometheus, Zabbix, New Relic ועוד –
ויוצרת התראה על בסיס חוקים מותאמים אישית.
ניהול אינסידנטים (Incident Management)
כל התראה משמעותית יכולה להפוך ל־Incident — אירוע חקירה ותגובה עם יכולות כמו:
צירוף אוטומטי של חברי צוות
תיעוד דיונים
קישורים לנתונים רלוונטיים
הפעלת תהליכים אוטומטיים
תורנויות (On-call Scheduling)
מנגנון חכם לקביעת תורנויות, גיבויים ו־escalations כדי להבטיח שלא משנה מתי התקלה מתרחשת –
מישהו יהיה זמין לטפל בה.
חוקי הסלמה (Escalation Policies)
אם אין מענה תוך זמן מוקצב, המערכת מעבירה את ההתראה הלאה לפי היררכיה או תפקיד.
אוטומציה ו-Runbooks
אפשר לשלב תהליכי טיפול אוטומטיים – לדוגמה, להריץ סקריפט ריסטארט לשירות, או לפתוח טיקט אוטומטי
ב-Jira/ServiceNow.
Postmortems ודוחות
לאחר אירוע – ניתוח מפורט, כולל ציר זמן, תקשורת שבוצעה, סיבת השורש (RCA), והמלצות לשיפור.
יכולות של PagerDuty
AI Ops – סינון רעש מהתראות, קיבוץ אוטומטי של תקלות דומות, וחיזוי עומסים עתידיים.
ממשקי API מתקדמים – לשליטה מלאה בהתראות, ניתוחים, ובניית אינטגרציות מותאמות.
תרחישי תגובה (Response Plays) – הגדרה מראש של מי מעורב, אילו כלים יפעלו, והאם יש שלבים אוטומטיים.
אינטגרציות נפוצות למערכת PagerDuty
PagerDuty מתממשקת עם מאות כלים – לדוגמה:
| תחום | כלים נפוצים |
| ניטור | Datadog, Prometheus, Nagios |
| ניהול משימות | Jira, ServiceNow, Trello |
| תקשורת | Slack, Microsoft Teams, Zoom |
| DevOps | Jenkins, GitHub, Terraform |
| תזמון ותזכורות | Google Calendar, Outlook |
יתרונות PagerDuty מערכות אחרות
| תכונה | PagerDuty | מערכות אחרות (למשל OpsGenie, VictorOps) |
| קלות אינטגרציה | גבוהה מאוד | משתנה |
| ממשק משתמש | מודרני ומגיב | לעיתים מורכב |
| יכולות AI ואוטומציה | מתקדמות | מוגבלות בחלק מהכלים |
| ניתוחים ודוחות | ברמה ארגונית מלאה | לרוב בסיסיים |
| שוק וקהילה | מגובשים מאוד (חברת ציבורית) | קטנים יותר |
שימושים של PagerDuty
חברת SaaS – תגובה אוטומטית לנפילת microservice בפרודקשן
חברת אנטרפרייז – ניהול תורנויות גלובליות עם 24/7 NOC
צוות SRE – הפעלת Playbook שמריץ בדיקות בריאות ומבצע rollback אוטומטי במקרה של תקלת פרודקשן
מגבלות מערכת PagerDuty
עלות גבוהה יחסית – במיוחד בארגונים עם צוותים רבים
נדרשת הטמעה ראשונית מושכלת – תכנון תורנויות, אינטגרציות, מדיניות הסלמה
רגישות לעומס התראות – מחייבת ניהול נכון של סף וחוקים
מסלולי התמחור של PagerDuty
| מסלול | מחיר (למשתמש לחודש) | מאפיינים עיקריים |
| Free | $0 | עד 5 משתמשים, התראות בסיסיות, אינטגרציה אחת, אין תורנויות |
| Professional | $21 | ניהול תורנויות, הסלמה, אינטגרציות מרובות, SLA מותאם |
| Business | $41 | ניהול תקריות מתקדם, Response Plays, תמיכה ב־Slack, אינטגרציות Enterprise |
| Digital Operations (Enterprise) | מותאם אישית | AI Ops, סינון רעש, אוטומציה חכמה, תיאום בין צוותים, תמיכה מותאמת אישית |
המחירים מתייחסים לרכישה שנתית. ברכישה חודשית העלות מעט גבוהה יותר.
שאלות בנושא מערכת PagerDuty
כיצד PagerDuty מממשת מנגנון הסלמה (Escalation Policies) מורכב לצוותים מרובי אזורי זמן?
PagerDuty תומכת ב־Escalation Policies עם תורנויות (On-Call Schedules) אזוריות, כך שניתן ליצור פוליסי היררכי:
משתמשים מאזור זמן A – שלב ראשון
אם אין מענה תוך X דקות – שלב שני: אזור זמן B
תמיכה מלאה בניהול זמני חופשות, החלפות ידניות ואירועים מתוזמנים.
המערכת תזהה לפי ה־schedule מי פנוי ותעביר את ההתראה בהתאם.
כיצד ניתן למנוע הצפה של התראות כפולות מאותו מקור ניטור?
באמצעות מנגנון Alert Deduplication Key, PagerDuty מזהה התראות זהות (על סמך “dedup_key”) ומאחדת אותן לאירוע קיים.
בנוסף, ניתן להפעיל Event Rules או Event Intelligence (AI Ops) שיבצעו:
קיבוץ של התראות דומות (alert clustering)
השתקת התראות לא קריטיות
ניתוח דפוסים חוזרים למניעת רעש
איך מיישמים תגובה אוטומטית (auto-remediation) באמצעות PagerDuty?
באמצעות Automation Actions או חיבור ל־Runbook Automation (ex. Rundeck), ניתן להפעיל תגובות כגון:
הרצת סקריפט Bash מרוחק
קריאת Webhook לשירות DevOps פנימי
שליחת פקודת restart ל־Kubernetes או EC2
מומלץ להחיל שליטה לפי תנאים, ולשלב בקרת גישה (RBAC) והיסטוריית הרצות.

