SHAP: הסבר, יישומים ואתגרים

מהו SHAP?

SHAP (ראשי תיבות של SHapley Additive exPlanations) הוא אלגוריתם מבוסס תיאוריה מתמטית
שמטרתו להסביר תחזיות של מודלים של למידת מכונה (Machine Learning).

SHAP הוא מבוסס על ערכי שפלי (Shapley Values) מתורת המשחקים, ומספק הסבר כמותי לתרומתה
של כל תכונה (Feature) לתחזית הסופית של המודל.

הייחוד של SHAP הוא בהסברים עקביים, פרשניים ומתמטיים שמאפשרים להבין כיצד כל פיצ’ר
השפיע על ההחלטה של המודל – גם במודלים מורכבים כמו XGBoost, LightGBM או Neural Networks.

מה הם ערכי שפלי?

ערכי שפלי מגיעים מתורת המשחקים, שם הם מתארים כיצד לחלק רווחים (או עלויות) בין שחקנים שמשתפים פעולה.

בהקשר של למידת מכונה, “השחקנים” הם הפיצ’רים של המודל, וה”שכר” הוא תחזית המודל.

לדוגמה, אם מודל חזה שהכנסה של אדם תהיה 100,000 ש”ח, ותחזית הבסיס (baseline) היא 80,000 ש”ח,
אז SHAP ינסה לפרק את ה־20,000 ש”ח העודפים כתרומות של כל אחד מהפיצ’רים – כמו גיל, השכלה, מגדר, ניסיון תעסוקתי וכו’.

יתרונות של SHAP

שקיפות – מאפשר הסבר אינטואיטיבי לתחזית של כל דוגמה בנפרד.

עקביות מתמטית – שינוי בתרומת פיצ’ר לא יוביל לסתירה בהסברים.

תאימות לכל סוגי המודלים – כולל עצים, רשתות נוירונים, מודלים ליניאריים ועוד.

ויזואליזציה עשירה – גרפים כמו force plot, summary plot, dependence plot שממחישים את ההשפעה של כל תכונה.

יישומים של SHAP

רגולציה והסברים אתיים – לדוגמה, בתחום הפיננסי יש צורך להסביר למה בקשה להלוואה נדחתה.

שיפור המודל – הבנה אילו תכונות משפיעות עשויה להוביל לשיפור פיצ’רים.

בדיקות bias והוגנות – האם תכונה כמו מגדר או גזע משפיעה באופן לא הוגן?

תחזיות רפואיות – הסבר החלטות על סמך פיצ’רים קליניים, לתמיכה באבחון.

תמיכה בהחלטות עסקיות – הסבר המלצות במערכות המלצה או ניתוח לקוחות.

הדוגמה הבסיסית: SHAP עם מודל עצים

ל־SHAP קיימת מימוש מהיר ויעיל בשם TreeExplainer, המותאם במיוחד למודלים מבוססי עצים כמו XGBoost
ו־LightGBM.
הוא משתמש באלגוריתם שמחשב ערכי שפלי בצורה מהירה יותר מהחישוב האקספוננציאלי המקורי (שהוא NP-hard).

ויזואליזציות חשובות ב-SHAP

Summary Plot – תרשים שמציג את תרומת הפיצ’רים והשפעת הערכים שלהם על התחזיות.

Dependence Plot – השפעת ערך מסוים של פיצ’ר על תרומתו למודל.

Force Plot – הסבר פרטני לדוגמה בודדת – כמה כל פיצ’ר דחף את התחזית למעלה או למטה.

אתגרים והגבלות של SHAP

עלות חישובית – חישוב ערכי שפלי אמיתי לוקח זמן רב, במיוחד למודלים מורכבים או דאטה עם הרבה פיצ’רים.

קושי בפרשנות במודלים עם פיצ’רים תלויים – SHAP מניח אי־תלות בין פיצ’רים בחישוב ערכים.

יכולת להסביר ≠ הבנה מלאה – הסבר תרומתי לא תמיד מצביע על סיבתיות.

Over-reliance – יש להיזהר מלהסיק מסקנות מרחיקות לכת רק מהשפעות SHAP בלי הקשר נוסף.

השוואה של SHAP מול שיטות אחרות להסברת מודלים

שיטה	הסבר	תומכת בכל מודל	עקבית מתמטית	הסבר לדוגמה בודדת	הסבר גלובלי
SHAP	מבוסס ערכי שפלי	כן	כן	כן	כן
LIME	לוקאלי, מבוסס מודל ליניארי	כן	לא בהכרח	כן	מוגבל
Permutation Feature Importance	מחיקת תכונה ובדיקת שינוי	כן	כן	לא	כן
Feature Coefficients (במודלים ליניאריים)	פשוט וברור	רק למודלים ליניאריים	כן	כן	כן

שאלות ותשובות בנושא SHAP

האם SHAP יכול לטפל בתכונות קורלציוניות?
SHAP מניח אי־תלות בין תכונות בזמן החישוב. קיימים מחקרים להרחיב את הגישה כך שתתחשב בתלות,
אך בגרסה הבסיסית – לא.

איך SHAP מתמודד עם תחזיות קלאסיפיקציה?
עבור מודלים של סיווג, ניתן להפעיל את SHAP על ההסתברות (לוגיסטית) או על ציון לפני סיגמואיד (log-odds).
ההחלטה תלויה בשאלה אם רוצים הסבר להחלטה הסופית או להבנה עמוקה יותר של השפעות.

האם ניתן לשלב SHAP במערכות ייצור (production)?
כן, אך חשוב להקפיד על יעילות חישובית. עבור מודלים מבוססי עצים קיימים פתרונות מהירים (TreeExplainer),
אך במקרים אחרים ייתכן שיהיה צורך ב־sampling או approximation.

האם SHAP מתאים לרשתות נוירונים עמוקות?
קיים מימוש בשם DeepExplainer שמתאים לרשתות TensorFlow או Keras, אך אינו תומך בכל סוגי
השכבות והמבנים. יש להפעילו בזהירות.