מה זה MLM?
MLM או Masked Language Modeling היא טכניקה המשמשת בעיבוד שפה טבעית (NLP) כדי לעזור למודלים
להבין וליצור שפה אנושית.
MLM הוא מרכזי בהכשרת מודלי שפה כמו BERT וארכיטקטורות אחרות מבוססות טרנספורמרים.
כך עובד MLM:
מיסוך: אחוז מסוים מאסימוני הקלט (מילים או מילות משנה) מוחלפים באופן אקראי בטוקן מיוחד הנקרא טוקן מסכה.
לדוגמה, במשפט “אני אוהב לאכול תפוחים”, המילה “לאכול” עשויה להיות מוחלפת באסימון מסכה,
וכתוצאה מכך “אני אוהב [mask] תפוחים”.
חיזוי הקשר: לאחר מכן המודל מנסה לחזות את האסימונים המקוריים שהוסוו, תוך שימוש בהקשר שמספקות המילים האחרות,
חסרות המסכה, במשפט.
זה מחייב את המודל להבין את מבנה המשפט ואת היחסים בין מילים לעומק.
אימון: במהלך האימון משווים את התחזיות של המודל למילים המקוריות בפועל, והמודל מותאם לשיפור התחזיות שלו.
תהליך זה כולל לימוד ההסתברויות של מילים ספציפיות להתרחש בהקשר של אחרים.
MLM יעיל מכיוון שהוא מאלץ את המודל לפתח הבנה חזקה של הקשר שפה וסמנטיקה, שכן עליו לבצע תחזיות על סמך מידע חלקי.
בנוסף, מכיוון ש-MLM משתמש בהקשר דו-כיווני (הסתכלות על מילים לפני ואחרי אסימון המסוכת, בניגוד למודלים מסורתיים
משמאל לימין או מימין לשמאל), זה עוזר בפיתוח ייצוג יסודי יותר של הבנת השפה.
סוגי MLM
MLM מתפרס על פני יישומים שונים בעיבוד שפה טבעית (NLP).
להלן כמה מהדרכים העיקריות שבהן נעשה שימוש ב-MLM:
מודלי שפה לא מאומנים: MLM משמש בדרך כלל לאימון מקדים של מודלים של שפות גדולות לפני שהם
מכוונים למשימות ספציפיות.
אימון מקדים זה עוזר למודלים להבין את הקשר השפה והסמנטיקה בצורה רחבה, אשר ניתן לשכלל עבור יישומים
ספציפיים באמצעות הכשרה נוספת.
ניתוח סמנטי: מכיוון שמודלים מאומנים ב-MLM טובים בהבנת ההקשר של מילים במשפטים, הם יעילים ביותר במשימות
הדורשות הבנה סמנטית כמו ניתוח סנטימנטים, זיהוי כוונות ועוד.
השלמת ויצירת טקסט: MLM יכול לעזור במשימות שבהן יש ליצור או להשלים חלקים מהטקסט, כגון בכלי השלמה אוטומטית,
עוזרי ניסוח דואר אלקטרוני וכלי כתיבה יצירתיים.
תרגום ולוקליזציה: על ידי הבנת ההקשר שבו מופיעות מילים, מודלים של MLM יכולים לשפר שירותי תרגום מכונה
ומאמצי לוקליזציה, לספק תרגומים מדויקים יותר ומתאימים יותר מבחינה הקשרית.
חילוץ מידע: MLM מסייע בחילוץ מידע מטקסט לא מובנה על ידי הבנה ופרשנות של ההקשר שבו מופיעות ישויות
(כמו שמות, מיקומים ותאריכים), שהוא חיוני למשימות כמו סיכום מסמכים ואחזור נתונים.
מענה לשאלות וצ’טבוטים: ניתן להשתמש במודלים אלו לפיתוח צ’טבוטים ועוזרים וירטואליים רספונסיביים ומדויקים יותר,
כמו גם מערכות שיכולות לענות על שאלות על סמך הבנה הקשרית של התוכן.
מערכת MLM
להלן כמה מודלים ומערכות שפה המשתמשים ב-MLM כחלק מהאימונים שלהם, בדרך כלל לפני האימון:
BERT (ייצוגי קודן דו-כיווני מרובוטריקים): פותח על ידי גוגל, BERT היה אחד המודלים הראשונים שהשתמשו
ב-MLM לאימון.
BERT מסווה אחוז מאסימוני הקלט באופן אקראי ואז מנבא את המילים המסוכות על סמך ההקשר שמספקות המילים האחרות.
RoBERTa (גישה אופטימלית לקדם אימון BERT): מודל זה, שפותח על ידי Facebook AI, משנה את תהליך ההכשרה המוקדמת
של BERT על ידי אימון על נתונים נוספים, עם מיני אצוות גדולות יותר וקצבי למידה, והסרת יעד חיזוי המשפט הבא,
תוך התמקדות אך ורק ב MLM.
DistilBERT: גרסה קטנה יותר, מהירה יותר, זולה וקלה יותר של BERT.
DistilBERT מאומן על ידי זיקוק הידע של BERT למודל קטן יותר תוך שמירה על רוב כוח הניבוי שלו, והיא גם משתמשת ב-MLM.
ALBERT (A Lite BERT): מודל זה מייעל את BERT בצורה נרחבת יותר, עם טכניקות הפחתת פרמטרים להגברת מהירות האימון
וצריכת זיכרון נמוכה יותר, תוך שימוש גם ב-MLM.
XLNet: למרות שמשתמשים בעיקר באימון מבוסס תמורה, שהיא צורה כללית של מודלים של שפה הכוללת MLM כמקרה מיוחד,
XLNet משלבת את המיטב של מודלים אוטומטיים של שפות ושל קידוד אוטומטי ביחד.
ERNIE (ייצוג משופר באמצעות שילוב ידע): פותח על ידי Baidu, מודל זה מרחיב את BERT על ידי שילוב גרפי ידע בהכשרה מוקדמת,
תוך שימוש ב-MLM לשיפור ההבנה הסמנטית.
SpanBERT: שיפור של BERT שמרחיב את הרעיון של MLM למסוך טווחים אקראיים רציפים של אסימונים במקום אסימונים אקראיים,
מה שמשפר את הבנת המודל לגבי תלות ארוכת טווח.
מחפש יישום MLM? פנה עכשיו!