AlephBERT: מודל שפה עברי מבוסס BERT

בשנים האחרונות, מודלים מבוססי Transformer הפכו לבסיס של עיבוד שפה טבעית (NLP).

מודל BERT, שפותח על ידי Google בשנת 2018, חולל מהפכה בגישה ללמידת ייצוגים לשפה טבעית.
אך בעוד שפות כמו אנגלית, צרפתית וסינית נהנו מתמיכה של מודלים חזקים, השפה העברית,
בעלת תחביר עשיר ומורפולוגיה מורכבת – נותרה מאחור.

AlephBERT הוא ניסיון חשוב לסגור את הפער הזה: מדובר במודל Transformer המותאם לשפה העברית,
אשר מבוסס על הארכיטקטורה של BERT ומאומן על קורפוסים גדולים בעברית.

מהו AlephBERT?

AlephBERT הוא מודל שפה נבנה על בסיס BERT, אך מותאם במלואו לשפה העברית מבחינת טוקניזציה, קורפוס אימון,
ומבני שפה.

המודל פותח כחלק ממאמץ של האקדמיה והקהילה בתחום ה־NLP בישראל, והוא מבית היוצר של AI21 Labs
יחד עם חוקרים מהטכניון, אוניברסיטת תל אביב ואוניברסיטת בר-אילן.

סוגי AlephBERT

AlephBERT-base – גרסה בסיסית בהיקף דומה ל־BERT-base של גוגל.

AlephBERT-large – גרסה גדולה יותר עם מספר שכבות גדול יותר (נדיר יותר לשימוש עקב משאבים נדרשים).

מדוע צריך מודל עברי ייעודי?

למרות קיומם של מודלים רב־לשוניים כמו mBERT או XLM-RoBERTa, הם אינם מותאמים באופן אידיאלי לעברית.

בעיות עיקריות:

פחות משאבי אימון לעברית: במודלים רב-לשוניים, עברית מהווה רק חלק קטן מהקורפוס.

מורפולוגיה עשירה: השפה העברית כוללת נטיות רבות, תחיליות, סיומות, וחסרי תנועה,
כל אלו מקשים על טוקניזציה ועל הבנה סמנטית.

תחביר ייחודי: סדר מילים גמיש יחסית, שימוש נרחב בנסמך, הבדל בין זכר לנקבה ועוד.

לכן, יש יתרון מובהק למודל שהוכשר אך ורק על טקסטים בעברית.

איך מאמנים את AlephBERT?

קורפוס אימון

AlephBERT אומן על מגוון רחב של טקסטים בעברית, כולל:

ויקיפדיה העברית

חדשות מאתרים ישראליים

בלוגים

פורומים

טוויטר (עברית)

מסמכים ציבוריים ורגולטוריים

טוקניזציה עברית

השתמשו בטוקניזר ייעודי המבוסס על WordPiece אך מותאם במיוחד לעברית.
לדוגמה, מילות יחס כמו “ובבית” נשברות בצורה נבונה ל־”ו”+”ב”+”בית”.

משימות פרה-טריינינג

Masked Language Modeling (MLM) – ניבוי מילים חסרות במשפטים עבריים.

Next Sentence Prediction (NSP) – ניבוי קשרים לוגיים בין משפטים.

ביצועים והשוואה למודלים אחרים

AlephBERT הדגים ביצועים טובים יותר באופן עקבי ממודלים רב־לשוניים (mBERT, XLM-R)
במשימות עבריות כגון:

ניתוח סנטימנט

זיהוי ישויות (NER)

סיווג טקסטים

שאילתות תשובה (QA)

מבחני הביצועים נעשו על:

ה-Davush dataset – אוסף שאלות ותשובות בעברית.

הHebEMO – זיהוי רגשות בעברית.

הHebNER – זיהוי ישויות שמיות בעברית.

יישומים מעשיים של AlephBERT

הודות לדיוקו והיותו קוד פתוח, ניתן להטמיע את AlephBERT בשלל יישומים:

צ’אטבוטים בעברית

מנועי חיפוש פנימיים

פילוח סנטימנט במדיה חברתית

זיהוי תוכן פוגעני/אלים

סיווג לקוחות בהתכתבויות CRM

שירותים משפטיים/בנקאיים לזיהוי מסמכים ונתונים בעברית

זמינות AlephBERT

AlephBERT זמין להורדה ושימוש בקוד פתוח דרך HuggingFace:
https://huggingface.co/avichr/alephbert-base

ניתן להטמיע את המודל באמצעות ספריית Transformers של HuggingFace, לדוגמה:

python

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained(“avichr/alephbert-base”)

model = AutoModel.from_pretrained(“avichr/alephbert-base”)

inputs = tokenizer(“שלום עולם!”, return_tensors=”pt”)

outputs = model(**inputs)

יישום AlephBERT

יישום AlephBERT במערכות מידע ארגוניות מאפשר שיפור דרמטי באוטומציה של תהליכים בשפה העברית,
כגון מענה אוטומטי לפניות, ניתוח מסמכים משפטיים, סיווג מסמכים רפואיים, ניתוח רגשות בתקשורת לקוחות.

חברת קורל טכנולוגיות מיישמת את AlephBERT כחלק ממערך פתרונות NLP מתקדמים לפלטפורמות CRM,
מערכות שירות, דשבורדים אנליטיים ומערכות בינה עסקית, תוך התאמה ייעודית לצרכים של המגזר הציבורי,
הרפואי והפיננסי בישראל.

היישום כולל אינטגרציה למאגרי מידע קיימים, הדרכה לצוותים, ואופטימיזציה לביצועים גבוהים בענן או בשרתים מקומיים
בהתאם לדרישות האבטחה והפרטיות של הלקוח.