מה זה זיהוי ישויות?
NER או Named-entity recognition כלומר, זיהוי ישויות היא תת-מטלה (subtask) של מיצוי מידע הכוללת זיהוי וסיווג
של ישויות בשם בטקסט לקטגוריות מוגדרות מראש כגון שמות של אנשים, ארגונים, מיקומים, ביטויי זמנים, כמויות, ערכים כספיים, אחוזים וכו’.
זיהוי ישויות מסייע למיין ולארגן נתונים על ידי חילוץ מידע שימושי מטקסט גולמי, מה שמקל על מכונות להבין, לעבד ולסווג אותם.
NER נפוץ ביישומים שונים של עיבוד שפה טבעית (NLP), לרבות מנועי חיפוש, מערכות המלצות תוכן,
סיכום תוכן, מערכות תמיכת לקוחות ועוד.
זיהוי ישויות הוא מרכיב חשוב במערכות הדורשות הבנה ופרשנות של השפה האנושית, ועוזר להמיר טקסט לא מובנה
לנתונים מובנים שניתן לנתח בקלות רבה יותר.
יישומים של זיהוי ישויות
לזיהוי ישויות (NER) יש מגוון רחב של יישומים בתחומים שונים. להלן כמה מהשימושים הנפוצים:
אחזור מידע: NER יכול לשפר את אלגוריתמי החיפוש על ידי הבחנה בין ישויות בשאילתות חיפוש, ולעזור לספק
תוצאות חיפוש מדויקות יותר.
לדוגמה, הבחנה בין “פריז הילטון” (האדם) ל”מלון בפריז” יכולה לשפר את הרלוונטיות של תוצאות החיפוש.
המלצת תוכן: על ידי הבנת הישויות המוזכרות במאמרים, סרטונים או תוכן אחר, מערכות המלצות יכולות להתאים טוב יותר
את הפריטים הללו לתחומי העניין של המשתמש.
לדוגמה, אם משתמש קורא מאמרים רבים על “נאס”א”, הם עשויים להיות מאמרים מומלצים על ארגוני חלל קשורים או אסטרונאוטים.
אוטומציה של תמיכה בלקוחות: NER יכולה לסייע בחילוץ ישויות רלוונטיות כגון שמות מוצרים, מיקומים ופרטים נוספים
מתוך פניות לקוחות כדי להפוך את הניתוב של כרטיסי התמיכה והתגובות לאוטומטיות ולשפר אותן.
ניתוח סנטימנט: חברות משתמשות ב-NER בניתוח סנטימנטים כדי לזהות שמות מוצרים או היבטי שירות שהוזכרו
בביקורות ובמדיה החברתית.
זה עוזר בניתוח רגשות הציבור לגבי היבטים ספציפיים של עסק.
שירותי בריאות: בטקסטים רפואיים, NER יכול לזהות שמות, תסמינים ונהלים של תרופות, שניתן להשתמש בהם כדי להפוך
את האבחון של המטופלים לאוטומטי, הצעות טיפול ומחקר רפואי.
ניטור פיננסי: NER משמש בתעשייה הפיננסית למעקב אחר אזכורים של חברות, סמלי מניות ואינדיקטורים פיננסיים
בחדשות ובדוחות, מה שמסייע בניתוח שוק וניהול סיכונים.
ניתוח מסמכים משפטיים: NER יכול לחלץ ישויות רלוונטיות כגון שמות אנשים, מיקומים, תאריכים והפניות משפטיות
מכמויות גדולות של מסמכים משפטיים, תוך סיוע במחקר משפטי והכנת תיקים.
מחקר אקדמי: חוקרים משתמשים ב-NER כדי לחלץ מידע רלוונטי ממערכי נתונים גדולים של מאמרים אקדמיים,
כגון שמות חוקרים, מוסדות ונושאים מרכזיים, מה שמאפשר סקירות ספרות ומטא-אנליזות.
תרגום ולוקליזציה של שפה: NER מסייע בזיהוי שמות עצם בטקסט שאולי אינם דורשים תרגום בעת המרת טקסט
משפה אחת לאחרת, או שעשויים להזדקק להתייחסות מיוחדת בתהליכי לוקליזציה.
מחקר היסטורי: NER יכול לסייע להיסטוריונים בחילוץ שמות, תאריכים ומקומות ספציפיים מטקסטים היסטוריים,
בהם ניתן להשתמש כדי לארגן ולשלב ארכיונים גדולים של מסמכים היסטוריים.
טכנולוגיות זיהוי ישויות
טכנולוגיות זיהוי ישויות (NER) משתמשות בשיטות וכלים שונים, החל ממערכות מסורתיות מבוססות כללים
וכלה במודלים מתקדמים של למידת מכונה ולמידה עמוקה.
להלן פירוט של כמה מהטכנולוגיות המרכזיות המשמשות ב-NER:
מערכות מבוססות כללים
מערכות אלו משתמשות בכללים בעבודת יד כדי לזהות ישויות על סמך דפוסים בטקסט.
כללים עשויים לכלול דפוסים דקדוקיים, רשימות מילות מפתח או רמזים הקשריים.
הם שימושיים במיוחד כאשר עוסקים בטקסטים מובנים או מובנים למחצה שבהם הישויות עוקבות אחר דפוסים צפויים.
למידת מכונה סטטיסטית
שדות אקראיים מותנים (CRF): בחירה פופולרית עבור זיהוי ישויות, CRF הן מסגרות הסתברותיות המדגימות את ההקשר
של כל מילה כדי לחזות את סוג הישות שלה.
הם טובים במיוחד בללכוד את התלות בין תוויות ברצפים, מה שהופך אותם ליעילים עבור משימות כמו NER.
מכונות וקטוריות (SVM) ומודלים מוסתרים של מרקוב (HMM): טכנולוגיות קודמות ששימשו עבור NER,
מודלים אלה יכולים להיות יעילים, במיוחד בתרחישים פשוטים יותר עם תכונות מוגדרות היטב.
מודלים של למידה עמוקה
רשתות עצביות חוזרות (RNN): אלה מתאימות במיוחד למשימות דוגמנות רצף כמו NER מכיוון שהן יכולות לטפל
בנתונים שבהם ההקשר והסדר חשובים.
רשתות זיכרון לטווח קצר (LSTM): סוג מסוים של RNN, LSTMs יעילים בלכידת תלות ארוכת טווח בנתוני טקסט,
דבר חיוני לזיהוי מדויק של ישויות.
LSTM דו-כיווני (BiLSTM): על ידי עיבוד הטקסט בכיוונים קדימה וגם לאחור, BiLSTM לוכדים הקשר משני הצדדים של מילה,
ומשפרים את הדיוק של זיהוי הישות.
מודלים מבוססי טרנספורמרים: מודלים כמו BERT (ייצוגי קודן דו-כיווני של טרנספורמרים), RoBERTa,
GPT ואחרים קבעו סטנדרטים חדשים ב-NER.
מודלים אלה משתמשים במנגנוני קשב כדי להתמקד בכל חלקי רצף הקלט בו זמנית, מה שעוזר להם ללכוד הקשר עשיר יותר.
למידת העברה
ההתקדמות האחרונה ב-NLP כוללת מודלים מאומנים מראש שניתן לכוונן למשימות ספציפיות כמו NER.
מודלים אלה מאומנים בתחילה על כמויות גדולות של נתונים כלליים ולאחר מכן מותאמים ל-NER, מה שמפחית את הצורך בנתונים
נרחבים המסומנים ל-NER ספציפיים.
למידה פעילה
זוהי גישה חצי מפוקחת שבה המודל מאומן תחילה עם כמות קטנה של נתונים מסומנים.
לאחר מכן, המודל מזהה את הדגימות האינפורמטיביות ביותר בנתונים הלא מסומנים להערה אנושית.
תהליך איטרטיבי זה נמשך עד שביצועי המודל מגיעים לרמה מקובלת.
שיטות אנסמבל
שילוב תחזיות ממספר דגמים יכול לשפר את ביצועי NER. גישה זו ממנפת את החוזקות של דגמים שונים כדי להשיג דיוק
וחוסן טובים יותר מכל דגם בודד בלבד.