הנה רשימה מקיפה הכוללת 25 מודלי LLM הידועים בגודלם, בתחכום ובתרומות החדשניות שלהם לתחום AI ועיבוד שפה טבעית:
GPT-4 (OpenAI) – המוכר והאהוב. מודל טרנספורמר מחולל מראש מתקדם ביותר הידוע ביכולותיו הרחבות בהבנת ויצירת שפה.
BERT (גוגל) – מודל פורץ דרך המשתמש באימון דו-כיווני של טרנספורמרים כדי לשפר את הבנת ההקשר של השפה.
T5 (גוגל) – “טרנספורמר העברת טקסט לטקסט” שממסגר מחדש את כל משימות ה-NLP לפורמט טקסט לטקסט מאוחד.
RobERTa (פייסבוק) – גרסה אופטימלית של BERT המשפרת את מתודולוגיית האימון, הנתונים וכוח המחשוב.
Megatron-Turing NLG (NVIDIA ו-Microsoft) – מודל טרנספורמר מאסיבי המיועד ליצירת שפה טבעית, בקנה מידה של מיליארדי פרמטרים.
Jurassic-1 (AI21 Labs) – מודל שפה גדול (LLM) שנועד ליצור טקסט באיכות גבוהה ולבצע מגוון משימות NLP.
GPT-3 (OpenAI) – קודמו ל-GPT-4, הידוע בקנה המידה וביכולותיו פורצי הדרך.
XLNet (Google/CMU) – שיטת אימון קדם אוטורגרסיבית כללית הלוכדת הקשרים דו-כיווניים על ידי שימוש בגישת אימון מבוססת תמורה.
ERNIE (Baidu) – ייצוג משופר באמצעות שילוב ידע, המשלב ידע מילוני, תחבירי וסמנטי בהכשרה מוקדמת.
DeBERTa (מיקרוסופט) – משפר את דגמי BERT ו-RoBERTa באמצעות disentangled attention ו-enhanced mask decoder.
מודלים של MoE (Various) – מודלים של מומחים מנצלים מוגבלת של מומחים כדי להרחיב את גודלם לטריליוני פרמטרים.
BLOOM (Hugging Face) – מודל שפה רב לשוני בגישה פתוחה המתמקד בשיקולים אתיים וכיסוי שפה רחב של חברת Hugging Face.
OPT (Meta) – Transformer Open Pre-trained, דגם ניתן להרחבה אשר מאומן תוך מחשבה על שקיפות ויעילות.
CLIP (OpenAI) – משלב משימות חזון ושפה להבנה ויצירת טקסט הקשור לתמונות.
PaLM (גוגל) – Pathways Language Model המדגיש קנה מידה ויעילות בעיבוד.
BigBird (גוגל) – הרחבה של טרנספורמרים שיכולה להתמודד עם רצפים ארוכים יותר עם מנגנון הקשב הדליל שלו.
AlBERT (גוגל) – גרסת לייט של BERT המשיגה ביצועים מעולים עם פחות פרמטרים.
DALL-E (OpenAI) – מודל שיוצר תמונות מתיאורים טקסטואליים, המציג את השילוב של NLP ויצירת תמונות.
ELECTRA (גוגל) – משתמש במטלת אימון מקדימה יעילה יותר לדוגמא המחליפה את מודל השפה המשמש ב-BERT.
mT5 (גוגל) – גרסה רב לשונית של T5 שנועדה לטפל וליצור טקסט במספר שפות.
BART (פייסבוק) – משלב טרנספורמרים דו-כיווניים ואוטו-רגרסיבים לשיפור הביצועים במשימות יצירת טקסט.
GShard (Google) – מיישם מקביליות של מודלים כדי לאמן מודלים גדולים ביעילות על פני מספר רב של GPU.
Switch Transformer (Google) – וריאציה של MoE המתמקדת בהגדלת גודל המודל ומהירות האימון.
Gopher (DeepMind) – מודל מבוסס טרנספורמרים בקנה מידה גדול המפגין ביצועים חזקים במגוון רחב של משימות.