קצת הוזים, לא נורא

OpenAI השיקה באמצע אפריל 2025 שני מודלים חדשים, את o3 ו-o4-mini וקצת קודם לכן היא הכריזה על ChatGPT4.1.

זו הזדמנות טובה לומר שכל החברות האלו, בלי יוצא מהכלל, מחורבנות במתן שמות שזה לא לתאר, אבל נשים את זה לרגע בצד.

עד עכשיו OpenAI פרסמה בצמוד להשקת המודלים החדשים שלה מסמך שנקרא System Card שמתאר את הבעיות שנמצאו בהם. המסמך (קובץ PDF) שמתאר את הבעיות שנמצאו במודלים o3 ו-o4 mini קובע שהמודלים האלו הוזים יותר ממודלים קודמים, כלומר הם מנפיצים הנפצות, כותבים בולשיט ומנסחים שטויות בשכיחות גבוהה יותר. כמה גבוהה יותר?

OpenAI משתמשת במבחן פנימי שנקרא PersonQA כדי לענות על השאלה הזו ובמבחן הזה נמצא שהמודלים o1 ו-o3-mini מספקים תשובות שיש בהן הזיות ב-15 עד 16 אחוזים מהשאלות שהם נשאלים. o3 לעומת זאת סיפק תשובות שיש בהן הזיות ב-33% מהשאלות שהוא נשאל. o4-mini סיפק תשובות הזויות ב-48% מהשאלות. למה זה קורה? הו, זו שאלה ממש מצוינת שלחוקרים של OpenAI אין עליה תשובה. יש להם השערות, יש להם רעיונות, אבל אין להם תשובה ברורה.

הנתונים האלו מבלבלים אותי. מצד אחד מסבירים לנו עד כמה המודלים החדשים הרבה יותר מוצלחים מהמודלים הקודמים ומצד שני איך כל ההצלחה הזו עוזרת אם הם מספקים תשובות שיש בהן שגיאות והזיות בכמעט מחצית מהשאלות שהם נשאלים?

מה בנוגע ל-ChatGPT4.1? ובכן פה התשובה יותר פשוטה: OpenAI לא פרסמו את המסמך שבו הם מפרטים את הבעיות של המודל הזה. נפתרה הבעיה.

קצת הוזים, לא נורא

תגובות

כתיבת תגובה לבטל