מחרטט בביטחון מוחלט: זו הסיבה שChatGPT משקר לנו

צוות מהטכניון, אפל וגוגל גילה שמודלי שפה מזהים מראש את טעויותיהם, אך ממשיכים להשמיע תשובות שגויות בביטחון מוחלט

מחרטט בביטחון מוחלט: זו הסיבה שChatGPT משקר לנו
אילוסטרציה צילום: freepik

מחקר חדש של חוקרים מהטכניון, אפל וגוגל חושף כי מודלי בינה מלאכותית יודעים לזהות מתי הם טועים אך בוחרים שלא לתקן את עצמם. 

בynet דווח כי המחקר, שנערך בפקולטה למדעי המחשב ע"ש טאוב והוצג בכנס ICLR 2025, מגלה כי כבר בשלב החישוב הפנימי מקודד מידע ברור על נכונות התשובה, אף שהמודלים ממשיכים להציג תשובות שגויות בביטחון מלא.

לדברי הדס אורגד, חוקרת במעבדה לאינטרפרטביליות בטכניון, ניתן ללמד מודל קטן לזהות מראש אם המודל הגדול עומד לטעות. לדבריה, הסיבה לכך שמודלים לא מתקנים את עצמם נובעת מתהליך האימון שלהם שנועד לנבא ניסוחים שנראים משכנעים לבני אדם, ולא בהכרח אמיתיים מבחינה עובדתית.

בנוסף הצליחו החוקרים למפות סוגי טעויות שונות, מהטעיות מקריות ועד טעויות עקביות שבהן המודל בטוח בתשובה הלא נכונה. 

הממצאים חושפים את הפער שבין הידע הפנימי של ה-AI לבין ההתנהגות שלו כלפי חוץ, ומדגישים את הצורך במנגנוני בקרה שיאפשרו בעתיד לזהות ולתקן טעויות בזמן אמת.

ChatGPT

 צבע אדום

art