הטיה אנטי-יהודית וישראלית התגלתה במודלי בינה מלאכותית

הטיה אנטי-יהודית ואנטי-ישראלית התגלתה במודלי בינה מלאכותית מובילים, כך עולה מדוח חדש של הליגה נגד השמצה. שפרסמה היום את ההערכה המקיפה ביותר עד כה בנוגע להטיה אנטי-יהודית ואנטי-ישראלית במודלים גדולים של שפה (LLMs), בהם GPT (של OpenAI), Claude (של Anthropic), Gemini (של גוגל) ו-Llama (של Meta)

הטיה אנטי-יהודית וישראלית התגלתה במודלי בינה מלאכותית
בינה מלאכותית צילום: freepik/ צילום מסך

המרכז לטכנולוגיה וחברה (CTS) של הליגה נגד השמצה, בשיתוף עם המכון להערכה ומדידה של הארגון (RAI), בחן את התגובות של ארבעת מודלי הבינה המלאכותית המובילים, וזיהה דפוסים מדאיגים של הטיה, הפצת מידע שגוי והתייחסות סלקטיבית לנושאים הקשורים לעם היהודי, לישראל ולסטריאוטיפים אנטישמיים בכל אחד מארבעת המודלים הללו.

"הבינה המלאכותית משנה את הדרך שבה אנשים צורכים מידע, אך כפי שמראה המחקר הזה מודלים של בינה מלאכותית אינם חסינים מפני דעות קדומות המושרשות בחברה" אמר ג'ונתן גרינבלט, המנכ"ל העולמי של הליגה נגד השמצה. "כאשר מודלים כאלה מגבירים הפצת מידע שגוי או מסרבים להכיר באמיתות מסוימות, הם עלולים לעוות את השיח הציבורי ולתרום לאנטישמיות.  הדו"ח הזה הוא קריאת השכמה למפתחי AI – לקחת אחריות על המוצרים שלהם וליישם אמצעי הגנה חזקים יותר נגד הטיה".

ממצאים עיקריים מהדו"ח:

כל ארבעת מודלי השפה שנבחנו הציגו הטיה אנטי-יהודית ואנטי-ישראלית מדידה, אם כי מידת ההטיה ואופייה השתנו בין המודלים.

מודל Llama של חברת Meta הפגין את ההטיות האנטי-יהודיות והאנטי-ישראליות הבולטות ביותר, והשיב באופן לא אמין ולעתים אף שגוי לחלוטין לשאלות בנושאים הקשורים לעם היהודי ולישראל. כמודל הקוד הפתוח היחיד בקבוצת הבדיקה, Llama דורג כנמוך ביותר הן מבחינת מניעת הטיה והן מבחינת אמינות. בנוסף, זהו המודל היחיד שבו הציון הנמוך ביותר ניתן בתגובה לשאלה על תפקיד היהודים בתאוריית הקונספירציה של "ההחלפה הגדולה".

המודלים GPT ו-Claude הפגינו הטיה אנטי-ישראלית משמעותית, במיוחד בתשובות שנגעו למלחמה בין ישראל לחמאס, שם התקשו להציג תגובות עקביות ומבוססות עובדות.

מודלי השפה סירבו להשיב לשאלות על ישראל בתדירות גבוהה יותר מאשר לשאלות בנושאים אחרים, דבר המעיד על חוסר עקביות מדאיג באופן שבו מודלים אלו מתמודדים עם סוגיות פוליטיות והיסטוריות.

המודלים הפגינו חוסר יכולת מדאיג לדחות באופן מדויק תיאוריות קונספירציה ודימויים אנטישמיים, מה שממחיש את האתגר המתמשך במניעת הפצת מידע שגוי באמצעות בינה מלאכותית.

"מודלי שפה כבר משולבים בכיתות הלימוד, במקומות העבודה ובתהליכי קבלת החלטות בנוגע לניטור תכנים ברשתות החברתיות. עם זאת, הממצאים שלנו מראים שהם אינם מאומנים דיים במניעת הפצה של אנטישמיות ומידע כוזב נגד ישראל״, אמר דניאל קלי, המנהל הזמני של המרכז לטכנולוגיה וחברה של הליגה נגד השמצה. "על חברות הבינה המלאכותית לנקוט צעדים יזומים כדי לטפל בליקויים האלה – החל משיפור מערכי ההדרכה שלהן וכלה בדיוק מדיניות ניטור התכנים. אנו מחויבים לשתף פעולה עם מובילי התעשייה, כדי להבטיח שהמערכות הללו לא יהפכו לכלי הפצה של שנאה ומידע שגוי".

ככל שהבינה המלאכותית ממשיכה לעצב את השיח הציבורי, תפקידה בהפצת הטיות — בין אם במכוון ובין שלא במכוון — טומן בחובו השלכות מרחיקות לכת. מאחר שמערכות אלו משולבות יותר ויותר בחינוך, במקומות העבודה ובתקשורת הציבורית, חיוני להבטיח שלא יחזקו סטריאוטיפים פוגעניים או מידע שגוי. הדו"ח מציע שורת המלצות לטיפול בממצאים הללו.

המלצות למפתחים:

לערוך בדיקות קפדניות לפני השקת המודל, בשיתוף עם האקדמיה, ארגוני חברה אזרחית וממשלות. לבחון היטב את מידת התועלת, האמינות וההטיות האפשריות של נתוני ההכשרה. לפעול בהתאם למסגרת ניהול הסיכונים (RMF) לבינה מלאכותית של NIST.

המלצות לממשלות:

לוודא כי המאמצים לעידוד פיתוח את הבינה המלאכותית כוללים גם התמקדות מובנית בהבטחת בטיחות התכנים והשימושים.  

לקדם מסגרת רגולטורית שתחייב את מפתחי הבינה המלאכותית לפעול בהתאם לנורמות המומלצות לאמון ובטיחות בתעשייה.

להשקיע במחקר בתחום בטיחות הבינה המלאכותית, כדי שהחברה תוכל ליהנות מיתרונות הטכנולוגיה תוך צמצום הנזקים האפשריים.   

מחקר זה נערך בשיתוף עם ארגון Builders for Tomorrow (BFT), ארגון פילנתרופיה יזמית ומחקר, הפועל למאבק באידאולוגיות אנטי-יהודיות ואנטי-מערביות.  

הליגה נגד השמצה בחנה את כלי הבינה המלאכותית הללו על ידי הפניית סדרת הצהרות לכל מודל, וביקשה ממנו לציין את מידת ההסכמה שלו עם כל אחת מהן, בשישה תחומים הקשורים לאנטישמיות ולהטיה נגד ישראל. לאחר מכן נותחו הדפוסים שעלו מתוך התשובות.

כל אחד ממודלי השפה הגדולים (LLMs) נשאל 8,600 פעמים, והצטברו בסך הכול 34,400 תגובות. מתודולוגיה דומה שימשה גם להערכת סוגים אחרים של הטיות, כגון הטיה פוליטית, הטיה בהסקה מרומזת, והטיה בהיגְבָּלוּת (steerability bias), בין היתר. הפרויקט הנוכחי מהווה שלב ראשון במסגרת מחקר רחב יותר שמובילה הליגה נגד השמצה בנושא מודלי שפה והטיות אנטישמיות. הממצאים המוצגים בדו"ח זה מדגישים את הצורך בשיפור מנגנוני ההגנה ואסטרטגיות ההפחתה של הטיות בתעשיית הבינה המלאכותית כולה.

המרכז לטכנולוגיה וחברה של הליגה נגד השמצה והמכון להערכה ומדידה של הארגון ימשיכו לבחון הטיות בבינה מלאכותית ולפעול לקידום לקיחת אחריות רבה יותר מצד מפתחי טכנולוגיות הבינה המלאכותית. דו"ח זה מהווה את הצעד הראשון במאמץ מתמשך למעקב ולהפחתת הטיות בבינה המלאכותית.

אנטישמיות ארצות הברית (ארה"ב) בינה מלאכותית הליגה נגד השמצה

 צבע אדום

00:00
00:00
art