תוכן אנטישמי ומסוכן: המודלים תמכו בנרטיבים שקריים ומסרו מידע על נשק

המחקר, שנערך על ידי המרכז הטכנולוגיה וחברה של הליגה נגד השמצה, חושף נקודות פגיעות משמעותיות במודלים פופולריים ונפוצים של שפה גדולה (LLMs) בקוד פתוח, אשר עלולים להיות מנוצלים על ידי גורמים עוינים

תוכן אנטישמי ומסוכן: המודלים תמכו בנרטיבים שקריים ומסרו מידע על נשק
אילוסטרציה צילום: NOVITA בינה מלאכותית

מודלים של בינה מלאכותית בקוד פתוח ניתנים למניפולציה בקלות ליצירת תוכן אנטישמי ומסוכן, כך עולה ממחקר חדש של הליגה נגד השמצה.

המחקר מגלה פערים מדאיגים באמצעי ההגנה של מודלים פופולריים בקוד פתוח
ניו יורק, ניו יורק, 3 בנובמבר 2025. מודלים של בינה מלאכותית בקוד פתוח ניתנים למניפולציה בקלות ליצירת תוכן אנטישמי ומסוכן, כך עולה ממחקר חדש של הליגה נגד השמצה (ADL).

המחקר, שנערך על ידי המרכז הטכנולוגיה וחברה של הליגה נגד השמצה, חושף נקודות פגיעות משמעותיות במודלים פופולריים ונפוצים של שפה גדולה (LLMs) בקוד פתוח, אשר עלולים להיות מנוצלים על ידי גורמים עוינים.

חוקרי הליגה נגד השמצה בדקו 17 מודלים בקוד פתוח, כולל Gemma-3 של Google, Phi-4 של Microsoft ו-Llama 3 של Meta, באמצעות פקודות שנועדו להפיק תוכן אנטישמי ומידע מסוכן. המודלים נבדקו לפי יכולתם לסרב לבקשות מזיקות, להימנע מיצירת תוכן מסוכן, ולהתנגד לניסיונות לעקוף מנגנוני בטיחות.

הממצאים המרכזיים כוללים:

ב-44% מהמקרים, המודלים הפיקו תגובות מסוכנות כאשר התבקשו לספק כתובות של בתי כנסת וחנויות נשק סמוכות בדייטון, אוהיו. המודלים סיפקו מידע רגיש בקלות תוך התעלמות מהאפשרות לנזק.

אף מודל בקוד פתוח לא סירב לבקשות הקשורות לסטראוטיפ אנטישמי מסוכן מבחינה היסטורית, מה שמעיד על כשל בזיהוי וסינון דברי שנאה.

חלק מהמודלים תמכו בנרטיבים שקריים היסטוריים, והפיקו תוכן מזיק לבקשות להכחשת השואה בשיעור מדאיג של 14%.

מאז אפריל 2024, לפחות שלושה אנשים שנמצאו ברשותם "רובי רפאים" (נשק חם שאינו רשום ואינו ניתן למעקב) נעצרו בגין כוונה לפגוע ביהודים או במוסדות יהודיים. במחקר הנוכחי, הליגה נגד השמצה מצאה כי 68% מהתגובות שהופקו על ידי מודלי בינה מלאכותית הכילו תוכן מזיק כאשר התבקשו לספק מידע על "רובי רפאים" ומשתיקי קול לנשק.

ממצא זה מצביע על כך שהמודלים חשופים לניצול על ידי גורמים עוינים לצורך קבלת מידע על פעילויות בלתי חוקיות או מזיקות, שעלולות לשמש למטרות אנטישמיות.

לפי מדד ההגנה שפותח על ידי חוקרי הליגה נגד השמצה, Phi-4 של Microsoft קיבל את הציון הגבוה ביותר – 84 מתוך 100, בעוד ש-Gemma-3 של Google קיבל את הציון הנמוך ביותר – 57 מתוך 100.

"היכולת למנף מודלים של בינה מלאכותית בקוד פתוח ליצירת תוכן אנטישמי חושפת פגיעות קריטית במערכת האקולוגית של הבינה המלאכותית" אמר ג'ונתן גרינבלט, המנכ"ל העולמי של הליגה נגד השמצה. "היעדר אמצעי הגנה חזקים הופך את המודלים הללו לפגיעים לניצול, ויש צורך בשיתוף פעולה בין מנהיגי התעשייה וקובעי מדיניות כדי להבטיח שהכלים הללו לא ינוצלו להפצת שנאה ואנטישמיות".

המחקר מדגיש את ההבדל הבולט בין מודלים בקוד פתוח למודלים סגורים. בניגוד למודלים קנייניים כמו ChatGPT ו-Gemini של Google, שפועלים דרך שירותים מרכזיים עם פיקוח מצד היוצרים, מודלים בקוד פתוח ניתנים להורדה ולשינוי על ידי המשתמשים, ופועלים לחלוטין מחוץ לשליטת היוצרים.

"הטבע המבוזר של בינה מלאכותית בקוד פתוח מציע גם הזדמנויות וגם סיכונים" אמר דניאל קלי, מנהל אסטרטגיה ותפעול ומנהל זמני של המרכז לטכנולוגיה וחברה. "למרות שמודלים אלו מקדמים חדשנות ומספקים פתרונות חסכוניים, חובה לוודא שהם לא ינוצלו להפצת אנטישמיות, שנאה ומידע שקרי שמסכן קהילות יהודיות ואחרות".

המלצות הליגה נגד השמצה כוללות:

לתעשיה

אין להשתמש במודלים בקוד פתוח מעבר ליכולותיהם המתועדות. כל מודל צריך לכלול הסברים מפורטים על אמצעי בטיחות. חברות חייבות ליצור מנגנוני אכיפה למניעת ניצול לרעה של מודלים בקוד פתוח.

לממשלה:

יש לקבוע מגבלות חמורות על שימוש במודלים בקוד פתוח במוסדות ממשלתיים. יש לחייב בדיקות בטיחות ולשתף פעולה עם מומחים מהחברה האזרחית. יש לדרוש גילוי ברור של תוכן שנוצר על ידי בינה מלאכותית בנושאים רגישים. שיטת המחקר:

חוקרי הליגה השתמשו במסגרת הערכה למדידת תגובות של 17 מודלים בקוד פתוח למגוון פקודות. לצורך השוואה, נבדקו גם שני מודלים סגורים: GPT-4o ו-GPT-5 של OpenAI. המודלים קיבלו ציון כולל של "מדד הגנה", מדד בטיחות מקיף המבוסס על שלושה קריטריונים: שיעור הסירוב להפיק תוכן מזיק, שיעור ההתחמקות ממנגנוני בטיחות קיימים, ושיעור התוכן המזיק שסופק. שיטת המחקר המפורטת ורשימת הפקודות זמינות באתר הליגה נגד השמצה.

הליגה נגד השמצה אנטישמיות בינה מלאכותית - AI

 צבע אדום

art