בינה מלאכותית ואמינות המידע באינטרנט

הברכה והאימה במניפולציית מידע על ידי מערכות למידת מכונה ובינה מלאכותית והשפעתן על אמינות המידע באינטרנט

24/10/2020 8 דק׳ קריאה

המאמר הוגש במקור ב-14 בינואר, 2020, כעבודה לבית הספר. בחודשים שעברו מאז, הטכנולוגיות המדוברות הספיקו להשתפר לא מעט.

בעבר, מקורות המידע העיקריים היו עיתונים, ספרים וכתבי עת. העיתון, שמתעדכן בתדירות קבועה, היה הכלי שדרכו היו נחשפים למאורעות העכשוויים באזור ובשאר העולם, בין אם מדובר בהתרחשויות פוליטיות או באירועים סביבתיים כלשהם. הגישה המוגבלת לתשתיות דפוס והפצה הביאה לכך שרק גופי עיתונאות מאורגנים ובעלי אמצעים היו יכולים להפיץ מידע שכזה. לכל הגופים הללו היה מוניטין לשמר, ולכן קהל הקוראים היה יכול לסמוך על כך שהוא קורא מידע מהימן. גם כשהתפתחו מקורות מידע חדשניים יותר כמו רדיו וטלוויזיה, עדיין רק לגופים מסוימים הייתה גישה לתשתיות השידור הנדרשות.

כל זה השתנה עם התפתחותו של האינטרנט. כיום אנו נחשפים למידע דרך רשתות חברתיות, אתרי חדשות, אתרי "חוכמת ההמונים" (כמו ויקיפדיה), ועוד מקורות מקוונים רבים אחרים. כל אחד יכול להפיץ באינטרנט מה שהוא רוצה, כשכל מה שצריך זה מכשיר עם גישה לאינטרנט - דבר שיש כמעט לכל אחד בעולם המערבי. מרכז המחקר "פיו" פרסם ב-2016 מחקר שבו נתגלה כי מעל ל-60% מהאמריקאים הבגירים צורכים חדשות דרך רשתות חברתיות,וש- 44% מהאמריקאים צורכים ספציפית דרך אתר פייסבוק.¹ נתון זה נוצל על ידי גורמים רבים ב-2016 על מנת להשפיע על הבחירות דרך הפצת מידע מטעה ושקרי אודות ההתרחשויות הפוליטיות - "פייק ניוז", ויש חוקרים המאמינים כי זה מה שהוביל בסופו של דבר לנצחונו של דונלד טראמפ.²

ארגון OpenAI הינו ארגון "רווח מוגבל" (בעל מבנה ארגוני שדומה למלכ"ר אך מאפשר למשקיעים להרוויח באופן מוגבל) שהוקם בשנת 2015 על ידי היזם אילון מאסק ביחד עם משקיעים נוספים. מטרת הארגון היא לפתח מערכות בינה מלאכותית לתועלת האנושות ככלל באופן פתוח וזמין לכולם, ללא התחייבויות כספיות - כך שפעילותם מתמקדת במטרותיהם במקום בריצוי משקיעים.

בפברואר 2019, הציג הארגון מודל למידת-מכונה שפתי בשם GPT-2. החוקרים נתנו למחשב לקרוא כשמונה מיליון עמודי אינטרנט שונים, על מנת שילמד לחזות את המילה הבאה העומדת להכתב בקטע טקסט, בהינתן כל המילים שקדמו לה. במילים אחרות, המחשב למד לכתוב טקסטים על ידי רכישת יכולות שפתיות מקריאת כל עמודי האינטרנט הללו. החוקרים נדהמו לגלות שהמודל לא רק למד לסנתז טקסט, אלא גם למד הבנת הנקרא, לסכם טקסטים, לענות על שאלות, ואפילו לתרגם, בלי שהם התכוונו לכך.³

פיתוח זה הולך יד ביד עם טכנולוגיית ה"דיפ-פייק" (Deep-Fake, שם כללי לטכנולוגיה, שלא פותחה על ידי אף ארגון/אדם ספציפי). טכנולוגיה זו מסוגלת ליצור קטעי וידאו וסאונד מזויפים המחקים את פרצופו של כל אדם (כאשר יש את המצרכים הדרושים על מנת ליצור חיקוי טוב), בעזרת למידת-מכונה. לעומת GPT-2, שלמד מתוך קריאה של טקסטים מהאינטרנט, מערכות דיפ-פייק לומדות לחקות אדם מתוך צפייה בסרטונים ושמיעת קטעי סאונד שבהם מופיע אדם זה. בסרטון בקישור הבא: youtube.com/watch?v=cQ54GDm1eL0, ניתן לראות סרטון דיפ-פייק של ברק אובמה (הוידאו הינו דיפ-פייק, אך הסאונד מדובב על ידי שחקן). המערכת למדה את מבנה פרצופו של אובמה מתוך סרטונים שבהם הוא מופיע, וכך הייתה יכולה להציג עליו את הבעות הפנים ותנועות הפה של המדבב.

הדבר המייחד מערכות למידת-מכונה, הוא הלמידה מתוך דוגמאות. למשל, אם ברצוננו ליצור תוכנה אשר מזהה תמונות של כלבים, ניתן לפתח אלגוריתם שמזהה תכונות מסוימות המייחדות את המראה החיצוני של כלבים (מבנה האף, צורת הגוף וכו'), או במקום זאת ניתן לתת למחשב ללמוד בעצמו איך אמור להראות כלב מתוך דוגמאות לתמונות של כלבים, וכך בעצם ליצור מודל למידת-מכונה המסוגל גם להשתפר ככל שיש לו יותר דוגמאות. טכנולוגיות כמו GPT-2 ודיפ-פייק הן תוצר בלתי נמנע של ההתקדמות בתחום למידת-המכונה, וכבר היום נעשה בהן ובמערכות דומות שימוש מעשי.

עיתון הגרדיאן (The Guardian) הבריטי התנסה לפני כשנה עם מערכת בינה מלאכותית בשם "ReporterMate", שפותחה על ידי העיתונאי ניק אברשד.⁴ מערכת זו מקבלת מידע, מנתחת אותו, ומייצאת אותו במבנה של כתבת עיתון שכתובה בשפה טבעית. מטרתה לסקר חדשות "נוסחתיות", כמו מזג אוויר, נתונים כלכליים, תוצאות בחירות, תוצאות משחקי ספורט וכו'; על מנת להקל על העיתונאים ולאפשר להם להתעסק בכתיבת כתבות משמעותיות ואיכותיות המבוססות על תחקירים. למשל, לתת למחשב לכתוב כתבה אודות מזג האוויר היומי, ולתת לכתב האנושי לחקור ולכתוב אודות שינוי האקלים. עד כה עיתון הגרדיאן פרסם כתבה אחת שאותו כתב ReporterMate, בו הוא מסקר את התרומות שקיבלו המפלגות באוסטרליה.

הגרדיאן אינו העיתון היחיד שהתנסה עם מערכות בינה מלאכותית, ועיתונים רבים אחרים כבר משתמשים באופן קבוע במערכות דומות: בשנת 2016 הוושינגטון פוסט פרסם 850 כתבות שנכתבו על ידי מחשב, שהתעסקו בעיקר בסיקור נתוני הבחירות ותוצאות האולימפיאדה.⁵ כשליש מהתוכן שמפורסם בעיתון בלומברג נכתב עם עזרה כלשהי של בינה מלאכותית, עבור ניתוח יעיל ומהיר של נתונים פיננסים אודות חברות.⁶ גם העיתונים רויטרס, Associated Press, לוס אנג'לס טיימס, ועוד, משתמשים בטכנולוגיות דומות, על מנת לפנות לכתביהם זמן להתעסקות בעבודה מהותית יותר.

חברת "Descript" פיתחה תוכנה לעריכת פודקאסטים. על מנת להקל על העריכה, הם הוסיפו אפשרות לתקן ולשנות את מה שנאמר בפודקאסט, ללא צורך בהקלטה מחדש, בעזרת טכנולוגיית הדיפ-פייק. המפתחים מעוניינים גם להציע את הטכנולוגיה לחברות בתעשיות אחרות, כמו למשל בתעשיית משחקי המחשב. כיום, מפתחי משחקי מחשב צריכים להקליט את המדבבים שעות רבות, ובשביל כל תיקון או שינוי הם חייבים להביא מחדש את המדבבים לאולפן. Descript מאמינים שהטכנולוגיה יכולה לעזור להם, כפי שהיא עוזרת ליוצרי פודקאסטים.

הסטארט-אפ הישראלי "CannyAI" מציע שירותים לדיבוב מחדש של וידאו בעזרת טכנולוגיית דיפ-פייק. אחד מהשירותים הוא דיבוב מחדש של פרסומות מצולמות לשפות נוספות, ובכך להוזיל את עלויות הלוקליזציה לשווקים שונים. הם מסוגלים לקחת פרסומת מצולמת שבה מופיע שחקן, ולדבב מחדש לשפות נוספות תוך שימור על קולו של השחקן ועל תנועות שפתיים מתאימות.

לטכנולוגיות אלו ברכות רבות, אך גם אֵימוֹת משמעותיות. קהילות מפוקפקות באינטרנט החלו להשתמש בטכנולוגיית הדיפ-פייק על מנת ליצור תכנים פורנוגרפיים מזוייפים, המציגים נשים ידועניות בסצנות אינטימיות שהן כלל לא השתתפו בהן.⁷ המשתמשים בקהילות האינטרנטיות הללו בעצם לוקחים תכנים פורנוגרפיים קיימים, אבל בעזרת טכנולוגיית הדיפ-פייק הם "מדביקים" את פרצופה של הידוענית על פרצופה של האישה המקורית המופיעה בסרטון.

אימה נוספת הינה הונאות שניתן לבצע בעזרת טכנולוגיה זו. כך למשל, לפני מספר חודשים, עובד בכיר בחברת אנרגיה בריטית העביר €220,000 לחשבון בנק זר לאחר שקיבל שיחת טלפון שהייתה לכאורה ממנכ"ל החברה. בסופו של דבר התברר כי זה לא היה המנכ"ל, אלא אדם שהשתמש בדיפ-פייק על מנת להתחזות לקולו של המנכ"ל.⁸

עם זאת, אלו אינן האימות העיקריות. האימה המשמעותית ביותר, שמשותפת הן לטכנולוגיית GPT-2 והן לטכנולוגיית הדיפ-פייק, קשורה לנושא שהוזכר בהתחלה: פייק ניוז. היכולת של טכנולוגיות כאלו לבצע מניפולצייה למידע ולערער את מה שאנו רואים כאמת, מסוכנת ביותר.

כשהארגון OpenAI הכריז על המודל GPT-2, הם הודיעו שהמודל המלא לא יפורסם, אלא רק מודל חלקי (מודל נחות ומוגבל יותר מהמודל המלא), בניגוד להבטחתם לפתיחות. הם ראו ש-GPT-2 מסוגל להפיק טקסטים בדיוניים באופן שמרגיש כאילו בן אדם כתב אותם. הם בעצם יצרו מכונת פייק-ניוז. הנה טקסט שאני הצלחתי להפיק בעזרת המודל:

Haaretz reports:

Israel's Prime Minister Benjamin Netanyahu is under fire for his statements about the potential impact of anti-gay laws.

"People are dealing with this one by one," he said during a radio interview Thursday. "Some of them are attracted to the deviant lifestyles, and I'm talking about the LGBT community in general, not just in Israel."

Netanyahu's comments came a day after he said he was interested in anti-gay legislation in countries that restrict the rights of gays.

"But we will not allow our children, our grandchildren, our great grandchildren to live in a world in which they see homosexuality as a normal, natural phenomenon," he said. "That's something that we cannot accept, and it's something that's dangerous."

טקסט זה נכתב על ידי המחשב ללא שום הנחיות ממני. כל מה שעשיתי זה להקליד את המילה הראשונה, "Haaretz", ואת השאר המחשב כתב לגמרי בעצמו. כפי שניתן לראות, המודל הפיק טקסט בדיוני במבנה של קטע מתוך כתבה חדשותית, המספר על פעילות הומופובית של בנימין נתניהו, שכלל לא קרתה במציאות! החשש היה שגורמים כלשהם ישתמשו במודל על מנת ליצור מערכת הכותבת ומפיצה פייק ניוז באופן אוטומטי לרשתות החברתיות, במימדים כה גדולים, שכבר לא יהיה ניתן לעצור את ההפצה של מידע שקרי ומניפולטיבי, ולא יהיה ניתן להבחין בין אמת לשקר ברשתות החברתיות.

בסופו של דבר, לאחר מספר חודשים החלו OpenAI בפרסום מדורג של GPT-2, כיוון שעד כה הם לא מצאו אף סימן לשימוש לרעה במודל החלקי שאותו הם כבר פרסמו. בנובמבר 2019 המודל המלא פורסם, וזמין להורדה באופן פתוח ובחינם.⁹

גם דיפ-פייקס מהווים סכנה רבה בכל הקשור לפייק ניוז. נכון, יצירת סרטוני דיפ-פייק אמינים עדיין מסובכת עבור האדם הממוצע כיום, אבל הטכנולוגיה קיימת וזמינה בחינם לכל אדם בעל יכולות טכנולוגיות טובות מספיק. וידאו מהווה בימינו מקור כמעט ראשוני - למשל, כשאנו רואים סרטון של פוליטיקאי נואם, אנו לא עוצרים לתהות האם הסרטון אמיתי או לא, אלא סומכים על עינינו ועל מה שמוצג על מסכנו. לדיפ-פייקס יש את היכולת לנצל אמון זה, ולהציג מידע שקרי כאמיתי.

מערכות למידת מכונה ובינה מלאכותית משמעותיות לקידמה הטכנולוגית כיום, אך לא ניתן להתעלם מהסכנות הכרוכות בהן. בראיון לעיתון הארץ, ד"ר תהילה שוורץ-אלטשולר, עמיתה בכירה במכון הישראלי לדמוקרטיה, סיכמה את המצב באופן כזה: "אנחנו בעולם של פוסט אמת, נתקלים בהרבה דיסאינפורמציה, ולתכנים הללו יש נטייה להתפזר ברשתות החברתיות אפילו מהר יותר ממידע אמיתי…על פני השטח, החשש הוא שניתן יהיה להטות את תוצאות הבחירות על ידי פרסום מידע לא נכון, מידע ערוך, ושזה ישפיע על דעת הקהל. אבל למעשה החשש הזה עמוק יותר, כי הטכנולוגיה הזאת מערערת את האמון שלנו כחברה בעצם היכולת שלנו לברר את המציאות".¹⁰