שאלות אתיות על אלגוריתמיקה. מקרה בוחן: חברת Faception הישראלית

אז מסתבר שיש חברה ישראלית בשם Faception שמוכרת טכנולוגיה לזיהוי תכונות אופי על פי תמונת פנים. הרעיון שעומד בבסיס הטכנולוגיה, כמו שמוסבר באתר החברה, הוא ש: (א) הגנטיקה משפיעה משמעותית על חלק מתכונות האופי של בני אדם (ב) הגנטיקה משתקפת גם בפרצוף ולכן: (ג) באמצעות ניתוח הפרצוף של בן אדם אפשר להסיק דברים על האופן שבו הגנטיקה שלו משפיעה על תכונות האופי שלו.

על בסיס מכלול של תכונות אופי כאלו אפשר לבדוק כמה בן אדם מתאים ל"פרסונה" מסוימת. למשל, החברה מציעה לזהות על פי תמונה של הפרצוף האם מישהו הוא טרוריסט (סובל מחרדה ודכאון, מופנם, מחושב, פסימיסט, עם דימוי עצמי נמוך ותנודות משמעותיות במצבי הרוח) או פדופיל (בדיוק אותו התיאור, לפחות באתר).

פייספשן מונה באתר מספר יתרונות של הטכנולוגיה שלה ללקוחות פוטנציאליים. למשל: הניתוח מתבצע בזמן אמת, ולא מתבסס על ידע מוקדם בנוגע לבן אדם (ככה שאפשר לזהות מחבלים פוטנציאליים גם מתוך מאתר לא ידוע).

התפרסמו לא מעט ניתוחים מעניינים של היבטים אתיים של פעילות החברה (shout-out למדעןנתונים שכתב פוסט בנושא, כמו גם לביזנס אינסיידר, ניו סיינטיסט, סיינס דיירקט; ותודה ספציפית לאייל גרוס שהעלה את הנושא לדיון בפייסבוק); אבל רציתי להוסיף עוד שני יורוסנט משלי בנושא (שהולכים להתבסס הרבה על המסגרת האתית למחקר מערכות רשת של מכון OII באוקספורד) שהולכים להתייחס לשלושה יתרונות אחרים ש-Faception מייחסת לטכנולוגיה שלה: דיוק, טכנולוגיה בת-התאמה, ואובייקטיביות.

 

שאלת הדיוק

הרבה מהביקורת האתית בנושא faception מעלה את השאלה של ה-False Positive.

החברה אוהבת להדגיש בפרסומי יח"צ שיש לה דיוק של כמעט 90%. האלגוריתם שלה סיווג (בלי מידע מוקדם!) 9 מתוך 11 המחבלים בפיגוע בפריז כטרוריסטים; סיווג 2 מתוך 3 פיינליסטים בתחרות פוקר כ"שחקני פוקר מקצועיים"; וכו'.

אבל הנה הצעה מתחרה לאלגוריתם אחר: פשוט להגיד שכולם מחבלים. אלגוריתם שמסווג את כולם כמחבלים יסווג (בלי מידע מוקדם!) 11 מתוך 11 המחבלים בפיגוע בפריז כטרוריסטים – דיוק של 100%. 0 טעויות – אף מחבל לא בורח ממנו.

כמובן ש"המחיר" של אלגוריתם כזה הוא במקום אחר: הרבה מאוד סיווגים שגוים של אנשים "תמימים" כמחבלים – מה שמכונה False Positive.

לא הצלחתי למצוא התייחסות של פייספשן לכמות ה-False Positives של האלגוריתם שלה (וכנראה שלא בכדי, כי כאמור זו נקודה שעולה שוב ושוב בביקורת כלפי החברה), אבל כמובן שכדי להבין עד כמה הטכנולוגיה שלה "מדויקת" אי אפשר להתעלם מהנתון הזה.

 

החשש מ-Mission Creep

פייספשן יכולה לחשוב כבר עכשיו על שלל שימושים לטכנולוגיה שלה: בטחון (סיווג טרוריסטים/פדופילים), גיוס כח אדם (סיווג מוכשרים/מתאימים לתפקידים מסוימים), התאמה זוגית (התאמת מבני אופי בין בני זוג), פיננסים וביטוח, שיווק, וכו'.

verticals

למעשה, כפי שמופיע בתיאור למעלה מאתר החברה, לפי פייספשן "אם התנהגות מסוימת נובעת מהDNA של בן אדם, יש סבירות גבוהה שאנחנו יכולים לפתח מסווג רלוונטי אליה".

הנקודה הזו מעלה את השאלה לאילו תכליות הוגן להשתמש בסוג כזה של מסווג.

כשפייספשן חיפשו מימון באתר AngelList, הם מנו בצוות היועצים שלהם את מייקל קוזינסקי.

קוזינסקי עובד בימים אלו על מחקר לזיהוי נטייה מינית על בסיס תמונות פנים. בהינתן חמש תמונות פנים, האלגוריתם של קוזינסקי יכול לזהות הומואים בדיוק של 91% ולסביות בדיוק של 83% (בהשוואה לקרוב ל-60% ו-50% בקרב מסווגים אנושיים).

בהצדקות למחקר שלו, קוזינסקי מדבר על הצורך לעורר מודעות בקרב קהילת הלהטב"ק מהאפשרות הזו – כי משטרים דכאניים כלפי גייז יכולים לעשות שימור בטכנולוגיה כזו (כמו גם שלל שחקנים אחרים שעוסקים במישטור/אפליה על בסיס נטייה מינית).

וכמובן – איזו דרך טובה יותר לוודא שהטכנולוגיה אכן יכולה לשמש לצרכים לא אתיים כאלו מאשר למכור אותה ואת היכולת להתאים אותה למרבה במחיר?

שאלת האובייקטיביות

הנקודה האחרונה שרציתי לעלות נוגעת לשאלת האובייקטיביות.

בניגוד לטענת החברה שהטכנולוגיה של פייספשן לא מצריכה שום הנחת עבודה, יש כמה הנחות עבודה לא מפורשות שנובעות מהיישום הפרקטי שלה כדי לסווג "מבנה אישיות" של בן אדם על בסיס תמונת הפנים שלו: [א] שמדובר במבנה אישיות שחשוב לסווג (למשל – כשגורמי אכיפת חוק ישתמשו בטכנולוגיה כזו – האם הם ישתמשו בה גם כדי לסווג שוטרים שסביר שיפעילו אלימות משטרתית?) [ב] שמדובר במבנה אישיות שנובע בעיקר מהגנטיקה, ולא ממאפיינים סביבתיים/חברתיים (האם אכן אפשר לדעת שמישהו הוא "טרוריסט" בצורה דטרמיניסטית?) [ג] שמי שמאמן את המסווג יודע לספק סט מייצג של תמונות של אנשים עם מבנה האישיות הזה.

הסיווג של "טרוריסטים" בהקשר הזה הוא דוגמא מעולה. גם אם נשים בצד את השאלה התיאורטית איך מגדירים האם מישהו הוא "טרוריסט" או "לוחם חופש" – בפרקטיקה, מי נכלל בסט האימון שפייספשן הכינו? האם הסט כלל תמונות של אנשי מחתרות? של ברוך גולדשטיין? של המשתתפים בלינץ' ברמאללה? של משתתפים באלימות כלפי מחבלים מנוטרלים? האם התמונה של היורה מלאס וגאס צריכה להיכלל בסט? האם אנחנו מאמינים שכולם "טרוריסטים" באותו המובן? האם כולם חולקים אותו מבנה אישיותי? האם יש ביניהם דמיון גנטי שמבחין אותם מיתר האוכלוסייה? תשובות שונות לשאלות האלו עשויות להביא למסווגים שונים.

כמובן שגם בהקשר פדופיליה עולות שאלות כאלו, ואליהם ניתן להוסיף גם שאלות בנוגע לדיווח. האם יש סוגי תקיפות פדופילים שפחות מדווחות לרשויות? האם זה יוביל להטיה בסט האימון?

האם האלגוריתם של פייספשן הוא גזעני?

תת-שאלה מעניינת (ומתבקשת) בהקשר הזה, היא האם קיימת הטיה גזעית באלגוריתם של פייספשן. האם מקרה בוחן מעניין בהקשר הזה הוא דירוג הסיכון שחברת Northpointe האמריקנית נתנה לנאשמים, שאמור היה לדרג את הסיכוי שהם יחזרו לפשוע בעתיד.

ניתוח של הארגון ProPublica העלה סברה שקיימת הטיה משמעותית "נגד" שחורים באלגוריתם. הדיון שהתעורר הוביל למסקנה שבעצם גם תלוי איך מגדירים "הוגנות" גזעית בהקשר הזה. גליונה בדיוק פרסמה חיבור מעולה ב-medium על הנושא של הוגנות באלגוריתמיקה; והשאלות האלו כמובן תקפות גם למקרה של פייספשן. בהיעדר הגדרה של "הוגנות" שאליה פייספשן מכוונים, בטח שאי אפשר לטעון ל"אובייקטיביות" בהקשר הזה.

סיכום

אני לא חושב שהרעיון העקרוני שעומד בבסיס Faception הוא בהכרח רע.

אם אפשר להיעזר בכלי הזה כדי למזער את הנזק של מחבלים ופדופילים זה נשמע מצוין. אבל, יש שלוש נקודות שחייבים לשים לב אליהן

מה בעצם אפשר לדעת מסיווג על בסיס תווי פנים?

זו נקודה ממש חשובה שנראה שדי מתפספסת בהתנהלות של החברה – לא רק שצריך להבין את המחיר האתי הגבוה של שימוש בטכנולוגיה הזו, יש גם קשר גורדי בין השאלות האתיות בנוגע לטכנולוגיה הזו (איך הוגן לעשות בה שימוש?) לבין השאלות האפיסטמיות בנוגע אליה (מה בעצם אפשר לדעת באמצעותה?).

ממה שהחברה מפרסמת עד עכשיו, בהחלט נשמע שיכול להיות שהמוצר שלה לא באמת עוזר לזהות מידע רלוונטי בנוגע למחבלים או פדופילים (אלא רק להגביר הטיות קיימות בשיפוט האנושי). בתגובה להאשמות של ProPublica חברת Northpointe הראתה שהאלגוריתם שלה צודק בנוגע לשחורים וללבנים באותו שיעור – קרוב ל-60%. כלומר: קצת יותר טוב מאשר לנחש באמצעות הטלת מטבע.

מסיבות מסחריות, ברור שהחברה מעדיפה לא להיכנס לשאלות האלו, ובמקום זה לשווק את הטכנולוגיה בתור כדור בדולח קסום שפשוט אומר באובייקטיביות שמישהו הוא מחבל/פדופיל/חכם.

בתור צרכנים פוטנציאליים של הטכנולוגיה (כחלק מהציבור שרוצה להגן על עצמו, או בחברה ששוקלת את הטכנולוגיה כדי לטייב את תהליכי גיוס כח האדם שלה / השירותים שהיא מציעה ללקוחותיה), ובטח שבתור מושאים פוטנציאליים של סיווג על ידי הטכנולוגיה – אנחנו צריכים למצוא את הדרך לעלות את השאלות האלו כחלק מההחלטה האם ואיך לעשות בה שימוש.

המאגר הביומטרי

בהערת צד, השלכה נוספת שנראה לי שראוי לתת עליה את הדעת (בטח בישראל) נוגעת לשאלת "המאגר הביומטרי".

איך התקדמות טכנולוגית כמו זו שמאפשרת את פייספשן משפיעה על הצורך (ומצד שני – על מידת הסיכון) בניהול מאגר ביומטרי מרוכז של מידע אודות תושבי המדינה?

אלגוריתם לא יביא "הוגנות" לתוך הקשר חברתי-פוליטי שאינו הוגן בבסיסו

הנקודה המרכזית, בעיניי, הוא שצריך להבין שטכנולוגיה לא יכולה להיות "אובייקטיבית" במובן שמנסים לשווק אותה בהקשר של פייספשן (כלומר: חסרת הנחות יסוד). בגלל זה, אלגוריתם יכול להיות "הוגן" בתוך המגבלות של ההקשר שבו משתמשים בו בפועל.

IBM שיחקו תפקיד די משמעותי בשואה, מסתבר. הגרמנים היו צריכים לערוך מפקדי אוכלוסין בכל שטח שכבשו, ולהעריך את כמות היהודים/צוענים בהם, בין היתר על בסיס הערכה שמגדירה יהודי כמי שיש לו "אב יהודי" ארבעה דורות אחורה.

IBM סיפקה את הטכנולוגיה (כרטיסיות ניקוב) כדי להוציא לפועל את המפקדים האלו, כמו גם מערכת לניהול המידע הדרוש במחנות ריכוז (אאל"ט גם בנוגע לשינוע למחנות השמדה). ניהול מידע וידע היה חלק אינטגרלי מההוצאה לפועל של "הפתרון הסופי".

לא משנה כמה היו מסתכלים על False Positives, או כמה אינקלוסיבי היה סט האימון – כנראה שלא הייתה דרך ל-IBM להגיע לאלגוריתם "הוגן" כדי לסווג מישהו כ"יהודי" לשימוש הנאצים.

השימוש במסווגים כאלו, כולל התחשבות ברמת הדיוק שלהם וה-False Positives יכול להיות אתי לתכליות מסוימות ולא אתי לתכליות אחרות. אנשים שמפתחים ומוכרים את הטכנולוגיה לא יכולים להיות "אדישים" לmisuse אפשריים בטכנולוגיה שלהם.

בהקשר הזה, שווה לציין ש-Faception סיפרה לוושינגטון פוסט במאי אשתקד שיש לה חוזה עם איזושהי "homeland security agency" בנוגע לזיהוי טרוריסטים. החברה אמנם לא מפרטת עם איזו מדינה נחתם החוזה, אבל בחינה של פרופילים של עובדי החברה בלינקדאין מעלה שיש לה country corporate representative באיסטנבול.

האם הרשויות התורכיות עושות שימוש בטכנולוגיה הזו? האם נעשה שימוש בטכנולוגיות האלו לניטור האוכלוסייה הכורדית? אילו החלטות מתקבלות על בסיס הפלט של פייספשן? האם החברה מסייגת כראוי את הממצאים שלה? האם היא יכולה להשפיע על האינטרפרטציה שניתנת לתוצאות המסווג שלה?

איזו אחריות מוסרית יש לחברה (company) ולחברה (society) שמייצאות את הטכנולוגיה הזו בנוגע לשימוש שעושים בה בפועל?

מודעות פרסומת
פורסם בקטגוריה Uncategorized | כתיבת תגובה

סבתא חיה מטא: סיפור סיפורים באמצעות רשתות

לפני כמה שבועות התפרסם ספר ממש מגניב שמרכז מאמרים של חוקרים מובילים באחד התחומים הכי מעניינים באקדמיה בעיניי (אם לא ה-): החיבור בין מדע הנתונים למדעי הרוח והחברה. הספר זמין להורדה חינם, וזה לא שהוא חף מבעיות, אבל אני בהחלט ממליץ עליו למי שמתעניין בנושא.

אחד המאמרים היותר "יישומיים" בו ("How to tell stories with networks", עמ' 155-170) מנסה להדגים כיצד ניתן לאפיין נראטיבים שונים על בסיס ניתוח רשתות חברתיות (SNA). במסגרת זאת, החוקרים מדגימים ניתוח SNA על הדמויות בסיפור האיליאדה, כדי להמחיש את הרעיונות שלהם.

בתור מי שטרם זכה לקרוא את האיליאדה היה לי די קשה להבין את הדוגמאות שבמאמר, ולכן החלטתי לנסות ולשחזר את הטכניקות שבו על קלאסיקה אחרת: "מבצע סבתא".

 

מתודולוגיה

בגיגול קצר מצאתי תמליל בוטלגי של הסרט. הוא אמנם לא מלא (למשל: בלי קריסטין!), אבל טוב מספיק.

כתבתי קוד פייתון פשוט (זמין כאן) שעובר על התמליל ויוצר קובץ אקסל של דמויות שמדברות אחת עם השנייה במהלך הסרט. ההיגיון, בגדול, הוא כזה: שתי דמויות שמדברות אחת אחרי השנייה באותה הסצינה כנראה מדברות אחת עם השנייה. זה אמנם לא נכון ב-100% מהמקרים (הרחבה בהמשך), אבל שוב – טוב מספיק.

את קובץ האקסל טייבתי (חלק מהדמויות מצוינות בתמליל רק באות הראשונה של שמן) ככה שיהיה אחיד, העברתי לפורמט מתאים, והזרמתי לתוכנת Gephi לניתוח רשתות (קובץ גפי זמין כאן). שם, התחלתי מפריסה של הרשת באמצעות אלגוריתם ForceAtlas2 שההגיון הבסיסי שלו שואף "לקרב" נקודות קשורות זו לזו ו"להרחיק" נקודות שאינן קשורות, עד שהרשת מגיעה לשיווי משקל כלשהו.

 

ממצאים

אז אילו נראטיבים אפשר לחלץ מניתוח רשתי של "מבצע סבתא", בהתאם למאמר על האיליאדה?

savtaSNA

 

בחינה פנורמית: המחנות

הסוג הראשון של נראטיבים שאפשר לדבר עליהם בהקשרי רשתות, נוגע לחלוקת הרשת ל"מקבצים"/מחנות לפי צפיפות הקשרים באזורים שונים של הרשת, ופריסתה במרחב.

בעוד שקיימים מספר אלגוריתמים "סטנדרטיים" לזיהוי קהילות ברשת, במקרה הזה (כמו גם במאמר הנוגע לאיליאדה) מדובר ברשת "פשוטה" מספיק בכדי שיהיה אפשר לזהות את כלל ה"מחנות" בעין.

‏‏savtaSNA - communities

שלא באופן מפתיע, לקבוצות הדמויות שמדברות אחת עם השנייה בסרט יש גם מאפיינים דומים בנוגע לרקע ולהקשר החברתי בו הן פועלות. שלוש קבוצות בולטות בהקשר הזה הם הקיבוץ, העיר, והצבא.

קבוצה רביעית – "הילדים" – נוצרת כביכול בשל גליץ' בקוד: ילדי קבוצת לימונים שמכינים כתובות אש בהנחיית עידן לא באמת מדברים עם ילדי קיבוץ עסיסים ששרים את שיר הקרמבו. ברמת הטקסט, יש קאט בין שתי קבוצות הילדים בסצינה. אבל הרי ברור שלמעשה הופעתן אחת אחרי השנייה מסמנת איזושהי השוואה בין השתיים (ומבליטה את השוני ביחסים עם ילדים שמנהלים עידן וקרמבו) – ובמובן זה זיהוי "מחנה הילדים" דווקא מעניין.

דפוס דומה של גליץ' אפשר לראות בקשר שנוצר בין שירלי (הפקידה של קרמבו) לבין "הערס" (ממנו עידן גונב את הנייד) – הגם והשניים לא באמת מדברים ברמת הטקסט בסרט, הרי שהופעתם בסמיכות אכן מבליטה דמיון ביחס ששניהם מפגינים כלפי עידן.

 

בחינה פנורמית: היחסים בין המחנות

אופן בחינה נוסף שמציעים החוקרים נוגע ליחסים שבין המחנות.

באופן לא מפתיע, מחנה הקיבוץ הוא המחנה הגדול והדומיננטי ב"מבצע סבתא".

 

בחינת מרכזיות נקודות: צמתים

סוג נראטיב שלישי שאפשר לחלץ מבחינת הרשת נוגע לנקודות מרכזיות ברשת.

הבחינה הראשונה שניתן להתייחס אליה בהקשר הזה נוגעת לנקודות ברשת שנמצאות בקשר עם מספר גדול של נקודות אחרות (מיוצג על ידי הצבע הירוק הכהה בתמונה).

באופן לא מפתיע, שלושת האחים (בני, עידן, וקרמבו) הם הצמתים במרכזיות ברשת; והם למעשה "מרכזים סביבם" את הדמויות במשך העלילה.

בחינת מרכזיות נקודות: גשרים

בחינה מעניינת לא פחות היא בחינה קצת יותר מעודכנת, ונוגעת לדמויות שממוקמות בפוזיציה "רחוקה" יותר ממרכזי הקהילות, אבל משמשות כ"גשרים" ביניהן.

כך, בעוד שדמויות מהקיבוץ (סרג'יו ודבורה) "מחברות" בין קרמבו ועידן (נוסף על הקשר הישיר ביניהם) – שתי הדמויות היחידות שמדברות עם כל שלושת האחים הן שירלי וחגית. חגית, למעשה, משמשת כקשר מרכזי בין קהילת "העיר" לקהילת "הקיבוץ".

בחינת מסלולים: קיצור הדרך

החוקרים במאמר אודות האיליאדה מציעים סוג נראטיב מעניין נוסף בניתוח רשתות, שנוגע למציאת מסלולים קצרים מפתיעים בין דמויות שונות.

הגם וברשת "מבצע סבתא" לא הצלחתי למצוא מסלולים שכאלו, בעיניי מעניין לראות את היעדר החיבור של בני, ויותר מכך של סבתא חיה עצמה, לקהילת "הקיבוץ".

הקשר הישיר היחיד של בני לקיבוץ, למעשה, הוא לקרמבו, באופן שמשקף את תהליך התרחקותו מהקיבוץ והמעבר לעיר. כך גם הקשר היחיד של סבתא חיה לקהילת הקיבוץ (שכזכור "זנח" אותה) עובר "בשתי קפיצות" (חיה->בני->קרמבו / חיה->עידן->דבורה/סרג'יו/קרמבו).

פורסם בקטגוריה Uncategorized | כתיבת תגובה

אין הביישן למד

בערב שבת האחרון שודרה באולפן שישי של ערוץ 10 כתבה על יחידת רמו"ט של משרד המשפטים שעוסקת בין היתר בזיהוי מאגרי מידע עם פרטים אישיים שלא מאובטחים מספיק. המסר הכללי של הכתבה היה די בבירור "תיזהרו מחברות שאוספות עליכם נתונים – בסוף המידע ידלוף לחברות סחר במידע ודרכן יגיע לחברות פרסום שישווקו לכם מוצרים".

בעיניי המסר הזה, ותפיסת הפרטיות שהוא מייצג, בעייתיים בפשטנות שלהם.

כי איסוף ושיתוף נתונים עליך זה טוב!!1

באחד החלקים בכתבה (מדקה 08:27) הכתב ונציגת רמו"ט שואלים אנשים שמתאמנים בפארק על מכשירי המדידה שהם משתמשים בהם. נציגת רמו"ט מסבירה את הסכנות הרבות לפרטיות שבמכשירים האלו: "יכול להיות שאפילו אתה עוד לא יודע שיש לך בעיה" היא מזדעזעת "אבל אם מישהו אחר עוקב אחרי זה הוא יכול לעשות לבד פרשנות, בלי שאתה אפילו יודע".

מה? מישהו יכול לעלות על בעיות בריאות שיש לי בלי שאני אצטרך אפילו להיות מודע לזה? וגוברים הסיכויים שהוא יעשה את זה אם יהיה לו פתרון רפואי למכור לי? נשמע מדהיםלמה זה רע?!

אני לא מצליח להבין את הבעיה שיש לאנשים עם זה שבטכנולוגיה הנוכחית הם מקבלים פרסומות שמתאימות להם. כמובן שצריך לקחת בערבון מידע בפרסומות, וכמובן שיש פרסומות שחודרות באופן אגרסיבי מדי למרחב הפרטי – אבל עצם זה שהפרסומות שאני נחשף מותאמות אלי הוא מעולה! מצאתי ככה הרבה ספרים טובים, קורסים בקורסרה, ואמנים שאני אוהב.

וזה כמובן בלי לדבר על השימוש שאני מרוויח מעצם השימוש בטראקר באימונים, מהיכולת להעביר לרופא בכל מקום את הנתונים שלי, מהיכולת של כל כספומט בעולם לקבל נתונים על יתרת הכסף בחשבון שלי, וכו'.

כי רעיונות הפרטיות האלו משרתים בעיקר את החברות הגדולות ותורמות להווצרות מונופול טבעי (או לכל הפחות אוליגופול)

בשוק הנתונים יש יתרון ברור לגודל מכמה טעמים. בעוד שאנשים "מודעים לפרטיות" יכולים לעשות opt-out משירותים ואפליקציות קטנות שאוספות עליהם נתונים – סביר מאוד להניח שהם עושים את זה על פלטפורמה של גוגל/אפל/מיקרוסופט, ושהם מוכנים "לשלם את מחיר הפרטיות" כדי להישאר מחוברים לפייסבוק ולהזמין מוצרים מאמזון.

למה? בין היתר כי לאור איסוף כל כך הרבה מידע על כל כך הרבה משתמשים במשך כל כך הרבה זמן – החברות האלו העמידו מוצרים ושירותים טובים מדי.

לא זאת גם זאת – לפני כשבועיים 6 מענקיות הדאטה (אמזון, דיפמיינד, גוגל, פייסבוק, IBM, מיקרוסופט) חברו לשותפות AI בינן לבין עצמן.

הדיון בשאלה מה טוב יותר – יותר נתונים או אלגוריתמיקה טובה יותר – אמנם לא הוכרע, אבל בכמויות נתונים שכאלו קשה לדמיין חברה קטנה נותנת "פייט" לענקיות הללו.

מה כן יכול "לאזן" את התמונה ולעודד תחרות בשוק כזה?

אולי חברות חדשות שתכנסנה עם סנסורים חדשים? אולי "מס מידע" שהמדינה תקח מחברות ענק ותשחרר לשימוש ציבורי? אולי חברות לסחר במידע, כמו אלו שרמו"ט חוששים מהן, שתאפשרנה לעסקים קטנים גישה למידע רלוונטי ולייעול התנהלותם בשוק?

Whose data is it anyway?

במצב היום, נראה שמי ששולט בסנסורים לאיסוף הנתונים הוא השולט הבלעדי במידע. אבל מה מותר לי לעשות עם כל המידע שנאסף עלי?

בכתבה בערוץ 10 מועלה מספר פעמים החשש שמידע שנאסף על בן אדם ישמש כנגדו בהחלטה על תנאי הפרמיה שהוא יקבל או התעסוקה שלו. אבל מה אם יש לי מידע שמוכיח שאני לקוח "כדאי"? למה שלא אוכל לנייד אותו בין עסקים שונים, בלי קשר לשאלה מי אסף אותם במקור? אולי אוכל לדרוש מעסק אחד למחוק את המידע שאסף עלי? גם זה, כמובן, יתרום ליותר תחרות בשוק.

זה לא שאין בעיות

כמובן שיש מקרים שבהם באמת באופן אינהרנטי האיסוף ושימוש בנתונים – כפי שנסקר בספר שפורסם לאחרונה, Weapons of Math Destruction. למשל במקרים בהם הנתונים משקפים אפליה חברתית ומשמשים להנצחתה והעמקתה (למשל word2vec של גוגל שכחלק מ”לימוד” השפה "למד" סקסיזם ובהתאם "מציע" הצעות סקסיסטיות).

למשל במקרים בהם יש ניגוד אינטרסים מובנה בין מי שהמידע נאסף עליו למי שמשתמש בו (כמו בין שוטרים ופושעים). לא בטוח שכחברה אנחנו בהכרח "נגד" ההטיה במקרים האלו.

אז מאי נפקמינא?

הבעיה היא לא בעצם התפיסה שאנחנו רוצים לשמור על פרטיות. אבל אנחנו כן צריכים לקחת אחריות על המידע שלנו ולהבין מה אנחנו רוצים שיעשו איתו (ומי), מה אנחנו מוכנים שיעשו איתו (ומי), ומה אנחנו לא מוכנים בכלל.

האם אנחנו מוכנים שאלגוריתם יקרא לנו את המידע? ובן אדם זר בצד השני של העולם ובישראל? ואם זה נשמע לכם דמיוני אז תזכרו שהצנזורה על תוכן לא הולם בפייסבוק לא מתבצעת באמצעות אלגוריתמיקה מתוחכמת אלא באמצעות צוותים בארה"ב, אירלנד, והודו שעוברים על כל פוסט שמסומן כפוגעני.

דיון כזה צריך להוביל כנראה גם לדיון בשאלה מה, אם בכלל, אנחנו רוצים שתהיה מעורבות המדינה באיכפת רגולציה על איסוף נתונים שכזה.

אבל לפני שאנחנו פונים להתערבות המדינה, אנחנו צריכים לקחת אחריות על עצמנו ולפתח מודעות אמיתית – שהיא בהגדרתה ולא אטימות בסגנון "הכל רע" – לאילו אפליקציות אוספות עלינו איזה מידע, ומה הן עושות איתו.

פורסם בקטגוריה Uncategorized | כתיבת תגובה

העלאת אחוז החסימה בישראל – מה קרה עד כה?

לאחרונה עלתה שוב הצעת חוק להעלאת אחוז החסימה לכנסת. הצעות להעלאת אחוז החסימה לכנסת עולות על סדר היום מאז שנות החמישים (למעשה, ההסכם הקואליציוני ב-1954 כלל העלאה של אחוז החסימה ל-4.2% …).

עד כה במדינת ישראל אחוז החסימה עלה 4 פעמים: בבחירות של 1951 (ל-1%), בבחירות של 1992 (ל-1.5%), בבחירות של 2006 (ל-2%) ובבחירות של 2015 (ל-3.25%).

יש די הרבה נימוקים נגד העלאת אחוז החסימה: פגיעה בעיקרון הייצוגיות באופן כללי, ניסיון לפגוע בייצוג של מגזרים ספציפיים, וכו'.

הנימוקים של מצדדי העלאת אחוז החסימה בדרך כלל מדברים על הצורך בהקטנת מספר המפלגות, והגדלת יציבות המערכת הפוליטית על ידי חיזוק הכח של המפלגות הגדולות. אך האם האפקט הזה אכן מושג מהגדלת אחוז החסימה?

בדקתי את הנתונים ההיסטוריים בנוגע לבחירות בישראל תוך התבססות על מאגר ParlGov.

מספר המפלגות

מספר המפלגות בכנסת נע בין 10 (בבחירות של 1981 ושל 2015) ל-16 (בבחירות של 1999).

באופן כללי, נראה שממוצע המפלגות בכנסת לא הושפע משמעותית מאחוז החסימה: 12.7 מפלגות ב-1% חסימה, 13 מפלגות ב-1.5% חסימה, ו-12.3 ב-2% חסימה.

מספר מפלגות לאורך השנים

חיזוק כח המפלגות הגדולות

מה בנוגע לחיזוק כח המפלגות הגדולות? היוריסטיקה שמאחורי תמיכה בהעלאת אחוז החסימה מניחה שכדי להתמודד עם העלאת אחוז החסימה מפלגות קטנות תתאחדנה עם מפלגות גדולות (או שלכל הפחות מצביעי מפלגות קטנות "ינדדו" למפלגות גדולות), מה שיגדיל את כח המפלגות הגדולות בכנסת.

השוואה של מספר המנדטים של המפלגה הגדולה בכנסת בכל אחת מתקופות אחוזי החסימה השונים מצביעה על מגמה הפוכה – ממוצע המנדטים של המפלגה הגדולה בכנסת בתקופת 1% החסימה היה 45.5, בתקופת 1.5% היה 35.5, ובתקופת 2% היה 25.6.

מנדטי המפלגה הגדולה לאורך השנים

הגודל הממוצע של מפלגה בכנסת, אגב, לא מושפע כל כך מהעלאת אחוז החסימה – מ9.6 מנדטים בתקופת 1% חסימה, ל-9.5 מנדטים בתקופת 1.5% חסימה, ו-9.7 מנדטים בתקופת 2% החסימה.

על פניו נראה שמה שבמקביל להעלאת אחוז החסימה גדלו כוחן של "המפלגות הבינוניות" דווקא, ולא של "המפלגות הגדולות".

הגברת היציבות

תופעה דומה ניתן לראות גם במדידת משך זמן כהונת הכנסת: מ-3.7 שנים בממוצע בתקופת 1% החסימה, ל-3.4 בממוצע בתקופת 1.5% החסימה, ל-2.9 שנים בממוצע בתקופת 2% החסימה.

משך כהונת הכנסת לאורך השנים

כמובן שלא ניתן להצביע על סיבתיות מהנתונים האלו, ושמדובר בתוצאה של תהליכים רבים ומורכבים עם גורמים משתנים רבים. מכל מקום, אם המטרה של העלאת אחוז החסימה היא הגדלת כוחה של המפלגה הגדולה בכנסת והגברת יציבות המערכת הפוליטית – מבחינת התנהגות המפלגות והמצביעים עד כה נראה שלא מדובר בתרופה יעילה במיוחד.

פורסם בקטגוריה Uncategorized | כתיבת תגובה

לא רק שזו לא מדיניות, זו אפילו לא טעות (תגובה לשאול אמסטרדמסקי)

שאול אמסטרדמסקי פרסם פוסט ממש מעניין בנוגע למכונות המזל של מפעל הפיס.

בין היתר יש שם נתונים חשובים שבאמת שווה שיעוררו שיח ציבורי בנוגע לכמה המכונות האלו רווחיות למפעל הפיס (בערך רבע מההכנסות בשנת 2014 למרות שקיימות רק בערך 140 מכונות כאלו בכל הארץ) – ולהשלכות החברתיות שיש לדבר הזה (שנוצר על ידי מפעל הפיס שהוא, נזכיר, "חברה לתועלת הציבור" …).

אחת הטענות המרכזיות בפוסט של אמסטרדמסקי היא שלמפעל הפיס יש מדיניות מכוונת של מיקום מכונות המזל האלו באזורים עם אוכלוסייה סוציואקונומית חלשה. לשם ביסוס הטענה הזו הוא מתעמק אנקדוטלית בפיזור התחנות בתלאביב, בירושלים, בפתח תקווה, בראשון לציון, באשדוד, ובאשקלון.

האמנם?

הנקודה העקרונית, לפני שאפרט על בדיקת הנתונים עצמה, היא שקורלציה לא מעידה על סיבתיות, כמו שמזכיר הסטריפ המפורסם של XKCD.

correlation

אם אני הייתי עובד במשרד הפיס והיו מבקשים ממני לגבש מדיניות בנוגע לפיזור מכונות המזל כחלק מהפיילוט, כנראה שהייתי אומר "בואו נשים אותן בתחנות שהן גם ככה הכי רווחיות". זו נשמעת לי כמו מדיניות די מתבקשת.

בהחלט יכול להיות שיש מתאם חזק בין מקומות במעמד סוציואקונומי נמוך לבין תחנות פיס רווחיות – אבל זה כי באופן כללי הימורים זה חרא וכו'. הדבר לא בהכרח מעיד על מדיניות מכוונת ומרושעת של פיזור המכונות במקומות עם אוכלוסייה חלשה.

הנקודה השנייה היא שמבדיקת הנתונים עצמם – נראה לי שבכלל אין קורלציה שכזו.

הבדיקה שערכתי

הסתמכתי בבדיקה על שתיים מהטבלאות שאמסטרדמסקי העלה בסוף הפוסט שלו: so_ec2008.csv ואת טבלת הכתובות של תחנות מכונות המזל.

מתודולוגיה – איחוד הנתונים

so_ec2008 מכילה מידע על בערך 3071 אזורים שב-1236 יישובים בארץ. עבור רוב האזורים יש חלוקה לאחד מ-20 אשכולות סוציואקונומיים, כשאשכול 1 מתייחס לשכונות החלשות יותר (שכונות ספציפיות בבית שמש, ערערה, רהט, תל שבע) ואשכול 20 מתייחס לשכונות החזקות יותר (חיפה, סביון, רמת השרון, ותל אביב). בכל אזור כזה מצוינות שכונות מרכזיות ורחובות מרכזיים.

בשלב השני בחנתי את 142 תחנות הפיס שבהן יש מכונת מזל. עבור אלו מתוכן שממוקמות ברחוב שצוין כ"רחוב מרכזי" באחד מהאיזורים בטבלה so_ec2008 הוספתי את האשכול הסוציואקונומי שלו. ברחובות שעוברים בין מספר איזורים כאלו ציינתי את ממוצע האשכולות (למעט 2 מקרים בהם פיזור האשכולות הסוציואקונומיים ברחוב היה גבוהה במיוחד).

בדרך זו הצלחתי לקטלג 106 מתוך 142 התחנות. עבור 36 התחנות הנוספות – נראה שחלקן הגדול ממוקמות באזורי תעשייה בהן ככל הנראה לא גרים ולכן הלמ"ס לא מחלק את האזור לאשכול סוציואקונומי כלשהו. עבור חלקן פשוט לא הצלחתי לחלץ נתונים (הרחוב לא הופיע כרחוב מרכזי באף אחד מהאזורים ביישוב, או שהישוב לא הופיע ברשימת הלמ”ס).

הבדיקה

ממוצע האשכול הסוציואקונומי הארצי הוא 9.9, החציון הוא 10, וסטיית התקן היא 4.1.

ממוצע האשכול הסוציואקונומי עבור אזורים בהן יש תחנת פיס ובה מכונת מזל הוא 10.2, החציון הוא 10, וסטיית התקן היא 2.8.

עריכה: וככה ההתפלגות נראית ויזואלית:

אשכול

כלומר: לא נראה שיש כלל הטייה בנוגע לאשכול הסוציואקונומי עבור אזורים בהם הוצבה מכונת מזל. פיזור אקראי לחלוטין של מכונות מזל היה אמור להגיע לתוצאה דומה.

כלל התחנות שמובלטות בפוסט של אמסטרדמסקי כמובן קיימות, אך לצידן קיימות גם תחנות ברחוב אחוזה ברעננה (אשכול 16), בדרך מגדיאל וברחוב הבנים בהוד השרון (שניהם אשכול 15), בכצנלסון בגבעתיים (אשכול 15), ברחוב תובל ברמת גן (אשכול 14), ויצמן בכפר סבא (אשכול 14), וכו'.

הסתייגויות מתודולוגיות

באשר לשלב איחוד הנתונים – אני מאמין שאין משהו שמשותף ל-36 התחנות שלא הצלחתי לחלץ עבורן אשכול סוציואקונומי, ושלכן אין הטיה בבדיקה. עם זאת, כמובן שקטלוג התחנות הנותרות יכול להביא לתוצאות מהימנות יותר.

כך גם בנוגע להסתמכות שלי על ממוצע האשכול הסוציואקונומי עבור רחובות שחצו יותר מאזור אחד. כנראה שחילוץ על בסיס גיאוגרפי היה יכול להיות גם הוא טוב יותר – אם כי, כאמור, השונות לא הייתה גדולה מדי עבור רוב התחנות הללו, ואני לא מאמין שבדיקה מדויקת יותר על בסיס גיאוגרפיה תוביל לתוצאות שונות באופן משמעותי.

בנוסף, כביכול יש הנחה מובלעת שהרווח של מפעל הפיס זהה בכל התחנות הללו – מה שלא בטוח. בהחלט יתכן שהתחנות באום אלפחם, לוד, ואופקים מכניסות יותר רווח לפיס ושאנשים שם מוציאים יותר כסף (בין אם אבסולוטית ובין אם כאחוז מההכנסה הפנויה) מאשר בתחנות אחרות.

סיכום דבר

להבנתי אין מתאם בין אשכול סוציואקונומי נמוך לבין החלטת מפעל הפיס להציב מכונת מזל שם.  עריכה2: הרצתי מבחן כי בריבוע על ההתפלגות פיזור מכונות המזל למול התפלגות האזורים בין האשכולות השונים. באופן מובהק (p-value קטן מעשירית האחוז) נראה שדווקא יש קשר בין השניים – אבל ייצוג היתר הוא לא "לאשכולות הנמוכים יותר" אלא בעיקר לאשכול מספר 10.

מדובר על התחנות שממוקמות במקומות כמו העליה ולה גארדיה בתל-אביב, אגריפס בירושלים, העצמאות בקרית אתא, רוגוזין באשדוד, וכו'.

ויתר על כן, אפילו לא היה מתאם כזה – שימוש במתאם הזה כדי להצביע על מדיניות מכוונת של מפעל הפיס היה אנקדוטלי בלבד, ובעיניי גם לא סביר.

מכל מקום – הפוסט של אמסטרדמסקי מעלה נקודות חשובות רבות, ולשאלה האם כן או לא להתיר למפעל הפיס לפזר מכונות מזל יש השלכות חברתיות משמעותיות שצריך לדון בהן והקשר פוליטי ברור.

בהיבט הזה זה לא משנה אם מפעל הפיס "נטפל" באותה המידע לאנשים ברחוב אחוזה ברעננה או ברחוב הרצל בלוד.

פורסם בקטגוריה Uncategorized | 3 תגובות

מחשבות ביום העצמאות, 2016

יום העצמאות הוא תמיד הזדמנות טובה לדיונים על אופיה הרצוי של ישראל. "לאן בעצם אנחנו רוצים להגיע?" ו"איפה אנחנו עומדים ביחס לכך?".

השנה, על רקע התבטאות סגן הרמטכ"ל והשיח שהיא עוררה בנוגע לתהליכי עומק בחברה, נראה שיש הצדקה מיוחדת לחזור ולשאול את השאלות האלו. האם באמת אפשר לזהות בישראל היום תהליכים מעוררי חלחלה שהתרחשו באירופה בשנות ה-20-40? האם החברה הישראלית הופכת להיות פחות דמוקרטית? פחות סובלנית לאחר? יותר אלימה?

יהודית ודמוקרטית

יום העצמאות הוא גם תירוץ טוב לחזור ולקרוא במגילת העצמאות – מהטקסטים הבודדים שאשכרה עברו תהליך קנוניזציה בפוליטיקה הישראלית.

בניגוד לאיזו מיסקונספציה שנראה שקנתה לה אחיזה, מגילת העצמאות לא כוננה את ישראל כמדינה "יהודית ודמוקרטית". היא כוננה אותה כמדינה יהודית (ביטוי שמופיע במגילה 5 פעמים), ולמרות שהיא משתיתה את המדינה על יסודות הצדק והחירות המילה "דמוקרטיה" לא מופיעה במגילה אפילו פעם אחת.

ואין להקל בכך ראש, זה לא משהו שקרה במקרה או בטעות. למעשה, כפי שאפשר לראות יפה במחקר של יורם שחר בנושא – טיוטה מוקדמת של המגילה (הצעת ברנזון) ביקשה להכריז על הקמת "מדינה יהודית חפשית, עצמאית ודמוקרטית". היעדר ההתייחסות לדמוקרטיה בהכרזת העצמאות קרתה לאור החלטה מודעת להסיר את המילה הזו מהמגילה (דבר שאפילו נדון בישיבת מפ"ם ביום ההכרזה).

למעשה, ההופעה הראשונה בחקיקה של משהו שדומה לנוסחת "יהודית ודמוקרטית" קרתה כ-40 שנה מאוחר יותר, ב-1985, והביטוי המפורש עצמו מופיע לראשונה רק בחוק יסוד: כבוד האדם וחירותו משנת 1992. החוק הוא שאפשר לבג"צ לפרש את "המהפכה החוקתית" ולמעשה היווה אבן דרך משמעותית הן בפיסה והן בפרקטיקה של דמוקרטיותה של המדינה.

האם ב-25 השנה (כמעט) שעברו מאז החברה הישראלית "חזרה בה" מההתקדמות הזו? האם תפיסת חשיבות הדמוקרטיה בישראל במגמת ירידה?

אחת השאלות החוזרות מאז 2010 במסגרת הסקר השנתי של "המכון הישראלי לדמוקרטיה" (למרואיינים היהודים) היא "ישראל מוגדרת גם מדינה יהודית וגם מדינה דמוקרטית. אישית, איזה חלק מההגדרה הזו חשוב לך יותר?". המגמה ב-5 השנים האחרונות מפתיעה:

יהודית או דמוקרטית.jpg

תופעה ברורה אחת היא הירידה המשמעותית בשיעור האנשים שמגדירים את שני חלקי ההגדרה כחשובים באותה המידה – מ-48% בשנת 2010 ל-27% בלבד בשנת 2015. הדבר מעיד על כך, לדעתי, שחלקי המשוואה נתפסים כפחות ברי יישוב זה עם זה.

אבל הדבר המפתיע יותר, לפחות למי ששותף לתחושות סגן הרמטכ"ל, הוא שהעלייה בשיעור האנשים שמגדירים את אופיה היהודי של המדינה כחשוב להם יותר מאופייה הדמוקרטי היא די זניחה – מ-32.4% בשנת 2010 ל-36.6% בשנת 2015.

דווקא שיעור האנשים שמגדירים את אופיה הדמוקרטי של המדינה כחשוב להם יותר מאופייה היהודי הוא זה שיותר מהכפיל(!) את עצמו בשנים האלו – מ-17% בשנת 2010 ל-35% בשנת 2015.

האחר הוא אני

אבל כמה הדברים באמת באים לידי ביטוי בפועל? למה בעצם אנשים מתכוונים כשהם מדברים על "דמוקרטיה" ועל "יהדות" בסקר הזה? הרי אין ספק שקורים דברים מטרידים ו"מעוררי חלחלה" בישראל היום: הצתת מחמד אבו ח'דיר, התבטאויות פוליטיקאים שמשוות בני אדם לסרטן, אלימות נגד ערבים ומפגיני שמאל יהודים, וכו'.

אך האם מדובר בתופעות חדשות במציאות הישראלית? לפחות ברמה האנקדוטלית אפשר למצוא דוגמאות לתופעות דומות, אם לא חמורות מכך, גם בשנים עברו במדינה. רשימה חלקית יכולה לכלול את כך שכדי לשבור את מחאת הימאים ב-1951 השלטון שלח קבוצות בריונים חמושים להכות את השובתים ואף גייס את ראשי המחאה למילואים כדי לשבור אותה; שערביי ישראל היו תחת שלטון צבאי עד 1966; שב-1951 במסגרת ההפגנות נגד המו"מ עם ממשלת גרמניה על השילומים רמת האלימות הגיעה עד לזריקת אבנים ופציעת חבר כנסת; שעמוס קינן ניסה להתנקש (כמה פעמים..) בשר התחבורה דוד פנקס ב-1952; את המחתרת היהודית בשנות השמונים; את פרשת קו 300; את הרצח של אמיל גרינצוויג ב-1983; את אירועי אוקטובר 2000; את רצח רבין; את ההתנתקות (כנראה האקט הממוסד האלים ביותר של המדינה נגד אזרחיה בעשורים האחרונים); ועוד.

ברמה התרבותית מספיק לראות סרטי מתיחות ישראליים משנות השמונים כדי לראות שהשיח האלים הסקסיסטי והפוגעני של היום הוא כלום לעומת מה שנחשב לא רק לסטנדרט אלא אף לבידור לפני שלושים שנה.

הראיות האנקדוטליות האלו מרמזות על כך שכלל לא בטוח שהחברה הישראלית הופכת להיות פחות דמוקרטית, פחות סובלנית, או יותר אלימה. זה לא שאין בה תופעות כאלו, אלא להפך – זה שתמיד היו, וכנראה שבעבר היו יותר מהיום.

ובכל זאת?

אבל האם ההתגייסות הרחבה, למשל, לתמיכה בדוד הנחלאווי ובאלאור עזריה – כנגד עמדת ראשי מערכת הביטחון – לא מעידה על שינויים שכאלו? האם ניתן למצוא אירועים מקבילים לכך בעבר הישראלי? אם החברה הופכת להיות יותר תומכת בדמוקרטיה ופחות אלימה – על מה מבוססת תחושת הטרדה?

אין ספק שהחברה הישראלית עוברת שינויים משמעותיים. ההסבר למגמות אלו, להבנתי, נוגע לשינויים הנוגעים לאליטות בישראל: הן ליחסים בתוך האליטות (כגון עלייה של אליטות חדשות) והן ליחס החברתי הכלי לעצם קיומן של אליטות כאלו.

חלק מהשינויים הם תולדה של נסיבות לוקאליות כמו שינויים דמוגרפיים חלקם הם בעצם חלק ממגמה עולמית שהיא תולדה, למשל, של טכנולוגיות תקשורת חדשות כמו רשתות חברתיות והשפעתן על השיח הפוליטי. מספיק לקרוא את המאמר שאנדרו סאליבן פרסם בעקבות זכיית טראמפ במועמדות הרפובליקנית – מאמר שרצוף בתמות שמוכרות ממחוותינו כמו "הדמוקרטיה עומדת בפני סכנה" ו"גנבו לנו את המדינה" – כדי לקבל המחשה לכך.

השכיחות הגוברת בספרות הישראלית בהתייחסות לאליטות מסוגים שונים ממחישה גם היא את הערעור החברתי על סמכויות אלו.

אליטההאליטה ה

אציע, אם כן, שהתופעה החדשה אינה גילויי אלימות / היעדר סובלנות / וכו' – אלא שחיקה במנגנונים החברתיים להתמודדות איתם ולברר מה נכון ולגיטימי ומה לא. הכח הזה עובר, כך נראה, מהמיעוט להמון – ובאליטה, כמו תמיד, יש מי שמפחד מאותו ההמון.

בשורה התחתונה – ההלנה על מגמות בחברה הישראלית היא אמצעי רטורי שנועד להעביר את המסר "אי אפשר לנוח על זרי הדפנה – צריך להמשיך במאמץ אקטיבי ומודע לנסות לשפר את החברה שאנחנו חיים בה". אנחנו צריכים לחשוב באופן יסודי "על איך אנחנו, כאן ועכשיו, נוהגים בגר, ביתום ובאלמנה, ובאלו שדומים להם".

כ"קריאת קרב" ההצבעה על תופעות מטרידות והצגתן כחלק מתהליכים מתמשכים – לא צריכה להיות מדויקת, היא צריכה להיות אפקטיבית. בסופו של דבר, השאלה כמה אנלוגיה או אבחנה היסטורית מסוימת היא מוצלחת זאת שאלה משנית. השאלה החשובה יותר שכדאי שכל אחד ישראל את עצמו היא האם אכן יש דברים מעוררי דאגה בחברה ובפוליטיקה הישראלית. ואם כן – מה עשית לגביהם?

חג עצמאות שמח!

פורסם בקטגוריה Uncategorized | תגובה אחת

(קצת) על האסתטיקה של הפוליטיקה, ו(בעיקר על )אמנות הגליץ' כמתודולוגיה

לפני כחודשיים גוגל הכריזה על פתיחת ה-API של שירות Vision שלה לציבור הרחב. המשמעות היא שעכשיו כל מי שרוצה יכול להשתמש במנוע זיהוי התמונות של גוגל לשימושו. בין הפיצ'רים שה-API מציע: חילוץ טקסט מתמונה (OCR), זיהוי רגשות בפרצופים בתמונות, זיהוי תוכן בלתי הולם בתמונות, וכו'.

עניין אותי לשחק קצת עם ה-API, והחלטתי להתרכז בפיצ'ר הבסיסי שלו: זיהוי תוכן בתמונות. הרעיון הוא שבגדול אפשר לבדוק כל תמונה מול המנוע של "גוגל תמונות", ולקבל בחזרה "תגיות" אוטומאטיות לתמונות. ואכן – מעלים תמונה של חתול, ומקבלים את התגיות "חתול" ו"חיית מחמד" וכו'. כיף גדול.

כחובב של תחום מחקרי תקשורת פוליטית החלטתי לערוך את הבדיקה הבאה:

1. להוריד את 100 התמונות האחרונות מדפי הפייסבוק של מפלגת העבודה ושל מפלגת הליכוד (נעשה באמצעות Bulk Image Downloader)

2. לכתוב קוד שמחלץ את התגיות האוטומאטיות שגוגל מזהה עבור כל תמונה ומבנה אותן בצורה נוחה לניתוח (הקוד זמין ב-Github שלי)

3. לבחון אילו תגיות מאפיינות באופן מובהק מפלגה אחת יותר מהשנייה, לתת לכך פרשנות והסבר, וכו'.

הרבה כבר נכתב על הקשר בין אסתטיקה ופוליטיקה, ועל פניו נשמע לי שה-API החדש מאפשר למכן הרבה מהתהליך של "כתיבת סמינריון" על דימויים שונים בפוליטיקה הישראלית וכיוצא בזה (ואני בטוח שבכל סמסטר נכתבים מספר סמינריונים בשטאנץ כזה).

אבל אז הגיע שלב ההוצאה לפועל של התכנית.

גוגל הצליחה לחלץ 149 תגיות לתמונות שהעליתי. מסתבר שחלק מהדברים שגוגל זיהה בתמונות הם באמת straight-forward דברים שיש בתמונות. כך, למשל, אפשר להגיד, ששתי המפלגות העלו כמות יחסית דומה של תמונות בהן בולט בעיקר אדם אחד (התגית person) עם 29 תמונות ל"ליכוד" ו-26 ל"עבודה"; אבל מפלגת העבודה העלתה משמעותית יותר תמונות של "קהל אנשים" (תגית crowd): 13 ל"עבודה" בהשוואה ל-2 ל"ליכוד".

אפשר גם להגיד ששתי המפלגות העלו כמות יחסית דומה של תמונות של "כנס" (convention 13): ל"עבודה" ו-10 ל"ליכוד". כל אחת מהן גם העלתה 2 תמונות שכוללות ילדים (child).

אבל יש כמה דברים שגוגל לא הצליח לראות בתמונות. למשל, לא עלתה אף תגית שקשורה בפוליטיקה או בישראל או בציונות וכו'. שזה ניחא.

החלק המעניין באמת, בעיניי, הוא הגליצ'ים שיצאו לגוגל בנסיון לזהות את התמונה. אמנות גליץ'יצירות שמבוססת על האסתטיקה שב"באגים" דיגיטליים או אנאלוגיים קיימת כבר כמה עשרות שנים. אבל האם יש ערך בגליץ' גם כמתודולוגיה לבחינה של אסתטיקה של דימוים?

כאמור, גוגל לא זיהה אף אחת מהתמונות כתמונה של "פוליטיקאי". אבל הוא כן זיהה חלק מהתמונות כתמונות של "אנשי עסקים" (businessperson) ושל "כנס אקדמי" (academic conference).

כדי לעשות sanity-check לתוצאות התבוננתי בתמונות. פתאום היה בזה משהו הגיוני. גם דימויים שקשורים לעולם העסקים ולעולם האקדמי נסובים סביב דמויות בלבוש רשמי, שולחנות דיונים, נאומים וקתדרות, וכו'.

אבל למה רוב התמונות שזכו לתגית "אנשי עסקים" היו של "הליכוד" (9 בהשוואה ל-5) ותמונות "כנס אקדמי" היו של "העבודה" (22 בהשוואה ל-14)?

האם משהו באסתטיקה של תמונות הליכוד "עסקי" יותר? משהו באסתטיקה של תמונות העבודה "אקדמי" יותר?

הליכוד – אסתטיקה של אנשי עסקים? – אילוסטרציה

העבודה – אסתטיקה של כנס אקדמי? – אילוסטרציה

בחוויה שלי, כשגוגל מציג את זה ככה – אז פתאום נראה שכן.

אני לא יודע אם ניתוח איכותני של מישהו היה יכול להיות משכנע באותה המידה כמו שפרספקטיבה של מחשב יכולה. בטח כשמדובר באלגוריתם בעל קרדיט כמו גוגל תמונות – קשה שלא לקבל אותו כסוגשל סמכות לעניין. ואם הוא אומר ש-9 מהתמונות של מפלגת העבודה מזכירות לו תמונות של חברת תעופה (airline) – אז המבט הבא על התמונה של עומר ברלב ישר מלווה במחשבה של "כן, אני מניח שהוא באמת נראה כמו טייס או משהו …”

12670251_1252477224766467_522172482678397491_n

ד"ר צבי לניר דיבר על הצורך בפיתוח אינטליגנציית "מסגור מחדש" (reframing) – המאפשרת להתבונן על אותם הדברים מזוויות חדשות ולאמץ פרשנות נוספת אודותם. העובדה שמנועי למידת המכונה של גוגל מאפשרים לגוגל לבסס "אסוסיאציה" על דימויים, והפער (גליץ') שבין האסוסיאציה הגוגלית לזו שלנו יוצרים הזדמנות מעולה לחווית אינסטנט של "מסגור מחדש".

במצב הנוכחי התבססות על הגליץ' של זיהוי התמונות זו שיטה מתודולוגית מעניינת ומרחיבת גבולות לבחינת אסתטיקה של דברים – הגם ואני מניח שהמגמה תהיה לנסות למזער את הגליצ'ים האלו ולטייב את תגיות גוגל כך שהן תוכלנה להגיד למשתמש רק את מה שהוא רוצה לשמוע, את "המובן מאליו".

פורסם בקטגוריה Uncategorized | עם התגים | 5 תגובות