(קצת) על האסתטיקה של הפוליטיקה, ו(בעיקר על )אמנות הגליץ' כמתודולוגיה

לפני כחודשיים גוגל הכריזה על פתיחת ה-API של שירות Vision שלה לציבור הרחב. המשמעות היא שעכשיו כל מי שרוצה יכול להשתמש במנוע זיהוי התמונות של גוגל לשימושו. בין הפיצ'רים שה-API מציע: חילוץ טקסט מתמונה (OCR), זיהוי רגשות בפרצופים בתמונות, זיהוי תוכן בלתי הולם בתמונות, וכו'.

עניין אותי לשחק קצת עם ה-API, והחלטתי להתרכז בפיצ'ר הבסיסי שלו: זיהוי תוכן בתמונות. הרעיון הוא שבגדול אפשר לבדוק כל תמונה מול המנוע של "גוגל תמונות", ולקבל בחזרה "תגיות" אוטומאטיות לתמונות. ואכן – מעלים תמונה של חתול, ומקבלים את התגיות "חתול" ו"חיית מחמד" וכו'. כיף גדול.

כחובב של תחום מחקרי תקשורת פוליטית החלטתי לערוך את הבדיקה הבאה:

1. להוריד את 100 התמונות האחרונות מדפי הפייסבוק של מפלגת העבודה ושל מפלגת הליכוד (נעשה באמצעות Bulk Image Downloader)

2. לכתוב קוד שמחלץ את התגיות האוטומאטיות שגוגל מזהה עבור כל תמונה ומבנה אותן בצורה נוחה לניתוח (הקוד זמין ב-Github שלי)

3. לבחון אילו תגיות מאפיינות באופן מובהק מפלגה אחת יותר מהשנייה, לתת לכך פרשנות והסבר, וכו'.

הרבה כבר נכתב על הקשר בין אסתטיקה ופוליטיקה, ועל פניו נשמע לי שה-API החדש מאפשר למכן הרבה מהתהליך של "כתיבת סמינריון" על דימויים שונים בפוליטיקה הישראלית וכיוצא בזה (ואני בטוח שבכל סמסטר נכתבים מספר סמינריונים בשטאנץ כזה).

אבל אז הגיע שלב ההוצאה לפועל של התכנית.

גוגל הצליחה לחלץ 149 תגיות לתמונות שהעליתי. מסתבר שחלק מהדברים שגוגל זיהה בתמונות הם באמת straight-forward דברים שיש בתמונות. כך, למשל, אפשר להגיד, ששתי המפלגות העלו כמות יחסית דומה של תמונות בהן בולט בעיקר אדם אחד (התגית person) עם 29 תמונות ל"ליכוד" ו-26 ל"עבודה"; אבל מפלגת העבודה העלתה משמעותית יותר תמונות של "קהל אנשים" (תגית crowd): 13 ל"עבודה" בהשוואה ל-2 ל"ליכוד".

אפשר גם להגיד ששתי המפלגות העלו כמות יחסית דומה של תמונות של "כנס" (convention 13): ל"עבודה" ו-10 ל"ליכוד". כל אחת מהן גם העלתה 2 תמונות שכוללות ילדים (child).

אבל יש כמה דברים שגוגל לא הצליח לראות בתמונות. למשל, לא עלתה אף תגית שקשורה בפוליטיקה או בישראל או בציונות וכו'. שזה ניחא.

החלק המעניין באמת, בעיניי, הוא הגליצ'ים שיצאו לגוגל בנסיון לזהות את התמונה. אמנות גליץ'יצירות שמבוססת על האסתטיקה שב"באגים" דיגיטליים או אנאלוגיים קיימת כבר כמה עשרות שנים. אבל האם יש ערך בגליץ' גם כמתודולוגיה לבחינה של אסתטיקה של דימוים?

כאמור, גוגל לא זיהה אף אחת מהתמונות כתמונה של "פוליטיקאי". אבל הוא כן זיהה חלק מהתמונות כתמונות של "אנשי עסקים" (businessperson) ושל "כנס אקדמי" (academic conference).

כדי לעשות sanity-check לתוצאות התבוננתי בתמונות. פתאום היה בזה משהו הגיוני. גם דימויים שקשורים לעולם העסקים ולעולם האקדמי נסובים סביב דמויות בלבוש רשמי, שולחנות דיונים, נאומים וקתדרות, וכו'.

אבל למה רוב התמונות שזכו לתגית "אנשי עסקים" היו של "הליכוד" (9 בהשוואה ל-5) ותמונות "כנס אקדמי" היו של "העבודה" (22 בהשוואה ל-14)?

האם משהו באסתטיקה של תמונות הליכוד "עסקי" יותר? משהו באסתטיקה של תמונות העבודה "אקדמי" יותר?

הליכוד – אסתטיקה של אנשי עסקים? – אילוסטרציה

העבודה – אסתטיקה של כנס אקדמי? – אילוסטרציה

בחוויה שלי, כשגוגל מציג את זה ככה – אז פתאום נראה שכן.

אני לא יודע אם ניתוח איכותני של מישהו היה יכול להיות משכנע באותה המידה כמו שפרספקטיבה של מחשב יכולה. בטח כשמדובר באלגוריתם בעל קרדיט כמו גוגל תמונות – קשה שלא לקבל אותו כסוגשל סמכות לעניין. ואם הוא אומר ש-9 מהתמונות של מפלגת העבודה מזכירות לו תמונות של חברת תעופה (airline) – אז המבט הבא על התמונה של עומר ברלב ישר מלווה במחשבה של "כן, אני מניח שהוא באמת נראה כמו טייס או משהו …”

12670251_1252477224766467_522172482678397491_n

ד"ר צבי לניר דיבר על הצורך בפיתוח אינטליגנציית "מסגור מחדש" (reframing) – המאפשרת להתבונן על אותם הדברים מזוויות חדשות ולאמץ פרשנות נוספת אודותם. העובדה שמנועי למידת המכונה של גוגל מאפשרים לגוגל לבסס "אסוסיאציה" על דימויים, והפער (גליץ') שבין האסוסיאציה הגוגלית לזו שלנו יוצרים הזדמנות מעולה לחווית אינסטנט של "מסגור מחדש".

במצב הנוכחי התבססות על הגליץ' של זיהוי התמונות זו שיטה מתודולוגית מעניינת ומרחיבת גבולות לבחינת אסתטיקה של דברים – הגם ואני מניח שהמגמה תהיה לנסות למזער את הגליצ'ים האלו ולטייב את תגיות גוגל כך שהן תוכלנה להגיד למשתמש רק את מה שהוא רוצה לשמוע, את "המובן מאליו".

פוסט זה פורסם בקטגוריה Uncategorized, עם התגים . אפשר להגיע ישירות לפוסט זה עם קישור ישיר.

5 תגובות על (קצת) על האסתטיקה של הפוליטיקה, ו(בעיקר על )אמנות הגליץ' כמתודולוגיה

  1. galoosh33 הגיב:

    פוסט מעולה, זוית מעניינת על ה-API.. גם לי יצא להתנסות איתו קצת לא מזמן, וחוץ מהכלי של landmark detection (זיהוי מקומות מפורסמים) שהיה ממש גרוע, התרשמתי ממש.
    כמה הערות על הפוסט. קודם כל סתם הערה טכנית: חייבת להודות שלא כ״כ השתכנעתי מהתוצאות, פשוט כי מדגם של 100 מרגיש לי קטן מדי. אם זה היה סמינר שבו בודקים ידנית את התמונות כנראה שזה היה מספק, אבל דווקא בפוסט הזה אפשר לעשות סקיילינג עם עלות כמעט אפסית. למה לא לבדוק את *כל* התמונות? לבדוק שינויים ומגמות על פני זמן? לעשות חיתוכים עם תמונות ״פופולריות״?
    ומשהו קצת יותר מהותי, שאני לא ממש מצליחה לנסח עד הסוף:
    האלגוריתם (ולדעתי רוב האלגוריתמים של זיהוי אובייקטים בתמונה שמיישמים היום) מתבסס בסופו של דבר על זיהוי ויזואלי: דברים שאפשר ״לראות״ באופן ברור בתמונה, ובלראות הכוונה היא שהם באים לידי ביטוי באיזשהו אופן (מסובך מאוד…) בייצוג של התמונה כמטריצה של פיקסלים. לדעתי, האובייקטים שאתה ״רואה״ בתמונה – פוליטיקאי, למשל – הם לא כאלו. כי בעצם, מבחין בין סתם בנאדם שלבוש כמו איש עסקים לבין פוליטיקאי? בכנות, אני לא בטוחה. אם זו אבחנה שקיימת ברמת התמונה, אלגוריתם שאומן מספיק טוב אמור לדעת לעשות את האבחנה בעצמו; אבל אם היא לא קיימת (ואנחנו מזהים את ביבי כפוליטקאי פשוט כי אנחנו מכירים אותו ויודעים שהוא פוליטקאי), הדרך היחיד ״ללמוד״ מה זה פוליטיקאי היא להכיר את הפוליטקאים ואת הסטינגס שהם נוטים להצטלם בהם. בקיצור, כשאתה משתמש בשירות הזה בצורה שהשתמשת בו בפוסט, אתה באיזשהו מקום ״משיל״ את שכבת הזיהוי שמבצעת באופן אוטומטי כל מיני קישורים והסקות מהקשרים, ורואה את הדברים קצת יותר ״כמו שהם באמת״. מה שאני מנסה להגיד הוא שהמקור של ״הפער״ הזה שאתה מדבר עליו הוא בדיוק אותו רובד של זיהוי שלאלגוריתם הזה עדיין אין. יש בזה סוג של קסם וזה מרגיש אובייקטיבי יותר. אבל בסופו של דבר פונ׳ המטרה של המהנדסים של הדברים האלו היא בדיוק למזער את הפער הזה ולכן ככל שהטכנולוגיה תתקדם הביצועים אמורים להיות יותר קרובים לשל בני אדם. ובבני-אדם אני מתכוונת למי שיושב ומתייג את התמונות בגוגל 🙂

    • 50stuck הגיב:

      קודם כל – תודה!
      בנוגע להערות:
      א. כן, אני מסכים שצריך לעשות את זה גם על מדגם גדול יותר (או לא מדגם, אלא פשוט אוסף גדול של כל התמונות ש…). אולי אנסה משהו כזה בקרוב.
      ב. בנוגע להערה המהותית יותר – אני גם לגמרי מסכים. זה בעצם מה שניסיתי להגיד בפוסט, שבנקודה הנוכחית אפשר עוד לשחק על ה"פער" הזה, אבל בטח בעתיד ככל שהטכנולוגיה תשתפר הפער ילך ויצטמצם. דווקא הגליץ' הזה הוא מה שיוצר את האפשרות לראות את הדברים יותר "כמו שהם באמת".
      ג. אגב, בנוגע לשאלה מה מבחין בין סתם בנאדם שלבוש כמו איש עסקים לבין פוליטיקאי – בהקשר של הממצאים האלו צריך גם לשאול מה מבחין בינם לבין אקדמאי.

  2. Sofia Haytin הגיב:

    וואו, ממש מעניין! תודה.
    אגב, רק אני או שהפנסיונר החביב מהתמונה של סתיו שפיר נראה שתי טיפות מים כמו ברני סנדרס?

  3. Omerbor הגיב:

    שמע חבר, פוסט מצוין. בהתחלה לא הבנתי מה אתה מסתבך עכשיו עם הזיהוי תמונות הזה, אבל עלית פה על משהו חשוב. זה מזכיר לי משפט שפעם שמעתי (שום סיכוי שאני זוכר רפרנס לזה), שאמר שהמזרחים בעיירות הפיתוח אהבו את בגין (בין היתר), כי הוא היה לבוש בחליפה ועניבה והביע בזה יותר כבוד. עוד משהו מעניין, שאנשי העבודה שהם האליטיסטיים האמיתיים ברוב המקרים (לפחות על פי שיוך מעמדי שכולל הון תרבותי, הון פיזי, והשכלה), כנראה מרגישים שהם צריכים טו דאונגרייד את הלבוש שלהם, וההפך נכון לגבי אנשי הליכוד. יכול להיות שגם סתם הליכוד בשלטון אז חלק גדול יותר מהאנשים הם שרים אש הם מתלבשים בצורה מכובדת יותר. בכל אופן, סחטיין, פוסט מעניין, כן יירבו.

כתיבת תגובה