בעקבות מפגש ADS וקורסרה: מחשבות על השכלה ומדע הנתונים

לפני שלוש שנים בערך התחלתי להתעניין בצורה רצינית בתחום ה-Data Science. עם תואר שני במדע המדינה ותואר ראשון בכלכלה ומזה"ת הייתי צריך למצוא דרך להשלים פערים ולרכוש מיומנויות נדרשות בתכנות, סטטיסטיקה, אלגברה לינארית, וכו'. קורסרה התגלתה כאתר מעולה לצורך הזה.

אחרי משהו כמו 20 קורסים באתר, ועם מטרה "לעלות שלב" ברמה המקצועית שלי בתחום, התחלתי תואר שני נוסף ב-Data Science באוניברסיטת אמסטרדם. אחת הסיבות שבחרתי באמסטרדם היא "ההחלטה אסטרטגית" של העיר לתעדף את תחום ה-DS ולפתח "אקו-סיסטם" סביבו: כולל שיתופי פעולה של אוניברסיטאות, גופי מחקר, גופים עירוניים, תאגידים גדולים, סטארט-אפים מקומיים, וכו'. (חוץ מזה שנשמע מגניב לגור באמסטרדם).

כחלק מסצינת הדאטה סיינס העירונית מתקיימים די הרבה מפגשים בתחום שפתוחים לקהל הרחב. ביום שישי האחרון התקיים מפגש כזה שסבב סביב תחום ה-Data Science והשכלה. המפגש נערך בהשתתפות, בין היתר, מנכ"ל קורסרה, Jeff Maggioncalda; ה-Director of Data Science של קורסרה, Emily Glassberg Sand; ודמויות בולטות מאוניברסיטאות ועסקים בעיר.

מצאתי את המפגש מעניין ומעורר השראה במיוחד, ומצאתי לנכון לחלוק חלק מהדברים שעלו במסגרתו. זה יהיה פוסט קצת משונה, שינסה לעבור על מספר נקודות מעניינות שעלו במהלך הסימפוזיון ולא בנוי כדי להעביר טענה מסוימת.

0.png

מחשבות על השכלה

איך מנכ"ל קורסרה הציג את קורסרה ואת המקום של לימודי מדע נתונים באתר

1

בדברי הפתיחה שלו, Maggioncalda הציג נראטיב מעניין בנוגע לקורסרה. לשיטתו, פעם התפיסה הרווחת הייתה שמסלול חיים "רגיל" של אנשים משכילים כלל התבגרות, תקופת למידה, ואז תקופה ארוכה של "עבודה" איפשהו.

אחד האתגרים הגדולים של התפיסה הזו היום היא שהצרכים של לקוחות משתנים במהירות, מה שגורם לעבודות להשתנות במהירות ובהתאם גם למיומנויות שנדרשות ממועסקים. בגלל הצורך להתפרנס ולפרנס משק בית – מערכת הלמידה צריכה למצוא דרך "להדביק" את קצב ההשתנות הזה – מה שאומר בפועל לאפשר לרכוש מיומנויות שעסקים ימצאו כערכיות.

בהסתכלות הזו, לא מפתיע שמדעי המחשב ומדעי הנתונים היו הקטגוריות הראשונות שאנשים ממש התעניינו בהם בקורסרה. יש לאתר היום 28 מיליון לומדים מרחבי העולם, רובם לא מארה"ב – הרבה מאסיה אפריקה ומהמזה"ת, 20% מאירופה.

הרעיון של Lifelong Learning והשפעתו על מערכת ההשכלה

באופן כללי, קצב השינויים המתואר לעיל גורם לכך שההפרדה בין "תקופת לימודים" ל-"תקופת עבודה" מיטשטשת. הידע שצוברים הופך ל"מיושן" ומאבד מהערכיות שלו בשוק העבודה, מה שמצריך להמשיך ולשלב לימודים כחלק ממסלול החיים גם בתקופת ה"עבודה".

מצד שני, בתקופה הזו אנשים עסוקים מאוד ולא מסוגלים בהכרח להקדיש את כל יומם ללימודים. מנכ"ל קורסרה הצביע על המתח המעניין בתחום מדע הנתונים – מצד אחד זה תחום מבוקש על ידי מעסיקים ולומדים רבים (מיליוני אנשים לומדים דאטה סיינס בקורסרה – רבים מהם הם כבר בעלי תואר שני) , אבל מצד שני "אי אפשר להתעורר יום אחד ולהחליט להיות Data Scientist בתוך חודש" לאור הצורך בבסיס רחב לתחום.

השינוי הזה לא "מייתר" את תקופת הלימודים, אבל כן קורא להסתכלות אחרת עליה. מה שמערכת ההשכלה הפורמאלית צריכה לתת, בראייתו, הוא "בסיס רחב וטוב מספיק" כדי לבנות עליו בהמשך. יש, למשל, צורך ב-primary education טוב שיכשיר אנשים ללמוד איך לקרוא ולכתוב, לעבוד בצוות, לדעת מתמטיקה ברמה בסיסית, וכו'.

באופן כללי, לאוניברסיטאות יש הרבה יתרונות יחסיים כסביבת לימודים – היכולת לעזור לעבד את הרלוונטיות של הנושאים הכלליים להקשר ספציפי, ו"ללמוד איך ללמוד".

אבל, כמו שהגדיר זאת Martin Heijnsbroek מחברת MICompany – המיינדסט באוניברסיטאות היום הוא שהן מלמדות אנשים "להפוך ל-X". בהתחשב בשלל השינויים הטכנולוגיים והעסקיים וכו', נראה שהמיינדסט צריך להיות איך ללמד אנשים "את הבסיס שיאפשר להם בהמשך להיות X לאורך זמן".

השלכות חברתיות-מדיניות של הרעיון הזה

פערים בבסיס הזה, בעידן שבו לימודי מיומנויות פרקטיות זמין באופן מקוון, יתורגמו מאוחר יותר גם לפערים בהון – ועל כן מדובר בנושא בעל חשיבות חברתית שדורש מדיניות מתאימה; ולא רק בתחום בעל חשיבות לעסקים עצמם.

גם Bas Ter Weel, חוקר העוסק בכלכלה ובמדיניות ציבורית באוניברסיטת אמסרדם, התייחס להיבטים האלו. לשיטתו, השינויים הטכנולוגיים שמנכ"ל קורסרה דיבר עליהם, כמו גם תהליכי גלובאליזציה, יוצרים תחרות בין עובדים "highly skilled" בשוק מה שיוצר תרבות של "סופרסטארים" במקום העבודה ובתעשיות ספציפיות, ומייצר "מרוץ" שמעודד אנשים בתעשיות האלו להשקיע בהכשרה של עצמם (וחברות להשקיע בהון האנושי שלהן בתחומים האלו).

מנגד, השכר של עובדים בעבודות שדורשות פחות מיומנויות נשחק, וגם התמריצים שלהם (ושל המעסיקים שלהם) להשקיע בהכשרה מתמשכת שלהם. זאת, נוסף לעובדה שפעמים רבות מדובר במיומנויות "מקומיות" במהות שלהן, מה שגם מגדיל את עלויות פיתוח ההכשרות הרלוונטיות. זה גורם לרלוונטיות של תפיסת ה-lifelong education עבור עובדים כאלו להיות כמעט אפסית: אין הכשרות רלוונטיות, המעסיקים לא משקיעים משאבים בפיתוח של עובדים אלו, לעובדים עצמם לא נותרים משאבים רבים להשקיע בפיתוח עצמי, וכו'.

זו בעיה גדולה עם השלכות כלכליות וחברתיות שצריך להידרש אליה ולמצוא לה פתרונות – גם ברמת המדינה, וגם ברמת מערכת החינוך (במובן הרחב שלה – אוניברסיטאות, אתרים דוגמת קורסרה, וכו').

בהערת אגב – היה מעניין שגם גורמי התעשייה וגם גורמי האקדמיה שדיברו במפגש ניתחו את הדברים תחת ההנחה שמערכת ההשכלה "מוכפפת" לצרכי העסקים במדינה. מה בנוגע למקום של מדעי החברה והרוח במערכת ההשכלה? מה בנוגע לצורך בחשיבה ביקורתית "מהיסוד" על יחסי הכוח בחברה, תהליכים חברתיים, וכו'?

מי מפתח את הידע הרלוונטי?

שינוי נוסף שמנכ"ל קורסרה התייחס אליו נוגע לגורמים שמהם אנחנו כחברה מצפים לפתח את הידע ולהנחיל אותו הלאה. אמנם רוב הקורסים בקורסרה מפותחים על ידי אוניברסיטאות מובילות בעולם; אבל גם חברות כמו גוגל ואנבידיה מעלות לאתר תכנים כדי ללמד על היבטים יישומיים יותר. זה מאפשר, בין היתר, לחברות אחרות להסתמך על הקורסים האלו ולא להידרש להשקיע משאבים פנימיים לפיתוח תכני הכשרה – כך שאינדבידואלים יכולים ללמוד את "הבסיס" התיאורטי מאוניברסיטאות ו"היבטים יישומיים" מחברות מובילות בתעשייה.

Marc Salomon, ראש תכנית ה-MBA במנהל עסקים בתחום מדע הנתונים באוניברסיטת אמסטרדם אמר שחלק ממה שהאוניברסיטאות רגילות לו, למעשה, הוא שיש להן מונופול ביכולת לקבוע סטנדרט ולתת תארים רשמיים. אבל – אם ניתן יהיה לקבל תואר שני בדאטה סיינס מגוגל (כמו שלאט לאט מתאפשר בקורסרה), האם הוא לא בעצם יהיה בעל ערכיות גבוהה יותר מבחינה עסקית?

מה אנשים מנסים "לאותת" באמצעות השכלה נוסף על הידע עצמו? איזה הון נוסף האוניברסיטה מקנה לסטודנטים?

נקודה נוספת שעלתה מספר פעמים לאורך המפגש נגעה לשאלה מה אנשים מנסים "לאותת" באמצעות ההשכלה שלהם. לימודים באוניברסיטה מקנים לא רק את הידע עצמו, אלא גם רשת קשרים (הון חברתי), ו"מותג" בעל ערך שאפשר להשתמש בו (הון תרבותי). איך שינויים דוגמת "קורסרה" משפיעים על זה?

מנכ"ל קורסרה טען שבארה"ב למעשה הרבה ממה שאנשים מאותתים בכך שהם בוגרי אוניברסיטה נחשבת נוגע בכלל לכך שהם הצליחו להתקבל אליה ולעבור את תהליכי הסינון הקפדניים שלה. במובן הזה ברור ש"אישורי הלימודים" הוירטואליים שקורסרה מקנה לא שווים כלום – כל אחד יכול ללמוד בקורסרה.

מה שכן, לימודים בקורסרה מהווים "איתות" אחר שנוגע לאתיקה למידה – היכולת, המשמעת, והמוטיבציה להשקיע בתהליך מתמשך של למידה "כחלק" מהחיים (ולא "בתקופת" חיים ספציפית).

מחשבות על מדע הנתונים

5

מה עסקים צריכים בתחום ה"דאטה סיינס"?

לאור מספר הערכות על הפוטנציאל הגדול של מדע הנתונים לכלכלה ברמת המאקרו, הרבה מהפאנליסטים שהשתתפו במפגש דיברו על אתגרים של חברות עסקיות ב"אימוץ" פרקטיקות של Data Science לצרכיהן העסקיים.

חלוקה שהתגלתה כערכית במהלך הדיונים הייתה בין חברות שהן data-born (חברות שתפסו מראש את הנתונים שלהן כמשאב שמספק עבורן ערך עסקי – בעיקר חברות צעירות בתחומים טכנולוגיים) לחברות שיש להן data-legacy אחר. הרעיון הוא שבעוד שהחברות מהסוג הראשון אמורות להיות data-driven מההתחלה, חברות מהסוג השני צריכות לקבל החלטה מודעת לעבור תהליך כלשהו כדי "להפוך" להיות כאלו.

בעוד ש"מדעני נתונים" יכולים לסייע לחברות בתהליך הזה, ברור שהם לא יכולים לעשות את זה לבד. למעשה, נדרשת החלטה לפתח data literacy ("אוריינות נתונים") בצורה רחבה בארגון – גם בקרב ההנהלה הבכירה, אך גם בקרב עובדים אחרים בעסק. אישית, זה הזכיר לי מאוד את הפוסט של כרמל קנט מספטמבר.

מנכ"ל קורסרה אמר שצריך לחשוב לא רק על data literacy אלא גם על data fluency. "דאטה הופכת להיות השפה החדשה של עולם העסקים. השאלה מי צריך להבין "דאטה" ובאיזו רמה היא שאלה חשובה שצריך לחשוב עליה עוד – אילו תעשיות מפתחות את ה-fluency הכי טוב בהקשר הזה? אילו מדינות מעודדות את התעשיות בהן לפתח fluency כזה, ואיך?".

כדוגמא, הוא הביא את ההתמחות החדשה בקורסרה בנושא Deep Learning – ההצלחה המסחרית הכי טובה/מהירה של קורסרה עד כה. בארה"ב נרשמו בינתיים פי 23 אנשים יותר מאשר הולנד לקורס. בהודו פי 7. בסין פי 4. למה זה? האם מושפע מהמשכורות הממומעות של Data Scientists במדינות האלו? למוביליות החברתית שאנשים מצפים לה? לתחרות שהם מרגישים מהשוק הגלובאלי?

אילו מיומנויות נתונים נדרשות לאילו תפקידים באילו תעשיות? קורסרה כ-Crowd-sourcing

ראש תחום Data Science בקורסרה (לא "ראש תחום" במובן של אחראית לפיתוח התכנים בנושא מדע הנתונים – התכנים כולם מפותחים באונירסיטאות; אחראית על ניתוח הנתונים בארגון) התייחסה לשיח הזה והציעה לחשוב על הנתונים של קורסרה בתור crowd-sourcing של 3 מיליון אנשים שמנסים להבין אילו מיומנויות נתונים נדרשות לאילו דרגים באילו תעשיות (מתוך הנחה שאנשים לומדים מה שלדעתם רלוונטי וישרת אותם בתפקיד שלהם / שאנשים ממשיכים לדווח בקורסרה על השתנות בתפקידים שלכם ולכן ניתן לראות אילו מיומנויות נדרשות באילו מקומות).

אם מקבלים את ההנחות האלו, אז ניתן להסיק שמיומנויות דאטה נדרשות בכל דרג, ובשלל תעשיות:

מצד שני, כשמפרקים את הכותרת הגדולה של "מיומנויות דאטה" למספר תחומים, אפשר לזהות הבדלים משמעותיים בין התעשיות השונות:

4.png

כך, למשל, נראה שהתחום של למידת מכונה פופולארי כמעט רק על ידי אנשים בתעשיית ה-tech. מנגד, Data management (לוודא שהדאטה נגיש ברחבי הארגון וכו') זו מיומנויות שנתפסת כערכית כמעט בכל תעשייה חוץ מב-tech (כנראה בגלל הרלוונטיות הגדולה של היבטי data legacy).

מודעות פרסומת
פורסם בקטגוריה כנסים ונהנים | כתיבת תגובה

לכל אחד יש 2 הורים ביולוגיים!

יצא לי לחשוב לאחרונה קצת על גנאולוגיה, והבנתי משהו. אני מבין שהוא נשמע טריוויאלי, אבל תשארו איתי רגע: לכל אחד יש 2 הורים ביולוגיים! זה אומר שאפשר "להפוך" עצי משפחה על הראש!

1(1450)

עץ שנראה הפוך על הראש. אילוסטרציה.

 

בעצי משפחה אפשר "להפוך את הפירמידה" על הראש

בדרך כלל אנחנו חושבים על עצי משפחה (אם אנחנו חושבים על עצי משפחה) בתור "פירמידה" – בקצה העליון יש דמות היסטורית כלשהי, וממנו העץ הולך ומתרחב כלפי מטה: מאדם וחווה ל-12 השבטים, מפינחס דיין לליאור דיין אביב ושירה גפן, מכאנום ורחמים לאימפריית בנאי, וכו'.

 

אבל בעצם, אם חושבים על זה, זה עובד גם הפוך. בהנחה שלכל בן-אדם יש שני הורים ביולוגיים, אז זה אומר שיש לו גם ארבעה סבים וסבתות, שמונה סבא-רבים וסבתות-רבות, וכו'. למעשה מספר האנשים שנצפה לראות בעץ המשפחה שלך n דורות אחורה ממך הם 2 בחזקת n (בהנחה הנאיבית שאין זוגות בתוך המשפחה גם בהגדרה הרחבה הזו – מה שכמובן שגוי ועל כך בהמשך).

גידול כזה, 2n, הוא דוגמא ל"גידול אקספוננציאלי". זה יוצא ממש הרבה אנשים, ביחסית מעט דורות אחורה.

14 דורות אחורה, פלוס מינוס באמצע המאה ה-17 – חיו במקביל 16,384 אנשים שונים שהם אבות אבותיך, אמהות אמותיך, אבות אמותיך, אמהות אבותיך, וכו'.

אם ממשיכים בהגיון הזה ומדברים על 19 דורות אחורה, פלוס מינוס באמצע המאה ה-16, מגיעים ליותר מחצי מיליון איש – שזה בגדול עשירית אחד מכל אלף איש בעולם אז.

 

מי

דורות אחורה (n) כמה אנשים (2n) לפני כמה שנים בערך (25n) כלומר בשנת … (2017-25n)

את/ה

0 1 0 2017

הורים

1

2

25

1992

סבים

2

4

50

1967

סבים-רבים

3

8

75

1942

4

16

100

1917

5 32

125

1892

6

64

150

1867

7

128

175

1842

8

256

200

1817

9

512

225

1792

10

1024

250

1767

11

2048

275

1742

12

4096

300

1717

13

8192

325

1692

14

16384

350

1667

15

32768

375

1642

16

65536

400

1617

17

131072

425

1592

18

262144

450

1567

19

524288

475

1542

 

אוקי, נחמד. אז מה?

תכלס הסיבה המרכזית שבגללה אני חושב שזו מחשבה מעניינת היא שהיא בו זמנית גם בנאלית (ברור שלכל אחד יש 2 הורים ביולוגיים) וגם לא מסתדרת עם מה שיש לנו בראש כשאנחנו חושבים על "עצי משפחה" (ההפך ממודל "אדם וחווה").

כנגזרת מזה, נראה לי שהיפוך הפרספקטיבה הזה יכול לעזור להמחיש 2 ושני חצאי נקודות:

 

[1] יש לנו הרבה חופש בבניית הנראטיב שלנו בנוגע ל"שרשרת הדורות"

בניגוד למטאפורה המקובלת של "שרשרת הדורות" – שבה חוליה אחת מחוברת לחוליה שניה שמחוברת לחוליה שלישית – היחס בין הדורות הוא ממש לא לינארי. הוא הרבה יותר מסועף.

אם לקחת את זה להקשר הפוליטי לצורך המחשה – כשמישהו טוען שהוא "דור עשירי" במקום מסוים – הוא בדרך כלל מתכוון שאפשר להראות קשר תולדה בין מישהו במאה ה-18 שגר באותו מקום לבינו. ואולי אפילו של עוד 8 אנשים בדרך.

אבל המישהו הזה במאה ה-18 הוא רק אחד מתוך למעלה מ-1000 אנשים שאפשר להראות בינם לבין האדם במאה ה-21 קשר כזה. כמובן שמטעמים כאלו ואחרים יכול להיות נוח לבנות נראטיב שמבליט את הקשר דווקא לתושב המקום (ובכלל יש משהו נחמד ומנחם במציאת חיבורים כאלו לאנשים ממאות שעברו – בטח אם יש בינינו גם קשר גנטי).

אבל, וזה אבל גדול – כמו שמדגים הסרטון של MyHeritage עם מפורסמים ישראלים – חשוב לזכור שבעצם זה רק נראטיב אפשרי אחד מתוך רבים (וזה עוד בכלל בהנחה שיש באמת חשיבות כלשהי לשאלה הגנטית הזו).

הרצון "לחזור לשורשים" ולשמור על "אותנטיות" יכול להוות מוטיבציה לדברים טובים – אבל חשוב לזכור שרמת החופש שיש לנו בבחירת "השורשים" שרצויים לנו היא גדולה מאוד.

 

[2] U.N.I.T.Y that's a unity

אז האמת היא שבוויכוח הטרמינולוגי בין שי פירון לבנט אני נוטה להסכים דווקא עם האחרון. ברור שהאחר הוא לא אני. האחר הוא אחר, ואני אני.

*אבל* – בהמשך לנקודה הקודמת, ולאתגר שהיא מציבה לטענה בדבר הצורך "בהעצמת זהויות" (כיון שהיא מאתגרת את הרעיון שיש "זהות אמיתית" אחת, כמו כל משחק פוסטמודרניסטי) – יש משהו בפרספקטיבה הזו על עצי משפחה שממחיש שני היבטים משמעותיים בעיניי של "אחדות" (במין האנושי בכלל, אבל ביתר שאת בתוך קבוצות עם תרבות וחיים משותפים כמו עמים*).

קודם כל "אחדות בשורשים". אם יש אלף איש שהם "אבותיי" מהמאה ה-18, אז כמובן שיש המון אנשים שהם "בני דודים" רחוקים שלי. אובאמה והמלכה אליזבת הם בני דודים בדרגה 10, וכמו שאלביס שר – בעצם כולנו בני דודים כי כולנו צאצאים של אדם וחווה.

ההיבט השני של "אחדות" שהפרספקטיבה הזו מחדדת היא "אחדות גורל". יש סיכוי לא רע שלך ולעוד בערך 16 אלף איש שחיים היום בעולם יהיה צאצא משותף. וסיכוי לא רע שעם קומבינציה קצת אחרת של 16 אלף איש גם צאצאית אחרת. וכו'.

 

[*] למה זה נכון יותר "בעם" מאשר "בקרב כל המין האנושי"?

חצי הערת צד, אבל חשובה בעיניי – כאמור, הרעיון שמספר האנשים שנצפה לראות בעץ המשפחה שלך n דורות אחורה ממך הם 2 בחזק n מתבסס על הנחה נאיבית שאין זוגות בתוך המשפחה, גם כש"משפחה" מוגדרת באופן כל כך רחב.

למעשה, לא רק שהמספרים שמוצגים למעלה הם לא ההערכה הסבירה למספר האנשים n דורות אחורה ממך, הם למעשה מייצגים את "הגבול העליון" התיאורטי האפשרי (כשהגבול התחתון הוא 2 בכל דור).

הם כן נותנים "סדר גודל" מספק בעיניי (זה כנראה שווה פוסט נפרד) – אבל הם בטח לא מדויקים. ככל שמדובר על אוכלוסייה שסביר יותר שהיו בה נישואי קרובים המספרים פחות ופחות מדויקים.

בקהילת ביתא ישראל נישואים אסורים בין אנשים שהם קרובים בהסתכלות של 7 דורות אחורה. באיסלנד יש אפליקציה שמאפשרת לזוגות לבדוק לבדוק אם הם קרובים בהסתכלות של 1200 שנים אחורה.

חלק מהמאפיינים של "עם" (תרבות משותפת לרבות טקסי נישואין, דפוסי הגירה משותפת / מגורים באזורים משותפים, וכו') הם כאלו שהופכים קבוצת אנשים כזו להיות ככל הנראה "רשת צפופה יותר" של קשרים כאשר מסתכלים על הקשרים הבין-דוריים בהשוואה למודל המתואר למעלה.

מה שכן, היפוך הפרספקטיבה מאפשר דרך אחרת להסתכל על הטענה הגנטית לפיה 40% מהאשכנזים הם צאצאים של אותן 4 נשים. בדימוי עץ "אדם וחווה" אנחנו חושבים על ארבע נשים ואיך הן "קצה פירמידה" שהולכת ומתרחבת עד שמגיעים לכל האשכנזים. בדימוי העץ ההפוך נראה הגיוני שמתוך מאות אלפי אנשים שנמצאים בשרשרת הגנטית של אנשים תהיינה 4 נשים משותפות לקבוצה גדולה של אנשים.

 

[**] היפוך פרספקטיבה זה קול

ברמת המטא – אני חושב שזו הדגמה נחמדה לרעיון שעצם זה שמסתכלים על אותו העניין בפרספקטיבה הפוכה יכול להוליד הבנה מורכבת וטובה יותר שלו.

אחת השיטות בתכנון אסטרטגי היא Backcasting – "התבוננות מהעתיד לכיוון ההווה". הרעיון בגדול הוא שבניגוד לתחזית (Forecasting) שבמסגרתה מנסים להבין את המצב הנוכחי ולאן הוא יכול להתפתח; לנסות להבין מצב עתידי אפשרי (למשל: רצוי במיוחד, מפחיד במיוחד) ואיך המצב הנוכחי יכול להוביל אליו.

במובנים רבים זה גם הרעיון שעומד מאחורי הרעיון של תכנון דינמי במדעי המחשב / חקר ביצועים. דוגמא קלאסית היא בעיית מציאת הנתיב הקצר ביותר שמחבר בין נקודה X לנקודה Y ברשת. שיטה קלאסית לפתור את הבעיה (אלגוריתם דייקסטרה על שם איש מדעי מחשב הולנדי) – היא להתחיל מנקודה X ולנסות את כל המסלולים הכי קצרים שאפשר להמשיך בהם מהנקודה הזו, עד שאחד מהמסלולים יוביל לנקודה Y.

שיטה אפשרית אחרת לפתור את הבעיה היא להתחיל מ-Y ובכל פעם לקחת "צעד אפשרי אחורה" ולראות מה הדרך הכי קצרה להגיע באופן הזה ל-X (כשבכל צעד בודקים או מה המרחק הקצר ביותר ישירות ל-Y, או מה המרחק הקצר ביותר לנקודה שממנה ידוע שהמרחק ל-Y יהיה הכי קצר בצעד הבא).

 

 

פורסם בקטגוריה Uncategorized | כתיבת תגובה

שאלות אתיות על אלגוריתמיקה. מקרה בוחן: חברת Faception הישראלית

אז מסתבר שיש חברה ישראלית בשם Faception שמוכרת טכנולוגיה לזיהוי תכונות אופי על פי תמונת פנים. הרעיון שעומד בבסיס הטכנולוגיה, כמו שמוסבר באתר החברה, הוא ש: (א) הגנטיקה משפיעה משמעותית על חלק מתכונות האופי של בני אדם (ב) הגנטיקה משתקפת גם בפרצוף ולכן: (ג) באמצעות ניתוח הפרצוף של בן אדם אפשר להסיק דברים על האופן שבו הגנטיקה שלו משפיעה על תכונות האופי שלו.

על בסיס מכלול של תכונות אופי כאלו אפשר לבדוק כמה בן אדם מתאים ל"פרסונה" מסוימת. למשל, החברה מציעה לזהות על פי תמונה של הפרצוף האם מישהו הוא טרוריסט (סובל מחרדה ודכאון, מופנם, מחושב, פסימיסט, עם דימוי עצמי נמוך ותנודות משמעותיות במצבי הרוח) או פדופיל (בדיוק אותו התיאור, לפחות באתר).

פייספשן מונה באתר מספר יתרונות של הטכנולוגיה שלה ללקוחות פוטנציאליים. למשל: הניתוח מתבצע בזמן אמת, ולא מתבסס על ידע מוקדם בנוגע לבן אדם (ככה שאפשר לזהות מחבלים פוטנציאליים גם מתוך מאתר לא ידוע).

התפרסמו לא מעט ניתוחים מעניינים של היבטים אתיים של פעילות החברה (shout-out למדעןנתונים שכתב פוסט בנושא, כמו גם לביזנס אינסיידר, ניו סיינטיסט, סיינס דיירקט; ותודה ספציפית לאייל גרוס שהעלה את הנושא לדיון בפייסבוק); אבל רציתי להוסיף עוד שני יורוסנט משלי בנושא (שהולכים להתבסס הרבה על המסגרת האתית למחקר מערכות רשת של מכון OII באוקספורד) שהולכים להתייחס לשלושה יתרונות אחרים ש-Faception מייחסת לטכנולוגיה שלה: דיוק, טכנולוגיה בת-התאמה, ואובייקטיביות.

 

שאלת הדיוק

הרבה מהביקורת האתית בנושא faception מעלה את השאלה של ה-False Positive.

החברה אוהבת להדגיש בפרסומי יח"צ שיש לה דיוק של כמעט 90%. האלגוריתם שלה סיווג (בלי מידע מוקדם!) 9 מתוך 11 המחבלים בפיגוע בפריז כטרוריסטים; סיווג 2 מתוך 3 פיינליסטים בתחרות פוקר כ"שחקני פוקר מקצועיים"; וכו'.

אבל הנה הצעה מתחרה לאלגוריתם אחר: פשוט להגיד שכולם מחבלים. אלגוריתם שמסווג את כולם כמחבלים יסווג (בלי מידע מוקדם!) 11 מתוך 11 המחבלים בפיגוע בפריז כטרוריסטים – דיוק של 100%. 0 טעויות – אף מחבל לא בורח ממנו.

כמובן ש"המחיר" של אלגוריתם כזה הוא במקום אחר: הרבה מאוד סיווגים שגוים של אנשים "תמימים" כמחבלים – מה שמכונה False Positive.

לא הצלחתי למצוא התייחסות של פייספשן לכמות ה-False Positives של האלגוריתם שלה (וכנראה שלא בכדי, כי כאמור זו נקודה שעולה שוב ושוב בביקורת כלפי החברה), אבל כמובן שכדי להבין עד כמה הטכנולוגיה שלה "מדויקת" אי אפשר להתעלם מהנתון הזה.

 

החשש מ-Mission Creep

פייספשן יכולה לחשוב כבר עכשיו על שלל שימושים לטכנולוגיה שלה: בטחון (סיווג טרוריסטים/פדופילים), גיוס כח אדם (סיווג מוכשרים/מתאימים לתפקידים מסוימים), התאמה זוגית (התאמת מבני אופי בין בני זוג), פיננסים וביטוח, שיווק, וכו'.

verticals

למעשה, כפי שמופיע בתיאור למעלה מאתר החברה, לפי פייספשן "אם התנהגות מסוימת נובעת מהDNA של בן אדם, יש סבירות גבוהה שאנחנו יכולים לפתח מסווג רלוונטי אליה".

הנקודה הזו מעלה את השאלה לאילו תכליות הוגן להשתמש בסוג כזה של מסווג.

כשפייספשן חיפשו מימון באתר AngelList, הם מנו בצוות היועצים שלהם את מייקל קוזינסקי.

קוזינסקי עובד בימים אלו על מחקר לזיהוי נטייה מינית על בסיס תמונות פנים. בהינתן חמש תמונות פנים, האלגוריתם של קוזינסקי יכול לזהות הומואים בדיוק של 91% ולסביות בדיוק של 83% (בהשוואה לקרוב ל-60% ו-50% בקרב מסווגים אנושיים).

בהצדקות למחקר שלו, קוזינסקי מדבר על הצורך לעורר מודעות בקרב קהילת הלהטב"ק מהאפשרות הזו – כי משטרים דכאניים כלפי גייז יכולים לעשות שימור בטכנולוגיה כזו (כמו גם שלל שחקנים אחרים שעוסקים במישטור/אפליה על בסיס נטייה מינית).

וכמובן – איזו דרך טובה יותר לוודא שהטכנולוגיה אכן יכולה לשמש לצרכים לא אתיים כאלו מאשר למכור אותה ואת היכולת להתאים אותה למרבה במחיר?

שאלת האובייקטיביות

הנקודה האחרונה שרציתי לעלות נוגעת לשאלת האובייקטיביות.

בניגוד לטענת החברה שהטכנולוגיה של פייספשן לא מצריכה שום הנחת עבודה, יש כמה הנחות עבודה לא מפורשות שנובעות מהיישום הפרקטי שלה כדי לסווג "מבנה אישיות" של בן אדם על בסיס תמונת הפנים שלו: [א] שמדובר במבנה אישיות שחשוב לסווג (למשל – כשגורמי אכיפת חוק ישתמשו בטכנולוגיה כזו – האם הם ישתמשו בה גם כדי לסווג שוטרים שסביר שיפעילו אלימות משטרתית?) [ב] שמדובר במבנה אישיות שנובע בעיקר מהגנטיקה, ולא ממאפיינים סביבתיים/חברתיים (האם אכן אפשר לדעת שמישהו הוא "טרוריסט" בצורה דטרמיניסטית?) [ג] שמי שמאמן את המסווג יודע לספק סט מייצג של תמונות של אנשים עם מבנה האישיות הזה.

הסיווג של "טרוריסטים" בהקשר הזה הוא דוגמא מעולה. גם אם נשים בצד את השאלה התיאורטית איך מגדירים האם מישהו הוא "טרוריסט" או "לוחם חופש" – בפרקטיקה, מי נכלל בסט האימון שפייספשן הכינו? האם הסט כלל תמונות של אנשי מחתרות? של ברוך גולדשטיין? של המשתתפים בלינץ' ברמאללה? של משתתפים באלימות כלפי מחבלים מנוטרלים? האם התמונה של היורה מלאס וגאס צריכה להיכלל בסט? האם אנחנו מאמינים שכולם "טרוריסטים" באותו המובן? האם כולם חולקים אותו מבנה אישיותי? האם יש ביניהם דמיון גנטי שמבחין אותם מיתר האוכלוסייה? תשובות שונות לשאלות האלו עשויות להביא למסווגים שונים.

כמובן שגם בהקשר פדופיליה עולות שאלות כאלו, ואליהם ניתן להוסיף גם שאלות בנוגע לדיווח. האם יש סוגי תקיפות פדופילים שפחות מדווחות לרשויות? האם זה יוביל להטיה בסט האימון?

האם האלגוריתם של פייספשן הוא גזעני?

תת-שאלה מעניינת (ומתבקשת) בהקשר הזה, היא האם קיימת הטיה גזעית באלגוריתם של פייספשן. האם מקרה בוחן מעניין בהקשר הזה הוא דירוג הסיכון שחברת Northpointe האמריקנית נתנה לנאשמים, שאמור היה לדרג את הסיכוי שהם יחזרו לפשוע בעתיד.

ניתוח של הארגון ProPublica העלה סברה שקיימת הטיה משמעותית "נגד" שחורים באלגוריתם. הדיון שהתעורר הוביל למסקנה שבעצם גם תלוי איך מגדירים "הוגנות" גזעית בהקשר הזה. גליונה בדיוק פרסמה חיבור מעולה ב-medium על הנושא של הוגנות באלגוריתמיקה; והשאלות האלו כמובן תקפות גם למקרה של פייספשן. בהיעדר הגדרה של "הוגנות" שאליה פייספשן מכוונים, בטח שאי אפשר לטעון ל"אובייקטיביות" בהקשר הזה.

סיכום

אני לא חושב שהרעיון העקרוני שעומד בבסיס Faception הוא בהכרח רע.

אם אפשר להיעזר בכלי הזה כדי למזער את הנזק של מחבלים ופדופילים זה נשמע מצוין. אבל, יש שלוש נקודות שחייבים לשים לב אליהן

מה בעצם אפשר לדעת מסיווג על בסיס תווי פנים?

זו נקודה ממש חשובה שנראה שדי מתפספסת בהתנהלות של החברה – לא רק שצריך להבין את המחיר האתי הגבוה של שימוש בטכנולוגיה הזו, יש גם קשר גורדי בין השאלות האתיות בנוגע לטכנולוגיה הזו (איך הוגן לעשות בה שימוש?) לבין השאלות האפיסטמיות בנוגע אליה (מה בעצם אפשר לדעת באמצעותה?).

ממה שהחברה מפרסמת עד עכשיו, בהחלט נשמע שיכול להיות שהמוצר שלה לא באמת עוזר לזהות מידע רלוונטי בנוגע למחבלים או פדופילים (אלא רק להגביר הטיות קיימות בשיפוט האנושי). בתגובה להאשמות של ProPublica חברת Northpointe הראתה שהאלגוריתם שלה צודק בנוגע לשחורים וללבנים באותו שיעור – קרוב ל-60%. כלומר: קצת יותר טוב מאשר לנחש באמצעות הטלת מטבע.

מסיבות מסחריות, ברור שהחברה מעדיפה לא להיכנס לשאלות האלו, ובמקום זה לשווק את הטכנולוגיה בתור כדור בדולח קסום שפשוט אומר באובייקטיביות שמישהו הוא מחבל/פדופיל/חכם.

בתור צרכנים פוטנציאליים של הטכנולוגיה (כחלק מהציבור שרוצה להגן על עצמו, או בחברה ששוקלת את הטכנולוגיה כדי לטייב את תהליכי גיוס כח האדם שלה / השירותים שהיא מציעה ללקוחותיה), ובטח שבתור מושאים פוטנציאליים של סיווג על ידי הטכנולוגיה – אנחנו צריכים למצוא את הדרך לעלות את השאלות האלו כחלק מההחלטה האם ואיך לעשות בה שימוש.

המאגר הביומטרי

בהערת צד, השלכה נוספת שנראה לי שראוי לתת עליה את הדעת (בטח בישראל) נוגעת לשאלת "המאגר הביומטרי".

איך התקדמות טכנולוגית כמו זו שמאפשרת את פייספשן משפיעה על הצורך (ומצד שני – על מידת הסיכון) בניהול מאגר ביומטרי מרוכז של מידע אודות תושבי המדינה?

אלגוריתם לא יביא "הוגנות" לתוך הקשר חברתי-פוליטי שאינו הוגן בבסיסו

הנקודה המרכזית, בעיניי, הוא שצריך להבין שטכנולוגיה לא יכולה להיות "אובייקטיבית" במובן שמנסים לשווק אותה בהקשר של פייספשן (כלומר: חסרת הנחות יסוד). בגלל זה, אלגוריתם יכול להיות "הוגן" בתוך המגבלות של ההקשר שבו משתמשים בו בפועל.

IBM שיחקו תפקיד די משמעותי בשואה, מסתבר. הגרמנים היו צריכים לערוך מפקדי אוכלוסין בכל שטח שכבשו, ולהעריך את כמות היהודים/צוענים בהם, בין היתר על בסיס הערכה שמגדירה יהודי כמי שיש לו "אב יהודי" ארבעה דורות אחורה.

IBM סיפקה את הטכנולוגיה (כרטיסיות ניקוב) כדי להוציא לפועל את המפקדים האלו, כמו גם מערכת לניהול המידע הדרוש במחנות ריכוז (אאל"ט גם בנוגע לשינוע למחנות השמדה). ניהול מידע וידע היה חלק אינטגרלי מההוצאה לפועל של "הפתרון הסופי".

לא משנה כמה היו מסתכלים על False Positives, או כמה אינקלוסיבי היה סט האימון – כנראה שלא הייתה דרך ל-IBM להגיע לאלגוריתם "הוגן" כדי לסווג מישהו כ"יהודי" לשימוש הנאצים.

השימוש במסווגים כאלו, כולל התחשבות ברמת הדיוק שלהם וה-False Positives יכול להיות אתי לתכליות מסוימות ולא אתי לתכליות אחרות. אנשים שמפתחים ומוכרים את הטכנולוגיה לא יכולים להיות "אדישים" לmisuse אפשריים בטכנולוגיה שלהם.

בהקשר הזה, שווה לציין ש-Faception סיפרה לוושינגטון פוסט במאי אשתקד שיש לה חוזה עם איזושהי "homeland security agency" בנוגע לזיהוי טרוריסטים. החברה אמנם לא מפרטת עם איזו מדינה נחתם החוזה, אבל בחינה של פרופילים של עובדי החברה בלינקדאין מעלה שיש לה country corporate representative באיסטנבול.

האם הרשויות התורכיות עושות שימוש בטכנולוגיה הזו? האם נעשה שימוש בטכנולוגיות האלו לניטור האוכלוסייה הכורדית? אילו החלטות מתקבלות על בסיס הפלט של פייספשן? האם החברה מסייגת כראוי את הממצאים שלה? האם היא יכולה להשפיע על האינטרפרטציה שניתנת לתוצאות המסווג שלה?

איזו אחריות מוסרית יש לחברה (company) ולחברה (society) שמייצאות את הטכנולוגיה הזו בנוגע לשימוש שעושים בה בפועל?

פורסם בקטגוריה Uncategorized | כתיבת תגובה

סבתא חיה מטא: סיפור סיפורים באמצעות רשתות

לפני כמה שבועות התפרסם ספר ממש מגניב שמרכז מאמרים של חוקרים מובילים באחד התחומים הכי מעניינים באקדמיה בעיניי (אם לא ה-): החיבור בין מדע הנתונים למדעי הרוח והחברה. הספר זמין להורדה חינם, וזה לא שהוא חף מבעיות, אבל אני בהחלט ממליץ עליו למי שמתעניין בנושא.

אחד המאמרים היותר "יישומיים" בו ("How to tell stories with networks", עמ' 155-170) מנסה להדגים כיצד ניתן לאפיין נראטיבים שונים על בסיס ניתוח רשתות חברתיות (SNA). במסגרת זאת, החוקרים מדגימים ניתוח SNA על הדמויות בסיפור האיליאדה, כדי להמחיש את הרעיונות שלהם.

בתור מי שטרם זכה לקרוא את האיליאדה היה לי די קשה להבין את הדוגמאות שבמאמר, ולכן החלטתי לנסות ולשחזר את הטכניקות שבו על קלאסיקה אחרת: "מבצע סבתא".

 

מתודולוגיה

בגיגול קצר מצאתי תמליל בוטלגי של הסרט. הוא אמנם לא מלא (למשל: בלי קריסטין!), אבל טוב מספיק.

כתבתי קוד פייתון פשוט (זמין כאן) שעובר על התמליל ויוצר קובץ אקסל של דמויות שמדברות אחת עם השנייה במהלך הסרט. ההיגיון, בגדול, הוא כזה: שתי דמויות שמדברות אחת אחרי השנייה באותה הסצינה כנראה מדברות אחת עם השנייה. זה אמנם לא נכון ב-100% מהמקרים (הרחבה בהמשך), אבל שוב – טוב מספיק.

את קובץ האקסל טייבתי (חלק מהדמויות מצוינות בתמליל רק באות הראשונה של שמן) ככה שיהיה אחיד, העברתי לפורמט מתאים, והזרמתי לתוכנת Gephi לניתוח רשתות (קובץ גפי זמין כאן). שם, התחלתי מפריסה של הרשת באמצעות אלגוריתם ForceAtlas2 שההגיון הבסיסי שלו שואף "לקרב" נקודות קשורות זו לזו ו"להרחיק" נקודות שאינן קשורות, עד שהרשת מגיעה לשיווי משקל כלשהו.

 

ממצאים

אז אילו נראטיבים אפשר לחלץ מניתוח רשתי של "מבצע סבתא", בהתאם למאמר על האיליאדה?

savtaSNA

 

בחינה פנורמית: המחנות

הסוג הראשון של נראטיבים שאפשר לדבר עליהם בהקשרי רשתות, נוגע לחלוקת הרשת ל"מקבצים"/מחנות לפי צפיפות הקשרים באזורים שונים של הרשת, ופריסתה במרחב.

בעוד שקיימים מספר אלגוריתמים "סטנדרטיים" לזיהוי קהילות ברשת, במקרה הזה (כמו גם במאמר הנוגע לאיליאדה) מדובר ברשת "פשוטה" מספיק בכדי שיהיה אפשר לזהות את כלל ה"מחנות" בעין.

‏‏savtaSNA - communities

שלא באופן מפתיע, לקבוצות הדמויות שמדברות אחת עם השנייה בסרט יש גם מאפיינים דומים בנוגע לרקע ולהקשר החברתי בו הן פועלות. שלוש קבוצות בולטות בהקשר הזה הם הקיבוץ, העיר, והצבא.

קבוצה רביעית – "הילדים" – נוצרת כביכול בשל גליץ' בקוד: ילדי קבוצת לימונים שמכינים כתובות אש בהנחיית עידן לא באמת מדברים עם ילדי קיבוץ עסיסים ששרים את שיר הקרמבו. ברמת הטקסט, יש קאט בין שתי קבוצות הילדים בסצינה. אבל הרי ברור שלמעשה הופעתן אחת אחרי השנייה מסמנת איזושהי השוואה בין השתיים (ומבליטה את השוני ביחסים עם ילדים שמנהלים עידן וקרמבו) – ובמובן זה זיהוי "מחנה הילדים" דווקא מעניין.

דפוס דומה של גליץ' אפשר לראות בקשר שנוצר בין שירלי (הפקידה של קרמבו) לבין "הערס" (ממנו עידן גונב את הנייד) – הגם והשניים לא באמת מדברים ברמת הטקסט בסרט, הרי שהופעתם בסמיכות אכן מבליטה דמיון ביחס ששניהם מפגינים כלפי עידן.

 

בחינה פנורמית: היחסים בין המחנות

אופן בחינה נוסף שמציעים החוקרים נוגע ליחסים שבין המחנות.

באופן לא מפתיע, מחנה הקיבוץ הוא המחנה הגדול והדומיננטי ב"מבצע סבתא".

 

בחינת מרכזיות נקודות: צמתים

סוג נראטיב שלישי שאפשר לחלץ מבחינת הרשת נוגע לנקודות מרכזיות ברשת.

הבחינה הראשונה שניתן להתייחס אליה בהקשר הזה נוגעת לנקודות ברשת שנמצאות בקשר עם מספר גדול של נקודות אחרות (מיוצג על ידי הצבע הירוק הכהה בתמונה).

באופן לא מפתיע, שלושת האחים (בני, עידן, וקרמבו) הם הצמתים במרכזיות ברשת; והם למעשה "מרכזים סביבם" את הדמויות במשך העלילה.

בחינת מרכזיות נקודות: גשרים

בחינה מעניינת לא פחות היא בחינה קצת יותר מעודכנת, ונוגעת לדמויות שממוקמות בפוזיציה "רחוקה" יותר ממרכזי הקהילות, אבל משמשות כ"גשרים" ביניהן.

כך, בעוד שדמויות מהקיבוץ (סרג'יו ודבורה) "מחברות" בין קרמבו ועידן (נוסף על הקשר הישיר ביניהם) – שתי הדמויות היחידות שמדברות עם כל שלושת האחים הן שירלי וחגית. חגית, למעשה, משמשת כקשר מרכזי בין קהילת "העיר" לקהילת "הקיבוץ".

בחינת מסלולים: קיצור הדרך

החוקרים במאמר אודות האיליאדה מציעים סוג נראטיב מעניין נוסף בניתוח רשתות, שנוגע למציאת מסלולים קצרים מפתיעים בין דמויות שונות.

הגם וברשת "מבצע סבתא" לא הצלחתי למצוא מסלולים שכאלו, בעיניי מעניין לראות את היעדר החיבור של בני, ויותר מכך של סבתא חיה עצמה, לקהילת "הקיבוץ".

הקשר הישיר היחיד של בני לקיבוץ, למעשה, הוא לקרמבו, באופן שמשקף את תהליך התרחקותו מהקיבוץ והמעבר לעיר. כך גם הקשר היחיד של סבתא חיה לקהילת הקיבוץ (שכזכור "זנח" אותה) עובר "בשתי קפיצות" (חיה->בני->קרמבו / חיה->עידן->דבורה/סרג'יו/קרמבו).

פורסם בקטגוריה Uncategorized | כתיבת תגובה

אין הביישן למד

בערב שבת האחרון שודרה באולפן שישי של ערוץ 10 כתבה על יחידת רמו"ט של משרד המשפטים שעוסקת בין היתר בזיהוי מאגרי מידע עם פרטים אישיים שלא מאובטחים מספיק. המסר הכללי של הכתבה היה די בבירור "תיזהרו מחברות שאוספות עליכם נתונים – בסוף המידע ידלוף לחברות סחר במידע ודרכן יגיע לחברות פרסום שישווקו לכם מוצרים".

בעיניי המסר הזה, ותפיסת הפרטיות שהוא מייצג, בעייתיים בפשטנות שלהם.

כי איסוף ושיתוף נתונים עליך זה טוב!!1

באחד החלקים בכתבה (מדקה 08:27) הכתב ונציגת רמו"ט שואלים אנשים שמתאמנים בפארק על מכשירי המדידה שהם משתמשים בהם. נציגת רמו"ט מסבירה את הסכנות הרבות לפרטיות שבמכשירים האלו: "יכול להיות שאפילו אתה עוד לא יודע שיש לך בעיה" היא מזדעזעת "אבל אם מישהו אחר עוקב אחרי זה הוא יכול לעשות לבד פרשנות, בלי שאתה אפילו יודע".

מה? מישהו יכול לעלות על בעיות בריאות שיש לי בלי שאני אצטרך אפילו להיות מודע לזה? וגוברים הסיכויים שהוא יעשה את זה אם יהיה לו פתרון רפואי למכור לי? נשמע מדהיםלמה זה רע?!

אני לא מצליח להבין את הבעיה שיש לאנשים עם זה שבטכנולוגיה הנוכחית הם מקבלים פרסומות שמתאימות להם. כמובן שצריך לקחת בערבון מידע בפרסומות, וכמובן שיש פרסומות שחודרות באופן אגרסיבי מדי למרחב הפרטי – אבל עצם זה שהפרסומות שאני נחשף מותאמות אלי הוא מעולה! מצאתי ככה הרבה ספרים טובים, קורסים בקורסרה, ואמנים שאני אוהב.

וזה כמובן בלי לדבר על השימוש שאני מרוויח מעצם השימוש בטראקר באימונים, מהיכולת להעביר לרופא בכל מקום את הנתונים שלי, מהיכולת של כל כספומט בעולם לקבל נתונים על יתרת הכסף בחשבון שלי, וכו'.

כי רעיונות הפרטיות האלו משרתים בעיקר את החברות הגדולות ותורמות להווצרות מונופול טבעי (או לכל הפחות אוליגופול)

בשוק הנתונים יש יתרון ברור לגודל מכמה טעמים. בעוד שאנשים "מודעים לפרטיות" יכולים לעשות opt-out משירותים ואפליקציות קטנות שאוספות עליהם נתונים – סביר מאוד להניח שהם עושים את זה על פלטפורמה של גוגל/אפל/מיקרוסופט, ושהם מוכנים "לשלם את מחיר הפרטיות" כדי להישאר מחוברים לפייסבוק ולהזמין מוצרים מאמזון.

למה? בין היתר כי לאור איסוף כל כך הרבה מידע על כל כך הרבה משתמשים במשך כל כך הרבה זמן – החברות האלו העמידו מוצרים ושירותים טובים מדי.

לא זאת גם זאת – לפני כשבועיים 6 מענקיות הדאטה (אמזון, דיפמיינד, גוגל, פייסבוק, IBM, מיקרוסופט) חברו לשותפות AI בינן לבין עצמן.

הדיון בשאלה מה טוב יותר – יותר נתונים או אלגוריתמיקה טובה יותר – אמנם לא הוכרע, אבל בכמויות נתונים שכאלו קשה לדמיין חברה קטנה נותנת "פייט" לענקיות הללו.

מה כן יכול "לאזן" את התמונה ולעודד תחרות בשוק כזה?

אולי חברות חדשות שתכנסנה עם סנסורים חדשים? אולי "מס מידע" שהמדינה תקח מחברות ענק ותשחרר לשימוש ציבורי? אולי חברות לסחר במידע, כמו אלו שרמו"ט חוששים מהן, שתאפשרנה לעסקים קטנים גישה למידע רלוונטי ולייעול התנהלותם בשוק?

Whose data is it anyway?

במצב היום, נראה שמי ששולט בסנסורים לאיסוף הנתונים הוא השולט הבלעדי במידע. אבל מה מותר לי לעשות עם כל המידע שנאסף עלי?

בכתבה בערוץ 10 מועלה מספר פעמים החשש שמידע שנאסף על בן אדם ישמש כנגדו בהחלטה על תנאי הפרמיה שהוא יקבל או התעסוקה שלו. אבל מה אם יש לי מידע שמוכיח שאני לקוח "כדאי"? למה שלא אוכל לנייד אותו בין עסקים שונים, בלי קשר לשאלה מי אסף אותם במקור? אולי אוכל לדרוש מעסק אחד למחוק את המידע שאסף עלי? גם זה, כמובן, יתרום ליותר תחרות בשוק.

זה לא שאין בעיות

כמובן שיש מקרים שבהם באמת באופן אינהרנטי האיסוף ושימוש בנתונים – כפי שנסקר בספר שפורסם לאחרונה, Weapons of Math Destruction. למשל במקרים בהם הנתונים משקפים אפליה חברתית ומשמשים להנצחתה והעמקתה (למשל word2vec של גוגל שכחלק מ”לימוד” השפה "למד" סקסיזם ובהתאם "מציע" הצעות סקסיסטיות).

למשל במקרים בהם יש ניגוד אינטרסים מובנה בין מי שהמידע נאסף עליו למי שמשתמש בו (כמו בין שוטרים ופושעים). לא בטוח שכחברה אנחנו בהכרח "נגד" ההטיה במקרים האלו.

אז מאי נפקמינא?

הבעיה היא לא בעצם התפיסה שאנחנו רוצים לשמור על פרטיות. אבל אנחנו כן צריכים לקחת אחריות על המידע שלנו ולהבין מה אנחנו רוצים שיעשו איתו (ומי), מה אנחנו מוכנים שיעשו איתו (ומי), ומה אנחנו לא מוכנים בכלל.

האם אנחנו מוכנים שאלגוריתם יקרא לנו את המידע? ובן אדם זר בצד השני של העולם ובישראל? ואם זה נשמע לכם דמיוני אז תזכרו שהצנזורה על תוכן לא הולם בפייסבוק לא מתבצעת באמצעות אלגוריתמיקה מתוחכמת אלא באמצעות צוותים בארה"ב, אירלנד, והודו שעוברים על כל פוסט שמסומן כפוגעני.

דיון כזה צריך להוביל כנראה גם לדיון בשאלה מה, אם בכלל, אנחנו רוצים שתהיה מעורבות המדינה באיכפת רגולציה על איסוף נתונים שכזה.

אבל לפני שאנחנו פונים להתערבות המדינה, אנחנו צריכים לקחת אחריות על עצמנו ולפתח מודעות אמיתית – שהיא בהגדרתה ולא אטימות בסגנון "הכל רע" – לאילו אפליקציות אוספות עלינו איזה מידע, ומה הן עושות איתו.

פורסם בקטגוריה Uncategorized | כתיבת תגובה

העלאת אחוז החסימה בישראל – מה קרה עד כה?

לאחרונה עלתה שוב הצעת חוק להעלאת אחוז החסימה לכנסת. הצעות להעלאת אחוז החסימה לכנסת עולות על סדר היום מאז שנות החמישים (למעשה, ההסכם הקואליציוני ב-1954 כלל העלאה של אחוז החסימה ל-4.2% …).

עד כה במדינת ישראל אחוז החסימה עלה 4 פעמים: בבחירות של 1951 (ל-1%), בבחירות של 1992 (ל-1.5%), בבחירות של 2006 (ל-2%) ובבחירות של 2015 (ל-3.25%).

יש די הרבה נימוקים נגד העלאת אחוז החסימה: פגיעה בעיקרון הייצוגיות באופן כללי, ניסיון לפגוע בייצוג של מגזרים ספציפיים, וכו'.

הנימוקים של מצדדי העלאת אחוז החסימה בדרך כלל מדברים על הצורך בהקטנת מספר המפלגות, והגדלת יציבות המערכת הפוליטית על ידי חיזוק הכח של המפלגות הגדולות. אך האם האפקט הזה אכן מושג מהגדלת אחוז החסימה?

בדקתי את הנתונים ההיסטוריים בנוגע לבחירות בישראל תוך התבססות על מאגר ParlGov.

מספר המפלגות

מספר המפלגות בכנסת נע בין 10 (בבחירות של 1981 ושל 2015) ל-16 (בבחירות של 1999).

באופן כללי, נראה שממוצע המפלגות בכנסת לא הושפע משמעותית מאחוז החסימה: 12.7 מפלגות ב-1% חסימה, 13 מפלגות ב-1.5% חסימה, ו-12.3 ב-2% חסימה.

מספר מפלגות לאורך השנים

חיזוק כח המפלגות הגדולות

מה בנוגע לחיזוק כח המפלגות הגדולות? היוריסטיקה שמאחורי תמיכה בהעלאת אחוז החסימה מניחה שכדי להתמודד עם העלאת אחוז החסימה מפלגות קטנות תתאחדנה עם מפלגות גדולות (או שלכל הפחות מצביעי מפלגות קטנות "ינדדו" למפלגות גדולות), מה שיגדיל את כח המפלגות הגדולות בכנסת.

השוואה של מספר המנדטים של המפלגה הגדולה בכנסת בכל אחת מתקופות אחוזי החסימה השונים מצביעה על מגמה הפוכה – ממוצע המנדטים של המפלגה הגדולה בכנסת בתקופת 1% החסימה היה 45.5, בתקופת 1.5% היה 35.5, ובתקופת 2% היה 25.6.

מנדטי המפלגה הגדולה לאורך השנים

הגודל הממוצע של מפלגה בכנסת, אגב, לא מושפע כל כך מהעלאת אחוז החסימה – מ9.6 מנדטים בתקופת 1% חסימה, ל-9.5 מנדטים בתקופת 1.5% חסימה, ו-9.7 מנדטים בתקופת 2% החסימה.

על פניו נראה שמה שבמקביל להעלאת אחוז החסימה גדלו כוחן של "המפלגות הבינוניות" דווקא, ולא של "המפלגות הגדולות".

הגברת היציבות

תופעה דומה ניתן לראות גם במדידת משך זמן כהונת הכנסת: מ-3.7 שנים בממוצע בתקופת 1% החסימה, ל-3.4 בממוצע בתקופת 1.5% החסימה, ל-2.9 שנים בממוצע בתקופת 2% החסימה.

משך כהונת הכנסת לאורך השנים

כמובן שלא ניתן להצביע על סיבתיות מהנתונים האלו, ושמדובר בתוצאה של תהליכים רבים ומורכבים עם גורמים משתנים רבים. מכל מקום, אם המטרה של העלאת אחוז החסימה היא הגדלת כוחה של המפלגה הגדולה בכנסת והגברת יציבות המערכת הפוליטית – מבחינת התנהגות המפלגות והמצביעים עד כה נראה שלא מדובר בתרופה יעילה במיוחד.

פורסם בקטגוריה Uncategorized | כתיבת תגובה

לא רק שזו לא מדיניות, זו אפילו לא טעות (תגובה לשאול אמסטרדמסקי)

שאול אמסטרדמסקי פרסם פוסט ממש מעניין בנוגע למכונות המזל של מפעל הפיס.

בין היתר יש שם נתונים חשובים שבאמת שווה שיעוררו שיח ציבורי בנוגע לכמה המכונות האלו רווחיות למפעל הפיס (בערך רבע מההכנסות בשנת 2014 למרות שקיימות רק בערך 140 מכונות כאלו בכל הארץ) – ולהשלכות החברתיות שיש לדבר הזה (שנוצר על ידי מפעל הפיס שהוא, נזכיר, "חברה לתועלת הציבור" …).

אחת הטענות המרכזיות בפוסט של אמסטרדמסקי היא שלמפעל הפיס יש מדיניות מכוונת של מיקום מכונות המזל האלו באזורים עם אוכלוסייה סוציואקונומית חלשה. לשם ביסוס הטענה הזו הוא מתעמק אנקדוטלית בפיזור התחנות בתלאביב, בירושלים, בפתח תקווה, בראשון לציון, באשדוד, ובאשקלון.

האמנם?

הנקודה העקרונית, לפני שאפרט על בדיקת הנתונים עצמה, היא שקורלציה לא מעידה על סיבתיות, כמו שמזכיר הסטריפ המפורסם של XKCD.

correlation

אם אני הייתי עובד במשרד הפיס והיו מבקשים ממני לגבש מדיניות בנוגע לפיזור מכונות המזל כחלק מהפיילוט, כנראה שהייתי אומר "בואו נשים אותן בתחנות שהן גם ככה הכי רווחיות". זו נשמעת לי כמו מדיניות די מתבקשת.

בהחלט יכול להיות שיש מתאם חזק בין מקומות במעמד סוציואקונומי נמוך לבין תחנות פיס רווחיות – אבל זה כי באופן כללי הימורים זה חרא וכו'. הדבר לא בהכרח מעיד על מדיניות מכוונת ומרושעת של פיזור המכונות במקומות עם אוכלוסייה חלשה.

הנקודה השנייה היא שמבדיקת הנתונים עצמם – נראה לי שבכלל אין קורלציה שכזו.

הבדיקה שערכתי

הסתמכתי בבדיקה על שתיים מהטבלאות שאמסטרדמסקי העלה בסוף הפוסט שלו: so_ec2008.csv ואת טבלת הכתובות של תחנות מכונות המזל.

מתודולוגיה – איחוד הנתונים

so_ec2008 מכילה מידע על בערך 3071 אזורים שב-1236 יישובים בארץ. עבור רוב האזורים יש חלוקה לאחד מ-20 אשכולות סוציואקונומיים, כשאשכול 1 מתייחס לשכונות החלשות יותר (שכונות ספציפיות בבית שמש, ערערה, רהט, תל שבע) ואשכול 20 מתייחס לשכונות החזקות יותר (חיפה, סביון, רמת השרון, ותל אביב). בכל אזור כזה מצוינות שכונות מרכזיות ורחובות מרכזיים.

בשלב השני בחנתי את 142 תחנות הפיס שבהן יש מכונת מזל. עבור אלו מתוכן שממוקמות ברחוב שצוין כ"רחוב מרכזי" באחד מהאיזורים בטבלה so_ec2008 הוספתי את האשכול הסוציואקונומי שלו. ברחובות שעוברים בין מספר איזורים כאלו ציינתי את ממוצע האשכולות (למעט 2 מקרים בהם פיזור האשכולות הסוציואקונומיים ברחוב היה גבוהה במיוחד).

בדרך זו הצלחתי לקטלג 106 מתוך 142 התחנות. עבור 36 התחנות הנוספות – נראה שחלקן הגדול ממוקמות באזורי תעשייה בהן ככל הנראה לא גרים ולכן הלמ"ס לא מחלק את האזור לאשכול סוציואקונומי כלשהו. עבור חלקן פשוט לא הצלחתי לחלץ נתונים (הרחוב לא הופיע כרחוב מרכזי באף אחד מהאזורים ביישוב, או שהישוב לא הופיע ברשימת הלמ”ס).

הבדיקה

ממוצע האשכול הסוציואקונומי הארצי הוא 9.9, החציון הוא 10, וסטיית התקן היא 4.1.

ממוצע האשכול הסוציואקונומי עבור אזורים בהן יש תחנת פיס ובה מכונת מזל הוא 10.2, החציון הוא 10, וסטיית התקן היא 2.8.

עריכה: וככה ההתפלגות נראית ויזואלית:

אשכול

כלומר: לא נראה שיש כלל הטייה בנוגע לאשכול הסוציואקונומי עבור אזורים בהם הוצבה מכונת מזל. פיזור אקראי לחלוטין של מכונות מזל היה אמור להגיע לתוצאה דומה.

כלל התחנות שמובלטות בפוסט של אמסטרדמסקי כמובן קיימות, אך לצידן קיימות גם תחנות ברחוב אחוזה ברעננה (אשכול 16), בדרך מגדיאל וברחוב הבנים בהוד השרון (שניהם אשכול 15), בכצנלסון בגבעתיים (אשכול 15), ברחוב תובל ברמת גן (אשכול 14), ויצמן בכפר סבא (אשכול 14), וכו'.

הסתייגויות מתודולוגיות

באשר לשלב איחוד הנתונים – אני מאמין שאין משהו שמשותף ל-36 התחנות שלא הצלחתי לחלץ עבורן אשכול סוציואקונומי, ושלכן אין הטיה בבדיקה. עם זאת, כמובן שקטלוג התחנות הנותרות יכול להביא לתוצאות מהימנות יותר.

כך גם בנוגע להסתמכות שלי על ממוצע האשכול הסוציואקונומי עבור רחובות שחצו יותר מאזור אחד. כנראה שחילוץ על בסיס גיאוגרפי היה יכול להיות גם הוא טוב יותר – אם כי, כאמור, השונות לא הייתה גדולה מדי עבור רוב התחנות הללו, ואני לא מאמין שבדיקה מדויקת יותר על בסיס גיאוגרפיה תוביל לתוצאות שונות באופן משמעותי.

בנוסף, כביכול יש הנחה מובלעת שהרווח של מפעל הפיס זהה בכל התחנות הללו – מה שלא בטוח. בהחלט יתכן שהתחנות באום אלפחם, לוד, ואופקים מכניסות יותר רווח לפיס ושאנשים שם מוציאים יותר כסף (בין אם אבסולוטית ובין אם כאחוז מההכנסה הפנויה) מאשר בתחנות אחרות.

סיכום דבר

להבנתי אין מתאם בין אשכול סוציואקונומי נמוך לבין החלטת מפעל הפיס להציב מכונת מזל שם.  עריכה2: הרצתי מבחן כי בריבוע על ההתפלגות פיזור מכונות המזל למול התפלגות האזורים בין האשכולות השונים. באופן מובהק (p-value קטן מעשירית האחוז) נראה שדווקא יש קשר בין השניים – אבל ייצוג היתר הוא לא "לאשכולות הנמוכים יותר" אלא בעיקר לאשכול מספר 10.

מדובר על התחנות שממוקמות במקומות כמו העליה ולה גארדיה בתל-אביב, אגריפס בירושלים, העצמאות בקרית אתא, רוגוזין באשדוד, וכו'.

ויתר על כן, אפילו לא היה מתאם כזה – שימוש במתאם הזה כדי להצביע על מדיניות מכוונת של מפעל הפיס היה אנקדוטלי בלבד, ובעיניי גם לא סביר.

מכל מקום – הפוסט של אמסטרדמסקי מעלה נקודות חשובות רבות, ולשאלה האם כן או לא להתיר למפעל הפיס לפזר מכונות מזל יש השלכות חברתיות משמעותיות שצריך לדון בהן והקשר פוליטי ברור.

בהיבט הזה זה לא משנה אם מפעל הפיס "נטפל" באותה המידע לאנשים ברחוב אחוזה ברעננה או ברחוב הרצל בלוד.

פורסם בקטגוריה Uncategorized | 5 תגובות