דברים שלמדתי בתואר בדאטה סיינס (חוץ מלהשתמש ב-PyTorch)

לפני קצת פחות מחודש הגנתי על התזה שלי ובכך סיימתי את חובותיי לתואר השני ב-Information Studies (מסלול דאטה סיינס) באוניברסיטת אמסטרדם. עכשיו, לפני החזרה לארץ והתחלת העבודה בתחום, חשבתי לקחת את ההזדמנות ולנסות לעבד קצת מחשבות ומסקנות מהלימודים בתחום הדאטה סיינס.

 

לימודי Data Science: קורסים מקוונים לעומת קורסים אקדמיים

נתקלתי בהרבה אנשים עם רקע אקדמי בתחומים אחרים (מדעי החברה, מדעים מדויקים) שמתלבטים האם יש יתרון בלימודי דאטה סיינס במסגרת אקדמית, או שקורסים מקוונים "מספיקים"/"עדיפים". כמו שכתבתי בעבר, אני די fanboy של קורסרה ושל קורסים מקוונים – בפרט בתחום ה-Data Science. אני חושב שהם מהווים דרך מעולה ללמוד ולתרגל מיומנויות נדרשות (כתיבת קוד, היבטים יישומיים של ניתוחים סטטיסטיים) ולהחשף למקרי בוחן שונים שאפשר לשאוב מהם השראה.

בלי קורסים מקוונים כנראה שלא הייתי יכול להתקבל לתכנית הלימודים הזו (ואם הייתי יכול להתקבל – אז האתגרים שהייתי מתמודד איתם במהלך הלימודים היו אחרים לגמרי). ולמעשה גם תוך כדי הלימודים המשכתי לקחת קורסים בקורסרה (ומספר קורסים כללו קורסים מקוונים מומלצים כחלק מהסילבוס שלהם) ואני חושב שזה כלי שחבל לא לעשות בו שימוש.

למי שמתלבט "איפה להתחיל", אני לגמרי ממליץ על קורסים מקוונים – בין היתר כי הם מאפשרים יותר גמישות ודורשים פחות התחייבות אפריורית. מצד שני, למסגרת של לימודים אקדמיים יש כמה יתרונות לא מבוטלים שנותנים ערך מוסף שקשה לקבל בקורסים מקוונים.

קודם כל, בהסתכלות פרקטית על שוק העבודה – אמנם לגמרי אפשרי וריאלי במצב השוק הנוכחי למצוא תפקידי Data Science שלא דורשים השכלה פורמלית (לפחות במצב הנוכחי), אבל מספיק להסתכל על מודעות דרושים ולשוחח עם כמה אנשי HR כדי להבין שהשכלה פורמלית מספקת יתרון קריטי בחלק מהמשרות (וודאי שהדבר נכון למי ששוקל קריירה אקדמית). למשרות מחקר ופיתוח מגניבות באמת לרוב גם נדרש דוקטורט.

אבל זה עוד שיקול "ציני" יחסית, שמתייחס רק להון התרבותי של לימודים אקדמיים. יש לאקדמיה גם יתרונות "תכלס". קודם כל, הלימודים במסגרת אקדמית "מכריחים" אותך להחשף גם לתחומים שלא בהכרח היית בוחר ללמוד בקורסים מקוונים. אחד הקורסים שיותר השפיעו עלי בתואר כלל תכנים של סימולציה ואופטימיזציה (למשל תכנון דינאמי) שאני בספק אם הייתי מגיע אליהם בדרך אחרת, ובטח שלא מופיעים במדריכי "קורסים מקוונים לדאטה סיינס".

בנוסף, המסגרת האקדמית חושפת אותך גם למחקר ה-ongoing בתחום ולפולמוס בין חוקרים שונים (בעוד שקורסים מקוונים מתמקדים על פי רוב ב"best practices" וב"שאלות פתורות"). מעבר לחשיבות הישירה של זה, אני חושב שזו פרספקטיבה שעוזרת לחשוף הנחות יסוד ולהבין טוב ובצורה מעמיקה יותר גם "פרקטיות נהוגות" קיימות בתחום (ועוזרת לחשוף, למשל, מתי הן בכלל לא מתאימות).

ולבסוף, אם לוקחים "צעד אחורה" אז ברור שהרבה ממה שמאפשר את ההתקדמות של התחום הוא קיומם של חוקרים ושל מחקר אקדמי ושל פריצות דרך שמגיעות ממנו (ואחר כך מתורגמות להקשרים עסקיים/אחרים).

בשורה התחתונה: למי שיש את הפריבילגיה, לגמרי הייתי ממליץ על לימודי Data Science שמשלבים קורסים מקוונים ולימודים במסגרת אקדמית (ומחקר עצמאי).

 

שימוש בדאטה סיינס בפרקטיקה

לתחום הדאטה סיינס יש יח"צ מאוד טובים. למעשה, הרבה מהארגונים/חברות/חוקרים שראיתי שמתעניינים בכניסה לתחום עושים את זה משילוב בין תפיסה שדאטה סיינס זה סוג של קסם ("בהשקעה מועטה של משאבים ומאמץ אפשר לעשות דברים מופלאים") לבין תפיסת "מכתב שרשרת" ("אם לא נשתמש בדאטה סיינס נהפוך למיושנים ו'יעקפו אותנו בסיבוב'").

אני חייב להודות שברוב המוחלט של פרויקטים שיצא לי לראות או לקחת בהם חלק, אם בכלל יש low-hanging fruits – אז לרוב הם לא יותר מנחמדים. באופן מפתיע, גם בתחום הדאטה סיינס אין לאף אחד נוסחת קסם שיוצרת יש מאין; וגם בלמידת מכונה אין ארוחות חינם.

זה לא אומר, כמובן, שאין טעם ביצירת הוכחות היתכנות או שאי אפשר להיות זמישים – רק חשוב מאוד לשמור על ציפיות ריאליות (ולנהל את הפרויקטים מתוך הבנה אמיתית של מה אפשר ומה בלתי אפשרי בתחום).

מהצד השני, גם הנטייה לנסות להשתמש בכלים כמה שיותר מתקדמים ומתוחכמים (שמאפיינת בד"כ אנשים שדווקא כן יש להם הבנה אמיתית בתחום של DS) היא הרבה פעמים פשטנית בכך שהיא מתעלמת מהרלוונטיות המחקרית/עסקית שעומדת בליבת הפרויקט.

יש משהו פחות מרגש בתהליך שבנוי על איסוף מידע איכותי ושימוש במודלים בסיסיים (בין היתר כי זה מדגיש כמה "אין קסם" בזה) אבל לפעמים זה הדבר הנכון לעשות: כי זה זול יותר, אמין יותר, קל יותר להבנה ולתקשורת, וכו'.

במובן הזה, מעבר למיומנויות הטכניות וההבנה התיאורטית הנדרשת, נראה שפרויקטי Data Science בפועל גם מצריכים חשיבה מערכתית.

 

אפשר להשתמש ב-Data Science גם כדי לעשות טוב

הגעתי להתעניין בתחום של דאטה סיינס מהכיוון של מדעי החברה (הרבה בזכות הפרסומים של ה-OII). עם השנים נראה שהחיבור בין מדעי החברה למדעי הנתונים הולך ומתמקד בשאלות של אתיקה וביקורת חברתית על השימוש בדאטה סיינס בפועל, ולעתים גם בשאלות של רגולציה.

בעוד שמדובר בתחום חשוב, ושאני ממש בעד להמשיך ולהרחיב את העיסוק בו (כולל בהקשרים רלוונטיים בישראל) קצת חבל לי שהמסגורים היחידים של דאטה סיינס ו-AI בשיח הציבורי הם או בתור קטסטרופה אוטוריטרית נוראה שבה התחום האלו משמשים לפיקוח ושליטה; או בתור כלי שמאפשר "אובייקטיביות" שאינה מושפעת מהטיות אנושיות או מהקשרים חברתיים.

ממה שיצא לי לראות, נראה שהמסגורים האלו גם משקפים את האג'נדה המחקרית, בגדול, כשעיקר התרומה של מדעי החברה היא לחשוף את האופנים בהם מבנים חברתיים משפיעים ומעצבים בינה מלאכותית ומשמשים ככלי נוסף בידי בעלי כח. אפשר להגיד שמדעי החברה מספקים מסגרת פרשנית (ובמקרים מתקדמים דוגמת GDPR גם מספקים הצדקות וראציונל למסגרת רגולטורית).

לחלופין, יש נסיונות להשתמש בכלי דאטה סיינס לעריכת מחקרים חברתיים (כלומר: מחקרים בהם המוטיבציה לשאלת המחקר נטועה במדעי החברה, והמתודולוגיה היא "דאטה סיינסית" באופיה"); או לקידום מטרות עם חשיבות חברתית.

נוסף על השילובים הנ"ל, נראה לי שיש מקום לבחון שימוש בכלי דאטה סיינס לעיצוב אינטרקציות חברתיות מתוך מודעות ליחסי הכח החברתיים הקיימים. למשל, באחד הפרויקטים שהשתתפתי בהם בלימודים יצאנו מתוך הגדרות מלימודי תקשורת כדי לבסס מערכת המלצות שמשקללת גם רצון לגיוון בתוך דירוג התוצאות למשתמשים ככלי להתמודדות עם תופעת "בועת הפילטר".

באופן רחב יותר, אם מקבלים את הטענה שדאטה סיינס יכול לשמש גם כמסגרת מחשבתית בפני עצמה לפיתוח ידע על תופעות – שילוב עם מדעי החברה מעורר את השאלה לא האם אפשר לייצר AI "אובייקטיבי" ש-"עוקף" הטיות סובייקטיביות, אלא דווקא האם אפשר ליצור AI שיהיה סובייקטיבי במכוון. האם, למשל, אפשר ליצור AI פרוגרסיבי ו-AI שמרני שינהלו "דיון" ביניהם? ואם אפשר – מה זה אומר לנו על החשיבה הזו, ועל דיונים בין-אידיאולוגיים?

מודעות פרסומת
פורסם בקטגוריה Uncategorized | 2 תגובות

אנחנו במפה, ואנחנו נשארים במפה (לא רק בספורט – בהכל!)

כמו כל חובב דאטה עם מטלות חשובות ודחופות יותר, גם אני ביליתי חלק מהימים האחרונים בהתאבססות קלה על מפת הנתונים של strava.

הסיפור, בגדול, הוא שבנובמבר האחרון strava ("רשת חברתית לאתלטים" שבין היתר מתממשקת למכשירים כמו fitbit ו-polar וכו') העלו עדכון של "מפת חום" של כל פעילויות המשתמשים שלהם ברחבי העולם.

ביום שבת האחרון סטודנט אוסטרלי צייץ (אחרי שאבא שלו אמר לו שזו בעצם מפה של "לבנים עשירים בעולם") שאפשר לזהות ולמפות ככה בסיסי צבא אמריקאים במזרח התיכון, ומשם זה נהיה ויראלי.

 

אבל למה בעצם? למה כל כך כל להישאב למשחקים במפה הזו? לדעתי המפה הזו מזכירה שלפני למידת המכונה ורשתות הנוירונים וכו' – בדאטה סיינס הייתה גלומה ההבטחה לעשות למדעי החברה ""את מה שהטלסקופ עשה לאסטרונומיה". להיות כלי חדש שדרכו נוכל להסתכל ולמדוד ולהגדיר תופעות.

כשמעמתים אותנו עם זה שאנחנו "מייצרים על עצמנו דאטה" בלי לשים לב, ושאפשר לזהות באמצעות זה דברים שנוגעים לנו כפרטים או לדינמיקות החברתיות שאנחנו חלק מהן (כמו גוגל טרנדז, למשל) יש בזה תמיד הרבה קסם.

וזה עוד לפני שמדברים על הפוטנציאל באשכרה שימוש בנתונים כאלו לקביעת מדיניות ברמה הלאומית או המוניציפאלית (תארו לעצמכם מה מתכנני ערים יכולים לעשות עם המפה של strava), או סתם ברמה האישית (רוצים ללכת לרוץ במסלולים פופולאריים? לרכב על אופניים למקום שכמעט אף אחד לא רכב בו? לדעת מה החוף הכי פופולארי לשחייה בסביבה?)

 

אז אחרי משחקים עם המפה של strava גם בנוגע לבסיסים בישראל (נסו ותהנו) שהראו שלמרות ש"מפות גוגל" לא כוללות מיפוי פנימי של בסיסים בשל רגולציה, בהחלט אפשר למצוא מיפוי כזה אם מסתכלים על נתיבי ריצה ורכיבת אופניים במפה של strava – הנה עוד כמה דברים חברתיים מעניינים לא פחות (ובעיניי תכלס יותר) שאפשר לראות בנוגע לישראל מאימוץ פרדיגמת מפת "הלבנים העשירים":

 

איזה משוגע המזה"ת (בולטים: ישראל, מרוקו, לבנון, דובאי)

mideast

הקו הירוק פחות או יותר "משרטט את עצמו" (וגם הנגב)

greenline

שכונות צפון ודרום תל אביב

telaviv

שכונות בירושלים

jerusalem_north

jerusalem_south

בני ברק

bne_braq

וכמובן שאפשר גם לראות דפוסים שנוגעים יותר ישירות לדפוסי פעילות ספורט כמו

מסלולי צליחה בכנרת

kinneret

שרטוט ואדיות (נראה לי) באזור באר שבע על ידי השוואה בין "מסלולי ריצה" ל"מסלולי רכיבת אופניים"

ריצה

beer_shave_running

אופניים

beer_shave_bikes

פורסם בקטגוריה Uncategorized | עם התגים , | 2 תגובות

לפעמים ל-Data Science יש ביצועים פחות טובים מבני אדם. וגם זה מגניב.

אחד הדברים המתעתעים בנוגע ל-Data Science ולמידת מכונה הוא שבניגוד ליישומים שעושים דברים טוב יותר מבני אדם – שהם אלו שתופסים את רוב הכותרות – בעצם הרבה מהמאמצים בתחום מכוונים לעשות דברים פחות טוב מבני אדם אבל "טוב מספיק" ובמאסה.

דוגמא בולטת, היא תרגומי מכונה סטייל Google Translate. כנראה שרוב הישראלים שדוברים אנגלית ברמה בסיסית יצליחו לחשוב על חלופה מוצלחת יותר לתרגום השיר "פרחה שם יפה" מאשר זו שמציע גוגל טרנסלייט:

פרחה שם יפה

ועדיין, התרגום של גוגל מספיק טוב בשביל שיהיו לו חצי מיליארד משתמשים, שיתרגמו 100 מיליארד מילים ביום, ב103 שפות שונות, וכו'. לבסס אפליקציית תרגום על מתרגמים מקצועיים יכול תיאורטית להגיע לרמות ביצועים גבוהות יותר, אבל השירות יהיה כל כך יקר ואיטי שהוא כמובן לא בר מימוש בכלל.

לדעתי מעניין לחשוב על המשמעות של היישומים האלו בכמה זוויות: עסקית, חברתית, ופילוסופית.

 

הזווית העסקית: איזה "דאטה סיינס" הארגון חושב שהוא יקבל?

בהתאם למיקום של דאטה סיינס בעקומת ההייפ של גרטנר, נראה שהרבה ארגונים וחברות רוצים "לעשות" דאטה סיינס בלי לגמרי להבין איך ולאיזה צורך. מעבר לכך שזה טוב למי שמחפש עבודה כדאטה סיינטיסט, אני חושב שגם אשכרה יש בזה היגיון כי זה באמת תחום עם פוטנציאל גדול להרבה עסקים.

*אבל* – כדי למצוא את הדרך הנכונה להשתמש בדאטה סיינס לצרכי הארגון, שווה להכיר בהבדל בין שני ההיבטים האלו של "דאטה סיינס" ולחשוב ברמה האסטרטגית מה אפשר לעשות עם התחום ובאיזו רמת ביצועים.

לפעמים שווה יותר להשקיע באנשי מקצוע אנושיים שיעשו ניתוח / תרגום / סיווג בצורה איכותנית כי התוצאה תהיה טובה יותר; לפעמים כמות העבודה ש"תחסך" על ידי דאטה סיינס לא תהיה שווה את העלות של הקמת פתרון דאטה סיינס ייעודי לבעיה; וכו'. הרי לחלק מהמשימות אפילו פייסבוק משתמשים במסווגים אנושיים.

הזווית החברתית: מי מקבל טיפול אנושי, ומי מקבל טיפול אלגוריתמי?

נראה (ואני מבסס את הטענה הזו בראש ובראשונה על קת'י או'ניל) שבארה"ב יש מגמה של שילוב אלגוריתמים של Data Science ביותר ויותר היבטים של החיים הציבוריים והפרטיים. אני לא מכיר התייחסות למגמה דומה בישראל, אבל נשמע לי די בטוח להניח שגם ה-Start-Up Nation לא תישאר מאחור (בטח שלא אם זה תלוי בשלל הסטארט-אפים שלה בתחום הערים החכמות, לדוגמא).

כאמור – בגדול אני בעד, ואני בטוח שזה עוזר בהרבה דברים.

*אבל* – אני חושב שנוסף על שלל החששות האתיים שהתחום מעורר צריך לבחון גם האם הדבר לא נוצר "פער" במסגרתו בעלי משאבים וקשרים יכולים לקבל טיפול אנושי "מעמיק" שמתחשב במורכבות ובייחודיות של כל מקרה לגופו; בעוד שאזרחים מאוכלוסיות אחרות ומרקעים חלשים יותר ייאלצו "להסתפק" בטיפול אלגוריתמי וב-Computer Says No.

הזווית הפילוסופית: מה החשיבות של דאטה סיינס ברמת המטא?

אני חושב שיש גם דמיון מעניין בין ניסיונות בתחום ה-Data Science להצליח לחקות דברים שבני אדם טובים בהם לבין שאלות פילוסופיות. אלו ניסיונות שמזכירים את שיטת הדיאלוג הסוקרטי בו מנסים לבחון מושגי יסוד "ברורים מאליהם".

2pPTpxT

סיווג של תמונות ל"חתול" ו-"לא חתול" זו למעשה דרך יישומית לתת תשובה לשאלה "מהו חתול". ברמה בסיסית יותר – אפשר להסתכל על ראייה ממוחשבת בתור ניסיון יישומי לתת תשובה לשאלה מה זו "ראייה" או "הבנה" מתוך תמונות ("איך מבינים מהו חתול?").

אלו תשובות שונות ממה שהיינו מצפים להן במסגרת דיון "קלאסי" – הן לא מתיימרות לניסוח מילולי, ולכן גם לא מתיימרות להיות מובנות כחלק מחוויה אנושית – אבל לא רק שהן תשובות מעניינות, הן גם תשובות שבפועל נראה שמרצות אותנו כמשתמשים וכחברה במספיק מקרים.

במשתמע – יכול להיות שלדאטה סיינס יש ערך גם ברמת המטא (כלומר: דאטה סיינס כמסגרת מחשבתית בפני עצמה), ושזו יכולה להיות מוטיבציה נוספת להשתמש בכלים מהתחום גם להיבטים שאין עבורם יישומים עסקיים ברורים.

פורסם בקטגוריה Uncategorized | עם התגים | כתיבת תגובה

בעקבות מפגש ADS וקורסרה: מחשבות על השכלה ומדע הנתונים

לפני שלוש שנים בערך התחלתי להתעניין בצורה רצינית בתחום ה-Data Science. עם תואר שני במדע המדינה ותואר ראשון בכלכלה ומזה"ת הייתי צריך למצוא דרך להשלים פערים ולרכוש מיומנויות נדרשות בתכנות, סטטיסטיקה, אלגברה לינארית, וכו'. קורסרה התגלתה כאתר מעולה לצורך הזה.

אחרי משהו כמו 20 קורסים באתר, ועם מטרה "לעלות שלב" ברמה המקצועית שלי בתחום, התחלתי תואר שני נוסף ב-Data Science באוניברסיטת אמסטרדם. אחת הסיבות שבחרתי באמסטרדם היא "ההחלטה אסטרטגית" של העיר לתעדף את תחום ה-DS ולפתח "אקו-סיסטם" סביבו: כולל שיתופי פעולה של אוניברסיטאות, גופי מחקר, גופים עירוניים, תאגידים גדולים, סטארט-אפים מקומיים, וכו'. (חוץ מזה שנשמע מגניב לגור באמסטרדם).

כחלק מסצינת הדאטה סיינס העירונית מתקיימים די הרבה מפגשים בתחום שפתוחים לקהל הרחב. ביום שישי האחרון התקיים מפגש כזה שסבב סביב תחום ה-Data Science והשכלה. המפגש נערך בהשתתפות, בין היתר, מנכ"ל קורסרה, Jeff Maggioncalda; ה-Director of Data Science של קורסרה, Emily Glassberg Sand; ודמויות בולטות מאוניברסיטאות ועסקים בעיר.

מצאתי את המפגש מעניין ומעורר השראה במיוחד, ומצאתי לנכון לחלוק חלק מהדברים שעלו במסגרתו. זה יהיה פוסט קצת משונה, שינסה לעבור על מספר נקודות מעניינות שעלו במהלך הסימפוזיון ולא בנוי כדי להעביר טענה מסוימת.

0.png

מחשבות על השכלה

איך מנכ"ל קורסרה הציג את קורסרה ואת המקום של לימודי מדע נתונים באתר

1

בדברי הפתיחה שלו, Maggioncalda הציג נראטיב מעניין בנוגע לקורסרה. לשיטתו, פעם התפיסה הרווחת הייתה שמסלול חיים "רגיל" של אנשים משכילים כלל התבגרות, תקופת למידה, ואז תקופה ארוכה של "עבודה" איפשהו.

אחד האתגרים הגדולים של התפיסה הזו היום היא שהצרכים של לקוחות משתנים במהירות, מה שגורם לעבודות להשתנות במהירות ובהתאם גם למיומנויות שנדרשות ממועסקים. בגלל הצורך להתפרנס ולפרנס משק בית – מערכת הלמידה צריכה למצוא דרך "להדביק" את קצב ההשתנות הזה – מה שאומר בפועל לאפשר לרכוש מיומנויות שעסקים ימצאו כערכיות.

בהסתכלות הזו, לא מפתיע שמדעי המחשב ומדעי הנתונים היו הקטגוריות הראשונות שאנשים ממש התעניינו בהם בקורסרה. יש לאתר היום 28 מיליון לומדים מרחבי העולם, רובם לא מארה"ב – הרבה מאסיה אפריקה ומהמזה"ת, 20% מאירופה.

הרעיון של Lifelong Learning והשפעתו על מערכת ההשכלה

באופן כללי, קצב השינויים המתואר לעיל גורם לכך שההפרדה בין "תקופת לימודים" ל-"תקופת עבודה" מיטשטשת. הידע שצוברים הופך ל"מיושן" ומאבד מהערכיות שלו בשוק העבודה, מה שמצריך להמשיך ולשלב לימודים כחלק ממסלול החיים גם בתקופת ה"עבודה".

מצד שני, בתקופה הזו אנשים עסוקים מאוד ולא מסוגלים בהכרח להקדיש את כל יומם ללימודים. מנכ"ל קורסרה הצביע על המתח המעניין בתחום מדע הנתונים – מצד אחד זה תחום מבוקש על ידי מעסיקים ולומדים רבים (מיליוני אנשים לומדים דאטה סיינס בקורסרה – רבים מהם הם כבר בעלי תואר שני) , אבל מצד שני "אי אפשר להתעורר יום אחד ולהחליט להיות Data Scientist בתוך חודש" לאור הצורך בבסיס רחב לתחום.

השינוי הזה לא "מייתר" את תקופת הלימודים, אבל כן קורא להסתכלות אחרת עליה. מה שמערכת ההשכלה הפורמאלית צריכה לתת, בראייתו, הוא "בסיס רחב וטוב מספיק" כדי לבנות עליו בהמשך. יש, למשל, צורך ב-primary education טוב שיכשיר אנשים ללמוד איך לקרוא ולכתוב, לעבוד בצוות, לדעת מתמטיקה ברמה בסיסית, וכו'.

באופן כללי, לאוניברסיטאות יש הרבה יתרונות יחסיים כסביבת לימודים – היכולת לעזור לעבד את הרלוונטיות של הנושאים הכלליים להקשר ספציפי, ו"ללמוד איך ללמוד".

אבל, כמו שהגדיר זאת Martin Heijnsbroek מחברת MICompany – המיינדסט באוניברסיטאות היום הוא שהן מלמדות אנשים "להפוך ל-X". בהתחשב בשלל השינויים הטכנולוגיים והעסקיים וכו', נראה שהמיינדסט צריך להיות איך ללמד אנשים "את הבסיס שיאפשר להם בהמשך להיות X לאורך זמן".

השלכות חברתיות-מדיניות של הרעיון הזה

פערים בבסיס הזה, בעידן שבו לימודי מיומנויות פרקטיות זמין באופן מקוון, יתורגמו מאוחר יותר גם לפערים בהון – ועל כן מדובר בנושא בעל חשיבות חברתית שדורש מדיניות מתאימה; ולא רק בתחום בעל חשיבות לעסקים עצמם.

גם Bas Ter Weel, חוקר העוסק בכלכלה ובמדיניות ציבורית באוניברסיטת אמסרדם, התייחס להיבטים האלו. לשיטתו, השינויים הטכנולוגיים שמנכ"ל קורסרה דיבר עליהם, כמו גם תהליכי גלובאליזציה, יוצרים תחרות בין עובדים "highly skilled" בשוק מה שיוצר תרבות של "סופרסטארים" במקום העבודה ובתעשיות ספציפיות, ומייצר "מרוץ" שמעודד אנשים בתעשיות האלו להשקיע בהכשרה של עצמם (וחברות להשקיע בהון האנושי שלהן בתחומים האלו).

מנגד, השכר של עובדים בעבודות שדורשות פחות מיומנויות נשחק, וגם התמריצים שלהם (ושל המעסיקים שלהם) להשקיע בהכשרה מתמשכת שלהם. זאת, נוסף לעובדה שפעמים רבות מדובר במיומנויות "מקומיות" במהות שלהן, מה שגם מגדיל את עלויות פיתוח ההכשרות הרלוונטיות. זה גורם לרלוונטיות של תפיסת ה-lifelong education עבור עובדים כאלו להיות כמעט אפסית: אין הכשרות רלוונטיות, המעסיקים לא משקיעים משאבים בפיתוח של עובדים אלו, לעובדים עצמם לא נותרים משאבים רבים להשקיע בפיתוח עצמי, וכו'.

זו בעיה גדולה עם השלכות כלכליות וחברתיות שצריך להידרש אליה ולמצוא לה פתרונות – גם ברמת המדינה, וגם ברמת מערכת החינוך (במובן הרחב שלה – אוניברסיטאות, אתרים דוגמת קורסרה, וכו').

בהערת אגב – היה מעניין שגם גורמי התעשייה וגם גורמי האקדמיה שדיברו במפגש ניתחו את הדברים תחת ההנחה שמערכת ההשכלה "מוכפפת" לצרכי העסקים במדינה. מה בנוגע למקום של מדעי החברה והרוח במערכת ההשכלה? מה בנוגע לצורך בחשיבה ביקורתית "מהיסוד" על יחסי הכוח בחברה, תהליכים חברתיים, וכו'?

מי מפתח את הידע הרלוונטי?

שינוי נוסף שמנכ"ל קורסרה התייחס אליו נוגע לגורמים שמהם אנחנו כחברה מצפים לפתח את הידע ולהנחיל אותו הלאה. אמנם רוב הקורסים בקורסרה מפותחים על ידי אוניברסיטאות מובילות בעולם; אבל גם חברות כמו גוגל ואנבידיה מעלות לאתר תכנים כדי ללמד על היבטים יישומיים יותר. זה מאפשר, בין היתר, לחברות אחרות להסתמך על הקורסים האלו ולא להידרש להשקיע משאבים פנימיים לפיתוח תכני הכשרה – כך שאינדבידואלים יכולים ללמוד את "הבסיס" התיאורטי מאוניברסיטאות ו"היבטים יישומיים" מחברות מובילות בתעשייה.

Marc Salomon, ראש תכנית ה-MBA במנהל עסקים בתחום מדע הנתונים באוניברסיטת אמסטרדם אמר שחלק ממה שהאוניברסיטאות רגילות לו, למעשה, הוא שיש להן מונופול ביכולת לקבוע סטנדרט ולתת תארים רשמיים. אבל – אם ניתן יהיה לקבל תואר שני בדאטה סיינס מגוגל (כמו שלאט לאט מתאפשר בקורסרה), האם הוא לא בעצם יהיה בעל ערכיות גבוהה יותר מבחינה עסקית?

מה אנשים מנסים "לאותת" באמצעות השכלה נוסף על הידע עצמו? איזה הון נוסף האוניברסיטה מקנה לסטודנטים?

נקודה נוספת שעלתה מספר פעמים לאורך המפגש נגעה לשאלה מה אנשים מנסים "לאותת" באמצעות ההשכלה שלהם. לימודים באוניברסיטה מקנים לא רק את הידע עצמו, אלא גם רשת קשרים (הון חברתי), ו"מותג" בעל ערך שאפשר להשתמש בו (הון תרבותי). איך שינויים דוגמת "קורסרה" משפיעים על זה?

מנכ"ל קורסרה טען שבארה"ב למעשה הרבה ממה שאנשים מאותתים בכך שהם בוגרי אוניברסיטה נחשבת נוגע בכלל לכך שהם הצליחו להתקבל אליה ולעבור את תהליכי הסינון הקפדניים שלה. במובן הזה ברור ש"אישורי הלימודים" הוירטואליים שקורסרה מקנה לא שווים כלום – כל אחד יכול ללמוד בקורסרה.

מה שכן, לימודים בקורסרה מהווים "איתות" אחר שנוגע לאתיקה למידה – היכולת, המשמעת, והמוטיבציה להשקיע בתהליך מתמשך של למידה "כחלק" מהחיים (ולא "בתקופת" חיים ספציפית).

מחשבות על מדע הנתונים

5

מה עסקים צריכים בתחום ה"דאטה סיינס"?

לאור מספר הערכות על הפוטנציאל הגדול של מדע הנתונים לכלכלה ברמת המאקרו, הרבה מהפאנליסטים שהשתתפו במפגש דיברו על אתגרים של חברות עסקיות ב"אימוץ" פרקטיקות של Data Science לצרכיהן העסקיים.

חלוקה שהתגלתה כערכית במהלך הדיונים הייתה בין חברות שהן data-born (חברות שתפסו מראש את הנתונים שלהן כמשאב שמספק עבורן ערך עסקי – בעיקר חברות צעירות בתחומים טכנולוגיים) לחברות שיש להן data-legacy אחר. הרעיון הוא שבעוד שהחברות מהסוג הראשון אמורות להיות data-driven מההתחלה, חברות מהסוג השני צריכות לקבל החלטה מודעת לעבור תהליך כלשהו כדי "להפוך" להיות כאלו.

בעוד ש"מדעני נתונים" יכולים לסייע לחברות בתהליך הזה, ברור שהם לא יכולים לעשות את זה לבד. למעשה, נדרשת החלטה לפתח data literacy ("אוריינות נתונים") בצורה רחבה בארגון – גם בקרב ההנהלה הבכירה, אך גם בקרב עובדים אחרים בעסק. אישית, זה הזכיר לי מאוד את הפוסט של כרמל קנט מספטמבר.

מנכ"ל קורסרה אמר שצריך לחשוב לא רק על data literacy אלא גם על data fluency. "דאטה הופכת להיות השפה החדשה של עולם העסקים. השאלה מי צריך להבין "דאטה" ובאיזו רמה היא שאלה חשובה שצריך לחשוב עליה עוד – אילו תעשיות מפתחות את ה-fluency הכי טוב בהקשר הזה? אילו מדינות מעודדות את התעשיות בהן לפתח fluency כזה, ואיך?".

כדוגמא, הוא הביא את ההתמחות החדשה בקורסרה בנושא Deep Learning – ההצלחה המסחרית הכי טובה/מהירה של קורסרה עד כה. בארה"ב נרשמו בינתיים פי 23 אנשים יותר מאשר הולנד לקורס. בהודו פי 7. בסין פי 4. למה זה? האם מושפע מהמשכורות הממומעות של Data Scientists במדינות האלו? למוביליות החברתית שאנשים מצפים לה? לתחרות שהם מרגישים מהשוק הגלובאלי?

אילו מיומנויות נתונים נדרשות לאילו תפקידים באילו תעשיות? קורסרה כ-Crowd-sourcing

ראש תחום Data Science בקורסרה (לא "ראש תחום" במובן של אחראית לפיתוח התכנים בנושא מדע הנתונים – התכנים כולם מפותחים באונירסיטאות; אחראית על ניתוח הנתונים בארגון) התייחסה לשיח הזה והציעה לחשוב על הנתונים של קורסרה בתור crowd-sourcing של 3 מיליון אנשים שמנסים להבין אילו מיומנויות נתונים נדרשות לאילו דרגים באילו תעשיות (מתוך הנחה שאנשים לומדים מה שלדעתם רלוונטי וישרת אותם בתפקיד שלהם / שאנשים ממשיכים לדווח בקורסרה על השתנות בתפקידים שלכם ולכן ניתן לראות אילו מיומנויות נדרשות באילו מקומות).

אם מקבלים את ההנחות האלו, אז ניתן להסיק שמיומנויות דאטה נדרשות בכל דרג, ובשלל תעשיות:

מצד שני, כשמפרקים את הכותרת הגדולה של "מיומנויות דאטה" למספר תחומים, אפשר לזהות הבדלים משמעותיים בין התעשיות השונות:

4.png

כך, למשל, נראה שהתחום של למידת מכונה פופולארי כמעט רק על ידי אנשים בתעשיית ה-tech. מנגד, Data management (לוודא שהדאטה נגיש ברחבי הארגון וכו') זו מיומנויות שנתפסת כערכית כמעט בכל תעשייה חוץ מב-tech (כנראה בגלל הרלוונטיות הגדולה של היבטי data legacy).

פורסם בקטגוריה כנסים ונהנים | כתיבת תגובה

לכל אחד יש 2 הורים ביולוגיים!

יצא לי לחשוב לאחרונה קצת על גנאולוגיה, והבנתי משהו. אני מבין שהוא נשמע טריוויאלי, אבל תשארו איתי רגע: לכל אחד יש 2 הורים ביולוגיים! זה אומר שאפשר "להפוך" עצי משפחה על הראש!

1(1450)

עץ שנראה הפוך על הראש. אילוסטרציה.

 

בעצי משפחה אפשר "להפוך את הפירמידה" על הראש

בדרך כלל אנחנו חושבים על עצי משפחה (אם אנחנו חושבים על עצי משפחה) בתור "פירמידה" – בקצה העליון יש דמות היסטורית כלשהי, וממנו העץ הולך ומתרחב כלפי מטה: מאדם וחווה ל-12 השבטים, מפינחס דיין לליאור דיין אביב ושירה גפן, מכאנום ורחמים לאימפריית בנאי, וכו'.

 

אבל בעצם, אם חושבים על זה, זה עובד גם הפוך. בהנחה שלכל בן-אדם יש שני הורים ביולוגיים, אז זה אומר שיש לו גם ארבעה סבים וסבתות, שמונה סבא-רבים וסבתות-רבות, וכו'. למעשה מספר האנשים שנצפה לראות בעץ המשפחה שלך n דורות אחורה ממך הם 2 בחזקת n (בהנחה הנאיבית שאין זוגות בתוך המשפחה גם בהגדרה הרחבה הזו – מה שכמובן שגוי ועל כך בהמשך).

גידול כזה, 2n, הוא דוגמא ל"גידול אקספוננציאלי". זה יוצא ממש הרבה אנשים, ביחסית מעט דורות אחורה.

14 דורות אחורה, פלוס מינוס באמצע המאה ה-17 – חיו במקביל 16,384 אנשים שונים שהם אבות אבותיך, אמהות אמותיך, אבות אמותיך, אמהות אבותיך, וכו'.

אם ממשיכים בהגיון הזה ומדברים על 19 דורות אחורה, פלוס מינוס באמצע המאה ה-16, מגיעים ליותר מחצי מיליון איש – שזה בגדול עשירית אחד מכל אלף איש בעולם אז.

 

מי

דורות אחורה (n) כמה אנשים (2n) לפני כמה שנים בערך (25n) כלומר בשנת … (2017-25n)

את/ה

0 1 0 2017

הורים

1

2

25

1992

סבים

2

4

50

1967

סבים-רבים

3

8

75

1942

4

16

100

1917

5 32

125

1892

6

64

150

1867

7

128

175

1842

8

256

200

1817

9

512

225

1792

10

1024

250

1767

11

2048

275

1742

12

4096

300

1717

13

8192

325

1692

14

16384

350

1667

15

32768

375

1642

16

65536

400

1617

17

131072

425

1592

18

262144

450

1567

19

524288

475

1542

 

אוקי, נחמד. אז מה?

תכלס הסיבה המרכזית שבגללה אני חושב שזו מחשבה מעניינת היא שהיא בו זמנית גם בנאלית (ברור שלכל אחד יש 2 הורים ביולוגיים) וגם לא מסתדרת עם מה שיש לנו בראש כשאנחנו חושבים על "עצי משפחה" (ההפך ממודל "אדם וחווה").

כנגזרת מזה, נראה לי שהיפוך הפרספקטיבה הזה יכול לעזור להמחיש 2 ושני חצאי נקודות:

 

[1] יש לנו הרבה חופש בבניית הנראטיב שלנו בנוגע ל"שרשרת הדורות"

בניגוד למטאפורה המקובלת של "שרשרת הדורות" – שבה חוליה אחת מחוברת לחוליה שניה שמחוברת לחוליה שלישית – היחס בין הדורות הוא ממש לא לינארי. הוא הרבה יותר מסועף.

אם לקחת את זה להקשר הפוליטי לצורך המחשה – כשמישהו טוען שהוא "דור עשירי" במקום מסוים – הוא בדרך כלל מתכוון שאפשר להראות קשר תולדה בין מישהו במאה ה-18 שגר באותו מקום לבינו. ואולי אפילו של עוד 8 אנשים בדרך.

אבל המישהו הזה במאה ה-18 הוא רק אחד מתוך למעלה מ-1000 אנשים שאפשר להראות בינם לבין האדם במאה ה-21 קשר כזה. כמובן שמטעמים כאלו ואחרים יכול להיות נוח לבנות נראטיב שמבליט את הקשר דווקא לתושב המקום (ובכלל יש משהו נחמד ומנחם במציאת חיבורים כאלו לאנשים ממאות שעברו – בטח אם יש בינינו גם קשר גנטי).

אבל, וזה אבל גדול – כמו שמדגים הסרטון של MyHeritage עם מפורסמים ישראלים – חשוב לזכור שבעצם זה רק נראטיב אפשרי אחד מתוך רבים (וזה עוד בכלל בהנחה שיש באמת חשיבות כלשהי לשאלה הגנטית הזו).

הרצון "לחזור לשורשים" ולשמור על "אותנטיות" יכול להוות מוטיבציה לדברים טובים – אבל חשוב לזכור שרמת החופש שיש לנו בבחירת "השורשים" שרצויים לנו היא גדולה מאוד.

 

[2] U.N.I.T.Y that's a unity

אז האמת היא שבוויכוח הטרמינולוגי בין שי פירון לבנט אני נוטה להסכים דווקא עם האחרון. ברור שהאחר הוא לא אני. האחר הוא אחר, ואני אני.

*אבל* – בהמשך לנקודה הקודמת, ולאתגר שהיא מציבה לטענה בדבר הצורך "בהעצמת זהויות" (כיון שהיא מאתגרת את הרעיון שיש "זהות אמיתית" אחת, כמו כל משחק פוסטמודרניסטי) – יש משהו בפרספקטיבה הזו על עצי משפחה שממחיש שני היבטים משמעותיים בעיניי של "אחדות" (במין האנושי בכלל, אבל ביתר שאת בתוך קבוצות עם תרבות וחיים משותפים כמו עמים*).

קודם כל "אחדות בשורשים". אם יש אלף איש שהם "אבותיי" מהמאה ה-18, אז כמובן שיש המון אנשים שהם "בני דודים" רחוקים שלי. אובאמה והמלכה אליזבת הם בני דודים בדרגה 10, וכמו שאלביס שר – בעצם כולנו בני דודים כי כולנו צאצאים של אדם וחווה.

ההיבט השני של "אחדות" שהפרספקטיבה הזו מחדדת היא "אחדות גורל". יש סיכוי לא רע שלך ולעוד בערך 16 אלף איש שחיים היום בעולם יהיה צאצא משותף. וסיכוי לא רע שעם קומבינציה קצת אחרת של 16 אלף איש גם צאצאית אחרת. וכו'.

 

[*] למה זה נכון יותר "בעם" מאשר "בקרב כל המין האנושי"?

חצי הערת צד, אבל חשובה בעיניי – כאמור, הרעיון שמספר האנשים שנצפה לראות בעץ המשפחה שלך n דורות אחורה ממך הם 2 בחזק n מתבסס על הנחה נאיבית שאין זוגות בתוך המשפחה, גם כש"משפחה" מוגדרת באופן כל כך רחב.

למעשה, לא רק שהמספרים שמוצגים למעלה הם לא ההערכה הסבירה למספר האנשים n דורות אחורה ממך, הם למעשה מייצגים את "הגבול העליון" התיאורטי האפשרי (כשהגבול התחתון הוא 2 בכל דור).

הם כן נותנים "סדר גודל" מספק בעיניי (זה כנראה שווה פוסט נפרד) – אבל הם בטח לא מדויקים. ככל שמדובר על אוכלוסייה שסביר יותר שהיו בה נישואי קרובים המספרים פחות ופחות מדויקים.

בקהילת ביתא ישראל נישואים אסורים בין אנשים שהם קרובים בהסתכלות של 7 דורות אחורה. באיסלנד יש אפליקציה שמאפשרת לזוגות לבדוק לבדוק אם הם קרובים בהסתכלות של 1200 שנים אחורה.

חלק מהמאפיינים של "עם" (תרבות משותפת לרבות טקסי נישואין, דפוסי הגירה משותפת / מגורים באזורים משותפים, וכו') הם כאלו שהופכים קבוצת אנשים כזו להיות ככל הנראה "רשת צפופה יותר" של קשרים כאשר מסתכלים על הקשרים הבין-דוריים בהשוואה למודל המתואר למעלה.

מה שכן, היפוך הפרספקטיבה מאפשר דרך אחרת להסתכל על הטענה הגנטית לפיה 40% מהאשכנזים הם צאצאים של אותן 4 נשים. בדימוי עץ "אדם וחווה" אנחנו חושבים על ארבע נשים ואיך הן "קצה פירמידה" שהולכת ומתרחבת עד שמגיעים לכל האשכנזים. בדימוי העץ ההפוך נראה הגיוני שמתוך מאות אלפי אנשים שנמצאים בשרשרת הגנטית של אנשים תהיינה 4 נשים משותפות לקבוצה גדולה של אנשים.

 

[**] היפוך פרספקטיבה זה קול

ברמת המטא – אני חושב שזו הדגמה נחמדה לרעיון שעצם זה שמסתכלים על אותו העניין בפרספקטיבה הפוכה יכול להוליד הבנה מורכבת וטובה יותר שלו.

אחת השיטות בתכנון אסטרטגי היא Backcasting – "התבוננות מהעתיד לכיוון ההווה". הרעיון בגדול הוא שבניגוד לתחזית (Forecasting) שבמסגרתה מנסים להבין את המצב הנוכחי ולאן הוא יכול להתפתח; לנסות להבין מצב עתידי אפשרי (למשל: רצוי במיוחד, מפחיד במיוחד) ואיך המצב הנוכחי יכול להוביל אליו.

במובנים רבים זה גם הרעיון שעומד מאחורי הרעיון של תכנון דינמי במדעי המחשב / חקר ביצועים. דוגמא קלאסית היא בעיית מציאת הנתיב הקצר ביותר שמחבר בין נקודה X לנקודה Y ברשת. שיטה קלאסית לפתור את הבעיה (אלגוריתם דייקסטרה על שם איש מדעי מחשב הולנדי) – היא להתחיל מנקודה X ולנסות את כל המסלולים הכי קצרים שאפשר להמשיך בהם מהנקודה הזו, עד שאחד מהמסלולים יוביל לנקודה Y.

שיטה אפשרית אחרת לפתור את הבעיה היא להתחיל מ-Y ובכל פעם לקחת "צעד אפשרי אחורה" ולראות מה הדרך הכי קצרה להגיע באופן הזה ל-X (כשבכל צעד בודקים או מה המרחק הקצר ביותר ישירות ל-Y, או מה המרחק הקצר ביותר לנקודה שממנה ידוע שהמרחק ל-Y יהיה הכי קצר בצעד הבא).

 

 

פורסם בקטגוריה Uncategorized | כתיבת תגובה

שאלות אתיות על אלגוריתמיקה. מקרה בוחן: חברת Faception הישראלית

אז מסתבר שיש חברה ישראלית בשם Faception שמוכרת טכנולוגיה לזיהוי תכונות אופי על פי תמונת פנים. הרעיון שעומד בבסיס הטכנולוגיה, כמו שמוסבר באתר החברה, הוא ש: (א) הגנטיקה משפיעה משמעותית על חלק מתכונות האופי של בני אדם (ב) הגנטיקה משתקפת גם בפרצוף ולכן: (ג) באמצעות ניתוח הפרצוף של בן אדם אפשר להסיק דברים על האופן שבו הגנטיקה שלו משפיעה על תכונות האופי שלו.

על בסיס מכלול של תכונות אופי כאלו אפשר לבדוק כמה בן אדם מתאים ל"פרסונה" מסוימת. למשל, החברה מציעה לזהות על פי תמונה של הפרצוף האם מישהו הוא טרוריסט (סובל מחרדה ודכאון, מופנם, מחושב, פסימיסט, עם דימוי עצמי נמוך ותנודות משמעותיות במצבי הרוח) או פדופיל (בדיוק אותו התיאור, לפחות באתר).

פייספשן מונה באתר מספר יתרונות של הטכנולוגיה שלה ללקוחות פוטנציאליים. למשל: הניתוח מתבצע בזמן אמת, ולא מתבסס על ידע מוקדם בנוגע לבן אדם (ככה שאפשר לזהות מחבלים פוטנציאליים גם מתוך מאתר לא ידוע).

התפרסמו לא מעט ניתוחים מעניינים של היבטים אתיים של פעילות החברה (shout-out למדעןנתונים שכתב פוסט בנושא, כמו גם לביזנס אינסיידר, ניו סיינטיסט, סיינס דיירקט; ותודה ספציפית לאייל גרוס שהעלה את הנושא לדיון בפייסבוק); אבל רציתי להוסיף עוד שני יורוסנט משלי בנושא (שהולכים להתבסס הרבה על המסגרת האתית למחקר מערכות רשת של מכון OII באוקספורד) שהולכים להתייחס לשלושה יתרונות אחרים ש-Faception מייחסת לטכנולוגיה שלה: דיוק, טכנולוגיה בת-התאמה, ואובייקטיביות.

 

שאלת הדיוק

הרבה מהביקורת האתית בנושא faception מעלה את השאלה של ה-False Positive.

החברה אוהבת להדגיש בפרסומי יח"צ שיש לה דיוק של כמעט 90%. האלגוריתם שלה סיווג (בלי מידע מוקדם!) 9 מתוך 11 המחבלים בפיגוע בפריז כטרוריסטים; סיווג 2 מתוך 3 פיינליסטים בתחרות פוקר כ"שחקני פוקר מקצועיים"; וכו'.

אבל הנה הצעה מתחרה לאלגוריתם אחר: פשוט להגיד שכולם מחבלים. אלגוריתם שמסווג את כולם כמחבלים יסווג (בלי מידע מוקדם!) 11 מתוך 11 המחבלים בפיגוע בפריז כטרוריסטים – דיוק של 100%. 0 טעויות – אף מחבל לא בורח ממנו.

כמובן ש"המחיר" של אלגוריתם כזה הוא במקום אחר: הרבה מאוד סיווגים שגוים של אנשים "תמימים" כמחבלים – מה שמכונה False Positive.

לא הצלחתי למצוא התייחסות של פייספשן לכמות ה-False Positives של האלגוריתם שלה (וכנראה שלא בכדי, כי כאמור זו נקודה שעולה שוב ושוב בביקורת כלפי החברה), אבל כמובן שכדי להבין עד כמה הטכנולוגיה שלה "מדויקת" אי אפשר להתעלם מהנתון הזה.

 

החשש מ-Mission Creep

פייספשן יכולה לחשוב כבר עכשיו על שלל שימושים לטכנולוגיה שלה: בטחון (סיווג טרוריסטים/פדופילים), גיוס כח אדם (סיווג מוכשרים/מתאימים לתפקידים מסוימים), התאמה זוגית (התאמת מבני אופי בין בני זוג), פיננסים וביטוח, שיווק, וכו'.

verticals

למעשה, כפי שמופיע בתיאור למעלה מאתר החברה, לפי פייספשן "אם התנהגות מסוימת נובעת מהDNA של בן אדם, יש סבירות גבוהה שאנחנו יכולים לפתח מסווג רלוונטי אליה".

הנקודה הזו מעלה את השאלה לאילו תכליות הוגן להשתמש בסוג כזה של מסווג.

כשפייספשן חיפשו מימון באתר AngelList, הם מנו בצוות היועצים שלהם את מייקל קוזינסקי.

קוזינסקי עובד בימים אלו על מחקר לזיהוי נטייה מינית על בסיס תמונות פנים. בהינתן חמש תמונות פנים, האלגוריתם של קוזינסקי יכול לזהות הומואים בדיוק של 91% ולסביות בדיוק של 83% (בהשוואה לקרוב ל-60% ו-50% בקרב מסווגים אנושיים).

בהצדקות למחקר שלו, קוזינסקי מדבר על הצורך לעורר מודעות בקרב קהילת הלהטב"ק מהאפשרות הזו – כי משטרים דכאניים כלפי גייז יכולים לעשות שימור בטכנולוגיה כזו (כמו גם שלל שחקנים אחרים שעוסקים במישטור/אפליה על בסיס נטייה מינית).

וכמובן – איזו דרך טובה יותר לוודא שהטכנולוגיה אכן יכולה לשמש לצרכים לא אתיים כאלו מאשר למכור אותה ואת היכולת להתאים אותה למרבה במחיר?

שאלת האובייקטיביות

הנקודה האחרונה שרציתי לעלות נוגעת לשאלת האובייקטיביות.

בניגוד לטענת החברה שהטכנולוגיה של פייספשן לא מצריכה שום הנחת עבודה, יש כמה הנחות עבודה לא מפורשות שנובעות מהיישום הפרקטי שלה כדי לסווג "מבנה אישיות" של בן אדם על בסיס תמונת הפנים שלו: [א] שמדובר במבנה אישיות שחשוב לסווג (למשל – כשגורמי אכיפת חוק ישתמשו בטכנולוגיה כזו – האם הם ישתמשו בה גם כדי לסווג שוטרים שסביר שיפעילו אלימות משטרתית?) [ב] שמדובר במבנה אישיות שנובע בעיקר מהגנטיקה, ולא ממאפיינים סביבתיים/חברתיים (האם אכן אפשר לדעת שמישהו הוא "טרוריסט" בצורה דטרמיניסטית?) [ג] שמי שמאמן את המסווג יודע לספק סט מייצג של תמונות של אנשים עם מבנה האישיות הזה.

הסיווג של "טרוריסטים" בהקשר הזה הוא דוגמא מעולה. גם אם נשים בצד את השאלה התיאורטית איך מגדירים האם מישהו הוא "טרוריסט" או "לוחם חופש" – בפרקטיקה, מי נכלל בסט האימון שפייספשן הכינו? האם הסט כלל תמונות של אנשי מחתרות? של ברוך גולדשטיין? של המשתתפים בלינץ' ברמאללה? של משתתפים באלימות כלפי מחבלים מנוטרלים? האם התמונה של היורה מלאס וגאס צריכה להיכלל בסט? האם אנחנו מאמינים שכולם "טרוריסטים" באותו המובן? האם כולם חולקים אותו מבנה אישיותי? האם יש ביניהם דמיון גנטי שמבחין אותם מיתר האוכלוסייה? תשובות שונות לשאלות האלו עשויות להביא למסווגים שונים.

כמובן שגם בהקשר פדופיליה עולות שאלות כאלו, ואליהם ניתן להוסיף גם שאלות בנוגע לדיווח. האם יש סוגי תקיפות פדופילים שפחות מדווחות לרשויות? האם זה יוביל להטיה בסט האימון?

האם האלגוריתם של פייספשן הוא גזעני?

תת-שאלה מעניינת (ומתבקשת) בהקשר הזה, היא האם קיימת הטיה גזעית באלגוריתם של פייספשן. האם מקרה בוחן מעניין בהקשר הזה הוא דירוג הסיכון שחברת Northpointe האמריקנית נתנה לנאשמים, שאמור היה לדרג את הסיכוי שהם יחזרו לפשוע בעתיד.

ניתוח של הארגון ProPublica העלה סברה שקיימת הטיה משמעותית "נגד" שחורים באלגוריתם. הדיון שהתעורר הוביל למסקנה שבעצם גם תלוי איך מגדירים "הוגנות" גזעית בהקשר הזה. גליונה בדיוק פרסמה חיבור מעולה ב-medium על הנושא של הוגנות באלגוריתמיקה; והשאלות האלו כמובן תקפות גם למקרה של פייספשן. בהיעדר הגדרה של "הוגנות" שאליה פייספשן מכוונים, בטח שאי אפשר לטעון ל"אובייקטיביות" בהקשר הזה.

סיכום

אני לא חושב שהרעיון העקרוני שעומד בבסיס Faception הוא בהכרח רע.

אם אפשר להיעזר בכלי הזה כדי למזער את הנזק של מחבלים ופדופילים זה נשמע מצוין. אבל, יש שלוש נקודות שחייבים לשים לב אליהן

מה בעצם אפשר לדעת מסיווג על בסיס תווי פנים?

זו נקודה ממש חשובה שנראה שדי מתפספסת בהתנהלות של החברה – לא רק שצריך להבין את המחיר האתי הגבוה של שימוש בטכנולוגיה הזו, יש גם קשר גורדי בין השאלות האתיות בנוגע לטכנולוגיה הזו (איך הוגן לעשות בה שימוש?) לבין השאלות האפיסטמיות בנוגע אליה (מה בעצם אפשר לדעת באמצעותה?).

ממה שהחברה מפרסמת עד עכשיו, בהחלט נשמע שיכול להיות שהמוצר שלה לא באמת עוזר לזהות מידע רלוונטי בנוגע למחבלים או פדופילים (אלא רק להגביר הטיות קיימות בשיפוט האנושי). בתגובה להאשמות של ProPublica חברת Northpointe הראתה שהאלגוריתם שלה צודק בנוגע לשחורים וללבנים באותו שיעור – קרוב ל-60%. כלומר: קצת יותר טוב מאשר לנחש באמצעות הטלת מטבע.

מסיבות מסחריות, ברור שהחברה מעדיפה לא להיכנס לשאלות האלו, ובמקום זה לשווק את הטכנולוגיה בתור כדור בדולח קסום שפשוט אומר באובייקטיביות שמישהו הוא מחבל/פדופיל/חכם.

בתור צרכנים פוטנציאליים של הטכנולוגיה (כחלק מהציבור שרוצה להגן על עצמו, או בחברה ששוקלת את הטכנולוגיה כדי לטייב את תהליכי גיוס כח האדם שלה / השירותים שהיא מציעה ללקוחותיה), ובטח שבתור מושאים פוטנציאליים של סיווג על ידי הטכנולוגיה – אנחנו צריכים למצוא את הדרך לעלות את השאלות האלו כחלק מההחלטה האם ואיך לעשות בה שימוש.

המאגר הביומטרי

בהערת צד, השלכה נוספת שנראה לי שראוי לתת עליה את הדעת (בטח בישראל) נוגעת לשאלת "המאגר הביומטרי".

איך התקדמות טכנולוגית כמו זו שמאפשרת את פייספשן משפיעה על הצורך (ומצד שני – על מידת הסיכון) בניהול מאגר ביומטרי מרוכז של מידע אודות תושבי המדינה?

אלגוריתם לא יביא "הוגנות" לתוך הקשר חברתי-פוליטי שאינו הוגן בבסיסו

הנקודה המרכזית, בעיניי, הוא שצריך להבין שטכנולוגיה לא יכולה להיות "אובייקטיבית" במובן שמנסים לשווק אותה בהקשר של פייספשן (כלומר: חסרת הנחות יסוד). בגלל זה, אלגוריתם יכול להיות "הוגן" בתוך המגבלות של ההקשר שבו משתמשים בו בפועל.

IBM שיחקו תפקיד די משמעותי בשואה, מסתבר. הגרמנים היו צריכים לערוך מפקדי אוכלוסין בכל שטח שכבשו, ולהעריך את כמות היהודים/צוענים בהם, בין היתר על בסיס הערכה שמגדירה יהודי כמי שיש לו "אב יהודי" ארבעה דורות אחורה.

IBM סיפקה את הטכנולוגיה (כרטיסיות ניקוב) כדי להוציא לפועל את המפקדים האלו, כמו גם מערכת לניהול המידע הדרוש במחנות ריכוז (אאל"ט גם בנוגע לשינוע למחנות השמדה). ניהול מידע וידע היה חלק אינטגרלי מההוצאה לפועל של "הפתרון הסופי".

לא משנה כמה היו מסתכלים על False Positives, או כמה אינקלוסיבי היה סט האימון – כנראה שלא הייתה דרך ל-IBM להגיע לאלגוריתם "הוגן" כדי לסווג מישהו כ"יהודי" לשימוש הנאצים.

השימוש במסווגים כאלו, כולל התחשבות ברמת הדיוק שלהם וה-False Positives יכול להיות אתי לתכליות מסוימות ולא אתי לתכליות אחרות. אנשים שמפתחים ומוכרים את הטכנולוגיה לא יכולים להיות "אדישים" לmisuse אפשריים בטכנולוגיה שלהם.

בהקשר הזה, שווה לציין ש-Faception סיפרה לוושינגטון פוסט במאי אשתקד שיש לה חוזה עם איזושהי "homeland security agency" בנוגע לזיהוי טרוריסטים. החברה אמנם לא מפרטת עם איזו מדינה נחתם החוזה, אבל בחינה של פרופילים של עובדי החברה בלינקדאין מעלה שיש לה country corporate representative באיסטנבול.

האם הרשויות התורכיות עושות שימוש בטכנולוגיה הזו? האם נעשה שימוש בטכנולוגיות האלו לניטור האוכלוסייה הכורדית? אילו החלטות מתקבלות על בסיס הפלט של פייספשן? האם החברה מסייגת כראוי את הממצאים שלה? האם היא יכולה להשפיע על האינטרפרטציה שניתנת לתוצאות המסווג שלה?

איזו אחריות מוסרית יש לחברה (company) ולחברה (society) שמייצאות את הטכנולוגיה הזו בנוגע לשימוש שעושים בה בפועל?

פורסם בקטגוריה Uncategorized | תגובה אחת

סבתא חיה מטא: סיפור סיפורים באמצעות רשתות

לפני כמה שבועות התפרסם ספר ממש מגניב שמרכז מאמרים של חוקרים מובילים באחד התחומים הכי מעניינים באקדמיה בעיניי (אם לא ה-): החיבור בין מדע הנתונים למדעי הרוח והחברה. הספר זמין להורדה חינם, וזה לא שהוא חף מבעיות, אבל אני בהחלט ממליץ עליו למי שמתעניין בנושא.

אחד המאמרים היותר "יישומיים" בו ("How to tell stories with networks", עמ' 155-170) מנסה להדגים כיצד ניתן לאפיין נראטיבים שונים על בסיס ניתוח רשתות חברתיות (SNA). במסגרת זאת, החוקרים מדגימים ניתוח SNA על הדמויות בסיפור האיליאדה, כדי להמחיש את הרעיונות שלהם.

בתור מי שטרם זכה לקרוא את האיליאדה היה לי די קשה להבין את הדוגמאות שבמאמר, ולכן החלטתי לנסות ולשחזר את הטכניקות שבו על קלאסיקה אחרת: "מבצע סבתא".

 

מתודולוגיה

בגיגול קצר מצאתי תמליל בוטלגי של הסרט. הוא אמנם לא מלא (למשל: בלי קריסטין!), אבל טוב מספיק.

כתבתי קוד פייתון פשוט (זמין כאן) שעובר על התמליל ויוצר קובץ אקסל של דמויות שמדברות אחת עם השנייה במהלך הסרט. ההיגיון, בגדול, הוא כזה: שתי דמויות שמדברות אחת אחרי השנייה באותה הסצינה כנראה מדברות אחת עם השנייה. זה אמנם לא נכון ב-100% מהמקרים (הרחבה בהמשך), אבל שוב – טוב מספיק.

את קובץ האקסל טייבתי (חלק מהדמויות מצוינות בתמליל רק באות הראשונה של שמן) ככה שיהיה אחיד, העברתי לפורמט מתאים, והזרמתי לתוכנת Gephi לניתוח רשתות (קובץ גפי זמין כאן). שם, התחלתי מפריסה של הרשת באמצעות אלגוריתם ForceAtlas2 שההגיון הבסיסי שלו שואף "לקרב" נקודות קשורות זו לזו ו"להרחיק" נקודות שאינן קשורות, עד שהרשת מגיעה לשיווי משקל כלשהו.

 

ממצאים

אז אילו נראטיבים אפשר לחלץ מניתוח רשתי של "מבצע סבתא", בהתאם למאמר על האיליאדה?

savtaSNA

 

בחינה פנורמית: המחנות

הסוג הראשון של נראטיבים שאפשר לדבר עליהם בהקשרי רשתות, נוגע לחלוקת הרשת ל"מקבצים"/מחנות לפי צפיפות הקשרים באזורים שונים של הרשת, ופריסתה במרחב.

בעוד שקיימים מספר אלגוריתמים "סטנדרטיים" לזיהוי קהילות ברשת, במקרה הזה (כמו גם במאמר הנוגע לאיליאדה) מדובר ברשת "פשוטה" מספיק בכדי שיהיה אפשר לזהות את כלל ה"מחנות" בעין.

‏‏savtaSNA - communities

שלא באופן מפתיע, לקבוצות הדמויות שמדברות אחת עם השנייה בסרט יש גם מאפיינים דומים בנוגע לרקע ולהקשר החברתי בו הן פועלות. שלוש קבוצות בולטות בהקשר הזה הם הקיבוץ, העיר, והצבא.

קבוצה רביעית – "הילדים" – נוצרת כביכול בשל גליץ' בקוד: ילדי קבוצת לימונים שמכינים כתובות אש בהנחיית עידן לא באמת מדברים עם ילדי קיבוץ עסיסים ששרים את שיר הקרמבו. ברמת הטקסט, יש קאט בין שתי קבוצות הילדים בסצינה. אבל הרי ברור שלמעשה הופעתן אחת אחרי השנייה מסמנת איזושהי השוואה בין השתיים (ומבליטה את השוני ביחסים עם ילדים שמנהלים עידן וקרמבו) – ובמובן זה זיהוי "מחנה הילדים" דווקא מעניין.

דפוס דומה של גליץ' אפשר לראות בקשר שנוצר בין שירלי (הפקידה של קרמבו) לבין "הערס" (ממנו עידן גונב את הנייד) – הגם והשניים לא באמת מדברים ברמת הטקסט בסרט, הרי שהופעתם בסמיכות אכן מבליטה דמיון ביחס ששניהם מפגינים כלפי עידן.

 

בחינה פנורמית: היחסים בין המחנות

אופן בחינה נוסף שמציעים החוקרים נוגע ליחסים שבין המחנות.

באופן לא מפתיע, מחנה הקיבוץ הוא המחנה הגדול והדומיננטי ב"מבצע סבתא".

 

בחינת מרכזיות נקודות: צמתים

סוג נראטיב שלישי שאפשר לחלץ מבחינת הרשת נוגע לנקודות מרכזיות ברשת.

הבחינה הראשונה שניתן להתייחס אליה בהקשר הזה נוגעת לנקודות ברשת שנמצאות בקשר עם מספר גדול של נקודות אחרות (מיוצג על ידי הצבע הירוק הכהה בתמונה).

באופן לא מפתיע, שלושת האחים (בני, עידן, וקרמבו) הם הצמתים במרכזיות ברשת; והם למעשה "מרכזים סביבם" את הדמויות במשך העלילה.

בחינת מרכזיות נקודות: גשרים

בחינה מעניינת לא פחות היא בחינה קצת יותר מעודכנת, ונוגעת לדמויות שממוקמות בפוזיציה "רחוקה" יותר ממרכזי הקהילות, אבל משמשות כ"גשרים" ביניהן.

כך, בעוד שדמויות מהקיבוץ (סרג'יו ודבורה) "מחברות" בין קרמבו ועידן (נוסף על הקשר הישיר ביניהם) – שתי הדמויות היחידות שמדברות עם כל שלושת האחים הן שירלי וחגית. חגית, למעשה, משמשת כקשר מרכזי בין קהילת "העיר" לקהילת "הקיבוץ".

בחינת מסלולים: קיצור הדרך

החוקרים במאמר אודות האיליאדה מציעים סוג נראטיב מעניין נוסף בניתוח רשתות, שנוגע למציאת מסלולים קצרים מפתיעים בין דמויות שונות.

הגם וברשת "מבצע סבתא" לא הצלחתי למצוא מסלולים שכאלו, בעיניי מעניין לראות את היעדר החיבור של בני, ויותר מכך של סבתא חיה עצמה, לקהילת "הקיבוץ".

הקשר הישיר היחיד של בני לקיבוץ, למעשה, הוא לקרמבו, באופן שמשקף את תהליך התרחקותו מהקיבוץ והמעבר לעיר. כך גם הקשר היחיד של סבתא חיה לקהילת הקיבוץ (שכזכור "זנח" אותה) עובר "בשתי קפיצות" (חיה->בני->קרמבו / חיה->עידן->דבורה/סרג'יו/קרמבו).

פורסם בקטגוריה Uncategorized | כתיבת תגובה