ריקליימינג דאטה סיינס: אנליטיקס זה מדע

אחת השאלות הלא ממש חשובות שיוצא לי להתעסק בהן בתכיפות גבוהה היא מה ההבדל בין דאטה סיינטיסט לדאטה אנליסט (או לפעמים בניסוח אחר: האם דאטה אנליסיס זה *באמת* דאטה סיינס).

בעוד שהשאלה עצמה כביכול מתקיימת במרחבי הסמנטיקה, הלכה למעשה היא משמשת לא מעט כפרקטיקה של הדרה וגייטקיפינג (ע״ע התגובה של יוסי ״עושים צחוק. זה לא דטה סיינטיסט, זה דטה אנליסט״ למאמר בגיקטיים על פרק בפודקאסט F2F על תפקיד הדאטה סיינטיסט בפייסבוק). בספר (המעולה!!!) Data Feminism עלתה הטענה (פרק 1) שהמיתוג מחדש של ״דאטה אנליסיס״ (״low-status number crunchers״) כ״דאטה סיינס״ (״high status researchers״) בין היתר מביא לדחיקה החוצה של נשים מהתחום.

מכאן שבעייני יש לשאלה הזו גם חשיבות מעבר לסמנטיקה, בגלל ההקשר שבו היא עולה והאופן שבו נעשה שימוש באבחנה (ובהיררכיה המובלעת) שבין ״דאטה אנליסיס״ ל״דאטה סיינס״. חוץ מזה שהבלוג נקרא ״בנאליה״ בדיוק כדי שאוכל להגיד בו דברים חסרי חשיבות או חידוש – גם אם הטריגר לזה זה הוא אגו שברירי. מכל מקום, יוסי, הפוסט הזה מוקדש לך (ולכל מי שמתחיל.ה את צעדיו.ה בתחום / מנסה להבין איך לבנות קריירה כדאטה סיינטיסט)! 

״יש שני סוגים של דאטה סיינטיסטס״

אחת הרפליקות המוכרות בתחום היא שיש שני סוגים של דאטה סיינטיסטס: Type A, Analysis, מי שעוסק בניתוח נתונים לטובת תהליכי קבלת החלטות (כביכול עם העמקה יותר בהיבטי הסטטיסטיקה), ומנגד Type B, Building מי שעוסק בבניית מוצרים שבחלקם ״תהליכי קבלת החלטות ממוכנים״ מבוססי נתונים (העמקה בהיבטי הנדסת התוכנה). למשל, הנה הטענה הזו בהארווארד ביזנס ריווי מ2018, הנה היא בQuora מ2014. לא חסרים מופעים של התיאור הזה, ולמעשה, החיפוש "two types of data scientists" בגוגל מניב נכון לכתיבת שורות אלו למעלה מ80 אלף תוצאות

החיפוש ״"types of data scientists" מניב קרוב למליון תוצאות, חלקן טיפולוגיות מ2021 ל10 סוגים וכו׳ … שכוייח, זה כנראה אומר משהו טוב על התחום. אגב, מסקרייפינג על כל משרות הData Science בישראל בלינקדאין (הנה מחברת הcolab, אשמח לשתף את הCSV אם מישהו מעוניין): נראה שאכן עולים גם אצלנו שלל טייטלים כולל Data Analytics ו-Research Scientist ו-Data Engineer וכו׳.

אני אוהב במיוחד את האופן בו Lyft מגדירים את תפקידי הדאטה סיינס אצלהם: יש את אנשי הData Scientist, Decisions (שמתעסקים ב“Data Science for Humans”) ואת אנשי הData Scientist, Algorithms (שמתעסקים ב״Data Science for Machines״).

מעבר לLyft, בין החברות הנוספות שמחשיבות את תפקיד האנליטיקס כחלק מתחום הData Science אצלהן אפשר למצוא, כאמור, את פייסבוק, וגם את גוגל, ספוטיפיי, ebay, אמזון ותכלס כל החברות הגדולות. 

אוקי, אחלה, אז לכולם ברור שגם מי שעוסק בניתוח, כלומר Type A: Analysis, כלומר Data Science for Humans הוא גם דאטה סיינטיסט, נכון?

ההבדל בין מקומות שמחפשים טבח/ית למקומות שמחפשים מבשל/ת

במקביל לרפליקה הזו, אי אפשר להתעלם מאיזשהו סנטימנט שקיים כאילו מה שהופך דאטה סיינטיסט לדאטה סיינטיסט ״אמיתי״ הוא השימוש בML – כלומר Type B, ואנשי האנליטיקס הם עדיין באיזה שלב ״פינוקיו״. הנה ג׳ון ברייס טוענים את זה, הנה נאיה קולג׳ טוענים את זה, והנה יקיר הבלוג טל מזרחי הנסיך מAnalysis Paralysis טוען את זה במובלע (שלא לדבר על יוסי הטוקבקיסט בגיקטיים).

לפני כמה חודשים רצה מודעת גיוס של Gloat שבגדול המסר שלה הוא ״האגו שלך נפגע מהשם אנליסט? אנחנו מוכנים לקרוא לך באיזה שם שתרצה״ (ואז שלל תיאורי אס-מלך-אל-שולט, בהתאם למסורת הנינג׳ות רוקסטארים וקוסמים – גם היא פרקטיקה של הדרת נשים אגב, שוב שאוט אאוט לספר דאטה פמניזם). ממש A rose by any other name would smell as sweet גרסת התן-ביס.

אז למה בעצם שזה ישנה לך אם הטייטל שלך הוא ״דאטה סיינס״ או לא? 

סיבה אחת היא השכר. מהסקר האחרון של קהילת Machine & Deep Learning Israel עולה כי השכר הממוצע של Data Scientists גדול בערך פי 2 מהשכר של Data Analyst. כמובןןןןן שמדובר כאן במתאם ולא בסיבתיות, וכמו שאפשר לראות בסקר – בעצם השונות של השכר של Data Scientists גדולה בהרבה ככה שהממוצע עשוי להטעות וכו׳ (אולי Type B מרוויחים הרבה וType A מרוויחים מעט?). ובכל זאת, האחוזון ה25 של Data Scientists בישראל מרוויח בערך כמו הData Analyst עם השכר הגבוה ביותר לפי הסקר.

סיבה שנייה היא שחוסר הנכונות של מעסיק להכיר בהיבטים המדעיים של תחום האנליטיקס מעיד על תפיסה (לקויה בעיניי) של התפקיד עצמו מצד המעסיק. בפרקטיקה, אני חושב (ובהמשך למסורת של Strong Opinions, Weekly Held אשמח למידע שסותר את הטענה הבאה), שארגון שיתעקש שאנשי הML הם ״המדענים האמיתיים״ שלו ואנשי האנליטיקס אינם, הוא בעצם ארגון שרואה בעבודת האנליטיקס כעבודה חשובה פחות.

יצא לי לשמוע בראיונות עבודה מגייסים שמבטיחים שזה שהטייטל בחברה שלהם הוא אנליטיקס לא אומר שמתייחסים למי שממלאים את התפקיד כ״דאטה סיינטיסטס סוג ב״, ובאופן אישי אני חושד שזה בדיוק מה שזה אומר (The lady doth protest too much! שני ציטוטי שייקספיר כנראה מסמנים שזה הזמן לעבור הלאה?). כנראה כמעט כמו מישהו שכותב פוסט חופר על איך גם הוא באמת דאטה סיינטיסט.

בשורה התחתונה, ההבדל בין ״תפקיד דאטה סיינטיסט״ ל״תפקיד דאטה אנליסט״ מזכיר לי את ההבדל בין ״טבח.ית״ ל״מבשל.ת״ – לא בהכרח מעיד על אופי העבודה עצמו, כמו שהוא מעיד על החשיבות שהארגון מייחס לתפקיד הזה. במקומות שחלק מהותי ממה שהם מתעסקים בו הוא להאכיל אנשים, כמו בתי קפה ומסעדות, מחפשים טבח/ית. במקומות שעיקר העיסוק שלהם הוא אחר, אבל הם צריכים על הדרך גם להאכיל אנשים, כמו מעוני ילדים, מחפשים מבשל/ת

הרבה ממי שמתעסק בML לא באמת מתעסק במדע

ועכשיו אם לחזור להיבט הסמנטי רגע בכל זאת (ובמיוחד כי ההגנה הכי טובה היא התקפה): אני חושב שמתבקש לשאול מה בעצם ״מדע״ ב״מדע הנתונים״. בתחום של אנליטיקס (Type A) החיבור לשיטה המדעית הוא ברור מאוד: אנחנו מפתחים ידע על העולם באמצעות העלאה של השערות, ושימוש בניסויים ובנתונים כדי להפריך / לתקף / לכמת אותן. כמו … יו נואו .. שעושים במדע.

לבנות מוצרים זה ממש מגניב. באמת באמת. אבל אם המוטיבציה שלך היא לא ״לפתח ידע״ אלא ״לבנות מוצר״ (Type B, Building) האם את.ה באמת מתעסק.ת במדע? זה לא נשמע קצת יותר כמו מוטיבציה מתחום ההנדסה (not that there's anything wrong with that)? 

עכשיו, ברור שהאבחנה בין ״הנדסה״ ל״מדע״ (בטח שההיבטים היישומיים ולא התיאורתיים) היא בעצמה בעייתית, ומדובר בשני תחומים עם השפעה הדדית וכו׳ – בניית טלסקופ מושפעת מהידע המדעי בתחום האופטיקה ומעצבת את הידע שאפשר לצבור בתחום האסטרונומיה. אבל בסופו של דבר הפרויקט של בניית טלסקופ הוא פרויקט *הנדסי* של פיתוח מוצר (ולא פרויקט מדעי של חקר החלל). 

בהשאלה, אם מה שאת.ה משקיע.ה בו זה אופטימיזציה של פרמטרים ופיצ׳ר אנג׳נירינג כדי להגיע לביצועים טובים של מודל שיהיה אפשר להשתמש בהם בפרודקשן כ״אוטומציה של תהליכי קבלת החלטות מבוססי נתונים״ כחלק מהמוצר: האם עסקת בפיתוח ידע, או בפיתוח מוצר?

לסיכום: תחום האנליטיקס הוא כיף ומרתק

אני מאוד אוהב את העיסוק באנליטיקס, ושמח מאוד לעסוק בזה בתוך ארגון שמכיר בחשיבות של התחום. בלימודים נחשפתי לתחום רק מעט (התזה שלי עסקה בExplainability ו-Computer Vision), ואני מרגיש שחלק מהמתח נובע מזה שהאופן שבו ״הזהות המקצועית״ של אנשי דאטה סיינס נבנית (למשל בהחלטות מה נכלל בסילבוסים) מאוד מבוסס על ההיבטים הטכניים ועל אתוס של ״Type B״ דאטה סיינטיסט.

לדאטה סיינטיסטס בתחילת דרכן.ם – אני ממליץ בחום לשקול את התחום. לאנליסטים מנוסים, אני ממליץ לעשות ריקליימינג לטייטל דאטה סיינטיסט: זה שלנו לכל הפחות באותה המידה.

פוסט זה פורסם בקטגוריה Uncategorized. אפשר להגיע ישירות לפוסט זה עם קישור ישיר.

3 תגובות על ריקליימינג דאטה סיינס: אנליטיקס זה מדע

  1. Avner Kantor הגיב:

    פוסט מצוין. מספר מחשבות:
    1. בעיניי תפקיד בניית המוצר שמור למי שפעם כונתה אלגורתמיקאית. כמה מחבריי הטובים הם כאלו.
    2. דאטה סיינס סוג ב' מתקשר אצלי גם לתחום הפורח של computational social science.
    3. בעייני מהות הבדל בין דאטה אנליסט לדטה סיינטיסט הוא רמת השימוש בסטטיסטיקה/מדעי המחשב. דאטה אנליסט יסתפק לרוב ב-SQL וסטטיסטיקה תיאורית.

    • 50stuck הגיב:

      בנוגע ל1: ראיתי בזמנו הרצאה מעניינת (לא מצליח למצוא אותה עכשיו) שהנראטיב שלה היה על איך התפקיד של ״Webmaster״ שהיה מאוד מבוקש בניינטיז הלכה למעשה התפצל למספר תפקידים – לא בגלל שאתרי אינטרנט איבדו מחשיבותם, אלא בגלל עליית קרנם, מה שהצריך התמקצעות בהיבטים שונים של ה״Webmaster״ (והביא בעצם ל״פיצול״ של התפקיד לתפקידי Fron-end, back end, וכו׳). אז בהחלט יתכן (וזו הייתה הטענה בהרצאה) שלמעשה נראה תהליך דומה גם בתחום הדאטה והאלגוריתמיקה (והנה יש לנו ml engineers לעומת אלגוריתמיקאים מדיסיפלינות שונות וכו׳)
      2. מעניין שאתה אומר את זה! דווקא חשבתי שזה יהיה הtype a, לא?
      3. זו נקודה טובה. אתה חושב שזה אומר משהו מהותי על התפקידים השונים, או שזו בעצם מעין אבחנה בין ג׳וניורים לסניורים באותו התפקיד בעינייך?

      • Avner Kantor הגיב:

        2. כאמור אני חושב שtype a שייך לאלגורתמיקאים.
        3. כן, לדעתי זה זה קשור למהות התפקיד.

כתיבת תגובה