תדהמתלוטו

תדהמה בישראל: בהגרלת הלוטו השבועית עלו בגורל אותם מספרים בדיוק (לא באותו סדר, אמנם) כמו בהגרלת הלוטו של לפני חודש. אתרי החדשות כמרקחה: “תדהמה” מכריז Ynet. “סטטיסטיקאים יגידו שהסיכוי שואף לאפס, קונספירטיבים יחשבו על כוונות זדוניות”. פרופסור לסטטיסטיקה גויס כדי שיגיד שמדובר ב”מקרה נדיר כדבר שקורה אחת ל-10,000 שנה” ואף אומר כי “זה מדהים, זה וואו. זה נדיר שאותה שישייה חוזרת”.

האם אכן ההתלהבות מוצדקת?

ראשית ולפני הכל, אני רוצה לגלות לכם סוד מדהים. הסיכוי לכך שאירוע כמו זה שקרה יקרה שוב בשבוע הבא גדול - אני חוזר, גדול, מהסיכוי שאתם - אני חוזר, אתם, תזכו בלוטו (אם אתם לא ממלאים - ואני מנחש שרוב קוראי הבלוג לא ממלאים, זה מובן מאליו - אבל כך זה גם אם אתם ממלאים). ההסבר לכך פשוט. לכל קבוצה בת 6 מספרים יש את אותו סיכוי בדיוק לעלות בגורל בכל אחת מההגרלות; ומכיוון שקבוצת “המספרים שעלו בגורל בהגרלות בזמן האחרון”(נניח, שנה? גם אם יתקבלו אותם מספרים בדיוק במשך זמן של שנה אני משער שהעיתונות תחגוג על כך) ככל הנראה גדולה מקבוצת “המספרים שאתם ממלאים השבוע”, הסיכוי שיעלה בגורל איבר כלשהו בה גדול מהסיכוי שאתם תעלו בגורל. בלי שום חשבונות מתוחכמים ושום מספרים מפוצצים - אני חושב שזו הדרך הטובה ביותר להמחיש לכם עד כמה ההסתברות של האירוע הזה אינה מרשימה כפי שאולי נראה בתחילה. הזכייה של ישראל ישראלי מתל אביב בפרס הראשון היא אירוע מדהים ומפתיע בדיוק כמו החזרה הזו על אותם מספרים, ושניהם אירועים מדהימים ומפתיעים בדיוק כמו שעלייה בגורל של המספרים 1,2,3,4,5,6 היא אירוע מדהים ומפתיע; ההבדל היחיד הוא שאנחנו בוחרים לתת תווית “מעניין” רק לתת קבוצה קטנה של אירועים. לכל הפחות, אני מקווה שמי שנדהם מהחזרה הכפולה על המספרים הללו וקיבל תחושה שמדובר ב”אירוע נדיר ביותר” ילך הלאה עם התחושה האינטואיטיבית הזו ויפסיק למלא לוטו מתוך הבנה שגם זכייה שלו עצמו תהיה אירוע נדיר ביותר.

אוקיי, אבל בואו נעבור כעת לחישובים. מה באמת ההסתברות לאירוע כזה? יוסי לוי כבר כתב על כך בשעתו, כשבלוטו הבולגרי צצה תוצאה מפתיעה עוד יותר - אותה תוצאה שבועיים ברצף. עם זאת, אכתוב את הפוסט הזה כאילו הפוסט של יוסי אינו קיים. אם כן, נתחיל מההתחלה - כמה תוצאות שונות אפשריות יש בלוטו הישראלי? אנחנו דנים כאן רק בבחירת 6 הכדורים שאינה תלויה בסדר בחירתם, ולא בכדור הנוסף שנבחר אחר כך, לכן מדובר על כלל הקבוצות בגודל 6 מתוך 37 איברים (בלוטו הישראלי מוגרלים 37 מספרים, ו”המספר החזק” שמוגרל בנפרד) - $latex {37 \choose 6}=2,324,784$, בערך 2 וחצי מיליון. הבה ונסמן מספר זה בתור $latex n$. כעת, השאלה “מה ההסתברות לאירוע הזה?” היא מורכבת ממה שנראה לנו במבט ראשון - היא תלויה בשאלה מה הפרשנות שאנו מעניקים למושג “האירוע הזה”. הבה ונראה על מה Ynet מדברים:

החישוב למקרה אמש, בו נדגמו שישה מספרי לוטו שזהים לאותה שישיית מספרים שנדגמה לפני מספר שבועות, כבר מצריך לקנות מחשבון חדש. גילולה אומד את מקרה לא ייאמן זה בלא פחות מ-1 חלקי 2 מיליון בריבוע, או 1 חלקי 2 כפול 10 בשישית. לנוחותכם, הנה המספר המלא - 1 ל-4,000,000,000,000". למעדיפי הגרסה העשרונית, התוצאה המדויקת היא 25000000000000.0.

אני סומך על גילולה שהוא פרופסור רציני ושכתבי Ynet פשוט בחרו לשאול אותו את השאלה הלא נכונה. התוצאה שניתנה כאן היא בעצם $latex \frac{1}{n^{2}}$ (מפושטת בהתאם עבור הקוראים). מה התוצאה הזו מייצגת? את ההסתברות לקבל בשתי הגרלות ספציפיות, את סדרת המספרים הספציפית שהתקבלה במקרה שלנו - כלומר, זה הסיכוי שאם נקיים רק שתי הגרלות, נקבל בדיוק את סדרת המספרים 33,26,14,36,32,13 בשתיהן. זה ממש, אבל ממש, לא מה שאנחנו מתפעמים ממנו כאן. אף אחד לא מתפעם מכך שהתקבלה הסדרה 33,26,14,36,32,13; אם הייתה מתקבלת הסדרה 33,26,14,35,32,13 אנשים היו מתפעמים באותו האופן בדיוק. אם כן, החישוב של גילולה כבר לא מתאים למציאות; תיאור יותר הולם למציאות הוא של ההסתברות שבשתי הגרלות רצופות תתקבל אותה סדרת מספרים, בלי שנדרוש מראש מה יהיו ערכיה. ההסתברות לכך היא פשוטה: $latex \sum_{k=1}^{n}\frac{1}{n^{2}}=\frac{1}{n}$ (במילים - לכל סדרת מספרים אפשרית יש הסתברות של $latex \frac{1}{n^{2}}$, ומכיוון שאנחנו מוכנים לקבל כל סדרת מספרים אנחנו סוכמים על כולן). כלומר, ההסתברות לכך שבשתי הגרלות רצופות נקבל את אותה סדרה היא בדיוק אותה הסתברות כמו זו שאתם תזכו בלוטו אם מילאתם סדרה ספציפית אחת - אחת ל-2 וחצי מיליון לערך. שימו לב להבדל התהומי בין התוצאה הזו והמספר שגילולה נותן.

כעת העלילה מסתבכת. החישוב שלעיל עדיין משכנע אותנו שההסתברות לאירוע המדהים אינה כה גדולה. דא עקא, שהאירוע המדהים לא קרה בשתי הגרלות רצופות, ובטח לא בשתי ההגרלות היחידות שבוצעו אי פעם; הוא צץ אחרי שנים רבות שבהן נערכים משחקי לוטו, ובתדירות של שמונה הגרלות בחודש. למרבה המזל Ynet שלפו פרופסור אחר שיתייחס לזה:

הפרופסור לסטטיסטיקה יצחק מלכסון, מאוניברסיטת תל אביב, העריך שמה שקרה כאן - חזרה של 6 מספרים זהים בהגרלת לוטו, תוך פרק זמן של עד חודש, בחישוב של שמונה הגרלות לחודש - קורה "פעם אחת בעשרת אלפים שנה".

הבה וננסה להבין איך מחשבים את המספר הזה. ראשית, מהי ההסתברות לכך שבחודש נתון תתקבל אותה סדרת מספרים פעמיים? ברשותכם אטפל בבעיה בצורה קצת יותר כללית - מה ההסתברות לכך שבסדרה של $latex m$ הטלות קוביה שיש לה $latex n$ ערכים אפשריים יתקבל אותו הערך פעמיים? ובכן, קל יותר לחשב את ההסתברות שזה לא יקרה: בהטלה הראשונה בהסתברות 1 לא יתקבל ערך שהתקבל קודם; בהטלה השניה יש סיכוי של $latex \frac{1}{n}$ שיתקבל ערך שהתקבל קודם (הערך שהתקבל בהטלה הראשונה); בהטלה השניה יש הסתברות של $latex \frac{2}{n}$ שיתקבל ערך שלא התקבל קודם, בהינתן ששני הערכים הראשונים שהתקבלו היו שונים זה מזה; וכן הלאה. מקבלים שההסתברות הכוללת שכל הערכים שהוטלו יהיו שונים היא $latex 1\cdot\left(1-\frac{1}{n}\right)\cdot\left(1-\frac{2}{n}\right)\cdots\left(1-\frac{m-1}{n}\right)$. זכרו את הנוסחה הזו - בסוף הפוסט עוד נחזור אליה. לעת עתה השאלה היא מה קורה כאשר מציבים בה את $latex n$ שלנו ואת $latex m=8$. אם תציבו ותחשבו תקבלו תוצאה של אחד ל-$latex 83,028$ לערך. כלומר, אנחנו מצפים לתופעה שכזו פעם ב-83,000 חודשים לערך; בהתחשב בכך שבכל שנה 12 חודשים, נקבל שאנחנו מצפים לתופעה כזו פעם ב-7,000 שנים לערך. כנראה שכבר יותר קל לעגל ל-10,000. אם כן, הפרופסור שוב צודק, אבל כמקודם - זו פשוט לא השאלה הנכונה.

מדוע? ובכן, נתחיל מכך שלא באמת צריך להסתכל על כל חודש לחוד. הסיטואציה היא שונה: יש לנו סדרה של $latex m$ הגרלות עבור $latex m$ גדול למדי, והשאלה שלנו היא מהי ההסתברות שבסדרה הזו יהיה איבר כלשהו שזהה לאחד משמונת האיברים שמאחוריו. ההסתברות לקבל איבר כלשהי היא בלתי תלויה בהסתברות של האיברים שמאחוריו - כל הגרלה היא משחק חדש לגמרי - ולכן כשמגרילים איבר חדש, ההסתברות שהוא יהיה שונה מכל שמונה האיברים שמאחוריו היא $latex 1-\frac{8}{n}$ (שוב, בהנחה שהאיברים שמאחוריו כולם שונים זה מזה). לכן ההסתברות לכך שגם כעבור $latex m$ הגרלות לא יתקבלו שני איברים זהים במרחק של חודש אחד מהשני היא $latex \left(1-\frac{8}{n}\right)^{m}$. אם נסתכל רק על 10 השנים האחרונות (ולמה להגביל את עצמנו כך? שיהיה) נקבל $latex m=8\cdot12\cdot10=960$ וכשנציב את זה במשוואה נקבל הסתברות של 1 ל-300 להתרחשות המדהימה שלנו ב-10 השנים האחרונות. במילים אחרות, תוך 3,000 שנים אנחנו מצפים שהתרחשות מדהימה כזו תתקיים לבטח - תראו איך קיצצנו את 7,000 ביותר מחצי ואת 10,000 ביותר משני שליש (אם נדרוש ש-$latex m$ יילקח לאורך, נאמר, 20 או 50 שנים, ה-3,000 שנים הכוללות לא ממש ישתנו).

טוב ויפה, גם 3,000 שנים זה המון, לא? אבל אנחנו עדיין לא מתארים נכונה את האירוע! כי חודש זה אמנם מדהים, אבל גם אם היה מדובר על טווח של חודשיים זה עדיין היה מדהים, לא? האם הרעש התקשורתי היה שונה מהותית? במקרה של חודשיים נקבל הסתברות של 1 ל-150, כלומר די לנו לחכות כעת רק 1,500 שנים כדי לחזות באירוע המדהים שבו אותה תוצאה מתקבלת בפרק זמן של חודשיים לכל היותר. ואם היינו מדברים על שנה? אז ההסתברות הייתה 1 ל-25, ואז משך ההמתנה שלנו היה רק 250 שנים. ושימו לב - 250 שנים עד לרגע שבו אנחנו מצפים שכבר די בודאות יצוץ משהו כזה.

ועכשיו צריך לעצור ולנשום אוויר רגע. כל השעשועים במספרים הללו זה טוב ויפה, אבל צריך לעצור ולהבהיר משהו - גם אם ההסתברות לקיום דבר מה היא נמוכה, אין פירושו שהוא לא יכול לקרות; פירושו הוא רק שכשהוא כבר קורה אנחנו מאוד מתלהבים. אם הוא לא היה קורה - לא היינו מתלהבים ולא היה דיון בנושא בכלל. משנזכרנו בזה, אפשר לשאול את עצמנו האם נכון להסתכל רק על התוצאה המדהימה של הגרלת הלוטו - האם אין עוד תוצאות שהיינו רואים כמדהימות? למשל, הגרלה שבה מתקבלים המספרים 1,2,3,4,5,6? למשל, מקרה שבו אותו אדם זוכה פעמיים? (דברים שכאמור - הסבירות להם נמוכה יותר מאשר הסבירות לתוצאה המדהימה של היום). צריך לבצע את השיקלול הכולל על כל האפשרויות הללו - אבל מי יודע כמה אפשרויות לתוצאות מדהימות יש? לכן לדעתי ולטעמי אין טעם בכל חישובי ההסתברויות הללו וזה דבר בעייתי מאוד לנסות ולשקלל ניסים בדיעבד. אנחנו רואים את ההצלחה, אבל לא רואים את כל הכשלונות. הדבר דומה לצירופים גימטריים שנראים “מתאימים בול”, פשוט בגלל ההיצע האדיר של צירופים אפשריים שקיימים; כשבוחרים מכל שפע התוצאות האפשריות רק את המעטות שבאמת נראות לנו מעניינות, אין פלא שאנחנו מתלהבים.

וכעת, ברשותכם, אני רוצה לזרוק את הניתוח המספרי הקודם שלי - שניסה לעקוב אחרי המתמטיקאים של Ynet - לפח, ולהביא את מה שלטעמי הוא הדרך הנכונה להסתכל על העניין הזה - פרדוקס יום ההולדת, שכבר תואר בעבר בבלוג. פרדוקס יום ההולדת אומר כי אם בחדר ישנם לפחות 23 אנשים, אז ההסתברות לכך שלשניים מהם אותו יום הולדת היא לפחות חצי. באופן כללי ניתן לנסח אותו כך: אם אנחנו מבצעים את אותה הגרלה במשך $latex m$ פעמים, ויש סך הכל $latex n$ תוצאות אפשריות להגרלה, אז מספיק ש-$latex m$ יהיה בסדר גודל של $latex \sqrt{n}$ כדי שבהגרלה שלנו תתקבל אותה תוצאה פעמיים בהסתברות של חצי לערך (כשהסתברות חצי כבר נחשבת עבורנו לסבירה; ככל ש-$latex m$ ממשיך לגדול אחר כך ההסתברות ממשיכה לגדול במהירות אל עבר 1). ההוכחה של התוצאה הזו היא בדיוק ניתוח חכם של הנוסחה $latex 1\cdot\left(1-\frac{1}{n}\right)\cdot\left(1-\frac{2}{n}\right)\cdots\left(1-\frac{m-1}{n}\right)$ שהזכרתי קודם; הצגתי זאת במפורט בפוסט המקורי שלי על פרדוקס יום ההולדת.

סדר גודל של $latex \sqrt{n}$ במקרה שלנו הוא 1,500 לערך. 1,500 הגרלות - 15 שנים לערך. אם ממש משתמשים בנוסחה, רואים ש-20 שנים נותנים לנו הסתברות גדולה מחצי להתנגשות. במילים אחרות, אנחנו מצפים שכל 20 שנים לערך תתקבל אותה תוצאה בלוטו פעמיים. כמובן, אם זה קורה בפער של חודש זה יותר מפתיע מאשר אם זה קורה בפער של 20 שנים; אבל זה שבכלל יש התנגשות זה לא מפתיע כלל אלא צפוי לחלוטין. משהסכמנו על כך שהתנגשויות הן דבר נפוץ, אז האירוע הפחות נפוץ שבו ההתנגשות היא גם בסמיכות זמנים קרובה נראה הרבה פחות מרשים לטעמי.

אם כן, מה היה לנו? אירוע שנראה מפתיע אינטואיטיבית, ותקשורת שמתלהבת ממנו הרבה יותר ממה שצריך, וציטוטים של מתמטיקאים שמתארים תוצאות נכונות מתמטית אבל שכלל אינן מתארות את מה שקרה כאן. אם כן, היכן האשמה? האם הסטטיסטיקה משקרת? אני נוטה להאמין שבמקרה הזה העיתונאים הם אלו שבחרו לשאול את השאלות הלא נכונות, או לא להבין את התשובות - ובכל מקרה, לכתוב כתבה שעושה מיש-מש ומערבבת תשובות שונות שמבוססות על הנחות שונות ובלי לדבר ממש על מהן ההנחות הללו. לסיכום - There are lies, damn lies and journalism.


נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ:

Buy Me a Coffee at ko-fi.com