דיון שאינו חסר תוחלת במשתנים מקריים
בואו נדבר על כסף. רולטה. נניח שאני מהמר בשיטת כך-וכך, בכמה אני זוכה? מכיוון שרולטה היא עסק הסתברותי ובכל משחק אני זוכה או מפסיד משהו שונה, עדיף לשאול שאלה יותר מדוייקת - בכמה בממוצע אני זוכה? נניח שאני משחק אלף סיבובים ומרוויח בסך הכל אלף ש”ח, אפשר לומר שבממוצע, זכיתי בש”ח אחד לסיבוב (אפילו אם מה שקרה בפועל הוא שבכל סיבוב הרווחתי מאה ש”ח או הפסדתי מאה ש”ח).
שאלות מהסוג הזה מעבירות אותנו לשלב הבא בדיון שלנו על הסתברות, ונותנות לנו מוטיבציה להכנסה של מה שהוא אולי המושג המרכזי בהסתברות - המשתנה המקרי. הרעיון במשתנים מקריים הוא להוסיף לנו רמת אבסטרקציה “מעל” מרחב המדגם שמאפשרת לנו לשאול בנוחות שאלות יותר כלליות מאשר “מה הייתה תוצאת ההגרלה?”. הדרך הפשוטה ביותר להסביר זאת היא באמצעות דוגמת הרולטה: בהימור רולטה מרחב המדגם שלנו הוא פשוט יחסית - יש 38 (או 37, תלוי ברולטה) תוצאות אפשריות, וכולן (תיאורטית) שוות הסתברות. לעומת זאת, הסכום שבו אני זוכה (או מפסיד) בסיבוב של הימור הוא כבר מספר שונה לגמרי, שמחושב בצורה מתוחכמת למדי מתוך תוצאת הרולטה (ותלוי, כמובן, גם באופן שבו אני מהמר). לא אכנס כאן לחוקי הזכייה המדוייקים כי אני בכלל לא יודע אותם; אבל לצורך פשטות אפשר להניח משהו מפגר כזה - שאם התקבל ברולטה מספר זוגי אני זוכה ב-5 ש”ח, ואם התקבל מספר אי זוגי אני מפסיד 5 ש”ח.
כעת אפשר למדל את הסיטואציה באופן הסתברותי על ידי שינוי של מרחב המדגם - במקום לדבר על מרחב המדגם של הרולטה נדבר על מרחב מדגם פשוט יותר, שאבריו הם הזכיות האפשריות שלי, ו-\( 5 \) הוא בעל הסתברות חצי בו, וגם \( -5 \) הוא בעל הסתברות חצי בו, וחסל; אלא ששיטת עבודה שכזו, של שינוי מרחב המדגם, היא מסורבלת למדי באופן כללי, ובעייתית מאוד אם אנחנו רוצים לשאול שאלות מורכבות יותר - למשל, “בהינתן שבהטלת שתי קוביות סכום ערכי הקוביות הוא זוגי, מה ההסתברות שגם מכפלתן זוגית?”. לכן משתלם להוסיף למשחק את המושג הפשוט של משתנה מקרי. פורמלית, משתנה מקרי הוא פשוט פונקציה ממרחב המדגם אל המספרים הממשיים (כמובן שאפשר גם יותר מכך אבל אני לא נכנס לזה פה), שמייצגת את ה”ערך” של כל תוצאה אפשרית. מסמנים משתנים מקריים לרוב באותיות לטיניות גדולות, ובפרט ב-\( X \). אפשר לחשוב על משתנה מקרי כאילו הוא מקבל ערכים באופן הבא: ראשית מבצעים את ההגרלה הבסיסית של מרחב המדגם, ולאחר מכן מחשבים את הפונקציה על תוצאת ההגרלה, וזהו ערכו של \( X \). לכן השאלה הבסיסית שאפשר לשאול על משתנה מקרי הוא “באיזו הסתברות אתה מקבל את הערך הזה והזה?”. אנחנו נסמן \( \mbox{P}\left(X=a\right) \) בתור ההסתברות ש-\( X \) קיבל את הערך \( a \). זה כל הבסיס ההגדרתי שאנחנו צריכים כאן.
בואו ניקח דוגמה פשוטה. נניח שאנחנו מטילים שתי קוביות משחק רגילות, ומגדירים משתנה מקרי \( X \) בתור סכומן. מה ההסתברויות לערכים שונים ומשונים ש-\( X \) עשוי לקבל? ברור, למשל, ש-\( \mbox{\mbox{P}}\left(X=1\right)=0 \) כי הסכום הוא בין 2 ל-12 (ולכן בעצם \( \mbox{P}\left(X=a\right)=0 \) לכל \( a \) שאינו מספר טבעי בין 2 ל-12). כדי לדעת את ההסתברויות לערכים אחרים, כדאי לחשוב קצת על מרחב המדגם שלנו - הוא כולל את כל הזוגות מהצורה \( \left(a,b\right) \) כאשר \( a,b \) בין 1 ל-6. סך הכל ישנם \( 6\cdot6=36 \) זוגות אפשריים (עקרון הכפל הקומבינטורי). מכיוון שכל זוג הוא שווה-הסתברות, ההסתברות שלו הוא \( \frac{1}{36} \) (עקרון ה”הסתברות במרחב סופי היא אחד חלקי קומבי”) ולכן כדי לדעת מה ההסתברות לקבל \( 5 \), למשל, צריך לספור את כל הזוגות שנותנים בדיוק 5. זוגות אלו הם \( \left(1,4\right),\left(2,3\right),\left(3,2\right)\left(4,1\right) \); שימו לב שיש חשיבות לסדר ו-\( \left(1,4\right) \) ו-\( \left(4,1\right) \) הם זוגות שונים (כי הראשון אומר “בהטלה הראשונה קיבלנו 1 ובשנייה 4” והשני אומר “בהטלה הראשונה קיבלנו 4 ובשנייה 1”). לכן ההסתברות לקבל 5 היא \( \frac{4}{36}=\frac{1}{9} \). את אותו חישוב אפשר לעשות לכל מספר; לא קשה לראות שההסתברות הגדולה ביותר היא לקבל 7, והיא \( \frac{6}{36}=\frac{1}{6} \) ואת ההסתברות הנמוכה ביותר חולקים 2 ו-12, עם הסתברות של \( \frac{1}{36} \). בקיצור, המשתנה האקראי הזה מקבל ערכים בהסתברויות מאוד לא אחידות, למרות שמרחב המדגם המקורי היה מאוד אחיד. אני רוצה להכניס כאן לשימוש מילה חדשה - התפלגות; התפלגות של משתנה מקרי היא בסך הכל שם מקוצר ל”הערכים שהמשתנה המקרי עשוי לקבל וההסתברויות שבהם הוא עשוי לקבל אותן”. אז במקרה הזה אני יכול לומר שהתפלגותו של \( X \) היא מאוד לא אחידה.
הבה נעבור למשתנה מקרי מעניין יותר וחשוב הרבה יותר. נניח שאנחנו מטילים מטבע \( n \) פעמים, אבל לא מדובר על מטבע הוגנת בהכרח - ההסתברות שהיא תיפול על “עץ” היא בדיוק \( p \), כאשר \( 0\le p\le1 \). מה ההסתברות שהמטבע תיפול בדיוק \( k \) פעמים על עץ? כדי למדל את השאלה הזו אנו מגדירים משתנה מקרי \( X \) ש”סופר” את מספר ההטלות שבהן התקבל עץ בהטלה, והשאלה שלנו היא מהו \( \mbox{P}\left(X=k\right) \) לכל \( 0\le k\le n \) טבעי (ברור שלערכים אחרים ההסתברות היא 0 - מדוע?)
מפתה לומר עכשיו משהו בסגנון “ההסתברות ש-\( X \) ייפול על עץ היא \( p \), אז מעקרון הכפל עולה שההסתברות שהוא ייפול על עץ בדיוק \( k \) פעמים היא \( p^{k} \)”. זו חשיבה בכיוון הנכון, אבל היא שגויה כי היא מתעלמת מגורם נוסף - \( n \), שהוזכר בתנאי השאלה ומאוד לא סביר שלא ישפיע כלל על הפתרון (זו דרך חשיבה נכונה לחיים באופן כללי - אם פתרתם תרגיל מבלי להשתמש בכל הנתונים, זה מצריך חשיבה נוספת - אם כי, כמובן, לפעמים באמת לא צריך את כל הנתונים והעובדה שהתוצאה אינה תלויה בנתון מסויים שעל פניו נראה הכרחי היא יפה). העניין הוא בכך שאנחנו רוצים שהמטבע יפול על עץ בדיוק \( k \) פעמים; ב-\( n-k \) ההטלות הנותרות אנחנו רוצים לקבל פלי. ההסתברות לקבל פלי היא \( 1-p \) (כי מקבלים או עץ או פלי, וסכום ההסתברויות לקבלת שניהם יחד צריך להיות 1), ולכן ההסתברות לקבל \( k \) פעמים עץ וביתר הפעמים פלי היא \( p^{k}\left(1-p\right)^{n-k} \). כדי לפשט טיפה את הסימון נהוג להגדיר \( q=1-p \) ואז אפשר לכתוב את ההסתברות הזו בתור \( p^{k}q^{n-k} \).
אבל רגע, גם זה לא נכון! כי שוב, התעלמנו כאן ממשהו. הדרך הטובה לראות זאת היא לבדוק מקרים פרטיים קטנים. נניח ש-\( n=2 \) ו-\( k=1 \) והמטבע הוגן, כלומר \( p=\frac{1}{2} \). אז הצבה בנוסחה נותנת לנו \( \left(\frac{1}{2}\right)^{1}\cdot\left(\frac{1}{2}\right)^{1}=\frac{1}{4} \), כלומר שההסתברות לקבל עץ באחת משתי הטלות היא רבע. אבל בואו נכתוב רגע את מרחב המדגם באופן מפורש, כש-1 הוא תוצאה של עץ ו-0 היא תוצאה של פלי: \( \left\{ \left(0,0\right),\left(1,0\right),\left(0,1\right),\left(1,1\right)\right\} \). קל לראות שבדיוק בשתיים מארבע התוצאות מקבלים פעם אחת עץ, כלומר ההסתברות צריכה להיות חצי. מה השתבש?
מה שקרה הוא שהתעלמנו מכך שעץ יכול להתקבל פעם אחת בכמה אופנים שונים. במקרה הפשוט שלנו, אפשר לקבל פעם אחת עץ בהטלה הראשונה (ואז בשניה יהיה פלי), או שאפשר לקבל עץ פעם אחת בהטלה השניה (ואז בראשונה יהיה פלי). זה לא בא לידי ביטוי בספירה שלנו. באופן כללי, התשובה \( p^{k}q^{n-k} \) איננה התשובה הנכונה לשאלה “מה ההסתברות שעץ יתקבל בדיוק \( k \) פעמים” אלא לשאלה “מה ההסתברות שעץ יתקבל בדיוק ב-\( k \) המקומות הספציפיים הבאים…”. למשל, מה ההסתברות שעץ יתקבל בדיוק ב-\( k \) ההטלות הראשונות, או ב-\( k \) ההטלות האחרונות, וכדומה. לכל בחירה אפשרית של \( k \) מקומות שבהם יתקבל עץ, ההסתברות שדווקא הסיטואציה הזו תתקיים היא \( p^{k}q^{n-k} \); אבל יש הרבה בחירות אפשריות כאלו. כמה יש? ובכן, כשדיברנו על קומבינטוריקה כיסינו בדיוק את השאלה הזו - יש \( {n \choose k} \) בחירות אפשריות שכאלו, ולכן \( \mbox{P}\left(X=k\right)={n \choose k}p^{k}q^{n-k} \). נראה מוכר? אכן, \( {n \choose k}p^{k}q^{n-k} \) היה בדיוק האיבר הכללי בנוסחת הבינום של ניוטון; ולכן ההתפלגות של \( X \) שלנו מכונה “התפלגות בינומית”. מכיוון שההתפלגות הבינומית תלויה בשני ערכים - מספר החזרות \( n \) וההסתברות להצלחה בכל חזרה \( p \), נהוג לכתוב \( X\sim\mbox{Bin}\left(n,p\right) \) (קרי: “\( X \) מתפלג בינומית עם פרמטרים \( n,p \)”) כדי לתאר באופן מקוצר את ההתפלגות הזו.
בדיקת השפיות שיש לעשות לאחר חישוב התפלגות של משתנה מקרי כלשהי היא לסכום את הסתברות כל הערכים ש-\( X \) יכול לקבל ולוודא שקיבלנו 1. במקרה שלנו, פירוש הדבר הוא לבדוק שהסכום \( \sum_{k=0}^{n}{n \choose k}p^{k}q^{n-k} \) הוא 1. כאן נחלץ הבינום של ניוטון לעזרתנו - הסכום הזה שווה, על פי הבינום של ניוטון, ל-\( \left(p+q\right)^{n} \); אבל \( p+q=1 \) ולכן הסכום אכן שווה ל-1, כנדרש. שימו לב שכאן אנחנו משתמשים בנוסחת הבינום בכיוון שהוא לכאורה ההפוך - במקום “לפתוח” את הסוגריים אנחנו דווקא מצמצמים סכום “אל תוך” הסוגריים. זה שימוש שיותר נדיר לראות כשאתה תיכוניסט ופותר תרגילים טכניים, אבל הוא כנראה יותר נפוץ בעולם המתמטי האמיתי.
בואו נעבור עכשיו לשאלה של תחילת הפוסט - מהו “הערך הממוצע” שמקבל משתנה מקרי. הערך הזה מכונה תוחלת, ונהוג לסמן אותו ב-\( \mbox{E}\left[X\right] \) (E מהמילה Expectation). כדי לראות איך מחשבים אותו, בואו ונתבונן בדוגמה פשוטה - שוב הטלת מטבע עם הסתברות \( p \) לקבלת עץ. נניח שכשיוצא עץ אנחנו מרוויחים 2 ש”ח, וכשיוצא פלי אנחנו מפסידים 3 ש”ח - עבור איזו הסתברות \( p \) נוכל בממוצע להרוויח? די ברור ש-\( p \) צריך להיות גדול מחצי כי המשחק אינו הוגן, אבל כמה?
בואו נניח שאנחנו משחקים \( n \) משחקים, ומתוכם ב-\( a \) משחקים קיבלנו עץ, וב-\( b \) משחקים קיבלנו פלי. אז הרווח הממוצע שלנו הוא \( \frac{2a-3b}{n} \) - זהו בעצם ממוצע משוקלל שבו המשקולת של התוצאה \( 2 \) היא מספר הפעמים הצפוי שהיא תצוץ בו, וכך עבור התוצאה \( -3 \). את הממוצע המשוקלל הזה אפשר לכתוב גם כ-\( 2\frac{a}{n}-3\frac{b}{n} \). ככל ש-\( n \) גדול יותר כך אנו מצפים שהערכים \( \frac{a}{n} \) ו-\( \frac{b}{n} \) ילכו ויתייצבו - אנו מצפים ש-\( \frac{a}{n} \) יישאף ל-\( p \) (ולכן ש-\( \frac{b}{n} \) יישאף ל-\( q \)). זהו כמובן נפנוף ידיים, אבל חשוב לזכור שאי אפשר להוכיח מתמטית את הטענה הזו, שהיא בסופו של דבר טענה אמפירית, ואפילו הגדרתית; הרי איך אנחנו מפרשים את “ההסתברות שהאירוע יקרה היא \( p \)” אם לא בתור “כשנחזור על אותו ניסוי מספר רב של פעמים הפרופורציה של הפעמים שבהן נקבל את התוצאה הזו תשאף ל-\( p \)”? (ובכן, כן, יש דרכים שונות לגשת לכך, אבל זה כבר עניין לפוסט נפרד).
אם כן, הרווח הממוצע שלנו שואף ל-\( p\cdot2+q\cdot\left(-3\right) \). ושוב, הדרך הנכונה לחשוב על כך היא כעל שקלול של הערכים האפשריים ש-\( X \) יכול לקבל, כשהמשקולת של כל ערך היא ההסתברות שנקבל אותו. אם נציב \( q=1-p \) נקבל \( \mbox{E}\left[X\right]=2p-3\left(1-p\right)=5p-3 \), ולכן כאשר \( p=\frac{3}{5} \) התוחלת היא אפס (כלומר, אנחנו לא מצפים לא להרוויח ולא להפסיד מהמשחק בטווח הארוך) וכמובן שעבור ערכי \( p \) גדולים יותר היא תהיה חיובית.
באופן יותר כללי ופורמלי התוחלת מוגדרת כך: \( \mbox{E}\left[X\right]=\sum a\cdot\mbox{P}\left[X=a\right] \), כשהסכום נלקח על פני כל הערכים \( a \) שהמשתנה \( X \) בכלל יכול לקבל. אתם עשויים לשאול מה יקרה אם \( X \) יכול לקבל אינסוף ערכים שונים; במקרה זה אכן מקבלים סכום אינסופי וצריך לטפל בו בכלים המתאימים לסכומים אינסופיים - חומר שחורג ממה שנלמד בתיכון, אך הוא סטנדרטי למדי במתמטיקה אוניברסיטאית.
לעת עתה, הבה ונבצע חישוב שהוא סופי, אך גם כן אינו פשוט לגמרי - נניח כי \( X\sim\mbox{Bin}\left(n,p\right) \), מהי \( \mbox{E}\left[X\right] \)? הבה ונבצע את החישוב באופן ישיר, על פי ההגדרה: \( \mbox{E}\left[X\right]=\sum_{k=0}^{n}k\cdot{n \choose k}p^{k}q^{n-k} \). אוי ווי. מבט אחד בסכום ובא לבכות. איך בכל זאת מטפלים בסכומים כאלו? ובכן, יש תעלולים שמשתמשים בחשבון דיפרנציאלי בסיסי ומאפשרים לחשב אותו במדוייק, אך זה דורש פוסט משל עצמו ואני מעדיף לא להיכנס לכך כעת. במקום זאת אציג גישה שונה לגמרי לחישוב התוחלת, שתהפוך את פתרון השאלה הזו לטריוויאלי, ובתקווה תתחיל להמחיש עד כמה הדיבורים על משתנים מקריים מועילים לנו.
בואו נדבר לרגע על בעיה שלכאורה בלתי קשורה בעליל לבעיה שלנו - נניח שיש לנו מרחב הסתברות ומעליו אנו מגדירים שני משתנים מקריים שונים \( X,Y \) (למשל - \( X \) הוא סכום הערכים בהטלת שתי קוביות ו-\( Y \) הוא מכפלתם). כעת אנו מסוגלים להגדיר באמצעותם משתנים מקריים נוספים, למשל \( Z=X+Y \). האם ניתן לתאר את \( \mbox{E}\left[Z\right] \) באופן פשוט באמצעות \( \mbox{E}\left[X\right] \) ו-\( \mbox{E}\left[Y\right] \)? למשל, האם אפשר לקוות למשוואה יפה כמו \( \mbox{E}\left[Z\right]=\mbox{E}\left[X\right]+\mbox{E}\left[Y\right] \)? התשובה חיובית. למעשה, למרות שזה אולי לא נראה כך, זו תשובה מפתיעה למדי למי שכבר השתפשף קצת, שכן היא נכונה בלי קשר לשאלה האם יש תלות בין \( X,Y \) או אין. איכשהו אנחנו מצליחים לחשב את תוחלת \( Z \) על ידי הסתכלות על \( X \) ו-\( Y \) בנפרד, למרות שכל ערך ש-\( Z \) מקבל תלוי בתוצאה של שניהם יחד (עם זאת, לעתים התלות כן חשובה - למשל, \( \mbox{E}\left[XY\right]=\mbox{E}\left[X\right]\mbox{E}\left[Y\right] \) לא מתקיים תמיד, אבל כן מתקיים בודאות אם הם בלתי תלויים). ההוכחה של הטענה הזו אינה כה קשה אך היא דורשת הכנסת עוד מושג אחד לתמונה (התפלגות משותפת של משתנים מקריים) ולא אכנס לכך כעת.
כעת הבה ונסתכל על המשתנה הבינומי באופן קצת שונה. נגדיר משתנים \( X_{1},X_{2},\dots,X_{n} \) כך ש-\( X_{k} \) הוא המשתנה שמקבל 1 אם בהטלת המטבע ה-\( k \)-ית התקבל עץ, ו-0 אם התקבל פלי. למשתנה כזה, שמקבל או 0 או 1, קוראים “אינדיקטור”, ואחד היתרונות שבו הוא שחישוב התוחלת שלו טריוויאלי: על פי הגדרה, \( \mbox{E}\left[X_{i}\right]=p\cdot1+q\cdot0=p \), כלומר התוחלת של אינדיקטור שווה להסתברות שהוא יקבל 1.
כעת, \( X=\sum_{k=0}^{n}X_{k} \) - לכל סדרת הטלות במרחב המדגם, מספר ההטלות שבהן התקבל עץ באותה סדרה שווה למספר האינדיקטורים שקיבלו 1 עבור סדרה זו. על פי נוסחת התוחלת שלמעלה (שניתנה עבור שני משתנים אבל נכונה באותה המידה גם עבור \( n \) או כל סכום סופי אחר של משתנים), החישוב הוא כעת טריוויאלי:
\( \mbox{E}\left[X\right]=\mbox{E}\left[\sum_{k=0}^{n}X_{k}\right]=\sum_{k=0}^{n}\mbox{E}\left[X_{k}\right]=\sum_{k=0}^{n}p=np \)
וזוהי אכן התוחלת של משתנה שמתפלג בינומית עם פרמטרים \( n,p \) - וגם אינטואיטיבית תוצאה זו די ברורה (אם למשל \( p=\frac{1}{2} \), אנחנו מצפים שבערך בחצי מההטלות נקבל עץ, כלומר ב-\( n\cdot\frac{1}{2} \)). עם זאת, ברור שהחישוב שנתתי כעת קל מהחישוב הטכני שהיינו צריכים לבצע אם היינו משתמשים ישירות בהגדרה. כמו שאוהבים לומר, מתמטיקאים הם עצלנים, ולכן התוצאות התיאורטיות שהם מוכיחים נועדות (לפעמים…) לעשות את החישובים המעצבנים לקלים יותר.
נו, תשאלו בעצבנות, אז מה עם הרולטה? בכמה בממוצע אני זוכה אם אני משחק ברולטה? ובכן, אין לי מושג - זה סתם חישובים טכניים מעצבנים. אבל אני יכול להבטיח לכם שבשורה התחתונה, אתם מפסידים. הקזינו לא טמבל.
נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ: