בהינתן שאנחנו יודעים הסתברות בסיסית, כמה קל להבין הסתברות מותנית?

בפוסט הקודם התחלתי לדבר על הסתברות בסיסית והצגתי כמה רעיונות בסיסיים. אמרתי שאנחנו ממדלים סיטואציה הסתברותית עם מרחב הסתברות שכולל קבוצה \(X\) (מרחב המדגם) של כל התוצאות האפשריות של הסיטואציה ההסתברותית, כך שלכל \(a\in X\) (לכל תוצאה \(a\) אפשרית ששייכת לקבוצה \(X\)) מותאם גם מספר \(P\left(a\right)\) בין 0 ל-1 שאומר מה ההסתברות של התוצאה הזו, וסכום ההסתברויות של כולם הוא 1. כמו כן אמרתי שמה שמעניין אותנו בדרך כלל הוא מאורעות, שהם תת-קבוצות של \(X\) (מסמנים זאת \(A\subseteq X\)) ומהווים אוסף של כמה תוצאות אפשריות בעלות משמעות "דומה". למשל, בהטלת קוביה התוצאות הבסיסיות הן \(1,2,3,4,5,6\) ואילו מאורעות אפשריים הם "הקוביה נפלה על מספר זוגי", "הקוביה נפלה על מספר גדול מ-4", "הקוביה נפלה על 2, או על 3, או על 5"וכדומה. ההסתברות של מאורע, שסימנתי \(P\left(A\right)\), הייתה פשוט סכום ההסתברויות של איבריו.

בואו נעבור עכשיו לשאלה יותר מורכבת: "בהינתן שידוע שהקוביה נפלה על מספר זוגי, מה ההסתברות שהיא נפלה על 2?". איך מתמודדים עם שאלה שכזו?

האינטואיציה היא בערך כך: אם נפלתי על מספר זוגית אז ההסתברות שנפלתי על 1,3,5 היא אפס - הם יצאו מהמשחק. כלומר, נפלתי או על 2, או על 4, או על 6. מכיוון שקודם ההסתברות שלי ליפול על כל אחד מהם הייתה זהה, והמידע החדש לא מסייע לי להבדיל ביניהם, גם עכשיו ההסתברות שלי ליפול על כל אחד מהם היא זהה, ומכיוון שסכומם צריך להיות 1, ההסתברות של כל אחד מהם היא \(\frac{1}{3}\). לכן ההסתברות של 2 היא \(\frac{1}{3}\) וזו התשובה. אכן, אם תעשו סימולציה ממוחשבת של הטלת קובייה ותבדקו באיזה אחוז מהמקרים מקבלים 2 אם בהטלת הקוביה התקבל מספר זוגי (ואחרת פשוט מתעלמים מהטלת הקוביה הזו), תקבלו בערך \(\frac{1}{3}\). אז איך אפשר להצדיק את הקסם הזה פורמלית ולטפל בסיטואציות יותר מורכבות?

הרעיון הבסיסי של הסתברות מותנית הוא שינוי מרחב ההסתברות שלנו. אם יש לנו מרחב מדגם \(X\) ומאורע \(B\) ואומרים לנו שהמאורע \(B\) התרחש, זה אומר שאפשר לשכוח מהקבוצה \(X\) המקורית ולהגדיר מרחב הסתברות חדש שבו מרחב המדגם הוא \(B\). יש "לתקן" את ההסתברויות בהתאם, כדי שסכום ההסתברויות של התוצאות שנמצאות ב-\(B\) יהיה 1; לפעולה הזו קוראים נורמליזציה והיא נפוצה למדי במתמטיקה. מה שעושים הוא פשוט לחשב את סכום כל התוצאות שב-\(B\) (שהוא פשוט \(P\left(B\right)\)) ואז לחלק את ההסתברות של כל איבר ב-\(B\) במספר זה. כעת ברור שסכום כל ההסתברויות החדשות של אברי \(B\) יסתכם ל-1. אם נסמן ב-\(P^{\prime}\) את ההסתברות החדשה שנתנו לכל איבר של \(B\) אז \(P^{\prime}\left(a\right)=\frac{P\left(a\right)}{P\left(B\right)}\) לכל \(a\in B\), ועל כן

\(\sum_{a\in B}P^{\prime}\left(a\right)=\sum_{a\in B}\frac{P\left(a\right)}{P\left(B\right)}=\frac{1}{P\left(B\right)}\sum_{a\in B}P\left(a\right)=\frac{P\left(B\right)}{P\left(B\right)}=1\)

כך שפורמלית השגנו את המטרה שלנו.

מהדבר הזה נובעת נוסחה פשוטה יחסית: אם \(A,B\subseteq X\) הם מאורעות כלשהם במרחב המדגם המקורי, ואנחנו רוצים לדעת מה ההסתברות ש-\(A\) יתקיים אם ידוע ש-\(B\) התקיים, אז מפתה לכתוב שהסתברות זו היא \(\frac{P\left(A\right)}{P\left(B\right)}\). לרוע המזל, זה לא נכון כי ייתכן שחלק מאברי \(A\) בכלל לא נמצאים ב-\(B\). אם \(A=X\) עצמו, אז נקבל את התוצאה הלא הגיונית שההסתברות שהקוביה תיפול על משהו (שהיא כמובן 1) הופכת פתאום ל-\(\frac{1}{3}\) כשאנחנו יודעים שהתקבל מספר זוגי. לכן צריך לתקן קצת את הנוסחה - מה שבמונה צריך להתייחס רק לאיברים של \(A\) שהם גם איברים של \(B\). מסמנים את קבוצת האיברים המשותפים של \(A,B\) כ-\(A\cap B\) (החיתוך של \(A\) ו-\(B\)), ולכן הנוסחה הנכונה היא \(\frac{P\left(A\cap B\right)}{P\left(B\right)}\). לצורך פשטות נהוג לסמן זאת כ-\(P\left(A|B\right)=\frac{P\left(A\cap B\right)}{P\left(B\right)}\) (כלומר, \(P\left(A|B\right)\) הוא ההסתברות של "\(A\) בהינתן \(B\)"). אגב, שימו לב שאם \(P\left(B\right)=0\) הנוסחה אינה חוקית כי קיבלתי חלוקה באפס; ואכן, אין ממש הגיון בלשאול מה ההסתברות ש-\(A\) יתרחש אם נתון שהתרחש \(B\) למרות של-\(B\) אין שום סיכוי לקרות.

דרך אחרת ונחמדה לכתוב את הנוסחה הזו היא \(P\left(B\right)\cdot P\left(A|B\right)=P\left(A\cap B\right)\). כלומר, ההסתברות שגם \(A\) וגם \(B\) יתרחשו ניתנת לחישוב כתהליך דו שלבי - קודם מחשבים מה ההסתברות ש-\(B\) יתקיים, ואז מחשבים מה ההסתברות ש-\(A\) יתקיים בהינתן ש-\(B\) מתקיים. לעתים קרובות חישוב מותנה שכזה קל לביצוע באופן ישיר ואז אופן החישוב הזה חוסך לנו עבודה. עוד דבר שנראה בבירור בנוסחה הזו הוא הסימטריה שלה - באותו האופן בדיוק אני יכול לכתוב \(P\left(A\right)\cdot P\left(B|A\right)=P\left(A\cap B\right)\), ואז לקבל את השוויון \(P\left(B\right)\cdot P\left(A|B\right)=P\left(A\right)\cdot P\left(B|A\right)\). על ידי העברת אגפים קלה מקבלים את הנוסחה הבאה, שהיא חשובה ביותר:

\(P\left(A|B\right)=\frac{P\left(A\right)}{P\left(B\right)}P\left(B|A\right)\)

הנוסחה הזו מכונה "נוסחת בייס", והיא מאפשרת לנו לחשב הסתברות מותנית שנדמית "הפוכה" בעזרת הכרה של ההסתברות של שני המאורעות בנפרד ושל ההסתברות המותנית "ההגיונית". כאן המקום לזרוק לפח את דוגמת הקוביה ולעבור לתאר סיטואציות יותר מעניינות שבהן ה"מוזרות" שבנוסחת בייס בולטת הרבה יותר. עיקר החוכמה היא בבחירה של מאורעות \(A,B\) כך שכלל לא נראה ש-\(B\) גורר את \(A\) בצורה כלשהי, אלא ההפך. יוסי לוי השתמש בבלוג שלו בדוגמה של בדיקת סמים לספורטאי; אצלו \(A\) היה "השחקן משתמש בסמים" ו-\(B\) היה "בבדיקה התגלו סמים". כאן נראה ש-\(A\) הוא זה שמשפיע על \(B\) ולא להפך - אם יודעים משהו על איכות בדיקת הסמים אפשר לחשוב באופן ישיר מה ההסתברות שהיא תצליח בהינתן שהשחקן באמת משתמש בסמים - אך איך אפשר להסיק מכך את ההפך? בניסוח קצת חרטטני - אם הסתברות מותנית נראית לנו במבט ראשון ככלי שבו אנחנו מסיקים מידע לגבי ההשפעה של העבר על העתיד ("השחקן השתמש בסמים וכתוצאה מכך הוא נכשל בבדיקה"), נוסחת בייס מראה לנו שגם ניתן להסיק מהעתיד על העבר.

דוגמאות סטנדרטיות לתיאור נוסחת בייס מדברות למשל על בדיקת מחלות וסמים וכדומה. אנסה לתת דוגמה קצת פחות קודרת, שמבוססת על סיפור אמיתי. במקצוע קשה מסויים בטכניון מרבית הסטודנטים כשלו וקיבלו ציונים נמוכים. לכעסם הרב התברר להם שלא היה פקטור בבחינה (הגדלה מלאכותית של הציונים שמיועדת לתקן את הממוצע או לפצות על מבחן קשה). כשהסטודנטים באו להתלונן למרצה הוא לא הבין על מה הם מדברים וטען שהמבחן היה קל - עובדה, היה סטודנט שקיבל 103, ואם הוא הצליח, כל אחד יכול.

הסטודנטים הזועמים רוצים לדעת מי דפק להם את הפקטור. ליתר דיוק, האם הוא עתודאי או לא (העתודאים הם דופקי פקטורים ידועים לשמצה ובשל כך - בין היתר - נחשבים למעמד התחתון בהיררכיית המזון האוניברסיטאית). איזה חישוב עליהם לעשות? ובכן, \(A\) יהיה המאורע "הסטודנט הוא עתודאי" ו-\(B\) יהיה המאורע "הסטודנט קיבל 103 במבחן הבלתי אפשרי", ואנחנו רוצים לדעת מהו \(P\left(A|B\right)\). שימו לב שכדי לדעת זאת אנחנו צריכים לדעת שלושה פרטים: \(P\left(A\right)\), שהוא ההסתברות לכך שסטודנט יהיה עתודאי; \(P\left(B\right)\) שהוא ההסתברות שסטודנט כלשהו יקבל 103 במבחן הבלתי אפשרי; ו-\(P\left(B|A\right)\), שהיא ההסתברות שעתודאי יקבל 103 במבחן הבלתי אפשרי. מכיוון שלא מדובר בבעיה מתמטית מופשטת ברור שאין לנו דרך אמיתית לקבל את הנתונים הללו, אבל אפשר להעריך אותם סטטיסטית.

ובכן, נניח שמספר הסטודנטים הכולל בטכניון הוא 10,000 ומתוכם יש 50 עתודאים. אז מה ההסתברות שסטודנט אקראי יהיה עתודאי? \(P\left(A\right)=\frac{50}{10000}=\frac{1}{200}\).

הנתון לגבי ההסתברות לקבל 103 במבחן הבלתי אפשרי הוא הרבה יותר קשה לחילוץ, שהרי המבחן הזה ניתן רק פעם אחת, ועל קבוצה יחסית קטנה של סטודנטים. אבל כאמור, אנחנו לא רציניים כאן לגמרי. אז בואו נסתכל על מה שקורה "בדרך כלל" במבחנים קשים ונעשה מיצוע לאורך זמן. נניח שהתוצאה מראה לנו שבדרך כלל סטודנט אחד ממאה מצליח לקבל ציון שכזה - כלומר, ההסתברות לסטודנט גנרי כלשהו לקבל 103 במבחן הבלתי אפשרי היא \(P\left(B\right)=\frac{1}{100}\).

ועכשיו, מה ההסתברות של עתודאי לקבל 103 במבחן הבלתי אפשרי? מכיוון שעתודאים הם צורת חיים חדשה ומתקדמת אפשר להניח שההסתברות שלהם להצליח היא לא פחות מ-\(P\left(B|A\right)=\frac{99}{100}\). עכשיו בואו ונדחוף את כל הנתונים לנוסחה ונראה מה נקבל: \(P\left(A|B\right)=\frac{P\left(A\right)}{P\left(B\right)}P\left(B|A\right)=\frac{1/200}{1/100}\frac{99}{100}=\frac{100}{200}\frac{99}{100}=\frac{99}{200}\). כלומר, קיבלנו הסתברות של כמעט חמישים אחוז. מצד אחד, זה הרבה. מצד שני, אולי זה לא הרבה כפי שציפינו. תחשבו על הפער האדיר הזה: אם ניקח סטודנט מהרחוב, ההסתברות שלו לקבל 103 במבחן היא אפסית - \(\frac{1}{100}\). מצד שני, לעתודאי ההבטחה כמעט מוצלחת - \(\frac{99}{100}\). ועם זאת, ההסתברות שמי שקלקל את המבחן היה סתם סטודנט ולא עתודאי היא הגדולה יותר. למה זה קרה? בגלל הנתון (הלא ריאליסטי, המהונדס לצרכי השאלה - אבל כך גם ה-\(\frac{99}{100}\) של העתודאי להצליח במבחן) שרק אחד מכל מאתיים סטודנטים הוא עתודאי.

במאמר ב-Ynet מראה ישראל בנימיני עד כמה התופעה הזו יכולה להיות מבלבלת, בהקשר העגום של בדיקת מחלות. אציג את מה שהמאמר הציג בצורה קצת מפושטת ובנוסף אשתיל פנימה טעות מזעזעת (שאתייחס אליה אחר כך) ונראה אם תגלו מהי. ובכן, נניח שיש לנו בדיקה מעולה לגילוי מחלה מסויימת, שעל 100 אחוז מהאנשים החולים מחזירה תוצאה חיובית, ורק על אחוז אחד מהאנשים הבריאים מחזירה תוצאה חיובית. כמו כן ידוע לנו ששיעור המחלה באוכלוסיה הוא אחד מאלף אנשים. אם נסמן ב-\(A\) את "האדם חולה" וב-\(B\) את "תוצאת הבדיקה חיובית", הרי ש-\(P\left(B|A\right)=1\), \(P\left(A\right)=\frac{1}{1000}\) ו-\(P\left(B\right)=\frac{1}{100}\). נוסחת בייס נותנת לנו כאן מייד ש-\(P\left(A|B\right)=\frac{1}{10}\), תוצאה שנראית מפתיעה ביותר ממבט ראשון - למרות שהבדיקה כל כך טובה ומדוייקת (לכאורה...), רק עשרה אחוז מהאנשים שמקבלים תשובה חיובית אכן חולים במחלה! זו אחת מהנקודות שחשוב לזכור גם בחיי היום יום שלנו: גם אם מבחן נראה לנו טוב במדד של "ההסתברות שהוא טועה היא נמוכה" זה עדיין לא אומר שהוא טוב גם במובן שחשוב לנו באמת, של "כשמפעילים את המבחן שוב ושוב, כמעט ולא יהיו טעויות". כך הדבר בבדיקת מחלות, או בבדיקה האם הודעות הן דואר זבל, או בבדיקה האם מוצר שיצא מקו ייצור הוא פגום, וכדומה. נוסחת בייס היא השיעור הראשון בסקפטיות שיש ללמוד כשבאים להתייחס לתוצאות סטטיסטיות.

הבה נביא עוד דוגמה אחת (אולי קצת יותר קשה למי שחסר נסיון במתמטיקה, אז לא להתייאש אם לא מבינים) - דיברתי בעבר על מבחן מילר-רבין לבדיקת ראשוניות. זהו מבחן הסתברותי, במובן זה שאם מפעילים אותו על מספר ראשוני הוא תמיד יענה נכון, אבל אם מפעילים אותו על מספר שאינו ראשוני יש סיכוי כלשהו שהוא יטען שהמספר כן ראשוני (מה שעשוי להביא לתוצאות הרסניות). הכוח של מילר-רבין הוא בכך שאפשר לצמצם את גודל השגיאה שלו כרצוננו, במחיר כמה הפעלות נוספות שלו, אבל נשאלת השאלה - כמה זה "מספיק"? המבחן משמש אותנו כשאנחנו רוצים להגריל מספר ראשוני; דרך העבודה הסטנדרטית היא להגריל מספר גדול כלשהו, ואז להפעיל עליו את מילר-רבין. צריך לשפוט את הביטחון שמילר-רבין מספק לנו לאור התהליך הזה, ונוסחת בייס היא בדיוק הכלי שבו צריך להשתמש כאן (רק אעיר שאני משקר - בהגרלת ראשוני "אמיתית"ההגרלה לרוב מבוצעת רק על תת-קבוצה מסויימת של מספרים - למשל, אף פעם לא מגרילים זוגיים - וטרם הפעלת מילר-רבין מפעילים עוד מבחנים יותר פשוטים, כך שאני מציג כאן גרסה מפושטת למדי של המציאות).

ובכן, נסמן ב-\(A\) את "המספר ראשוני" וב-\(B\) את "המספר עבר בהצלחה את המבחן". ברור כי \(P\left(B|A\right)=1\). נניח שאנחנו מגרילים מספרים בתחום שבין \(1\) ו-\(n\), אז משפט המספרים הראשוניים מראה כי ההסתברות שלנו לפגוע בראשוני היא \(\frac{1}{\ln n}\). במילים אחרות, \(P\left(A\right)=\frac{1}{\ln n}\). הנעלם בכל הסיפור הזה הוא ההסתברות של מילר-רבין לטעות, ואותה אנחנו מסמנים ב-\(x\). אם כן, \(P\left(B\right)=x\) ו... רגע, רגע, רגע. אי אפשר לעשות את אותה הטעות פעמיים, חייבים כבר להתייחס אליה במפורש. קודם התחמקתי ממנה כדי לא לסבך את הפשטות של ההצגה עם איזו מהומה טכנית, אבל עכשיו אין מנוס מלהוציא את הפרטים המלוכלכים החוצה. \(P\left(B\right)\) אינו יכול להיות שווה ל-\(x\), כי \(x\) מייצג את ההסתברות שהמבחן יגיד "כן" רק על קלטים שהם לא ראשוניים, בעוד ש-\(P\left(B\right)\) מייצג את ההסתברות שהמבחן יגיד כן על קלט כלשהו! אז מה עושים? אין מנוס מלחשב את \(P\left(B\right)\) בצורה קצת יותר רצינית, פשוט על ידי חלוקה למקרים: אם המספר הוא ראשוני, אז ההסתברות שהמבחן יגיד "כן" היא 1; ואם המספר הוא פריק, אז ההסתברות שהמבחן יגיד "כן"היא \(x\). יש לנו כאן סכום של שתי הסתברויות מותנות שונות. אולי תזכרו שבפוסט הקודם אמרתי שאם \(A\) הוא מאורע אז מסמנים ב-\(\overline{A}\) את המאורע ה"משלים" לו וההסתברות שלו היא \(P\left(\overline{A}\right)=1-P\left(A\right)\)? זה בדיוק מה שנשתמש בו כעת. על פי התיאור שנתתי למעלה, \(P\left(B\right)=P\left(A\right)\cdot P\left(B|A\right)+P\left(\overline{A}\right)\cdot P\left(B|\overline{A}\right)\). הנוסחה הזו היא מקרה פרטי של מה שמכונה "נוסחת ההסתברות השלמה", ואתאר אותה במדוייק עוד מעט.

כעת נשתמש בנתונים שידועים לנו ונוכל לחשב בקלות את \(P\left(B\right)\): \(P\left(B\right)=\frac{1}{\ln n}\cdot1+\left(1-\frac{1}{\ln n}\right)\cdot x\). עכשיו נוכל להציב את הכל בנוסחת בייס ולקבל: \(P\left(A|B\right)=\frac{\frac{1}{\ln n}}{\frac{1}{\ln n}+\left(1-\frac{1}{\ln n}\right)x}=\frac{1}{1+\left(\ln n-1\right)x}\). באופן בלתי מפתיע גילינו שההסתברות תלויה גם ב-\(n\) וגם ב-\(x\). אם אנחנו רוצים הסתברות גבוהה להצלחה, אנחנו צריכים ש-\(x\) יהיה קטן דיו כדי לבטל את האפקט של \(\left(\ln n-1\right)\). למשל, אם אנחנו רוצים הצלחה ב-99 אחוז מהמקרים אנחנו רוצים שיתקיים \(\frac{1}{1+\left(\ln n-1\right)x}=\frac{99}{100}\), כלומר \(100=99+99\left(\ln n-1\right)x\), כלומר \(x=\frac{1}{99\left(\ln n-1\right)}\). באופן כללי כדי להשיג הצלחה ב-\(a\) אחוז מהמקרים צריך שיתקיים \(x=\frac{1}{a}\cdot\frac{1}{\ln n-1}\); אפשר לראות כאן היטב כיצד \(x\) מורכב משני מרכיבים - גם ה"קבוע"של \(\frac{1}{a}\) שתלוי רק באחוז ההצלחה שאנו שואפים אליו; אבל גם במידע נוסף של גודל התחום שעליו מתבצעת ההגרלה, שבא לידי ביטוי ב-\(\frac{1}{\ln n-1}\).

הבה נעבור כעת לדבר על נוסחת ההסתברות השלמה. בתחילת הפוסט אמרתי שלעתים קל יותר לחשב את ההסתברות המותנית של משהו מאשר את ההסתברות ה"אמיתית"שלנו וראינו את הדוגמה כרגע, עם חישוב ההסתברות שהמבחן יחזיר תשובה חיובית. הסיבה לכך הייתה שלעתים קרובות ההסתברות ניתנת לתיאור באופן הפשוט ביותר באמצעות חלוקה למקרים, ואז ניתן לטפל בכל מקרה בנפרד. נוסחת ההסתברות השלמה מאפשרת לנו לעשות זאת. נניח שאנחנו מחלקים את מרחב המדגם כולו (את כל \(X\)) לאוסף של מאורעות זרים (זרים פירושו שאין להם תוצאה משותפת) \(B_{1},B_{2},\dots,B_{k}\). אז ההסתברות של מאורע \(A\) כלשהו היא ההסתברות שהוא יתרחש בהינתן ש-\(B_{1}\) יתרחש, כפול ההסתברות ש-\(B_{1}\) יתרחש; ועוד ההסתברות שהוא יתרחש בהינתן ש-\(B_{2}\) יתרחש, כפול ההסתברות ש-\(B_{2}\) יתרחש; וכן הלאה. מכיוון שה-\(B\)-ים תופסים את כל מרחב המדגם, מובטח לנו שלא נפספס אף מקרה. בסיכומו של דבר הנוסחה היא \(P\left(A\right)=\sum_{i=1}^{k}P\left(A|B_{i}\right)P\left(B_{i}\right)\). על פניו היא נראית כמו דרך מסובכת יותר לכתוב את \(P\left(A\right)\), אך כאמור - לעתים קרובות הדרך הנוחה ביותר לחשב את \(P\left(A\right)\) היא על ידי חלוקה למקרים שמיוצגים על ידי ה-\(B_{i}\).

מה שאני עשיתי למעלה היה שימוש בנוסחת ההסתברות השלמה עבור חלוקה פשוטה למדי של מרחב המדגם, לשתי קבוצות שונות - \(B\) והמשלימה שלה. אך כמובן שאפשר לחלק גם ליותר. כתרגיל כדי לראות שהכל ברור תוכלו לנסות ולבדוק מה ההסתברות האמיתית שמי שקיבל תשובה חיובית בבדיקת המחלה שבדוגמה שלמעלה אכן חולה באמת (תגלו שהיא לא שונה במיוחד מהתוצאה שקיבלתי...).

מושג ההסתברות המותנית יכול לשמש אותנו גם להגדרת מושג נוסף שמתאים מאוד לתפיסה האינטואיטיבית שלנו - מאורעות בלתי תלויים. שני מאורעות \(A,B\) הם בלתי תלויים, אינטואיטיבית, אם הידיעה על כך שאחד התרחש לא משפיעה על ההערכה שלנו לגבי ההסתברות שהשני יתרחש. למשל, אם אני מטיל שתי קוביות ומקבל 3 בקוביה הראשונה, זה לא משפיע בכלל על ההסתברות שאקבל מספר זוגי בקוביה השניה, כך שהמאורע "בקוביה הראשונה התקבל 3" והמאורע" בקוביה השניה התקבל מספר זוגי" הם בלתי תלויים. פורמלית זה אומר שמתקיים \(P\left(A|B\right)=P\left(A\right)\) (ההסתברות ש-\(A\) יתקיים, בלי ידע נוסף בעניין, זהה להסתברות ש-\(A\) יתקיים אם ידוע לנו ש-\(B\) יתקיים). על פי הנוסחה שלנו של \(P\left(A|B\right)\) אפשר לראות ש-\(A,B\) הם בלתי תלויים אם ורק אם \(P\left(A\cap B\right)=P\left(A\right)P\left(B\right)\), כלומר אם ההסתברות ששניהם גם יחד יתקיימו היא בדיוק מכפלת ההסתברויות שכל אחד יתקיים בנפרד. למי שזוכר את עקרון הכפל בקומבינטוריקה, זה בדיוק העיקרון הזה, וזה גם ממחיש לנו מתי אי אפשר להשתמש בעקרון הכפל - בדיוק כשיש תלות כלשהי בין שני הדברים שאנו "סופרים".

דוגמה יפה לשימוש במושג זה באה מתחום הקריפטוגרפיה - קלוד שנון, אבי תורת האינפורמציה, עסק גם בשאלה איך ניתן לומר על שיטת הצפנה שהיא "מושלמת". הגדרתו היפה היא פשוטה: נניח שיש התפלגות כלשהי על כל הטקסטים שעשויים להיות מוצפנים באמצעות השיטה (וברור שיש כזו - למשל, התפלגות של כל הטקסטים באנגלית) ונסתכל על התפלגות התוצאות שמקבלים מהצפנות בעזרת השיטה. יהי \(X\) טקסט אפשרי אחד ו-\(Y\) תוצאת הצפנה אפשרית אחת - אז שיטת ההצפנה היא מושלמת אם לכל \(X,Y\) שכאלו מתקיים \(P\left(X|Y\right)=P\left(X\right)\), כלומר אם אנחנו מסתכלים רק על \(Y\), זה לא משפר את הידע שלנו שהטקסט המקורי היה \(X\) - ההסתברות שהטקסט המקורי היה \(X\) זהה בעינינו למה שידענו עליו גם קודם.

בלבול נפוץ אחד הוא בין מאורעות זרים ומאורעות בלתי תלויים. מכיוון שמאורעות זרים מקיימים \(A\cap B=\emptyset\) (קבוצה ריקה) אז \(P\left(A\cap B\right)=0\) ומכאן ש-\(P\left(A\right)=0\) או \(P\left(B\right)=0\) אם הם גם מאורעות בלתי תלויים. מכאן עולה ששני מאורעות בעלי הסתברות חיובית אינם יכולים להיות זרים אם הם בלתי תלויים. בדוגמת הטלת הקוביות שלי, התוצאה \(\left(3,2\right)\) ("בקוביה הראשונה התקבל 3 ובשניה 2") היא משותפת לשני המאורעות כך שברור שהם אינם זרים.

אם כן, לסיכום - הוספנו למשחק ההסתברותי מושג פשוט חדש, שהגדרתו המתמטית כמעט טריוויאלית, וקיבלנו כלי רב עוצמה שמשמש אותנו גם בחישובים אמיתיים ושופך אור פורמלי על מושגים אינטואיטיביים. המתמטיקה בשיא יופייה.