מה הקטע עם התפלגות נורמלית? (חלק ד’ ואחרון: משפט הגבול המרכזי)

אז מה משפט הגבול המרכזי אומר?

סדרת הפוסטים הזו מנסה להבין למה התפלגות נורמלית נראית כמו שהיא נראית. מן הסתם השאלה הראשונה שצריך לענות עליה בשביל זה היא “מה זו בכלל התפלגות נורמלית?” ולזה יש שתי תשובות: אחת יבשה, של לתת את ההגדרה הפורמלית, וזה מה שעשינו בפוסטים הקודמים; והשניה, המהותית יותר, היא להסביר למה בכלל מתעניינים בהתפלגות הזו - והתשובה היא משפט הגבול המרכזי. תיארתי אותו בנפנופי ידיים קודם, אז עכשיו הגיע הזמן לתת את הניסוח הפורמלי.

משפט הגבול המרכזי מסתכל על סדרה אינסופית \( X_{1},X_{2},X_{3},\ldots \) של משתנים מקריים שהם בלתי תלויים ובעלי אותה התפלגות (בדומה לתנאים של חוק המספרים הגדולים שהזכרתי בפוסט הקודם). אנחנו מסמנים ב-\( \mu \) את התוחלת וב-\( \sigma^{2} \) את השונות שלהם (בפרט, אנחנו מניחים שהמספרים הללו מוגדרים, סופיים וש-\( \sigma\ne0 \)). עכשיו, לכל \( n \) אנחנו מגדירים משתנה מקרי \( Z_{n} \) שהוא בערך הסכום של ה-\( X_{i} \)-ים עד האיבר ה-\( n \)-י, אבל עם שקלול נוסף שאמור לנרמל את הסכום:

\( Z_{n}=\frac{X_{1}+\ldots+X_{n}-n\mu}{\sigma\sqrt{n}} \)

אז הסדרה \( Z_{n} \) שואפת להתפלגות הנורמלית \( N\left(0,1\right) \) כאשר \( n \) שואף לאינסוף. פורמלית, לכל \( -\infty<a<\infty \):

\( \lim_{n\to\infty}P\left(Z_{n}\le a\right)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{a}e^{-x^{2}/2}dx \)

זה הניסוח הפורמלי, אבל הוא די שונה ממה שהצגתי עד כה בפוסטים שלי. מה שאני תמיד אמרתי הוא “בואו ניקח משתנה מקרי \( X \) כלשהו. עכשיו בואו נחזור על ההגרלה שלו המון פעמים ונחבר את התוצאות” - כלומר, הסתכלתי על הסכום \( X_{1}+\ldots+X_{n} \). מכאן אמרתי “היי תראו עכשיו אם מציירים היסטוגרמה של הסכום אז פתאום יש עקומה של התפלגות נורמלית שמתארת אותה די במדויק”. כדי לקבל את העקומה, חישבתי את \( \text{E}\left[X\right]=\mu \) ואת \( \text{Var}\left(X\right)=\sigma^{2} \) ואז בניתי את העקומה \( N\left(n\mu,\sqrt{n}\sigma\right) \). בואו נראה שזה באמת אמור לעבוד, על פי משפט הגבול המרכזי.

ראשית, תזכורת: טענתי בפוסט הקודם שאם \( N\left(\mu,\sigma\right) \) היא התפלגות נורמלית עם תוחלת \( \mu \) וסטיית תקן \( \sigma \) אז \( N\left(0,1\right)=\frac{N\left(\mu,\sigma\right)-\mu}{\sigma} \), או בניסוח אחר - \( N\left(\mu,\sigma\right)=\sigma N\left(0,1\right)+\mu \).

עכשיו, אם אני אסמן \( Y_{n}=X_{1}+\ldots+X_{n} \) אז משפט הגבול המרכזי אומר ש-\( N\left(0,1\right) \) היא קירוב טוב של \( Z_{n}=\frac{Y_{n}-n\mu}{\sigma\sqrt{n}} \). השוויון הזה מלמד אותי ש-\( Y_{n}=\sigma\sqrt{n}Z_{n}+n\mu \), כך שאני מצפה שקירוב טוב אל \( Y_{n} \) (שהוא המשתנה המקרי שהופיע בהיסטוגרמות שלי) יהיה \( \sigma\sqrt{n}N\left(0,1\right)+n\mu=N\left(n\mu,\sigma\sqrt{n}\right) \), וזו העקומה שציירתי בפועל. זה מסביר מאיפה האיורים שלי הגיעו אבל עדיין לא ברור למה משפט הגבול המרכזי נראה כמו שהוא נראה; לי למשל מפריע שהחלוקה היא ב-\( \sqrt{n} \) ולא ב-\( n \) כמו שעושים בחוק המספרים הגדולים. בהוכחה של משפט הגבול המרכזי אנחנו נראה למה הדברים הללו הם כמות שהם.

פונקציות יוצרות מומנטים

הכלי הטכני המרכזי שבו משתמשים בהוכחה הוא מושג שטרם הזכרתי בסדרת הפוסטים הזו: פונקציה יוצרת מומנטים. מה זה מומנטים כן הזכרתי, בחטף: עבור משתנה מקרי \( X \), המומנטים שלו הם הערכים המספריים \( \text{E}\left[X^{n}\right] \) עבור \( n=1,2,\ldots \). עבור \( n=1 \) המומנט הוא פשוט התוחלת, וראינו שעבור \( n=2 \) המומנט הוא פשוט השונות ועוד התוחלת בריבוע (כי \( \text{Var}\left(X\right)=\text{E}\left[X^{2}\right]-\text{E}\left[X\right]^{2} \)), אבל לא דיברתי על המומנטים עבור חזקות גבוהות יותר. הרעיון הוא שסדרת המומנטים של משתנה מקרי היא כמו ה-DNA שלו: מכילה כמות גדולה כל כך של מידע עליו שאפשר להסיק ממנה דברים מאוד לא טריוויאליים, גם אם היא לבדה לא כל הסיפור.

עוד מושג מאוד מועיל במתמטיקה, שכבר הזכרתי בבלוג כמה פעמים, הוא פונקציה יוצרת. הרעיון בפונקציה יוצרת הוא זה: אם יש לנו סדרה מעניינת של מספרים, \( a_{0},a_{1},a_{2},\ldots \), אחד מהקסמים שאנחנו יכולים לעשות הוא “לשתול” את המספרים הללו בתור מקדמים של טור חזקות, \( \sum_{n=0}^{\infty}a_{n}x^{n} \) ואז פתאום אנחנו מסוגלים לעשות עם הטור הזה מניפולציות מעניינות שמתורגמות לפעולות לא טריוויאליות על כל סדרת המספרים בבת אחת. זה כלי חזק ומרהיב.

על הרעיון הבסיסי הזה יש כמה וריאציות מועילות, ואחת מהן היא מה שנקרא הפונקציה היוצרת האקספוננציאלית של סדרת המספרים. כאן הרעיון הוא לשתול את המספרים בתוך הטור \( \sum_{n=0}^{\infty}a_{n}\frac{x^{n}}{n!} \) שמזכיר קצת את הטור של פונקציית האקספוננט (עבור הסדרה \( a_{n}=1 \) מקבלים בדיוק את הטור של \( e^{x} \)). איכשהו יצא לגמרי במקרה שדיברתי על הפונקציה הזו באחד מהפוסטים האחרונים בבלוג; זה לא יצא ככה בכוונה, פשוט היא כל כך מועילה שהיא מתעקשת לצוץ בשני הקשרים שונים כמעט בו זמנית (אחרי שמעולם לא כתבתי עליה קודם בבלוג לדעתי אבל נעזוב את זה).

מה שנקרא בתורת ההסתברות פונקציה יוצרת מומנטים הוא בדיוק זה - הפונקציה היוצרת האקספוננציאלית של סדרת המומנטים, אם כי נוח להגדיר אותה בצורה קצת שונה. ראשית, אני אשתמש במשתנה \( t \) כדי לא לבלבל עם המשתנה המקרי \( X \) שהוא מרכז הדיון שלנו. עכשיו, עם משתנה מקרי אפשר כזכור להשתגע בשלל צורות, כי בסופו של דבר מדובר במשהו שמחזיר מספרים ממשיים אז אפשר לעשות איתו דברים שאנחנו עושים עם מספרים ממשיים - למשל להסתכל על \( e^{X} \), שזה פשוט משתנה מקרי שאומר “תגריל תוצאה כלשהי, תבדוק מה הערך ש-\( X \) נותן על התוצאה הזו, תעלה את \( e \) בחזקת הערך הזה”. כדי לעשות את זה מעניין אני יכול גם לדחוף פנימה ערך מספרי \( t \) כלשהו שאני מתייחס אליו כפרמטר ומכפיל אותו ב-\( X \), כלומר אני מסתכל על המשתנה המקרי \( e^{tX} \). אם זה משתנה מקרי, אפשר לחשב את התוחלת שלו, והיא תהיה תלויה בפרמטר \( t \), כלומר קיבלנו פונקציה

\( M\left(t\right)=\text{E}\left[e^{tX}\right] \)

זו הפונקציה יוצרת המומנטים, ואנחנו ליטרלי יכולים להשתמש בה כדי ליצור את המומנטים על ידי “חילוץ” המקדמים מתוך הטור של \( e^{tX} \) על ידי גזירה, כמו שקורה בחדו”א עם מה שנקרא טור טיילור. הנה איך שזה עובד:

\( M^{\prime}\left(t\right)=\left(\text{E}\left[e^{tX}\right]\right)^{\prime}=\text{E}\left[\left(e^{tX}\right)^{\prime}\right]=\text{E}\left[Xe^{tX}\right] \)

אוקיי, קצת מיהרתי פה. אני מבצע החלפה בין אופרטור התוחלת ואופרטור הגזירה במעבר האמצעי - למה זה מעבר לגיטימי? אם פותחים את ההגדרה של התוחלת במקרה הסופי מקבלים

\( \text{E}\left[e^{tX}\right]=\sum_{i=1}^{k}P\left(X=a_{i}\right)e^{ta_{i}} \)

ואפשר להשתמש בכך שנגזרת היא לינארית, כלומר \( \left(f+g\right)^{\prime}=f^{\prime}+g^{\prime} \), מה שניתן להכללה באינדוקציה לכל סכום סופי, ולכן

\( \left[\sum_{i=1}^{k}P\left(X=a_{i}\right)e^{ta_{i}}\right]^{\prime}=\sum_{i=1}^{k}P\left(X=a_{i}\right)\left(e^{ta_{i}}\right)^{\prime}=\sum_{i=1}^{k}P\left(X=a_{i}\right)a_{i}e^{ta_{i}} \)

וקיבלנו בדיוק את הביטוי של \( \text{E}\left[Xe^{tX}\right] \).

העניין הוא שמה שעובד עבור סכום סופי לא בהכרח עובד במקרה של סכום אינסופי, או במקרה הרציף שבו התוחלת היא אינטגרל. כלומר, את הקסם הזה אי אפשר לעשות לכל משתנה מקרי אלא רק לכאלו שהם “נחמדים מספיק”, אבל בואו לא ניכנס לתנאים המדויקים הפעם. במקום זה, בואו נראה איך אפשר להשתמש בזה: אם \( M^{\prime}\left(t\right)=\text{E}\left[Xe^{tX}\right] \) אז \( M^{\prime}\left(0\right)=\text{E}\left[X\right] \) וקיבלנו את המומנט הראשון.

עכשיו, אפשר להמשיך לגזור את \( Xe^{tX} \). מכיוון שהנגזרת היא על פי \( t \), ה-\( X \) שבו מוכפל \( e^{tX} \) הוא בסך הכל קבוע, ולכן מקבלים

\( M^{\prime\prime}\left(t\right)=\text{E}\left[X^{2}e^{tX}\right] \)

כלומר

\( M^{\prime\prime}\left(0\right)=\text{E}\left[X^{2}\right] \)

ובאופן כללי נקבל \( M^{\left(i\right)}=\text{E}\left[X^{i}\right] \). זה בדיוק מה שקורה גם כשגוזרים את הטור \( \sum_{n=0}^{\infty}a_{n}\frac{x^{n}}{n!} \) בדיוק \( i \) פעמים ומציבים \( x=0 \); מקבלים את \( a_{i} \).

איך כל זה מתקשר למשפט הגבול המרכזי? עם הטענה הבאה: אם יש לנו סדרה \( Z_{1},Z_{2},\ldots \) של משתנים מקריים עם פונקציות צפיפות \( F_{Z_{n}} \) ופונקציות יוצרות הסתברות \( M_{Z_{n}} \), ואם \( Z \) הוא משתנה מקרי עם פונקציית צפיפות \( F_{Z} \) ופונקציה יוצרת הסתברות \( M_{Z} \), אז אם מתקיים \( \lim_{n\to\infty}M_{Z_{n}}\left(t\right)=M_{Z}\left(t\right) \) עבור כל \( t \), אז \( F_{Z_{n}}\left(t\right)\to F_{Z}\left(t\right) \) עבור כל \( t \) שעבורו \( F_{Z}\left(t\right) \) רציפה. במילים אחרות - מספיק לנו להראות שאיפה של סדרת הפונקציות יוצרות המומנטים כדי להראות שאיפה של פונקציות הצפיפות, שהן לכאורה האובייקט המורכב יותר.

הטענה הזו היא טענה כבדה. כדי להוכיח אותה אני אצטרך כנראה פוסט שלם (או אפילו יותר) ולהיכנס למתמטיקה טכנית יותר מאשר אני רוצה כרגע. המטרה שלי בפוסטים הללו היא לראות איך זה שהתפלגות נורמלית היא מה שהיא גורר את משפט הגבול המרכזי; אז בואו נראה איך טענת העזר הזו מוכיחה לנו את משפט הגבול המרכזי.

הוכחת משפט הגבול המרכזי

בואו נזכיר שוב מה אנחנו רוצים להוכיח. אנחנו לוקחים סדרה \( X_{1},X_{2},\ldots \) של משתנים מקריים בלתי תלויים שמתפלגים באותו אופן, עם תוחלת \( \mu \) וסטיית תקן \( \sigma \), מגדירים

\( Z_{n}=\frac{X_{1}+\ldots+X_{n}-n\mu}{\sigma\sqrt{n}} \)

ומקבלים שהסדרה \( Z_{n} \) שואפת להתפלגות הנורמלית \( N\left(0,1\right) \) כאשר \( n \) שואף לאינסוף. מה שנוכיח הוא את המשפט למקרה שבו \( \mu=0,\sigma=1 \), כי אפשר לבצע רדוקציה מהמקרה הכללי למקרה הזה: אם נגדיר \( Y_{i}=\frac{X_{i}-\mu}{\sigma} \) אז נקבל שהתוחלת של \( Y_{i} \) היא 0 וסטיית התקן היא 1, ולכן \( \frac{Y_{i}+\ldots+Y_{n}}{\sqrt{n}} \) שואפת אל \( N\left(0,1\right) \). עכשיו נציב את \( Y_{i}=\frac{X_{i}-\mu}{\sigma} \) בביטוי \( \frac{Y_{i}+\ldots+Y_{n}}{\sqrt{n}} \) ששואף ל-\( N\left(0,1\right) \) ונקבל את הביטוי \( \frac{X_{1}+\ldots+X_{n}-n\mu}{\sigma\sqrt{n}} \) שגם שואף ל-\( N\left(0,1\right) \) כי זה אותו ביטוי.

אם כן, מעתה והלאה נניח \( \mu=0 \) ו-\( \sigma=1 \) ולכן \( Z_{n}=\frac{X_{1}+\ldots+X_{n}}{\sqrt{n}}=\frac{X_{1}}{\sqrt{n}}+\ldots+\frac{X_{n}}{\sqrt{n}} \). המטרה שלי היא למצוא את \( M_{Z_{n}}\left(t\right) \) - הפונקציה יוצרת המומנטים של \( Z_{n} \), ולראות לאן היא שואפת (כשאני אראה לאן היא שואפת זה מה שיכתיב לי את האופן שבו התפלגות נורמלית אמורה להיראות). מכיוון שהצגתי את \( Z_{n} \) בתור סכום סופי, בואו קודם נראה איך הפונקציה יוצרת המומנטים של כל איבר בסכום נראית.

ראשית, עבור \( X_{i} \), הפונקציה יוצרת המומנטים שלו היא \( M\left(t\right)=\text{E}\left[e^{tX_{i}}\right] \). שנית, עבור האיבר המנורמל \( \frac{X_{i}}{\sqrt{n}} \) הפונקציה יוצרת המומנטים היא \( \text{E}\left[e^{t\frac{X_{i}}{\sqrt{n}}}\right]=\text{E}\left[e^{\frac{t}{\sqrt{n}}X_{i}}\right]=M\left(\frac{t}{\sqrt{n}}\right) \). ולכן עכשיו נקבל

\( M_{Z_{n}}\left(t\right)=\text{E}\left[e^{tZ_{n}}\right]=\text{E}\left[e^{t\sum_{i=1}^{n}\frac{X_{i}}{\sqrt{n}}}\right]=\text{E}\left[\prod_{i=1}^{n}e^{t\frac{X_{i}}{\sqrt{n}}}\right] \)

כי זה הקסם של אקספוננט - סכום במעריך הופך למכפלת אקספוננטים (על פי כללי החזקות: \( e^{a+b}=e^{a}\cdot e^{b} \)).

עכשיו, זה בהחלט לא נכון באופן כללי שתוחלת של מכפלה היא מכפלת התוחלות, כלומר \( \text{E}\left[XY\right]\ne\text{E}\left[X\right]\text{E}\left[Y\right] \) באופן כללי, וזה די ברור - אם זה היה נכון, היינו מקבלים ש-\( \text{E}\left[X^{2}\right]=\text{E}\left[X\right]^{2} \) וכל מושג סטיית התקן היה נעלם. אבל השוויון \( \text{E}\left[XY\right]=\text{E}\left[X\right]\text{E}\left[Y\right] \) דווקא כן נכון אם \( X,Y \) הם משתנים מקריים בלתי תלויים, וזה בדיוק מה שאני מניח כאן - שכל אברי הסדרה \( X_{1},X_{2},\ldots,X_{n} \) הם בלתי תלויים, ולכן גם המשתנים \( e^{t\frac{X_{i}}{\sqrt{n}}} \) שנבנים מתוכם. כך שאני מקבל:

\( \text{E}\left[\prod_{i=1}^{n}e^{t\frac{X_{i}}{\sqrt{n}}}\right]=\prod_{i=1}^{n}\text{E}\left[e^{t\frac{X_{i}}{\sqrt{n}}}\right]=\prod_{i=1}^{n}M\left(\frac{t}{\sqrt{n}}\right)=\left[M\left(\frac{t}{\sqrt{n}}\right)\right]^{n} \)

אז מה שאנחנו רוצים להבין הוא את הגבול \( \lim_{n\to\infty}\left[M\left(\frac{t}{\sqrt{n}}\right)\right]^{n} \). זה בעצם המקום הראשון שבו קופץ לעיניים למה “צריך” ש-\( e \) יופיע בהתפלגות נורמלית. כזכור, אחת מהדרכים השקולות לתאר את \( e^{x} \) היא באמצעות גבול: \( e^{x}=\lim_{n\to\infty}\left(1+\frac{x}{n}\right)^{n} \), אז העובדה שיש לנו בביטוי \( \lim_{n\to\infty}\left[M\left(\frac{t}{\sqrt{n}}\right)\right]^{n} \) גבול שתלוי ב-\( n \), חזקה שהיא \( n \) ואיבר פנימי שהוא \( \frac{t}{\sqrt{n}} \) זה… מעורר חשד.

עכשיו, איך מטפלים בביטוי \( \left[M\left(\frac{t}{\sqrt{n}}\right)\right]^{n} \)? ה-\( n \) במעריך הוא מעצבן, והדרך הסטנדרטית להיפטר ממנו היא לקחת לוגריתם להכל, כי \( \left(a^{n}\right)=n\log a \)\( \log \). אז בואו נשאל את עצמנו מהו הגבול

\( \lim_{n\to\infty}n\log M\left(\frac{t}{\sqrt{n}}\right) \)

אם הגבול הזה יהיה \( A \) והלוגריתם שלי הוא על בסיס \( a \), אז הגבול של \( \lim_{n\to\infty}\left[M\left(\frac{t}{\sqrt{n}}\right)\right]^{n} \) יהיה \( a^{A} \). איזה בסיס של לוגריתם כדאי לי לבחור? אני לא רוצה שיהיו לי החלטות שרירותיות, אז בואו נתקדם עם ההוכחה ונראה איזה בסיס יצוץ מאליו (ספוילר: \( e \). זה תמיד \( e \)).

אם כן, הביטוי שאנחנו צריכים להבין עכשיו הוא הפונקציה \( \log M\left(\frac{t}{\sqrt{n}}\right) \). הכל נהיה פשוט יותר אחרי שיש לנו סימונים, אז נסמן: \( L\left(t\right)=\log M\left(t\right) \), ועכשיו אנחנו רוצים להבין את הגבול \( \lim_{n\to\infty}nL\left(\frac{t}{\sqrt{n}}\right) \). איך עושים את זה? אין לי מושג, אבל לגשש בצורה עיוורת אפשר, ואחד מהכלים המועילים שיש לנו בחישוב גבולות הוא כלל לופיטל. הרעיון בו פשוט: אם \( f\left(x\right),g\left(x\right) \) הן שתי פונקציות כך ש-\( \lim_{x\to\infty}f\left(x\right)=\lim_{x\to\infty}g\left(x\right)=0 \) אז \( \lim_{x\to\infty}\frac{f\left(x\right)}{g\left(x\right)}=\lim_{x\to\infty}\frac{f^{\prime}\left(x\right)}{g^{\prime}\left(x\right)} \). כלומר, בדומה לאינטגרציה בחלקים שבה השתמשתי בפוסט הקודם, גם כאן אפשר לחשב דברים על ידי גזירה של הפונקציות הרלוונטיות עד שיהיו פשוטות מספיק.

אצלנו הגבול הוא לא של פונקציות אלא של סדרה, אבל כל עוד הפונקציות המעורבות הן רציפות מקבלים אותו דבר. אבל בשביל להשתמש בלופיטל אנחנו צריכים מנה של שתי פונקציות ששואפות לאפס: אצלנו יש מכפלה של שתי פונקציות, \( nL\left(\frac{t}{\sqrt{n}}\right) \), שאחת מהן (\( n \)) בכלל שואפת לאינסוף… אה, הטריק פה הוא פשוט מאוד: \( nL\left(\frac{t}{\sqrt{n}}\right)=\frac{L\left(\frac{t}{\sqrt{n}}\right)}{n^{-1}} \), ועכשיו הפונקציה במכנה היא \( \frac{1}{n} \) ששואפת לאפס כש-\( n\to\infty \). ומה קורה במונה? הרציפות של \( L \) אומרת ש-\( L\left(\frac{t}{\sqrt{n}}\right)\to L\left(0\right) \), אבל מהו \( L\left(0\right) \)? ומה נקבל אחרי שנגזור?

ובכן, כזכור \( L\left(t\right)=\log M\left(t\right) \). מכיוון ש-\( M\left(t\right)=\text{E}\left[e^{tX_{i}}\right] \) הרי ש-\( M\left(0\right)=\text{E}\left[e^{0\cdot X_{i}}\right]=\text{E}\left[1\right]=1 \) כך ש-\( L\left(0\right)=\log1=0 \). זה טוב, זה בדיוק מה שאנחנו רוצים. עכשיו, מה עם הנגזרת? יש לנו כאן עסק עם הרכבה של פונקציות: \( \log \) שמורכבת על \( M \). זה מצריך מאיתנו שני דברים: את הכלל של נגזרת של לוגריתם, ואת כלל השרשרת. והכלל לנגזרת של לוגריתם הוא

\( \left(\log_{a}t\right)^{\prime}=\frac{1}{t\ln a} \), כאשר \( \ln \) הוא לוגריתם על בסיס \( e \). הביטוי הזה הופך לפשוט יותר אם מלכתחילה הלוגריתם שלנו הוא על בסיס \( e \); אז מקבלים \( \left(\log t\right)^{\prime}=\frac{1}{t} \). אז יש לנו סיבה טובה לבחור שהלוגריתם שלנו יהיה על בסיס \( e \), מה שאומר שאחרי שנצליח לחשב את \( \lim_{n\to\infty}n\log M\left(\frac{t}{\sqrt{n}}\right)=A \), נקבל ש-\( \lim_{n\to\infty}\left[M\left(\frac{t}{\sqrt{n}}\right)\right]^{n}=e^{A} \).

עכשיו, על פי כלל השרשרת \( \left[f\left(g\left(x\right)\right)\right]^{\prime}=f^{\prime}\left(g\left(x\right)\right)g^{\prime}\left(x\right) \) אנחנו מקבלים

\( L^{\prime}=\left(\log M\right)^{\prime}=\frac{M^{\prime}}{M} \) (יש לדבר כזה שם - “הנגזרת הלוגריתמית” של \( M \))

ראינו כבר ש-\( M\left(0\right)=1 \). כמו כן, \( M^{\prime}\left(0\right)=\text{E}\left[X\right]=\mu=0 \) (זוכרים? ראינו שככה פונקציה יוצרת מומנטים עובדת). אז קיבלנו ש-\( L^{\prime}\left(0\right)=0 \), מה שאומר שכלל לופיטל צפוי להיתקל בקשיים כי גם אחרי הגזירה המונה ישאף ל-0. אבל אפשר לגזור שוב! הפעם נשתמש בכלל לגזירה של מנה, \( \left(\frac{f}{g}\right)^{\prime}=\frac{f^{\prime}g-fg^{\prime}}{g^{2}} \) ונקבל

\( L^{\prime\prime}=\left(\frac{M^{\prime}}{M}\right)^{\prime}=\frac{M^{\prime\prime}M-\left(M^{\prime}\right)^{2}}{M^{2}} \)

ולכן כשנציב \( 0 \) ונשתמש בכך ש-\( M\left(0\right)=1,M^{\prime}\left(0\right)=0,M^{\prime\prime}\left(0\right)=\text{E}\left[X^{2}\right]=\sigma^{2}+\mu^{2}=1 \), נקבל

\( L^{\prime\prime}\left(0\right)=\frac{1-0^{2}}{1}=1 \)

וזה כבר משהו לעבוד איתו! כל מה שנשאר לנו הוא לקחת את הביטוי \( \frac{L\left(\frac{t}{\sqrt{n}}\right)}{n^{-1}} \) ולגזור בו (בנפרד!) את המונה והמכנה פעמיים. זה לא יהיה כזה נורא, נכון? נקודה אחת שצריך לשים לב אליה היא שהגזירה שלנו היא ביחס למשתנה \( n \), ואילו דווקא אל \( t \) אנחנו מתייחסים בתור קבוע, כי הגבול שלנו הוא כש-\( n \) רץ לאינסוף. זה הופך את הכל לטיפה יותר מסובך.

כלל הגזירה הבסיסי ביותר הוא \( \left(x^{a}\right)^{\prime}=ax^{a-1} \). מכאן נקבל ש-\( \left(n^{-1}\right)^{\prime}=-n^{-2} \) וש-\( \left(\frac{1}{\sqrt{n}}\right)^{\prime}=\left(n^{-\frac{1}{2}}\right)^{\prime}=-\frac{1}{2}n^{-\frac{3}{2}} \).

הנגזרת של \( L\left(\frac{t}{\sqrt{n}}\right) \) על פי כלל השרשרת היא \( \left(\frac{t}{\sqrt{n}}\right)^{\prime}L^{\prime}\left(\frac{t}{\sqrt{n}}\right)=-\frac{t}{2}n^{-\frac{3}{2}}L^{\prime}\left(\frac{t}{\sqrt{n}}\right) \) , ולכן מכלל לופיטל אנחנו מקבלים

\( \lim_{n\to\infty}\frac{L\left(\frac{t}{\sqrt{n}}\right)}{n^{-1}}=\lim_{n\to\infty}\frac{-\frac{t}{2}n^{-\frac{3}{2}}L^{\prime}\left(\frac{t}{\sqrt{n}}\right)}{-n^{-2}}=\lim_{n\to\infty}\frac{tL^{\prime}\left(\frac{t}{\sqrt{n}}\right)}{2n^{-1/2}} \)

המונה עדיין שואף לאפס כש-\( n\to\infty \) (כי ראינו \( L^{\prime}\left(0\right)=0 \)) והמכנה, שהוא עכשיו \( -\frac{2}{\sqrt{n}} \), גם כן שואף לאפס, אז אפשר להשתמש שוב בכלל לופיטל. הנגזרת של המכנה תהיה \( \left(2n^{-\frac{1}{2}}\right)^{\prime}=-n^{-\frac{3}{2}} \). המונה יהיה כמו קודם (אל ה-\( t \) שמופיע שם אנחנו כאמור מתייחסים בתור קבוע והוא לא משפיע על הגזירה). לכן נקבל מכלל לופיטל

\( \lim_{n\to\infty}\frac{tL^{\prime}\left(\frac{t}{\sqrt{n}}\right)}{2n^{-1/2}}=\lim_{n\to\infty}\frac{-\frac{t^{2}}{2}n^{-\frac{3}{2}}L^{\prime\prime}\left(\frac{t}{\sqrt{n}}\right)}{-n^{-3/2}}=\lim_{n\to\infty}\frac{t^{2}}{2}L^{\prime\prime}\left(\frac{t}{\sqrt{n}}\right) \)

הופה! העלמנו לגמרי את מה שהופיע במכנה! ועכשיו, בגלל ש-\( L^{\prime\prime}\left(0\right)=1 \), אנחנו מקבלים גבול פשוט במיוחד: \( \lim_{n\to\infty}\frac{t^{2}}{2}L^{\prime\prime}\left(\frac{t}{\sqrt{n}}\right)=\frac{t^{2}}{2} \). זה אומר שמצאנו את מה שהפונקציה יוצרת המומנטים של \( Z_{n} \) שואפת אליו: \( \lim_{n\to\infty}M_{Z_{n}}\left(t\right)=e^{\frac{t^{2}}{2}} \). זה, סוף כל סוף, מסביר מאיפה מגיע \( e^{\frac{t^{2}}{2}} \) להתפלגות הנורמלית - לפחות מבחינה טכנית - אם כי יש עוד שלב לא טריוויאלי אחד שצריך להתגבר עליו.

הפונקציה יוצרת המומנטים של התפלגות נורמלית

ההוכחה עדיין לא בדיוק הסתיימה. מה שהראיתי הוא שאם \( Z \) הוא משתנה מקרי עם פונקציה יוצרת מומנטים \( M_{Z}\left(t\right)=e^{\frac{t^{2}}{2}} \) אז הפונקציה יוצרת המומנטים של אברי הסדרה \( Z_{n} \) תתכנס לפונקציה יוצרת המומנטים של \( Z \). המסקנה, מטענת העזר שציטטתי בלי הוכחה, היא ש-\( F_{Z_{n}}\left(t\right) \) מתכנסת אל \( F_{Z}\left(t\right) \). אבל מהי פונקציית הצפיפות \( F_{Z}\left(t\right) \)? זה השלב שבו צריך לקחת את ההתפלגות הנורמלית, לחשב את הפונקציה יוצרת המומנטים שלה ולקבל \( e^{\frac{t^{2}}{2}} \). זה חישוב די פשוט בהינתן כל החישובים שכבר עברנו, אבל יש כאן גם שאלה מעניינת - האם אפשר ללכת “בכיוון השני”? להתחיל מהשוויון שצריך להתקיים ולהסיק איך ההתפלגות הנורמלית אמורה להיראות?

באופן כללי אני יכול לסמן \( F_{Z}\left(z\right)=f\left(z\right) \) ואז להשתמש בשוויון \( e^{t^{2}/2}=\text{E}\left[e^{tZ}\right] \) כש-\( \text{E}\left[e^{tZ}\right] \) הוא מה שמגדיר את הפונקציה יוצרת המומנטים, ולקבל שאני צריך שיתקיים השוויון

\( e^{t^{2}/2}=\int_{-\infty}^{\infty}e^{tz}f\left(z\right)dz \)

הדבר הזה נקרא משוואה אינטגרלית: בדומה למשוואה דיפרנציאלית, זו משוואה שבה הנעלם הוא לא סתם ערך מספרי אלא פונקציה, והמידע שיש לנו על הפונקציה הזו מערב אינטגרל שלה. כמו עם משוואות דיפרנציאליות, פתרון משוואות אינטגרליות זה עניין מסובך והרבה פעמים לומר “אוקיי, בואו ננחש שהפתרון הוא מהצורה כך וכך…” הוא לגיטימי, אבל עבור המשוואה שלעיל דווקא יש שיטת פתרון כללית, פחות או יותר, בעזרת מה שנקרא התמרת לפלס. להיכנס לזה לוקח אותי רחוק מדי ממה שאפשר לדבר עליו במרוכז כאן, אז בואו ננקוט בגישה השניה: נתחיל עם ההגדרה הידועה של \( f\left(z\right) \) עבור התפלגות נורמלית ונראה שאנחנו מקבלים את השוויון למעלה. החישובים הספציפיים שנצטרך לבצע הם דומים למדי לחישובים שצריך לעשות אם פותרים את המשוואה האינטגרלית.

אם כן, \( f\left(z\right)=\frac{1}{\sqrt{2\pi}}e^{-z^{2}/2} \), ולכן אנחנו מחשבים את האינטגרל

\( \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{tz}e^{-z^{2}/2}dz \)

לב העניין הוא מה שהולך בחזקה של \( e \). בהתחלה כתוב שם

\( tz-\frac{z^{2}}{2} \)

לב הרעיון הטכני (גם פה וגם בגישת המשוואה האינטגרלית) הוא להשלים לריבוע את הביטוי הזה; להכניס את ה-\( z \)-ים בצורה יפה לסוגריים שאותם מעלים בריבוע, ואולי להוציא החוצה איזה קבוע שקשור ל-\( t \). זו בדיוק אותה השלמה לריבוע שאיתה גם פותרים משוואה ריבועית, כמו שהראיתי פעם בבלוג.

אז ראשית, בואו נעשה חישובון:

\( tz-\frac{z^{2}}{2}=-\frac{1}{2}\left(z^{2}-2tz\right) \)

מה שבתוך הסוגריים כבר די קרוב למשהו ריבועי! רק צריך להוסיף ולחסר \( t^{2} \):

\( -\frac{1}{2}\left(z^{2}-2tz\right)=-\frac{1}{2}\left(z^{2}-2tz+t^{2}-t^{2}\right)=\frac{t^{2}}{2}-\frac{1}{2}\left(z-t\right)^{2} \)

בום! ה-\( \frac{t^{2}}{2} \) שקיבלנו יהיה בדיוק אותו \( \frac{t^{2}}{2} \) ב-\( e^{t^{2}/2} \) שאנחנו מצפים לקבל בסוף הדרך. בואו נחזור אל האינטגרל:

\( \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{tz}e^{-z^{2}/2}dz=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{t^{2}/2-\left(z-t\right)^{2}/2}dz \)

עכשיו אפשר להוציא את הקבוע החוצה, תוך שימוש בכך ש-\( e^{a-b}=e^{a}e^{-b} \):

\( \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{t^{2}/2-\left(z-t\right)^{2}/2}dz=e^{t^{2}/2}\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{-\left(z-t\right)^{2}/2}dz \)

את האינטגרל \( \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{-\left(z-t\right)^{2}/2}dz \) אנחנו כבר יודעים לחשב; שברנו עליו את הראש כשרצינו להוכיח שפונקציית הצפיפות של ההתפלגות הנורמלית מסתכמת ל-1. העובדה שאנחנו צריכים לעבור דרכו היא “חוק שימור הקושי” - גם אם הייתי מנסה ללכת דרך משוואות אינטגרליות הייתי צריך לצלול בים טכני של טענות כלליות על הלהטוטים שאנחנו יכולים לעשות במסגרת חדו”א; למזלי בגישה הנוכחית אני יכול פשוט לומר שכבר עשינו את זה. מה שראינו היה \( \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{-\frac{x^{2}}{2}}dx=1 \), וזה בדיוק אותו הדבר כמו אצלנו עד כדי החלפת המשתנה \( x=z-t \) שלא משפיעה על האינטגרל כי גבולות האינטגרציה הם ממילא מ-\( -\infty \) עד \( \infty \) והיעקוביאן של ההחלפה (שהוא במקרה הזה פשוט נגזרת) יוצא 1.

ולסיום - אז למה הדברים הם כמו שהם?

לסיום סדרת הפוסטים הזו, בואו נחזור אל הפונקציה שאותה רצינו להבין: \( f\left(x\right)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\left(x-\mu\right)^{2}/2\sigma^{2}} \), פונקציית הצפיפות של התפלגות נורמלית. בשלב הזה אנחנו כבר יודעים ש-\( \pi \) כאן כדי להבטיח שהכל יסתכם ל-1, שה-\( \mu \) וה-\( \sigma \) מייצגים את התוחלת וסטיית התקן ואפשר לנרמל אותם החוצה ושהאקספוננט מגיע, בגדול, מזה שהפונקציה שמתארת התנהלות של סכום משתנים מקריים בלתי תלויים ומפולגים אחיד נראית כמו\( \lim_{n\to\infty}\left[M\left(\frac{t}{\sqrt{n}}\right)\right]^{n} \). וזה בעצם מגיע אל מה שהטריד אותי עם משפט הגבול המרכזי: מה זה ה-\( \frac{1}{\sqrt{n}} \) הזה? למה כדי לנרמל מחלקים דווקא בו? מה קרה ל-\( \frac{1}{n} \) הישן והטוב? ולמה לחלק בכלל? בתחילת הפוסט הזכרתי את השימוש שעשיתי במשפט הגבול המרכזי - פשוט חיברתי את ה-\( X_{i} \)-ים שלי וקירבתי את התוצאה הזו עם עקומה נורמלית; בשביל לעשות את זה לא הספיק לדעת רק את \( \mu,\sigma \) אלא הייתי צריך להכניס גם את \( n \) למשוואה: כפלתי ב-\( n \) גם את \( \mu \) וגם את \( \sigma^{2} \) (כלומר, בפועל כפלתי את \( \sigma \) ב-\( \sqrt{n} \) והנה השורש צץ שוב).

אבל מה היה קורה אם מלכתחילה הייתי מנרמל על ידי חלוקה ב-\( n \) ולכן מגיע אל חישוב של \( \lim_{n\to\infty}\left[M\left(\frac{t}{n}\right)\right]^{n} \)? התשובה, כמובן, היא ששום דבר לא היה עובד. כזכור, כדי להתמודד עם הגבול הזה הגדרתי \( L\left(t\right)=\log M\left(t\right) \) ואז חישבתי את הגבול \( \lim_{n\to\infty}nL\left(\frac{t}{\sqrt{n}}\right) \) באמצעות כלל לופיטל. עוד לפני שאומרים לופיטל, כבר ברור שהגבול \( \lim_{n\to\infty}nL\left(\frac{t}{\sqrt{n}}\right) \) קיים בכלל רק בזכות זה שיש פה שני כוחות שונים וסותרים שמאזנים אחד את השני. ה-\( n \) שבו כופלים שואף לאינסוף, בעוד שה-\( L\left(\frac{t}{\sqrt{n}}\right) \) שואף לאפס. בגבולות מהצורה “משהו ששואף לאינסוף כפול משהו ששואף לאפס” פחות או יותר הכל יכול לקרות, והסיכוי שנקבל תוצאה סופית תלוי ביחסים העדינים בין שתי הפונקציות שאותם כופלים. כלל לופיטל הוא בדיוק דרך “לקלף” מעל שתי הפונקציות המעורבות שכבה אחר שכבה של סיבוכיות עד שמגיעים אל הגרעין העדין שלהן שאנחנו יודעים להשוות. ועכשיו חדל פילוסופיה ובואו נדבר תכל’ס. מה היה קורה אם היינו מחלקים ב-\( n \) ולא ב-\( \sqrt{n} \)? (אם לא היינו מחלקים בכלל ב-\( n \) אז היינו מקבלים \( \lim_{n\to\infty}L\left(t\right)=L\left(t\right) \) וקבוע כפול אינסוף הוא אינסוף).

בואו נעשה קופי-פייסט מההוכחה שכתבתי קודם ונחליף כל מופע של -\( \sqrt{n} \) ב-\( n \), עם ההשלכות המתאימות:

הנגזרת של \( L\left(\frac{t}{n}\right) \) על פי כלל השרשרת היא \( \left(\frac{t}{n}\right)^{\prime}L^{\prime}\left(\frac{t}{n}\right)=-tn^{-2}L^{\prime}\left(\frac{t}{n}\right) \) , ולכן מכלל לופיטל אנחנו מקבלים

\( \lim_{n\to\infty}\frac{L\left(\frac{t}{n}\right)}{n^{-1}}=\lim_{n\to\infty}\frac{-tn^{-2}L^{\prime}\left(\frac{t}{n}\right)}{-n^{-2}}=\lim_{n\to\infty}tL^{\prime}\left(\frac{t}{n}\right) \)

וזה… טוב? נפטרנו לגמרי מהגורם שבמכנה! אבל ראינו קודם ש-\( L^{\prime}\left(0\right)=0 \), כלומר \( \lim_{n\to\infty}tL^{\prime}\left(\frac{t}{n}\right)=0 \), וזה ממש לא טוב לנו. זה אומר שעבור המשתנה המקרי \( Z_{n}=\frac{X_{1}+\ldots+X_{n}}{n} \) מתקיים \( M_{Z}=e^{0}=1 \), ובמילים אחרות - קיבלנו משתנה מקרי שכל המומנטים שלו הם 0. או, בניסוח שקצת יותר קל להבין - קיבלנו אפס. וזה לא אמור להיות מפתיע שקיבלנו אפס כי זה בדיוק מה שאומר אי-שוויון צ'בישב עבור התפלגויות שסטיית התקן שלהן היא אפס. כזכור, הוא אומר באופן כללי ש-

\( P\left(\left|X-\mu\right|\ge k\right)\le\frac{\sigma^{2}}{k^{2}} \)

ואם סטיית התקן \( \sigma=0 \) זה אומר שלכל \( k>0 \), ההסתברות ש-\( X \) יקבל ערך שסוטה מהתוחלת ולו ב-\( k \) היא פשוט 0. עגול. לא קירוב ולא כלום. עכשיו שוב, צריך להזכיר שזה לא אומר שהמשתנה המקרי הוא זהותית אפס; כשאנחנו עוסקים במשתנים מקריים רציפים כל מה שזה יכול לומר הוא שמידת ההסתברות של קבוצת כל התוצאות ששונות מ-\( \mu \) היא אפס.

את מה שראינו עכשיו אפשר לקחת טיפה יותר רחוק. בפוסט הקודם הגדרתי \( \overline{X}_{n}=\frac{X_{1}+X_{2}\ldots+X_{n}}{n} \) (שזה בדיוק מה שקראתי לו כאן \( Z_{n} \)) ואז הוכחתי שבהסתברות 1 מתקיים \( \overline{X}_{n}\to\mu \). התוצאה הזו, שנקראה החוק החזק של המספרים הגדולים, דיברה על ההתנהגות של כל הסדרה \( \overline{X}_{n} \) “בבת אחת”. אפשר לדבר על זה גם מזווית טיפה שונה. הרי אנחנו יודעים ש-\( \overline{X}_{n} \) לא בהכרח יהיה שווה לתוחלת - אנחנו צריכים לקחת עוד ועוד איברים ולהגדיל את \( n \) כדי שהממוצע יתקרב לתוחלת וגם אז הסיכוי שהוא יהיה שווה לה הוא לא בהכרח גדול. אבל אפשר להעריך בצורה גסה מה יהיה גודל הטעות, בעזרת צ’בישב.

אז נניח שיש לי משתנה \( X \) כך ש-\( \text{E}\left[X\right]=\mu \) ו-\( \text{Var}\left(X\right)=\sigma^{2} \). עכשיו בניתי משתנה חדש, \( \overline{X}_{n}=\frac{X_{1}+\ldots+X_{n}}{n} \). מה התוחלת שלו? לינאריות התוחלת נותנת לנו

\( \text{E}\left[\overline{X}_{n}\right]=\text{E}\left[\frac{X_{1}+\ldots+X_{n}}{n}\right]=\frac{\text{E}\left[X_{1}\right]+\ldots+\text{E}\left[X_{n}\right]}{n}=\frac{\mu+\ldots+\mu}{n}=\mu \)

עכשיו, שונות של משתנים מקריים לא מקיימת לינאריות באופן כללי, אבל היא כן משמרת חיבור של משתנים מקריים בלתי תלויים (די בדומה לאיך שתוחלת של מכפלה של משתנים בלתי תלויים מתפרקת למכפלת תוחלות). בפוסט הקודם גם הזכרתי ש-\( \text{Var}\left(\alpha X\right)=\alpha^{2}X \). לכן אפשר לחשב:

\( \text{Var}\left(\overline{X}_{n}\right)=\text{Var}\left(\frac{X_{1}+\ldots+X_{n}}{n}\right)=\frac{\text{Var}\left(X_{1}\right)+\ldots+\text{Var}\left(X_{n}\right)}{n^{2}}=\frac{\sigma^{2}+\ldots\sigma^{2}}{n^{2}}=\frac{\sigma^{2}}{n} \)

ולכן מאי-שוויון צ’בישב:

\( P\left(\left|\overline{X}_{n}-\mu\right|\ge\varepsilon\right)\le\frac{\sigma^{2}}{n\varepsilon^{2}} \)

המספר המעניין פה הוא ה-\( n \) שנשאר במכנה. בזכותו, אם משאיפים את \( n \) לאינסוף, מקבלים

\( \lim_{n\to\infty}P\left(\left|\overline{X}_{n}-\mu\right|\ge\varepsilon\right)=0 \)

זה מה שנקרא החוק החלש של המספרים הגדולים (כי החוק החזק של המספרים הגדולים גורר אותו - ה”התכנסות” שלו היא חזקה יותר מההתכנסות שיש בחוק החלש) וזו דרך קצת יותר פשוטה לראות את “חוסר הטעם” שבהסתכלות על הממוצעים \( \overline{X}_{n} \) אם אנחנו רוצים לקבל משתנה מקרי שמדמה את ההתפלגות של \( X_{1}+\ldots+X_{n} \) כש-\( n \) גדול. המיצוע שאנחנו עושים הוא “טוב מדי” - הוא משמר את המידע על ההתפלגות שבא לידי ביטוי בתוחלת \( \mu \) אבל מוחק את המידע על ההתפלגות שבא לידי ביטוי בסטיית התקן \( \sigma \). המיצוע שבו מחלקים ב-\( \sqrt{n} \) הוא “עדין” יותר ומשמר גם את המידע הזה, והוכחת החוק החלש של המספרים הגדולים נותנת עוד דרך לראות את זה - אם היינו מחלקים ב-\( \sqrt{n} \) ומנסים להשתמש בצ’בישב, היינו מקבלים רק \( P\left(\left|\frac{X_{1}+\ldots+X_{n}}{\sqrt{n}}-\mu\right|\ge\varepsilon\right)\le\frac{\sigma^{2}}{\varepsilon^{2}} \) שזו תוצאה מעניינת טיפה בפני עצמה אבל אין בה שאיפה לאפס של ההסתברות אלא רק חסם אחיד לכל הממוצעים, לא משנה כמה רחוק ניקח אותם.

הקסם הגדול של משפט הגבול המרכזי בעיני, כמו שאמרתי כבר לפני כמה פוסטים, הוא שלא משנה כמה המשתנה \( X \) שאנחנו מתחילים איתו הוא מורכב ומתוסבך - ההתנהגות של \( X_{1}+\ldots+X_{n} \) תהיה ניתנת לקירוב מצוין רק עם שני הפרמטרים המספריים \( \mu,\sigma \). ראינו את זה בתוך ההוכחה של משפט הגבול המרכזי עצמו (היינו צריכים רק לדעת את \( L^{\prime}\left(0\right) \) ואת \( L^{\prime\prime}\left(0\right) \) כדי לקבל אותו ולא משהו שתלוי במומנטים מתקדמים יותר) וראינו את זה גם עם החוק החלש של המספרים הגדולים עכשיו (אם המומנט השני הוא אפס גורלה של ההתפלגות נחרץ להיות קבועה בהסתברות 1), אבל למרות שראינו את זה אני עדיין מתקשה להאמין לזה. אולי כי זו לא סתם תוצאה מספרית - זה משהו שבאמת בא לידי ביטוי אמפירית, במציאות, בעולם שלנו, ומשפיע עלינו בשלל דרכים שונות. גם זה אחד מהקסמים של המתמטיקה.

נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ: