לא מדויק

אז מה זה בעצם המספרים הממשיים? (חלק ג’: על שתי שלמויות)

2024-10-12T00:00:00+00:00

מבוא

היה זה הטוב בזמנים, היה זה הרע בזמנים. ספציפית, השנה הייתה 1872, והמתמטיקה הייתה בשיאו של תהליך של בניית עצמה מחדש אחרי שהגאומטריה ההיפרבולית שמטה את הבסיס שעליו היא ניצבה במשך אלפי שנים. אני לא אכנס לסיפור הזה כאן (והוא מסופר היטב ב”משפטי גדל ובעיית היסודות של המתמטיקה” של ארנון אברון, למשל) אבל השורה התחתונה שלו הייתה שמאמץ כביר של שלל מתמטיקאים במאה ה-19 הוביל ליצירת החשבון הדיפרנציאלי והאינטגרלי בגרסה המודרנית שלו שבה אנחנו משתמשים גם היום, מה שנתן למתמטיקה בסיס יציב (וחייבים להשחיל פנימה את המילה האהובה “ריגורוזי”) ואז הגיע גאורג קנטור והעמיד את הבסיס היציב הזה על הבסיס היציב עוד יותר של תורת הקבוצות. אז אם הכל כל כך טוב, מה היה רע? שמעבר לאופק כבר הציצו הפרדוקסים שיתגלו בתורת הקבוצות הנאיבית ובפרט הפרדוקס של ראסל, ויגרמו לכך שהמתמטיקה תצטרך לבנות את עצמה מחדש פעם נוספת בתחילת המאה ה-20 והבניה הזו תסתיים בצורה שלא לגמרי עונה על השאיפות המלאות של העוסקים בה.

אבל זה כאמור סיפור לפעם אחרת. כרגע אנחנו בשנת 1872 (שנה לפני שקנטור יתחיל לפרסם מאמרים על תורת הקבוצות) ובשנה הזו מתפרסמים שני מאמרים, אחד של ריכארד דדקינד (“Stetigkeit und irrationale Zahlen”, “רציפות ומספרים אי רציונליים”) והשני של גאורג קנטור (“Ueber die Ausdehnung eines Satzes aus der Theorie der trigonometrischen Reihen “, “על הכללה של משפט מהתורה של טורים טריגונומטריים”), ובמאמרים הללו מופיעות בניות פורמליות של המספרים הממשיים שהן כל כך מוצלחות שעד היום הן הבניות המפורסמות ביותר (יש עוד, אבל זה באמת כבר יחכה לפעם אחרת). בשני המקרים, הבניות מופיעות לא כי התחשק למחברים שלהם להמציא את המתמטיקה מחדש, אלא כי הם גילו שהמתמטיקה הקיימת פשוט לא מספיק פורמלית בשביל שהם יצליחו להוכיח טענות פשוטות יחסית בצורה משביעת רצון; היה צורך בהגדרות פורמליות של הממשיים כדי שאפשר יהיה להוכיח פורמלית דברים שהיו סטנדרטיים בחשבון הדיפרנציאלי והאינטגרלי של זמנם. זה גם לא ממש מקרי ששתי ההגדרות צצו באותה בשנה - קנטור ודדקינד היו מיודדים והתכתבו, ודדקינד ספציפית קיבל מוטיבציה לפרסם את הרעיונות שלו (שהיו לו כבר שנים קודם לכן) אחרי שראה את המאמר של קנטור. אבל למרות סמיכות הזמנים והקשר בין המחברים, שתי הבניות הן שונות למדי באופיין והמוטיבציה שלהן שונה, מה שהופך את שתיהן למעניינות (ואת שתיהן לניתנות להכללה בדרכים שונות גם לדברים שאינם הממשיים), כך שלדעתי שווה לדבר על שתיהן.

דבר אחד שאני לא הולך לעשות בפוסט הוא להציג את הבניות בצורה פורמלית, להוכיח שהן עובדות כמו שצריך וכדומה; את זה אשאיר לפוסט הבא. מה שמעניין אותי כרגע הוא הרעיון הכללי של הבניות, אילו בעיות הן מנסות לפתור ולאילו תוצאות תיאורטיות הן מתקשרות. אז למרות שהפוסט הזה בהחלט ייכנס לפרטים טכניים, הם לא יהיו של הבניות עצמן אלא של ה”מסביב”. ספציפית, אנחנו נראה שכל אחת מהבניות באה ללכוד את מושג ה”שלמות” של \( \mathbb{R} \) והן עושות את זה בצורה די שונה - אפילו שונה מהותית, כמו שנראה בסוף.

לפני שאני נכנס לעובי הקורה, הנה בגדול שתי הבניות:

דדקינד מגדיר חתך בתור פירוק של \( \mathbb{Q} \) לשתי קבוצות \( A_{1},A_{2} \) כך שכל איבר של \( A_{1} \) קטן מכל איבר של \( A_{2} \). עכשיו דדקינד מגדיר את המספרים הממשיים בתור אוסף כל החתכים, כשהרעיון הוא שהמספר שחתך מייצג הוא המספר שנמצא "באמצע" בין \( A_{1} \) ו-\( A_{2} \).
קנטור מסתכל על סדרות קושי של מספרים רציונליים ומגדיר את המספרים הממשיים בתור אוסף כל סדרות הקושי הללו כשהוא מזהה שתי סדרות קושי ש"שואפות אחת לשניה" בתור אותו מספר. הרעיון הוא שהמספר הממשי שסדרת קושי מייצגת הוא המספר שהסדרה "שואפת" אליו.

ההגדרה של דדקינד אמורה להיות ברורה יחסית אפילו ברמה הפורמלית כבר בשלב הזה למי שעקבו אחרי סדרת הפוסטים הזו, כי ראינו בפוסט הקודם את המושג של “קטן מ-“. לעומת זאת ההגדרה של קנטור משתמשת במושגים שהם אמנם בסיסיים למדי בחשבון דיפרנציאלי ואינטגרלי אבל לא דיברתי עליהם בסדרת הפוסטים הזו בכלל - סדרות קושי ו”שאיפה”. אלו הדברים הראשונים שארצה להבהיר בפוסט הזה ולא אניח שאנחנו כבר מכירים אותם ממקום אחר. יותר מכך - יש חשיבות בהצגה שלהם מאפס מהטעם הפשוט שבדרך כלל רואים אותם בחדו”א שעושים במסגרת \( \mathbb{R} \) - כלומר, הלימודים מתחילים קודם כל עם זה ש-\( \mathbb{R} \) קיים ואז הצגת מושגים כמו שאיפה וסדרות קושי באמצעותו. הפעם אני לא אעשה את זה בכלל. אז יאללה, לעבודה.

הגדרת הגבול

השינוי הגדול שעבר החדו”א במאה ה-19 היה ויתור על גישה לא פורמלית ואינטואיטיבית (שהובילה בסך הכל לתורה שעובדת מצויין אבל יש לה גם פינות אפלות שגויות) לטובת פורמליות שכמותה לא נראתה עד אז במתמטיקה. זה אמר להפסיק להסתמך על האינטואיציה הגאומטרית לגבי מהי “רציפות” ולנסות להגדיר אותה במפורש, וזה אמר גם להפסיק להשתמש באינפיניטסימלים ולהשתמש במושג בסיסי אחר, מדויק יותר, שנקרא גבול. זה לא מושג פשוט או קל לעיכול (ואחת הסיבות שחדו”א הוא תחום ידוע לשמצה בקושי שלו למי שמתחילים ללמוד מתמטיקה היא בדיוק ההסתמכות שלו על מושג לא קל שכזה), אבל ההגדרה שלו חזקה להפתיע. יש לי פוסט על גבולות, אז כאן אני ארשה לעצמי לפרט פחות.

בשביל להגדיר גבול צריך קודם כל להגדיר מרחק, וזה למרבה השמחה משהו שקל לנו להגדיר על \( \mathbb{Q} \) בזכות פונקציית הערך המוחלט שראינו בפוסט הקודם שאפשר להגדיר ישירות מתוך הסדר שיש על \( \mathbb{Q} \). אפשר לחשוב על \( \left|q\right| \) בתור “המרחק של \( q \) מ-0” ואז להכליל את זה ולומר שהמרחק של \( a \) מ-\( b \) הוא \( d\left(a,b\right)=\left|a-b\right| \). עכשיו, בואו נראה אילו תכונות של פונקציית המרחק \( d \) אפשר להסיק מתוך התכונות של הערך המוחלט. בפוסט הקודם ראינו ש:

אם \( x\ne0 \) אז \( \left|x\right|\ne0 \) ו-\( \left|0\right|=0 \).
\( \left|xy\right|=\left|x\right|\cdot\left|y\right| \) ו-\( \left|-1\right|=1 \)
\( \left|x+y\right|\le\left|x\right|+\left|y\right| \)

את שלוש התכונות הללו אפשר לתרגם לשלוש תכונות של פונקציית המרחק, \( d \):

\( d\left(a,b\right)=0 \) אם ורק אם \( a=b \).
\( d\left(a,b\right)=d\left(b,a\right) \) לכל \( a,b \).
\( d\left(a,c\right)\le d\left(a,b\right)+d\left(b,c\right) \) לכל \( a,b,c \).

בואו נוכיח את זה:

\( d\left(a,b\right)=0 \) אם ורק אם \( \left|a-b\right|=0 \) כלומר אם ורק אם \( a-b=0 \) כלומר אם ורק אם \( a=b \).
\( d\left(a,b\right)=\left|a-b\right|=\left|\left(-1\right)\left(b-a\right)\right|=\left|-1\right|\left|b-a\right|=d\left(b,a\right) \)
\( d\left(a,c\right)=\left|a-c\right|=\left|\left(a-b\right)+\left(b-c\right)\right|\le\left|a-b\right|+\left|b-c\right|=d\left(a,b\right)+d\left(b,c\right) \)

עכשיו שיש לנו פונקציית מרחק, אפשר לנסח את מושג הגבול באמצעותה. בדרך כלל כשמלמדים חדו”א לא טורחים לעשות את זה ופשוט עובדים ישירות עם ערך מוחלט, אבל יש יתרון גם בגישה הכללית יותר - מה שאנחנו מנסחים בלשון של פונקציית המרחק תקף בכל מרחב מטרי שהוא בסך הכל קבוצה שמוגדרת עליה פונקציית מרחק שכזו. גם פונקציית מרחק מוזרות על \( \mathbb{Q} \) כמו זו שבה \( d\left(a,b\right) \) הוא \( \frac{1}{2^{n}} \) כש-\( 2^{n} \) היא החזקה הגדולה ביותר של 2 שמחלקת את \( a-b \) (אלא אם \( a=b \) ואז \( d\left(a,b\right)=0 \)). המטריקה המוזרה הזו נקראת “המטריקה ה-2-אדית” והיא מרתקת בפני עצמה אבל אני לא ארחיב עליה יותר מדי כאן (יש לי פוסט על זה).

אפשר להגדיר גבול על שני אובייקטים: סדרות, ופונקציות. על סדרה \( a_{0},a_{1},a_{2},\ldots \) אפשר לחשוב בעצם בתור פונקציה \( g:\mathbb{N}\to\mathbb{Q} \) כך ש-\( g\left(i\right)=a_{i} \), אז המרחק בין זה ובין גבולות של פונקציות \( f:\mathbb{Q}\to\mathbb{Q} \) הוא באמת לא כזה גדול, אבל אני עדיין אתחיל עם ניסוח ספציפי עבור סדרות כי הוא פשוט יותר.

בהינתן סדרה \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) אני אומר שהיא שואפת אל \( L \) ומסמן את זה \( \lim_{n\to\infty}a_{n}=L \) או \( a_{n}\to L \) אם לכל \( \varepsilon>0 \) קיים \( N \) טבעי כך שלכל \( n>N \) מתקיים \( d\left(a_{n},L\right)<\varepsilon \).

במילים: לכל רמת קרבה גדולה מאפס, קיים מקום בסדרה שהחל ממנו כל אברי הסדרה נמצאים ברמת הקרבה הזו אל \( L \). בלי שום יוצאים מן הכלל. בלי שהסדרה פתאום “תקפוץ” למקום אחר ואז תחזור. החל משלב מסויים בסדרה, זהו, נגמר - הסדרה קרובה כולה עד כדי \( \varepsilon \) אל \( L \), וזה נכון לכל \( \varepsilon \) חיובי, לא משנה כמה קטן. הדבר היחיד שאני לא דורש בשום צורה הוא שהסדרה תגיע אל \( L \). אפילו לא איבר אחד שלה צריך להיות שווה אל \( L \).

ההגדרה עבור פונקציה קצת יותר מסובכת, כי בניגוד לטבעיים שהם דיסקרטיים, הרציונליים הם צפופים ולכן לכל נקודה אפשר “להתקרב” עם סדרה של רציונליים, כך שאם יש לי פונקציה שמוגדרת על כל הרציונליים ואני רוצה להגיד שהיא שואפת למשהו, עולה השאלה איפה היא שואפת אל המשהו הזה - לאילו ערך הקלטים שלה צריכים להתקרב כדי שאפשר יהיה להגיד שהפלטים שלה מתקרבים אל משהו. אז הנה הפורמליזם:

בהינתן פונקציה \( f:\mathbb{Q}\to\mathbb{Q} \) אני אומר שהיא שואפת אל \( L \) בנקודה \( x_{0} \) ומסמן את זה \( \lim_{x\to x_{0}}f\left(x\right)=L \) או \( f\left(x\right)\underset{x\to x_{0}}{\to}L \) אם לכל \( \varepsilon>0 \) קיים \( \delta>0 \) כך שלכל \( x \) עבורו \( 0<d\left(x,x_{0}\right)<\delta \) מתקיים \( d\left(f\left(x\right),L\right)<\varepsilon \)

ההבדל הבולט בין ההגדרות הוא שבהגדרה עבור סדרות לא היה \( \delta \) אלא היה \( N \) והסתכלנו על כל ה”קלטים” \( n \) שגדולים מ-\( N \), ואילו כאן אנחנו מסתכלים על כל ה-\( x \)-ים שקרובים אל \( x_{0} \) עד כדי \( \delta \). כאמור, יש דרך לאגד את שתי ההגדרות הללו ביחד אבל נעזוב את זה.

עוד נקודה שכדאי לשים לב אליה היא \( 0<d\left(x,x_{0}\right) \). אי השוויון הזה אומר שאני לא מניח ש-\( x_{0} \) עצמה הפונקציה קרובה ל-\( L \). הפונקציה אפילו לא חייבת להיות מוגדרת ב-\( L \). אם כן הייתי דורש שהקרבה ל-\( L \) תתקיים גם ב-\( x_{0} \), זו הייתה דרישה חזקה יותר מ-\( f \), וזו דרישה חשובה כל כך שיש לה שם מיוחד: אומרים ש-\( f \) רציפה ב-\( x_{0} \) אם הדרישה הזו מתקיימת - מה ששקול לטענה ש-\( \lim_{x\to x_{0}}f\left(x\right)=f\left(x_{0}\right) \).

סדרות מונוטוניות מתכנסות

עכשיו, כשיש לנו את מושג הגבול אפשר להתחיל לראות את מה שהיה חסר לדדקינד וקנטור והוביל אותם להגדרה פורמלית של הממשיים, \( \mathbb{R} \), כשכאן “הממשיים” פירושם “הקבוצה שבה מתרחשת החדו”א” ולכן כל המשפטים שאתאר יעסקו בה. דדקינד מדבר על במפורש במאמר שלו על מה שהפריע לו. הוא מתאר איך ב-1858, כשלימד קורס חדו”א, התעורר בו תסכול מחוסר הפורמליות של ההוכחות הבסיסיות. הפריע לו שבסופו של דבר, ההוכחות הללו פונות לטיעונים גאומטריים או לכל הפחות “בהשראה” גאומטרית, ומשתמשים בצורה עמומה במושג ה”רציפות” של המספרים הממשיים. לא חייתי בזמנו של דדקינד ואני לא יודע איך נראתה הוראת המתמטיקה אז, אבל אני יכול להבין אותו; הייתה לי תחושה דומה בשעתו עם ההוכחה ש-\( \lim_{x\to0}\frac{\sin x}{x}=1 \). על הטענה הזו נבנה כל החדו”א של פונקציות טריגונומטריות, אבל רוב ספרי החדו”א שמוכיחים אותה קופצים על שלב או שניים, ולרוב יש להם איזה “קל לראות” גאומטרי לגמרי באופיו. זה לא מפריע בדרך כלל (והמשפט כמובן נכון ויש לו הוכחות פורמליות עד הסוף וכבר דיברתי על זה בבלוג), אבל מה שלא מפריע לך בתור סטודנט בהחלט יכול להתחיל להציק כשאתה בא ללמד את הנושא (או לכתוב עליו פוסט בבלוג…) ומגלה שיש איזה משהו שם שלא לגמרי עובד עד הסוף.

לדעתי (ושוב, לא הייתי בסביבה בזמנו של דדקינד) חוסר הפורמליות הזה לא בהכרח היה האופי הכללי של לימודי החדו”א; אני בטוח שרוב ההוכחות היו פורמליות וסבבה. הסיבה לכך היא שמרגע שמוכיחים טענה ספציפית שדורשת הסתמכות על ההגדרה הפורמלית של המספרים הממשיים, אפשר להוכיח טענות אחרות בעזרתה, בצורה פורמלית מלאה, כך שהמחסור בפורמליות מתבטא רק בהוכחה אחת ספציפית (בדיוק כמו עם ה-\( \lim_{x\to0}\frac{\sin x}{x}=1 \)) שלי. דדקינד מביא כדוגמא משפט אחד ספציפי, שהוא אכן “קרש קפיצה” כזה שממנו אפשר להוכיח את יתר הדברים:

כל סדרה מונוטונית עולה וחסומה מלעיל היא מתכנסת.

צריך להסביר את המונחים הללו. סדרה היא מתכנסת אם היא שואפת לגבול כלשהו (גבול סופי, לא אינסוף, אבל לא הגדרתי פה שאיפה לאינסוף בכל מקרה). סדרה היא מונוטונית עולה אם \( a_{n}\le a_{n+1} \) לכל \( n \), כלומר האיברים שלה יכולים רק לגדול, לא לקטון. וסדרה היא חסומה מלעיל אם קיים \( M \) כך ש-\( a_{n}\le M \) לכל \( n \) (על זה דיברתי בפוסט הקודם). זו אולי נראית כמו טענה פשוטה ותמימה יחסית, אבל למעשה היא הרבה יותר ערמומית מזה - זו סדרה שמבטיחה קיום של מספר מסוים - מספר שמהווה גבול של הסדרה - והמספר הזה יכול להיות אי-רציונלי. כל אי רציונלי. כי בואו נראה דוגמא עבור \( \sqrt{2}=1.4142\ldots \):

\( 1,1.4,1.41,1.414,1.4142,\ldots \)

מה עשיתי פה? כתבתי סדרת מספרים שנבנית מהפיתוח העשרוני של \( \sqrt{2} \), כשבכל פעם אני מוסיף איבר נוסף אחרי הנקודה העשרונית ולכן מגדיל את המספר שבניתי ולכן זו סדרה מונוטונית עולה. היא בוודאי חסומה, למשל על ידי 2, ולכן על פי הטענה של דדקינד היא מתכנסת - ומן הסתם אנחנו מבינים שהגבול שלה יהיה חייב להיות \( \sqrt{2} \). כלומר הטענה הזו מבטיחה את קיום \( \sqrt{2} \), ואת קיום \( \pi \) וכל מספר ממשי אחר שנרצה ואנחנו יודעים איך לתאר בעצם, וכמובן שהטענה הזו לא נכונה ב-\( \mathbb{Q} \). אבל איך מוכיחים אותה פורמלית עבור \( \mathbb{R} \)?

טרם בניתי את \( \mathbb{R} \) פורמלית, אבל בשביל להוכיח משפטים במסגרת \( \mathbb{R} \) אני לא צריך לבנות אותו פורמלית, למעשה; אני אוכיח משפטים עבור השדה הסדור השלם, שזה מושג שהצגתי בפוסט הקודם, ולכן בהמשך כשאתן בניה פורמלית ל-\( \mathbb{R} \) שאכן תניב שדה סדור שלם, ההוכחה שלי תעבוד עליה אוטומטית. אז למרות שזה לא מה שדדקינד עשה, בואו נראה איך מוכיחים את המשפט הזה עם האקסיומות של שדה סדור שלם, ומה עוד אני יכול להוכיח כשזו נקודת המוצא שלי.

למרבה השמחה ההוכחה קלה למדי. נסתכל על הקבוצה \( A=\left\{ a_{n}\ |\ n\in\mathbb{N}\right\} \) של אברי הסדרה. זו בוודאי קבוצה לא ריקה (אפילו אם הסדרה קבועה, עדיין יהיה ב-\( A \) איבר אחד לפחות) ועל פי ההנחה שהסדרה חסומה מלעיל, \( A \) חסומה מלעיל. לכן על פי אקסיומת השלמות, יש \( L=\sup A \). מה שאני ארצה להוכיח הוא ש-\( a_{n}\to L \) הזה.

יהא \( \varepsilon>0 \) כלשהו. מכיוון ש-\( L=\sup A \), קיים \( N \) כך ש-\( d\left(a_{N},L\right)<\varepsilon \). זה דורש הסבר; אם לא היה אף איבר שקרוב ל-\( L \) עד כדי \( \varepsilon \), היה נובע מכך ש-\( L^{\prime}=L-\varepsilon \) הוא בעצמו חסם מלעיל של \( A \), בסתירה לכך ש-\( L \) הוא החסם העליון שלה. \( L^{\prime} \) היה חסם מלעיל כזה כי בואו ניקח \( a\in A \) כלשהו. אני יודע ש-\( d\left(a,L\right)\ge\varepsilon \), כלומר \( \left|a-L\right|\ge\varepsilon \). אני גם יודע ש-\( a\le L \) (כי \( L \) הוא חסם מלעיל של \( A \)) כלומר \( \left|a-L\right|=L-a \). קיבלתי ש-\( L-a\ge\varepsilon \), כלומר \( a\le L-\varepsilon=L^{\prime} \) וזה לכל \( a\in A \).

אם כן, קיים \( N \) כך ש-\( d\left(a_{N},L\right)<\varepsilon \). עכשיו בואו נסתכל על \( n>N \) כלשהו: מצד אחד, \( a_{N}\le a_{n} \) (כי הסדרה מונוטונית עולה) ומצד שני \( a_{n}\le L \) (כי \( L \) הוא חסם מלעיל) ולכן

\( d\left(a_{n},L\right)=L-a_{n}\le L-a_{N}<\varepsilon \) (כאן אני משתמש בתכונות שכבר ראינו של ערך מוחלט ואי שוויונים).

זה מסיים את ההוכחה ומראה לנו את השימושיות הרבה של אקסיומת השלמות ואת חוסר השימושיות הבולט של הסימון \( d\left(a,b\right) \) שלי במקום להשתמש פשוט בערך מוחלט - ההוכחה שלי מסתמכת חזק מאוד על תכונות של ערך מוחלט, ולדבר על מטריקה כללית לא עוזר לי פה בכלל. המשפט מנוסח מלכתחילה על קבוצה סדורה ולא לגמרי ברור מה המשמעות שלו בסיטואציות כלליות יותר - אפילו במשהו כמו \( \mathbb{R}^{2} \) עם פונקציית המרחק הסטנדרטית \( d\left(\left(x_{1},y_{1}\right),\left(x_{2},y_{2}\right)\right)=\sqrt{\left(x_{1}-x_{2}\right)^{2}+\left(y_{1}-y_{2}\right)^{2}} \).

לכאורה המשפט סובל מחוסר סימטריה מוזר - הוא מדבר על סדרה מונוטונית עולה וחסומה מלעיל. אבל מה עם סדרות מונוטוניות יורדות וחסומות מלרע? להן לא מגיע להתכנס? ובכן, אם \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) סדרה מונוטונית יורדת (\( a_{n}\ge a_{n+1} \)) וחסומה מלרע (קיים \( M \) כך ש-\( a_{n}\ge M \) לכל \( n \)) אז הסדרה \( \left\{ b_{n}\right\} _{n=0}^{\infty} \) שמוגדרת על ידי \( b_{n}=-a_{n} \) היא מונוטונית עולה (כי \( -a_{n}\le-a_{n+1} \)) וחסומה מלעיל (כי \( -M \) מקיים \( -a_{n}\le-M \) לכל \( n \)) ולכן היא מתכנסת לגבול \( L \) וזה עכשיו עניין של משחק קליל עם ההגדרה כדי להראות ש-\( a_{n} \) מתכנסת אל \( -L \).

בולצאנו-ויירשטראס

סיימנו עם המשפט על הסדרות המונוטוניות. העניין הוא שהמשפט הזה הוא מעין הקדמה למשפט מרכזי מאין כמוהו - משפט בולצאנו-ויירשטראס, שהוא כנראה המשפט שמבטא בצורה הכי ברורה את תחושת ה”רציפות” של \( \mathbb{R} \) בכל הנוגע לסדרות:

(בולצאנו-ויירשטראס): לכל סדרה חסומה קיימת תת-סדרה מתכנסת.

גם פה צריך לתת הסבר: “תת-סדרה” היא פשוט סדרה אינסופית שמתקבלת מסדרה קיימת על ידי בחירה של חלק מהאיברים שלה, על פי הסדר שלהם בתוך הסדרה המקורית. פורמלית (וזה כואב לכתוב את זה פורמלית) אם יש לנו סדרה \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) אז תת-סדרה שלה היא סדרה \( \left\{ b_{k}\right\} _{k=0}^{\infty} \) כך ש-\( b_{k}=a_{n_{k}} \) עבור \( n_{0}<n_{1}<n_{2}<\ldots \), כלומר עבור סדרה מונוטונית עולה ממש של אינדקסים. עוד דבר שכדאי להזכיר הוא ש”חסומה” אומר שקיימים גם חסם מלעיל וגם חסם מלרע.

אפשר לנסח את בולצאנו-ויירשטראס גם באופן שקול, שיהיה רלוונטי כשנדבר על קנטור: לכל קבוצה \( A \) שהיא אינסופית וחסומה קיימת נקודת הצטברות. כש”נקודת הצטברות” היא נקודה \( b\in\mathbb{R} \) (לאו דווקא כזו ששייכת ל-\( A \)) כך שלכל \( \varepsilon>0 \) קיימת \( a\in A \) כך ש-\( d\left(b,a\right)<\varepsilon \) (לא קשה להראות שבאופן שקול זה אומר שלכל \( \varepsilon>0 \) יש אינסוף נקודות \( a\in A \) כך ש-\( d\left(b,a\right)<\varepsilon \)). זה תרגיל נחמד להוכיח ששני הניסוחים שקולים, אז לא אעשה את זה בעצמי פה.

יש לי בבלוג פוסט שמרפרף על ההוכחה של בולצאנו-ויירשטראס, אבל הפעם אכנס יותר לפרטים. למעשה, אני רוצה להראות שתי הוכחות, כל אחת עם היתרונות שלה. נתחיל מהפשוטה יותר, שתשתמש במה שראינו על התכנסות של סדרות מונוטוניות וחסומות. נתונה לי הסדרה \( \left\{ a_{n}\right\} _{n=0}^{\infty} \), ואני אגיד שאיבר כלשהו בסדרה הוא פסגה אם הוא גדול מכל האיברים שבאים אחריו. כלומר \( a_{n} \) הוא פסגה אם לכל \( n<m \) מתקיים \( a_{m}<a_{n} \). עכשיו, יש שתי אפשרויות: או שבסדרה יש אינסוף פסגות, או שיש מספר סופי. נטפל בכל מקרה בנפרד.

במקרה שבו יש אינסוף פסגות, אני אבנה את תת-הסדרה המתכנסת \( \left\{ b_{k}\right\} _{k=0}^{\infty} \) ככה: ראשית \( b_{0} \) תהיה הפסגה הראשונה בסדרה. שנית, בואו נניח שכבר בניתי את \( b_{k} \) והוא פסגה בסדרה המקורית (זה נכון עבור \( b_{0} \) ואני אבנה את \( b_{k+1} \) כדי שזה ימשיך להיות נכון). מכיוון שבסדרה המקורית יש אינסוף פסגות, נבחר את \( b_{k+1} \) להיות פסגה כלשהי בסדרה המקורית שמגיעה אחרי \( b_{k} \). עכשיו, שימו לב שבגלל ש-\( b_{k} \) היא פסגה היא גדולה מכל איבר שבה אחריה, כלומר \( b_{k+1}<b_{k} \). במילים אחרות, בנינו פה תת-סדרה מונוטונית יורדת \( b_{0}>b_{1}>b_{2}>\ldots \) והיא חסומה בגלל שהסדרה \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) חסומה (זו ההנחה של משפט בולצאנו-ויירשטראס). לכן סדרת ה-\( b_{k} \)-ים מתכנסת.

עכשיו נניח שדווקא אין אינסוף פסגות. אז קיים \( N \) כך ש-\( a_{N} \) הוא הפסגה האחרונה בסדרה. נגדיר \( b_{0}=a_{N+1} \), כלומר \( b_{0} \) אינה פסגה. נניח עכשיו באופן כללי שכבר בנינו את \( b_{k} \) והיא אינה פסגה, אז מכיוון שהיא אינה פסגה קיים איבר שמופיע אחרי \( b_{k} \) וגדול ממנו: נבחר את האיבר הזה להיות \( b_{k+1} \), ונשים לב שגם הוא לא יהיה פסגה כי אין יותר פסגות בסדרה המקורית. לכן \( b_{k}<b_{k+1} \) ואפשר להמשיך ככה ולקבל סדרה מונוטונית עולה \( b_{0}<b_{1}<b_{2}<\ldots \) ולכן מתכנסת. זה מסיים את ההוכחה הזו ומראה את השימושיות היפה של הטענה על סדרות מונוטוניות מתכנסות.

אבל אני רוצה, כאמור, להראות עוד הוכחה, כי היא תיתן לי מוטיבציה לעוד משפט שימושי שאני רוצה להציג. זו ההוכחה שהצגתי ברפרוף בפוסט הקודם ומשתמשת ברעיון שאוהבים לקרוא לו אריה במדבר בהתאם ל”בדיחה” הזו: איך תופסים אריה במדבר? קודם כל מקיפים את המדבר בגדר. עכשיו מעבירים גדר באמצע המדבר. האריה נמצא באחד משני החצאים, אז הולכים לחצי שבו האריה נמצא ומעבירים גדר באמצע שלו וכן הלאה. בסופו של דבר האריה מוגבל לשטח של מטר על מטר - תפסנו אותו!

מה שנחמד בדימוי הזה, כשמקזזים את ההתעללות בבעלי חיים ואת העובדה שאין אריות במדבר, הוא שאנחנו אוטומטית כבר מקבלים הצצה אל איך זה יכול לעבוד בדו-מימד, או במספר כלשהו של ממדים, וזאת להבדיל מההוכחה הקודמת שהייתה מאוד חד ממדית באופי שלה. עדיין, אני מתעסק כאן רק עם \( \mathbb{R} \) אז אני אנסח את ההוכחה רק עבור המקרה החד ממדי, מה שיוביל לכך שהיא תהיה טיפה יותר מסורבלת מהקודמת - אבל כאמור, הרווח הוא שקל להכליל אותה (גם את ההוכחה השניה אפשר להכליל עם לא יותר מדי מאמץ, אבל לטעמי זה פחות מיידי).

אז יש לנו את הסדרה \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) שאני רוצה למצוא לה תת-סדרה מתכנסת ואני יודע שהיא חסומה, כלומר קיים \( M>0 \) כך ש-\( \left|a_{n}\right|\le M \) לכל \( n \). זו ה”גדר” שבה מקיפים את כל המדבר. עכשיו אני הולך להגדיר סדרה של קטעים, \( C_{n}=\left[\alpha_{n},\beta_{n}\right] \). ההגדרה של קטע כזה, למי שלא זוכרים, היא \( \left[\alpha,\beta\right]\triangleq\left\{ x\in\mathbb{R}\ |\ \alpha\le x\le\beta\right\} \). זה מה שנקרא קטע סגור כי הוא כולל את נקודות הקצה שלו: זה יהיה חשוב בהמשך.

את סדרת הקטעים אני הולך לבנות ככה שמתקיימים הדברים הבאים:

בכל קטע \( C_{n} \) יש אינסוף איברים של הסדרה \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) (זו המקבילה לכך ש"האריה נמצא בתוך הקטע").
\( \left|C_{n}\right|=\beta_{n}-\alpha_{n}=\frac{M}{2^{n-1}} \), כלומר האורך של \( C_{n} \) לא סתם ידוע לנו אלא הוא שואף לאפס כש-\( n \) שואף לאינסוף (זה כל מה שנזדקק לו, האורך המדויק לא חשוב).
\( C_{n-1}\supseteq C_{n} \), כלומר כל קטע מוכל בקטע שקודם לו.

הקטע הראשון בסדרה יהיה \( C_{0}=\left[-M,M\right] \) והוא בוודאי מקיים את תכונות 1 ו-2. תכונה 3 מתקיימת “באופן ריק” כי אין קטע שקודם לו. עכשיו, בואו נניח שבנינו כבר את \( C_{n} \) והוא אכן מקיים את תכונות 1-3 ונבנה את \( C_{n+1} \). מה שנעשה הוא לקחת את \( C_{n}=\left[\alpha_{n},\beta_{n}\right] \) ולחצות אותו לשניים (זו המקבילה לכך ש”מעבירים גדר באמצע המדבר”), כלומר נסתכל על הקטעים \( \left[\alpha_{n},\frac{\alpha_{n}+\beta_{n}}{2}\right] \) ו-\( \left[\frac{\alpha_{n}+\beta_{n}}{2},\beta_{n}\right] \).

האיחוד של שני הקטעים הללו הוא בדיוק \( C_{n} \) ולכן הוא מכיל אינסוף איברים של הסדרה; לכן אחד משני החצאים חייב להכיל אינסוף איברים של הסדרה כי אם בשני החצאים היה רק מספר סופי של איברים, גם באיחוד שלהם היה רק מספר סופי של איברים. נבחר את \( C_{n+1} \) להיות החצי שיש בו אינסוף איברים (“החצי עם האריה”). עם ההגדרה הזו של \( C_{n+1} \) מקבלים מייד את תכונות 2-3 (תוכיחו אותן לעצמכם!)

עכשיו אני רוצה לבנות את תת-הסדרה שלי, \( \left\{ b_{k}\right\} _{k=0}^{\infty} \). נניח שכבר בניתי את כל האיברים עד \( b_{k} \) ונראה איך בונים אותו: בקטע \( C_{k} \) יש אינסוף איברים של הסדרה המקורית, ובתת-הסדרה שבניתי עד כה יש רק מספר סופי של איברים, אז אני אבחר את \( b_{k} \) להיות איבר של הסדרה המקורית עם אינדקס גדול משל כל האיברים שמופיעים בתת-הסדרה שבניתי עד עכשיו. זה מסיים את הבניה, ורק נשאר להוכיח שתת-הסדרה הזו מתכנסת.

אינטואיטיבית, תת-הסדרה הזו נמצא באיזורים שהולכים וקטנים כל הזמן, ולכן יש הרגשה שהיא “חייבת להתכנס”, אבל ההרגשה הזו (שבהמשך אתן לה שם פורמלי: סדרת קושי) לא נותנת לי איבר ספציפי שאליו הולכים להתכנס - ואכן, אם אנחנו עובדים מעל \( \mathbb{Q} \) כל תהליך הבניה שתיארתי עד כה עובד מושלם אבל תת-הסדרה לא תהיה חייבת להתכנס. אני חייב להכניס פה לתמונה משפט שמשתמש בתכונת השלמות של הממשיים, והמשפט שאני רוצה להשתמש בו הוא מה שאני הולך עוד מעט לתאר: משפט החיתוך של קנטור.

הנה ניסוח פורמלי של המשפט: אם \( \left\{ C_{n}\right\} _{n=0}^{\infty} \) היא סדרה של קטעים סגורים כך ש-\( C_{n}\supseteq C_{n+1} \) ו-\( \lim_{n\to\infty}\left|C_{n}\right|=0 \) אז קיים \( c\in\mathbb{R} \) יחיד כך ש-\( c\in\bigcap_{n=0}^{\infty}C_{n} \). במילים: קיימת נקודה יחידה שנמצאת בכל הקטעים בסדרה. זה הקיום שאנחנו זקוקים לו.

אם כן, יש לנו נקודה \( c \) והייתי רוצה להראות שתת-הסדרה שבניתי מתכנסת אליה, כלומר \( \lim_{k\to\infty}b_{k}=c \). זו הוכחה סטנדרטית: מתחילים עם “יהא \( \varepsilon>0 \)” ואז לוקחים \( N \) כך שאם \( k>N \) אז \( \left|C_{k}\right|<\varepsilon \) (קיים כזה, כי \( \lim_{n\to\infty}\left|C_{n}\right|=0 \)). עכשיו, \( c\in C_{k} \) (על פי משפט החיתוך של קנטור) וגם \( b_{k}\in C_{k} \) (על פי הבניה של \( b_{k} \)) ולכן אני יכול להסיק ש-\( d\left(b_{k},c\right)<\varepsilon \) ונגמר הסיפור. אני אסביר עכשיו איך אני מסיק את זה במקרה של \( \mathbb{R} \), מה שכמובן מוסיף סרבול להוכחה; אני אגלה שבאופן כללי, משפט החיתוך של קנטור לא דורש שמה שיישאף לאפס הוא האורך של קטע, אלא הקוטר של קבוצה במרחב מטרי, כש”הקוטר” הוא המרחק המקסימלי בין זוג איברים מהקבוצה - כלומר, במקרה הכללי המסקנה ש-\( d\left(b_{k},c\right)<\varepsilon \) מגיעה בחינם.

במקרה שלנו, נניח בלי הגבלת הכלליות ש-\( b_{k}<c \), כלומר

\( d\left(b_{k},c\right)=\left|b_{k}-c\right|=c-b_{k} \)

עכשיו שימו לב ש-\( b_{k},c\in\left[\alpha_{k},\beta_{k}\right] \) ולכן בפרט \( c\le\beta_{k} \) וגם \( b_{k}\ge\alpha_{k} \), כלומר \( -b_{k}\le-\alpha_{k} \), ולכן

\( c-b_{k}\le\beta_{k}-\alpha_{k}=\left|C_{k}\right|<\varepsilon \)

מה שמסיים את ההוכחה. השגנו את בולצאנו-ויירשטראס וקיבלנו מוטיבציה להוכיח את משפט החיתוך של קנטור, אבל לפני שאני אעשה את זה - בואו נראה מה בכלל עושים עם בולצאנו-ויירשטראס ועם משפט החיתוך של קנטור שבגללו אנחנו כל כך אוהבים אותם.

משפט ערך הביניים ומשפטי ויירשטראס

הדבר המרכזי שבו מתעסקים בחדו”א הוא פונקציות ממשיות, \( f:\mathbb{R}\to\mathbb{R} \). בואו ניזכר מה ראינו קודם לגבי מושג הגבול עבור פונקציות כאלו:

אומרים ש-\( f\left(x\right) \) מתכנסת ב-\( x_{0} \) אל \( L \) ומסמנים זאת \( \lim_{x\to x_{0}}f\left(x\right)=L \) אם לכל \( \varepsilon>0 \) יש \( \delta>0 \) כך שאם \( 0<d\left(x,x_{0}\right)<\delta \) אז \( d\left(f\left(x\right),L\right)<\varepsilon \)
אומרים ש-\( f\left(x\right) \) רציפה ב-\( x_{0} \) אם \( \lim_{x\to x_{0}}f\left(x\right)=f\left(x_{0}\right) \)

מושג הרציפות הוא נקודתי; אנחנו מדברים על נקודה קונקרטית שבה \( f \) רציפה. אבל המושג הזה באמת זורח כשיש לנו סיטואציה שבה \( f \) לא רציפה רק בנקודה אחת, אלא בתוך קבוצה “נחמדה” של נקודות. למשל, קטע (קטע הוא דבר טוב כי אין בו “חורים באמצע” שבהם פתאום הפונקציה לא צריכה להיות רציפה ויכולה להשתולל). אני רוצה להראות כמה משפטים בסיסיים שמסתמכים על כך שפונקציה רציפה בקבוצה נחמדה מתנהגת נחמד, אבל לפני כן בואו נראה דרך לחבר את מושג הגבול של סדרה עם מושג הרציפות.

נניח ש-\( f \) רציפה בנקודה \( a \) ונניח שבנוסף לכך יש לנו סדרה \( a_{0},a_{1},a_{2},\ldots \) כך ש-\( \lim_{n\to\infty}a_{n}=a \). עכשיו, בואו נפעיל את \( f \) על אברי הסדרה ונקבל סדרה חדשה, \( f\left(a_{0}\right),f\left(a_{1}\right),\ldots \). אני טוען שהרציפות של \( f \) גוררת ש-\( \lim_{n\to\infty}f\left(a_{n}\right)=f\left(a\right) \). כדי לראות את זה בואו נשתמש בהוכחה סטנדרטית: נגיד שיהא \( \varepsilon>0 \) כלשהו, ומהרציפות של \( f \) נסיק שקיים \( \delta \) כך שאם \( d\left(x,a\right)<\delta \) אז \( d\left(f\left(x\right),f\left(a\right)\right)<\varepsilon \). עכשיו, נעבור לפתוח את הגדרת הגבול \( \lim_{n\to\infty}a_{n}=a \): מהגדרת הגבול נובע שעבור ה-\( \delta \) שמצאנו קודם קיים \( N \) כך שאם \( n>N \) אז \( d\left(a_{n},a\right)<\delta \), אבל זה אומר ש-\( d\left(f\left(a_{n}\right),f\left(a\right)\right)<\varepsilon \) כפי שרצינו, וסיימנו. עכשיו, כשיש לי את המשפט המועיל הזה, אני יכול להתחיל להראות תוצאות מגניבות של רציפות.

בואו נתחיל עם המשפט היסודי של האלגברה. המשפט בעל השם המפוצץ הזה אומר שבמספרים המרוכבים \( \mathbb{C} \), לכל פולינום יש שורש, כלומר אם \( p\left(x\right)=a_{n}x^{n}+a_{n-1}x^{n-1}+\ldots+a_{1}x+a_{0} \) הוא פולינום, קיים \( z\in\mathbb{C} \) כך ש-\( p\left(z\right)=0 \). במבט ראשון לא ברור איך זה קשור אלינו, הרי זה משפט שמדבר על מספרים מרוכבים; אבל מספרים ממשיים הם מקרה פרטי חשוב של מרוכבים, ובפרט אם יש לנו פולינום שהמקדמים שלו ממשיים והדרגה שלו אי-זוגית אז קל לראות שחייב להיות לו לפחות שורש ממשי אחד (כי השורשים הלא ממשיים בהכרח באים בזוגות של \( z,\overline{z} \)), כלומר מקרה פרטי של המשפט היסודי הוא הטענה “לפולינום ממשי מדרגה אי זוגית יש שורש ממשי”. בשעתו הראיתי בבלוג הוכחה יפה למשפט היסודי של האלגברה שהשתמשה בטכניקות אלגבריות מתורת גלואה - אבל הטכניקות הללו לא יכלו להוכיח בעצמן את הטענה עבור פולינום ממשי ממעלה אי זוגית, ונזקקו להוכחה שאני הולך להראות עכשיו, שהיא חדו”אית לגמרי (ועל כן יש כאלו שאוהבים ללגלג בצורה לא הוגנת ש”המשפט היסודי של האלגברה הוא משפט באנליזה”).

הרעיון הוא זה: ראשית, פולינום הוא פונקציה רציפה (אני לא הולך להוכיח את זה, אבל זה לא קשה; \( f\left(x\right)=x \) הוא די בבירור רציף ועכשיו רק צריך להראות שסכומים ומכפלות סופיים של פונקציות רציפות הם רציפים). שנית, אם הפולינום הוא ממעלה אי-זוגית, ואפשר להניח שהוא מתוקן כלומר שהמעלה של החזקה הגבוהה ביותר \( x^{n} \) היא 1, אז לא קשה לראות שעל ידי הצבת ערך \( a \) שלילי שהוא מספיק גדול בערכו המוחלט אפשר לקבל ש-\( p\left(a\right)<0 \) ובדומה אפשר למצוא \( b \) כך ש-\( p\left(b\right)>0 \). כלומר, קיבלנו שני ערכים ש-\( p \) “מחליף סימן” ביניהם, בקטע \( \left[a,b\right] \). מכיוון ש-\( p \) רציף, אנחנו מדמיינים אותו בתור קו כזה שמציירים על הנייר בלי להרים את העיפרון מהדף, ולכן אם ברגע אחד הוא מתחת לציר \( x \) ורגע אחר כך הוא מעל ציר \( x \) היה שבריר שניה שבו הוא היה בדיוק על ציר \( x \), כלומר יש נקודה \( c\in\left(a,b\right) \) כך ש-\( f\left(c\right)=0 \). משכנע?

לא, לא ממש משכנע. בדיוק בגלל זה צריך הוכחות. הטענה שאני רוצה להוכיח נקראת משפט ערך הביניים והנה הניסוח הפורמלי יותר שלה: אם \( f \) היא פונקציה רציפה בקטע \( \left[a,b\right] \) כך ש-\( f\left(a\right)<0<f\left(b\right) \), אז קיימת \( c\in\left(a,b\right) \) כך ש-\( f\left(c\right)=0 \) (אפשר לנסח בצורה כללית יותר, עבור כל ערך ביניים ולא רק 0, אבל זה ניתן לרדוקציה למקרה של \( 0 \) כי מחליפים את הפונקציה \( f \) שרוצים להראות שמקבלת את הערך \( T \) בפונקציה \( f\left(x\right)-T \)).

איך מוכיחים את זה? הנה הוכחת “אריה במדבר” סטייל עם משפט החיתוך של קנטור. נבנה סדרה של קטעים \( \left[a_{n},b_{n}\right] \) כשהקטע הראשון הוא \( a_{0}=a,b_{0}=0 \). הכלל המנחה יהיה שבכל הקטעים הללו מתקיים \( f\left(a_{n}\right)<0<f\left(b_{n}\right) \), שהם מכילים אחד את השני ושהאורך של כל אחד מהם הוא חצי מהאורך של הקודם, כלומר שהאורכים שלהם שואפים לאפס. נעשה את זה בצורה פשוטה מאוד: נסתכל על נקודת האמצע של כל קטע, \( x_{n}=\frac{a_{n}+b_{n}}{2} \). אם \( f\left(x_{n}\right)=0 \) מצאנו את ה-\( c \) שחיפשנו ואפשר לסיים את ההוכחה; אחרת, אם \( f\left(x_{n}\right)>0 \) אז נגדיר \( a_{n+1}=a \) ו-\( b_{n+1}=x_{n} \), ואילו אם \( f\left(x_{n}\right)<0 \) אז נגדיר \( a_{n+1}=x_{n} \) ו-\( b_{n+1}=b_{n} \).

עכשיו, משפט החיתוך של קנטור אומר לנו שקיימת נקודה יחידה \( c\in\bigcap_{n=1}^{\infty}\left[a_{n},b_{n}\right] \). האינטואיציה היא שזו הנקודה שחיפשתי, שבה \( f\left(c\right)=0 \), כי עם הקטעים \( \left[a_{n},b_{n}\right] \) אני עושה “זום אין” מדויק על רגע שבו הפונקציה עוברת משלילית לחיובית. אבל איך אני מוכיח את זה? כאן הרציפות נכנסת לתמונה. ראשית, קל להראות ש-\( a_{n}\to c \). שנית, בגלל ש-\( f \) רציפה נובע ממה שהראיתי קודם ש-\( \lim_{n\to\infty}f\left(a_{n}\right)=f\left(c\right) \). בנוסף, \( f\left(a_{n}\right)<0 \) לכל \( n \) כי ככה בניתי את סדרת ה-\( n \)-ים. אז קיבלנו ש-\( f\left(c\right) \) הוא הגבול של סדרה של מספרים שליליים, וגבול כזה חייב להיות שלילי או אפס, כי אם הוא \( L>0 \) אז כל איבר בסדרה יהיה לפחות במרחק \( L \) ממנו ולכן עבור \( \varepsilon<L \) הוכחת הגבול תיכשל. כלומר, \( f\left(c\right)\le0 \). באופן דומה בעזרת סדרת ה-\( b \)-ים מראים ש-\( f\left(c\right)\ge0 \), והמסקנה משני אלו היא ש-\( f\left(c\right)=0 \), כפי שרצינו.

מה קרה פה? הרציפות היא זו שנתנה לנו את \( f\left(c\right)\le0 \) ואת \( f\left(c\right)\ge0 \), אבל מה שתכונת השלמות נתנה לנו הוא את זה שבכלל קיים \( c \) כזה - קיים חלקיק שניה מדויק שבו אפשר לעצור את הסרט של \( f \) ולהגיד “הנה! רואים?! זו השניה המדויקת שבה עברנו את ציר \( x \)!” במספרים הרציונליים זה פשוט לא עובד: אם למשל נסתכל על הפונקציה \( f\left(x\right)=x-\pi \): אין מספר רציונלי שמאפס אותה, אבל היא כמובן רציפה. פשוט אין בסרט שלנו את הפריים עבור \( x=\pi \) שבו רואים אותה מתאפסת, כי הסרט כולל רק פריימים שנלקחו בנקודות רציונליות.

בואו נעבור עכשיו למה שמכונה משפט ערך הקיצון של ויירשטראס (Extreme value theorem) ולפעמים מחלקים לשני משפטים - “משפט ויירשטראס הראשון” ו”משפט ויירשטראס השני” (שההוכחה שלו מסתמכת על הראשון) וגם אני כאן אדבר עליהם בתור שני משפטים. הרעיון בהם די פשוט: אם אני מצייר פונקציה רציפה בקטע סגור, העפרון שלי מתחיל בנקודה אחת ומצייר איזה קו עד שהוא מגיע לנקודה בקצה השני. הוא לא יכול בשום שלב לברוח לאינסוף, כי פונקציה רציפה היא “רגועה”. אני אצייר את כולה על הנייר שעל השולחן ולא אמצא את עצמי פתאום נאלץ ללכת עד לקוטב הצפוני בשביל לצייר אותה (זה לא נכון, אני משקר כדי לתת אינטואיציה, פונקציה רציפה בהחלט עלולה לדרוש ממני ללכת עד לקוטב הצפוני, פשוט לא עד לאינסוף). באופן פורמלי: פונקציה רציפה על קטע סגור וחסום היא חסומה בו. זה משפט ויירשטראס הראשון, והשני מרחיב: לא סתם חסומה, אלא מקבלת את המקסימום והמינימום שלה, כלומר אם יש לנו את הקטע \( \left[a,b\right] \) ופונקציה רציפה \( f:\left[a,b\right]\to\mathbb{R} \) אז קיימות נקודות \( c_{1},c_{2}\in\left[a,b\right] \) כך ש-\( f\left(c_{1}\right)=\min\left\{ f\left(x\right)\ |\ x\in\left[a,b\right]\right\} \) ו-\( f\left(c_{2}\right)=\max\left\{ f\left(x\right)\ |\ x\in\left[a,b\right]\right\} \).

האם המשפט הראשון מתבסס רק על הרציפות של \( f \) או גם על השלמות של \( \mathbb{R} \)? לכאורה לא צריך פה את השלמות, הרי הטענה היא לא מהצורה “קיימת נקודה בקטע שמקיימת כך וכך” אלא “קיים חסם אחיד עבור כל הנקודות בקטע”. אבל הנקודה היא שבלי ש-\( \mathbb{R} \) יהיה שלם, פונקציה יכולה “להשתגע” כשהערכים שלה מתקרבים לנקודה ש”חסרה” ב-\( \mathbb{R} \) ועדיין להיחשב רציפה, כי הדוגמא הנגדית לרציפות שלה היא נקודה שלא קיימת בכלל.

איך גורמים לפונקציה “להשתגע”? פשוט מאוד, מחלקים באפס. למשל, נסתכל על הקטע \( \left(0,1\right) \) ועל הפונקציה \( f\left(x\right)=\frac{1}{x} \). הפונקציה הזו בבירור כן רציפה בקטע (זה דורש טיפה הוכחה) אבל כש-\( x \) מתקרב ל-\( 0 \) הפונקציה “מתפוצצת”, גדלה ועוברת כל חסם אפשרי; היא בוודאי לא חסומה ב-\( \left(0,1\right) \), והסיבה שזו לא דוגמא נגדית למשפט ויירשטראס היא שעל הקטע הסגור \( \left[0,1\right] \) הפונקציה לא תהיה רציפה כי היא בכלל לא מוגדרת ב-0. זה ממחיש את החשיבות בכך שהקטע הוא סגור; בלי זה המשפט לא עובד.

עכשיו, בואו נניח לרגע ש-0 בכלל לא קיים ביקום שלנו ואנחנו מסתכלים עדיין על \( f\left(x\right)=\frac{1}{x} \), אבל בקטע \( \left[-1,1\right] \). הפונקציה עדיין לא חסומה בו כי בסביבות \( x=0 \) היא “מתפוצצת”, אבל האם היא לא רציפה? בכל נקודה חוץ מ-0 היא כן רציפה, אז אם 0 לא קיים ביקום שלנו, קיבלנו פונקציה שרציפה בקטע הסגור והחסום \( \left[-1,1\right] \) אבל לא חסומה בו. כמובן, 0 כן קיים ביקום שלנו, אבל אם אנחנו לא ב-\( \mathbb{R} \) אלא ב-\( \mathbb{Q} \) אז מספרים אחרים כמו \( \pi \) לא קיימים בו ואפשר לתקן את הדוגמא כדי שתהיה סביבם, באופן הבא: נסתכל על הקטע \( \left[3,4\right] \) ועל הפונקציה \( f\left(x\right)=\frac{1}{x-\pi} \) ש”מתפוצצת” ב-\( x=\pi \).

ההוכחה של משפט ויירשטראס הראשון מתבססת על הדוגמא הנגדית המטופשת הזו: היא מניחה בשלילה שהפונקציה לא חסומה ולכן יש מקום שבו היא “מתפוצצת”, ואז משתמשת בשלמות של הממשיים כדי למצוא נקודה שנמצאת במרכז הפיצוץ הזה והפונקציה פשוט לא יכולה להיות רציפה בה. בואו נניח בשלילה ש-\( f\left(x\right) \) הרציפה לא חסומה בקטע \( \left[a,b\right] \), אז לכל \( n \) קיימת נקודה \( x_{n}\in\left[a,b\right] \) כך ש-\( f\left(x_{n}\right)\ge n \). קיבלנו סדרה \( \left\{ x_{n}\right\} _{n=0}^{\infty} \) של נקודות שביחד מתארות את ה”התפוצצות” של \( f \), אלא שלרוע המזל ייתכן שהנקודות הללו נמצאות במקומות שונים לגמרי של הקטע \( \left[a,b\right] \) ואני רוצה התפוצצות שמרוכזת בנקודה אחת; כאן בדיוק בא משפט בולצאנו-ויירשטראס לעזרתי ומוצא תת-סדרה מתכנסת \( \left\{ c_{n}\right\} _{n=0}^{\infty} \) של \( \left\{ x_{n}\right\} _{n=0}^{\infty} \). תחשבו על בולצאנו-ויירשטראס כאילו הוא מתמקד בנקודת “התפוצצות” כלשהי ומעיף מהסדרה \( \left\{ x_{n}\right\} _{n=0}^{\infty} \) את כל הנקודות שלא קשורות אליה אלא מתארות התפוצצויות אחרות או סתם מקומות שבהם הפונקציה מגיעה לגבהים בלי להתפוצץ (“הקוטב הצפוני”). נסמן \( c=\lim_{n\to\infty}c_{n} \), וכאן השתמשנו בשלמות של \( \mathbb{R} \): בלי זה הנקודה \( c \) לא הייתה בהכרח קיימת, אפילו אם היינו מצליחים לבנות מקבץ \( \left\{ c_{n}\right\} _{n=0}^{\infty} \) של נקודות שנראה כאילו הוא סובב סביב נקודת התפוצצות כלשהי.

הטיעון עכשיו הוא שבגלל הרציפות של \( f \) צריך להתקיים \( f\left(c\right)=\lim_{n\to\infty}f\left(c_{n}\right) \) אבל מכיוון שהסדרה \( f\left(c_{n}\right) \) לא חסומה (קל להראות ש-\( f\left(c_{n}\right)\ge n \) כי כשיצרנו את תת-הסדרה \( c_{n} \) מתוך \( x_{n} \) התכונה \( x_{n}\ge n \) רק התחזקה) נובע שהגבול לא קיים בכלל (הוא קיים במובן הרחב, של \( \lim_{n\to\infty}f\left(c_{n}\right)=\infty \), אבל זו הגדרה שונה) ולכן \( f\left(c\right) \) לא מוגדרת בכלל; זה תרגיל טוב ולא קשה לנסח את זה פורמלית עד הסוף. סיימנו את ההוכחה של משפט ויירשטראס הראשון במובן זה שהראינו שהפונקציה חסומה מלעיל, ובאותו אופן מוכיחים שהיא חסומה מלרע.

עכשיו אפשר לעבור למשפט ויירשטראס השני - ננצל את זה שאנחנו כבר יודעים שהפונקציה חסומה כדי להראות שהיא מקבלת את הערך המקסימלי שלה. כרגיל, כדי להבין מה זה אומר ולמה השלמות של הממשיים קריטית לזה, בואו נסתכל על דוגמת צעצוע: הפונקציה הרציפה \( f\left(x\right)=1-\left|x\right| \). קל לראות ש-\( f\left(0\right)=1 \) הוא הערך המקסימלי של הפונקציה הזו, אבל אם \( 0 \) לא היה חלק מהיקום המתמטי שלנו, הפונקציה לא הייתה מגיעה ל-1 אף פעם, רק שואפת אליו. רק מה, 0 הוא כן חלק מהעולם שלנו אז אפשר לעשות את הטריק הרגיל של להזיז את הכל כך שהנקודה שאנחנו מדברים עליה תהיה \( \pi \) ולא 0, כלומר להגדיר \( f\left(x\right)=1-\left|x-\pi\right| \). אני חוזר שוב ושוב על השטיק הזה כדי שיהיה ברור שהפואנטה של השלמות של \( \mathbb{R} \) היא לא שקיים מספר מעניין ומיוחד כמו \( \pi \), כי אין למהות של \( \pi \) תפקיד אמיתי כאן; מה שחשוב הוא המבנה של קבוצת הממשיים בכללותה, המחסור הזה בחורים, כי אם יש אפילו חור אחד אפשר “להזיז” את כל העולם כך שהחור יהיה מרכז העולם, ולא משנה אם זה חור ב-0 או ב-\( \pi \).

בדוגמא \( f\left(x\right)=1-\left|x-\pi\right| \) יש לנו פונקציה שאם תוגדר על הרציונליים, לא תקבל את המקסימום שלה בקטע \( \left[3,4\right] \), אבל מה שכן יהיה נכון הוא שלפחות יהיה סופרמום לקבוצת הערכים שהיא מקבלת שם: \( \sup\left\{ f\left(x\right)\ |\ x\in\left[3,4\right]\right\} =1 \). גם את זה אפשר לקלקל בקלות אם מגדירים \( f\left(x\right)=\pi-\left|x-\pi\right| \). כלומר, כדי שמשפט ויירשטראס השני יעבוד אנחנו צריכים להשתמש בשלמות פעמיים: פעם אחת בשביל התחום של \( f \), כדי להוכיח את קיום הנקודה שבה יתקבל המקסימום; ופעם שניה, עוד יותר מוקדמת, עבור הטווח של \( f \) כדי להוכיח שבכלל יש ערך מקסימלי ששווה לנסות ולקבל.

ההוכחה הסטנדרטית הולכת כך: בואו באמת נסתכל על \( \sup\left\{ f\left(x\right)\ |\ x\in\left[a,b\right]\right\} \). מכיוון שידוע לנו ש-\( f \) חסומה ב-\( \left[a,b\right] \) (זה משפט ויירשטראס הראשון) ומכיוון ש-\( \left[a,b\right] \) כולל לפחות נקודה אחת (אם \( a=b \) הקטע עדיין כולל את \( a \)) אז \( A=\sup\left\{ f\left(x\right)\ |\ x\in\left[a,b\right]\right\} \) קיים כי לקחנו סופרמום של קבוצה חסומה לא ריקה; זה שימוש ישיר באקסיומת השלמות של שדה סדור שלם. עכשיו אפשר להשתמש בטריק בולצאנו-ויירשטראסי בדיוק כמו קודם, רק במקום עם סדרה שמתפוצצת, עם סדרה ששואפת אל \( A \): לכל \( n \) נמצא \( x_{n}\in\left[a,b\right] \) כך ש-\( A-\frac{1}{n}\le f\left(x_{n}\right)\le A \) (קיים כזה כי \( A \) סופרמום), ניקח תת-סדרה מתכנסת \( \left\{ c_{n}\right\} _{n=0}^{\infty} \), נסמן \( c=\lim_{n\to\infty}c_{n} \), נשתמש ברציפות של \( f \) כדי להסיק \( f\left(c\right)=\lim_{n\to\infty}f\left(c_{n}\right) \) ונוכיח די בקלות (תרגיל טוב!) ש-\( \lim_{n\to\infty}f\left(c_{n}\right)=A \).

ההוכחה הזו פשוטה ונהדרת, ולרוע המזל היא גורמת לי אי נוחות בפוסט הספציפי הזה כי קלעתי את עצמי לפינה שבה אני מנסה לא להשתמש ישירות באקסיומת השלמות, כי אני רוצה להראות שטבעי באותה מידה להתחיל מהניסוח האלטרנטיבי של קנטור לשלמות ו”להיפגש באמצע”, כלומר להשתמש במשפט החיתוך של קנטור או בבולצאנו-ויירשטראס. אבל כאן אני לא רואה דרך לא מסורבלת לעשות את זה. זו כנראה נקודה פדגוגית לזכות ההצגה המוקדמת של אקסיומת השלמות.

לסיכום חלק הדוגמאות הזה, רציתי להביא כאן גם את משפט הערך הממוצע של לגראנז' שהוא באמת משפט שימושי בצורה יוצאת דופן, אבל אני לא אעשה את זה כי זה ייאלץ אותי לדבר גם על נגזרות ומשפטים שקשורים אליהן שאני לא רוצה להוכיח, אז הנה שורה אחת על לגראנז’ למי שמכירות אותו: כדי להוכיח את לגראנז’ אנחנו עושים תעלול אלגברי קטן שמבצע לו רדוקציה אל משפט רול. את משפט רול מוכיחים על ידי שילוב של שני משפטים: משפט פרמה, שאומר שנגזרת של פונקציה בנקודת קיצון מתאפסת; ומשפט ויירשטראס השני, שמראה שבתנאים של משפט רול יש לפונקציה נקודת קיצון. במילים אחרות, בכל מקרה אין כאן תוכן מתמטי רלוונטי שלא ראינו כי אנחנו מסתמכים פה על משפט ויירשטראס; ומצד שני בלי לגראנז’ באמת שאין חדו”א כמו שאנחנו מכירים. וכך זה ממשיך ומפעפע עוד ועוד לכל רחבי החדו”א.

כל זה כנראה משכנע שאקסיומת השלמות היא דבר חשוב ושהגישה של דדקינד נכונה; אבל עכשיו הגיע הזמן לדבר גם על הגישה הנוספת.

סדרות קושי

בשלבים הקודמים של הפוסט ראינו את משפט החיתוך של קנטור. הנה תזכורת איך הוא הולך: אם \( \left\{ C_{n}\right\} _{n=0}^{\infty} \) היא סדרה של קטעים סגורים כך ש-\( C_{n}\supseteq C_{n+1} \) ו-\( \lim_{n\to\infty}\left|C_{n}\right|=0 \) אז קיים \( c\in\mathbb{R} \) יחיד כך ש-\( c\in\bigcap_{n=0}^{\infty}C_{n} \). איך אפשר להוכיח את זה? ובכן, הנה גישה אחת: מכיוון שהקטעים \( C_{n} \) הם סגורים כל אחד כולל לפחות נקודה אחת, אז פשוט ניקח \( c_{n}\in C_{n} \) לכל קטע וקיבלנו סדרה. עכשיו נגדיר \( c=\lim_{n\to\infty}c_{n} \) וקיבלנו את ה-\( c \) שלנו. עכשיו צריך עדיין להוכיח שהוא בחיתוך של כל הקטעים ושהוא יחיד, אבל עברנו את השלב הקשה של להוכיח שהוא קיים… רגע רגע רגע, לא הוכחנו שום דבר. אני לא יכול להגדיר \( c=\lim_{n\to\infty}c_{n} \) כי אני לא יודע שהסדרה \( \left\{ c_{n}\right\} _{n=0}^{\infty} \) מתכנסת בכלל. אבל מה שאני כן יודע הוא שהסדרה הזו נראית כאילו היא אמורה להתכנס. למה? ובכן, כי בגלל שהאיברים שלה שייכים לסדרת קטעים שהולכת ומצטופפת, גם האיברים שלה צריכים, ובכן, ללכת ולהצטופף יחד. וכשיש לי סדרה שנראה שהאיברים שלה מצטופפים סביב מקום אחד, הייתי יכול לקוות שהיא תתכנס, לא?

זה הרעיון מאחורי המושג שנקרא סדרת קושי (במאמר שלו קנטור קרא לה “סדרה יסודית”, אבל זה לא המושג המקובל כיום). פורמלית, \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) היא סדרת קושי אם לכל \( \varepsilon>0 \) קיים \( N \) כך שלכל \( n,m>N \) מתקיים \( d\left(a_{n},a_{m}\right)<\varepsilon \). כלומר, לכל אפסילון קיים מקום בסדרה שהחל ממנו כל זוג איברים בסדרה קרובים זה לזה עד כדי אפסילון. ניסוח שימושי שקול הוא שלכל \( \varepsilon>0 \) קיים \( N \) כך שלכל \( n>N \) מתקיים \( d\left(a_{n},a_{N}\right)<\varepsilon \), כלומר לכל אפסילון קיים איבר בסדרה שכל יתר אברי הסדרה קרובים אליו עד כדי אפסילון.

שימו לב להבדל בין זה ובין הגדרת הגבול. גבול אומר שלכל אפסילון, קיים מקום בסדרה שהחל ממנו כל יתר איברי הסדרה קרובים אל הגבול עד כדי אפסילון - הגבול עצמו בכלל לא צריך להיות איבר בסדרה. לעומת זאת בסדרת קושי לכל אפסילון אנחנו בוחרים איבר מהסדרה שאליו כל יתר האיברים יהיו קרובים - והאיבר הזה תלוי באפסילון, כלומר זה לא שיש בסדרה איבר בודד שכל יתר האיברים קרובים אליו לכל אפסילון שנרצה (להבדיל מגבול שכן מקיים את זה). כלומר, התכונה שמגדירה סדרת קושי מרגישה קצת “חלשה יותר” מקיום גבול.

האמנם? ובכן, יש כאן שני משפטים שאפשר להוכיח: ראשית, שאם סדרה מתכנסת לגבול אז היא סדרת קושי (מה שמראה שקיום גבול “חזק לפחות כמו” להיות סדרת קושי) ושנית, שאם סדרה היא סדרת קושי אז היא אכן מתכנסת לגבול. בואו נוכיח את שניהם.

ראשית, נניח ש-\( \left\{ a_{n}\right\} _{n=0}^{\infty} \) מתכנסת, \( \lim_{n\to\infty}a_{n}=a \), ונוכיח ש-\( \left\{ a_{n}\right\} _{n=0}^{\infty} \) היא סדרת קושי ממש על פי ההגדרה. ניקח \( \varepsilon>0 \), אז קיים מקום \( N \) בסדרה כך שלכל \( n>N \) מתקיים \( d\left(a_{n},a\right)<\frac{\varepsilon}{2} \) (השתמשנו בהגדרת הגבול של סדרה עם \( \frac{\varepsilon}{2} \)). עכשיו, ניקח \( n,m>N \), נשתמש באי שיוויון המשולש ונקבל

\( d\left(a_{n},a_{m}\right)\le d\left(a_{n},a\right)+d\left(a,a_{m}\right)<\frac{\varepsilon}{2}+\frac{\varepsilon}{2}=\varepsilon \)

וסיימנו. זה היה כיוון קל.

מה עם הכיוון השני? ובכן, אם \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) היא סדרת קושי אנחנו עדיין לא יודעים אם היא מתכנסת או לא, אבל בזכות בולצאנו-ויירשטראס אנחנו יודעים שקיימת לה תת-סדרה מתכנסת. נסמן את הגבול של תת-הסדרה הזו ב-\( a \). עכשיו נראה ש-\( \lim_{n\to\infty}a_{n}=a \) בשיטה הסטנדרטית: ניקח \( \varepsilon>0 \) כלשהו ונמצא \( N \) כך שאם \( n>N \) אז \( d\left(a_{n},a\right)<\varepsilon \). בשביל זה נשלב גם את התכונה של סדרת קושי וגם את הקטע של תת-סדרה מתכנסת.

ראשית, בגלל ש-\( \left\{ a_{n}\right\} _{n=0}^{\infty} \) היא סדרת קושי, קיים \( N \) כך שלכל \( n,m>N \) מתקיים \( d\left(a_{n},a_{m}\right)<\frac{\varepsilon}{2} \). עכשיו, בתת-הסדרה המתכנסת של \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) קיים מקום \( N^{\prime} \) כך שלכל \( n>N^{\prime} \), אם \( a_{n} \) שייך לתת-הסדרה אז \( d\left(a_{n},a\right)<\frac{\varepsilon}{2} \). בואו ניקח \( m \) כך ש-\( m>\max\left\{ N,N^{\prime}\right\} \) אז בפרט מתקיים \( d\left(a_{m},a\right)<\frac{\varepsilon}{2} \) ובנוסף, לכל \( n>N \), מכיוון ש-\( n,m>N \) אז \( d\left(a_{n},a_{m}\right)<\frac{\varepsilon}{2} \) ואפשר להשתמש באי שוויון המשולש:

\( d\left(a_{n},a\right)\le d\left(a_{n},a_{m}\right)+d\left(a_{m},a\right)<\frac{\varepsilon}{2}+\frac{\varepsilon}{2}=\varepsilon \)

וסיימנו גם את הכיוון הזה. אבל שימו לב מה היה המחיר ששילמנו: בניגוד להוכחה של הכיוון הקודם שהייתה אלמנטרית, כאן השתמשנו במשפט המאוד לא טריוויאלי של בולצאנו-ויירשטראס. זה רומז לנו שיש כאן משהו מהותי, ובעצם זה לא צריך להיות מפתיע - אנחנו שוב פעם בוראים איבר יש מאין, במקרה הזה את גבול הסדרה. כבר ראינו בפוסט הזה את הסדרה \( 1,1.4,1.41,1.414,1.4142,\ldots \) ש”אמורה להתכנס” אל \( \sqrt{2} \); הבאתי אותה במקור בתור סדרה מונוטונית חסומה, אבל זו גם בבירור סדרת קושי של מספרים ב-\( \mathbb{Q} \) ולכן בלי ש-\( \sqrt{2} \) יהיה חלק מהעולם שלנו פשוט לא יהיה לה לאן להתכנס.

זה זמן טוב לעצור לרגע ולראות את שרשרת ההוכחות שיש לנו:

אקסיומת השלמות \( \leftarrow \) כל סדרה מונוטונית וחסומה מתכנסת \( \leftarrow \) בולצאנו ויירשטראס (הוכחת ה"פסגות") \( \leftarrow \) כל סדרת קושי מתכנסת

בתוך כל זה גם הכנסתי את משפט החיתוך של קנטור, בתור דרך אחרת להוכיח את בולצאנו ויירשטראס, וקיבלתי מוטיבציה להוכחה של משפט החיתוך של קנטור דווקא מסדרות קושי. זה רומז לנו במעורפל שאולי אפשר גם לקחת את שרשרת ההוכחות הזו בכיוון ההפוך - להתחיל מכך שכל סדרת קושי מתכנסת ולהסיק מכך את בולצאנו ויירשטראס, את ההתכנסות של כל סדרה מונוטונית וחסומה, ואת אקסיומת השלמות.

כלומר, אני מציע שבמקום להתחיל מאקסיומת השלמות, נתחיל ממה שאני אקרא לו “שלמות-קנטור”, בזמן שלשלמות ה”רגילה” אני אקרא “שלמות-דדקינד”:

שלמות-קנטור: כל סדרת קושי מתכנסת.
שלמות-דדקינד: לכל קבוצה לא ריקה וחסומה קיים חסם עליון.

נתחיל אם כן מהאקסיומה שבמספרים הממשיים מתקיימת שלמות-קנטור ונראה לאן נגיע עם זה. כרגיל, אני מזהיר שהמילה אקסיומה פה לא אומרת “משהו שברור מאליו ולא צריך להוכיח” אלא “תכונה שהיא בסיסית מספיק כדי שנציין אותה במפורש ואנחנו מצפים מהבניה של המרחב שלנו לוודא שהיא מתקיימת”. בבניה של קנטור למספרים הממשיים, שלמות-קנטור היא מה שכל הבניה סובבת סביבו כדי להבטיח שיתקיים, בעוד שבבניה של דדקינד, באופן לא מפתיע, הבניה סובבת סביב להראות ששלמות-דדקינד מתקיימת. את שתי הבניות, כאמור, אני לא אציג בפוסט הזה כי הוא גם ככה ארוך מדי.

בואו נוכיח דברים עם שלמות-קנטור. בראש ובראשונה, את משפט החיתוך של קנטור. כבר התחלתי את זה: הייתה לי סדרה \( \left\{ C_{n}\right\} _{n=0}^{\infty} \) של קטעים סגורים כך ש-\( C_{n}\supseteq C_{n+1} \) ו-\( \lim_{n\to\infty}\left|C_{n}\right|=0 \). אמרתי שאני בונה סדרה \( c_{n}\in C_{n} \). בגלל התכונה \( C_{n}\supseteq C_{n+1} \) נובע שאם \( n>N \) אז \( a_{n}\in C_{N} \), ולכן קל להראות שזו סדרת קושי: עבור \( \varepsilon>0 \) כלשהו, נשתמש בכך ש-\( \lim_{n\to\infty}\left|C_{n}\right|=0 \) כדי למצוא \( N \) כך ש-\( \left|C_{N}\right|<\varepsilon \). כלומר, פורמלית, \( C_{N}=\left[a_{N},b_{N}\right] \) כך ש-\( \left|a_{N}-b_{N}\right|<\varepsilon \), אבל אפשר לחשוב על זה קצת יותר כללי: לחשוב על\( \left|C_{n}\right| \) בתור סימון של הקוטר של הקבוצה \( C_{N} \), המרחק המקסימלי בין כל שני איברים שלה. כשמכלילים את משפט קנטור למרחבים מטריים כלליים, זה המושג שנעזרים בו.

זה נותן לנו את סדרת הקושי שלנו: ניקח \( n,m>N \) אז בגלל ש-\( c_{n},c_{m}\in C_{N} \) נקבל ש-\( d\left(c_{n},c_{m}\right)\le\left|C_{N}\right|<\varepsilon \), כפי שרצינו. ועכשיו נשתמש בשלמות-קנטור כדי לקבל \( c \) כך ש-\( c=\lim_{n\to\infty}c_{n} \). זה היה החלק הקריטי - לעבור ממצב שבו אין לנו איבר ביד למצב שבו יש לנו אותו ביד. עכשיו צריך להראות עדיין ש-\( c\in\bigcap_{n=0}^{\infty}C_{n} \) ושהוא האיבר היחיד שמקיים את זה, אבל זה החלק הקל.

ראשית, כדי להראות ש-\( c\in C_{n} \) לכל \( n\ge0 \), נשים לב לכך ש-\( c \) הוא הגבול של הסדרה \( a_{n},a_{n+1},a_{n+2},\ldots \) (כלומר, הסדרה \( \left\{ c_{n}\right\} _{n=0}^{\infty} \) שבניתי כשאני זורק לפח את האיברים הראשונים עד \( a_{n} \)). בגלל התכונה \( C_{n}\supseteq C_{n+1} \) אנחנו יודעים שכל אברי הסדרה הזו שייכים ל-\( C_{n} \), כך ש-\( a \) הוא גבול של סדרה ששייכת ל-\( C_{n} \), ו-\( C_{n} \) הוא קטע סגור ולכן הוא בפרט קבוצה סגורה וההגדרה של קבוצה סגורה היא “קבוצה של הגבולות של איבריה שייכים אליה” ולכן \( c\in C_{n} \). שכנעתי אתכם? בוודאי שלא, מאיפה שלפתי את ההגדרה הזו של קבוצה סגורה? תכף נחזור לזה.

שנית, בואו נראה את היחידות של \( c \). ניקח \( c_{1},c_{2}\in\bigcap_{n=0}^{\infty}C_{n} \) כלשהם. כעת, לכל \( n \) מתקיים \( d\left(c_{1},c_{2}\right)\le\left|C_{n}\right| \) כי \( c_{1},c_{2}\in C_{n} \), ולכן \( d\left(c_{1},c_{2}\right)\le\lim_{n\to\infty}\left|C_{n}\right|=0 \) והמסקנה היא ש-\( d\left(c_{1},c_{2}\right)=0 \) כלומר \( c_{1}=c_{2} \) (ושוב - זה תרגיל טוב לפרמל את זה עד הסוף אם אתם מרגישים שמשהו חסר). אז הכל פה באמת קל, ורק נשארה לי הטענה “קטע סגור הוא קבוצה סגורה” שלא באמת קשורה להוכחה הזו אלא היא משהו כללי יותר.

כדי לעשות לעצמנו סדר בהגדרות, הנה הן שוב, במפורט:

קבוצה סגורה היא קבוצה \( D \) כך שלכל סדרה מתכנסת \( \left\{ a_{n}\right\} _{n=0}^{\infty} \), אם \( a_{n}\in D \) לכל \( n \), גם \( \lim_{n\to\infty}a_{n}\in D \).
קטע סגור הוא קבוצה מהצורה \( D=\left[a,b\right]=\left\{ x\in\mathbb{R}\ |\ a\le x\le b\right\} \)

במבט ראשון לא נראה שיש ביניהן קשר וזה סתם שימוש מבלבל כפול ב”סגור”, אבל בפועל קל להראות שקטע סגור הוא אכן קבוצה סגורה. ניקח \( D=\left[a,b\right] \) שכזה. אם יש לנו סדרה מתכנסת \( \left\{ c_{n}\right\} _{n=0}^{\infty} \) שכל אבריה שייכים ל-\( D \), נסמן את הגבול שלה ב-\( c=\lim_{n\to\infty}c_{n} \). אם \( a\le c\le b \) הכל בסדר, אז בואו נראה למשל איך מגיעים לסתירה אם \( c<a \). זה די פשוט: נסמן \( \varepsilon=a-c \), ולכן על פי הגדרת הגבול קיים \( c_{n} \) כך ש-\( d\left(c_{n},c\right)<\varepsilon \). אבל \( c_{n}\in D \), כלומר \( a\le c_{n} \), כלומר

\( d\left(c_{n},c\right)=\left|c_{n}-c\right|=c_{n}-c=\left(c_{n}-a\right)+\left(a-c\right)\ge\varepsilon \)

וזו סתירה ל-\( d\left(c_{n},c\right)<\varepsilon \), מה שמסיים את ההוכחה הזו.

סיכום ביניים: הראינו איך שלמות-קנטור גוררת את משפט החיתוך של קנטור, וראינו עוד קודם שמשפט החיתוך של קנטור גורר את בולצאנו-ויירשטראס. מה שנחמד הוא שאפשר לדבר על כל התוצאות הללו בהקשרים כלליים יותר של מרחבים מטריים וההוכחות די דומות, אבל לא אכנס לזה כאן - אנחנו מאוד ממוקדים באובייקט של “שדה סדור שלם”.

מה נשאר לנו להראות? ראינו את המשפט על כך שסדרה מונוטונית חסומה היא מתכנסת. האם בולצאנו-ויירשטראס מוכיח אותו? אם \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) היא הסדרה המונוטונית החסומה אז החסימות שלה נותנת לנו את בולצאנו-ויירשטראס ואנחנו מקבלים תת-סדרה \( \left\{ c_{n}\right\} _{n=0}^{\infty} \) שמתכנסת אל \( c \). שימו לב שבהכרח \( c_{n}\le c \) לכל איבר בתת-הסדרה, בגלל המונוטוניות שלה: אם היה מתקיים \( c<c_{N} \) עבור \( N \) כלשהו, אז עבור \( \varepsilon=c_{N}-c \) היינו מקבלים שלכל \( n>N \), \( d\left(c_{n},c\right)=\left(c_{n}-c_{N}\right)+\left(c_{N}-c\right)\ge\varepsilon \).

בואו נוכיח ש-\( \lim_{n\to\infty}a_{n}=c \): ניקח \( \varepsilon>0 \) כלשהו, אז קיים \( N \) כך ש-\( a_{N} \) שייך לתת-הסדרה וגדול מספיק כדי שיתקיים \( d\left(a_{N},c\right)<\varepsilon \), כלומר \( c-a_{N}<\varepsilon \). עכשיו, לכל \( n>N \) מתקיים \( a_{N}<a_{n}\le c \) ולכן \( c-a_{n}<c-a_{N}<\varepsilon \), כמו שרצינו (הסיבה שבגללה \( a_{n}\le c \) היא שאם היה מתקיים \( a_{n}>c \) זה היה מכריח גם איברים של תת-הסדרה שמופיעים בסדרה אחרי \( a_{n} \) להיות גדולים מ-\( c \) וראינו שזה לא יכול לקרות).

אם כן, לסיכום - הראינו איך משלמות-קנטור נובעות אותן התוצאות בחדו”א שעניינו אותנו - מלבד אחת, זו של שלמות-דדקינד עצמה. בשביל זה כדאי לעבור לחלק נוסף ואחרון.

שלמות דדקינד נגד שלמות קנטור - הקרב האחרון

מה ראינו עד כה?

שלמות-דדקינד גוררת את שלמות-קנטור.
שלמות-קנטור גוררת את כל התוצאות שראינו בפוסט בערך חוץ מאשר את שלמות-דדקינד (ולכן בעצם גם המשפט השני של ויירשטראס שמשתמש בה).

אם נחזור לטרמינולוגיה של הפוסט הקודם, ראינו ששדה סדור שלם הוא גם שלם-קנטור. למעשה, סביר להניח שחלק נכבד מהקוראים נתקלו בשלמות-קנטור בתור המשמעות של “שלם”; כשמדברים בטופולוגיה על “מרחב מטרי שלם” ועל “השלמה של מרחב מטרי” זה במובן של שלמות-קנטור. האם ההפרדה הזו בין שלמות-דדקינד ושלמות-קנטור היא לא קצת מלאכותית? אי אפשר לקרוא לשני אלו “שלמות” וזהו?

ובכן, למרבה הצער, לא בדיוק.

הטענה “אם \( \mathbb{F} \) הוא שדה סדור שבו כל סדרת קושי מתכנסת, אז הוא שלם” היא פשוט לא נכונה.

מה שנכון, ואני הולך להוכיח, הוא הטענה “אם \( \mathbb{F} \) הוא שדה סדור ארכימדי שבו כל סדרת קושי מתכנסת, אז הוא שלם”. אבל צריך את הארכימדיות. מה זו ארכימדיות? כזכור, זו התכונה לפיה לכל \( a\in\mathbb{F} \) קיים \( n\in\mathbb{Z} \) כך ש-\( a<n \). כשיש לנו שדה סדור שלם הוא אוטומטית ארכימדי. זה כבר אומר שיהיה לנו קצת קשה להראות דוגמא לשדה סדור שהוא שלם-קנטור אבל לא שלם-דדקינד, כי הוא יצטרך להיות מוזר בגלל חוסר הארכימדיות שלו. יש דוגמא סטנדרטית עם שדה של טורי לורן אבל אני לא אכנס לזה כאן כי היא טכנית וארוכה. במקום זה אני אעשה משהו טכני וארוך אחר: אוכיח ששדה סדור ארכימדי שבו כל סדרת קושי מתכנסת הוא שלם.

יש כל מני הוכחות שראיתי ואני אלך דווקא על אחת טכנית יחסית כי אני מרגיש שזו דרך טובה להרגיש בידיים “מה הולך פה”. אני לוקח קבוצה לא ריקה וחסומה \( A\subseteq\mathbb{F} \) ורוצה להוכיח ש-\( \sup A \) קיים. בשביל זה אני צריך כלי כלשהו שיודע להראות לי שמשהו קיים, והכלי הזה עבורי יהיה משפט החיתוך של קנטור, שכבר ראינו שנובע משלמות-קנטור. הרעיון המרכזי הוא פשוט: נבנה סדרה של קטעים, \( \left[a_{n},b_{n}\right] \), שמקיימים את התנאים הרגילים של משפט החיתוך כלומר \( \left[a_{n},b_{n}\right]\supseteq\left[a_{n+1},b_{n+1}\right] \) ו-\( \lim_{n\to\infty}\left(b_{n}-a_{n}\right)=0 \), ובנוסף הם מקיימים את התכונה הבאה: לכל \( n \), \( b_{n} \) הוא חסם מלעיל של \( A \) אבל \( a_{n} \) אינו חסם מלעיל של \( A \). עכשיו נשתמש במשפט החיתוך ונקבל \( c \) שמקיים ש-\( a_{n}\le c\le b_{n} \) לכל \( n \).

מצד אחד, \( c \) חייב להיות חסם מלעיל של \( A \), כי אם הוא לא היה כזה, אז היה קיים \( a\in A \) כך ש-\( c<a \), ומכאן בפרט ש-\( a_{n}<a \) לכל \( n \) (כלומר, נקודות הקצה השמאליות של הקטעים שלנו “לא מתקרבות מספיק לקצה של \( A \)”). אבל תזכרו שסדרת נקודות הקצה הימניות, ה-\( b_{n} \)-ים, מתקרבות כרצוננו אל ה-\( a_{n} \)-ים, אז ברור שנוכל להנדס פה סתירה עם טכניקות שכבר ראינו לא אחת בפוסט הבא: נגדיר \( \varepsilon=a-c \) (מכיוון ש-\( c<a \) אז \( \varepsilon>0 \)) וניעזר בכך ש-\( \lim_{n\to\infty}\left(b_{n}-a_{n}\right)=0 \) כדי למצוא \( N \) עבורו \( b_{N}-a_{N}<\varepsilon \). אבל עכשיו תראו מה קרה: \( a_{N}<c<a\le b_{N} \), כשאי השוויון האחרון נובע מכך ש-\( b_{N} \) הוא חסם מלעיל של \( A \) וש-\( a\in A \). המסקנה מהשרשרת היא ש

\( \varepsilon=a-c\le b_{N}-c<b_{N}-a_{N}<\varepsilon \)

וזו סתירה. אז קיבלנו ש-\( c \) הוא חסם מלעיל של \( A \).

בנוסף, אני טוען ש-\( c \) הוא החסם מלעיל המינימלי של \( A \), כי אם הוא לא היה כזה אז היה קיים \( b \) שהוא חסם מלעיל של \( A \) כך ש-\( b<c \), ומכאן בפרט ש-\( b<b_{n} \) לכל \( n \) (כלומר, נקודות הקצה הימניות של הקטעים שלנו “הן לא חסמים מלעיל מספיק קטנים של \( A \)”). רואים את הדז’ה-וו? בואו נסיים את זה באותו האופן: נגדיר \( \varepsilon=c-b \) ונמצא \( N \) עבורו \( b_{N}-a_{N}<\varepsilon \) ועכשיו תראו מה קרה: \( a_{N}\le b<c<b_{N} \) כשאי השוויון הראשון נובע מכך ש-\( b \) הוא חסם מלעיל של \( A \) (גדול או שווה לכל אברי \( A \)) ואילו \( a_{N} \) אינו חסם מלעיל כזה (קיים איבר ב-\( A \) שגדול ממנו, ו-\( b \) גדול או שווה מאותו איבר). המסקנה מהשרשרת היא ש

\( \varepsilon=c-b<b_{N}-b\le b_{N}-a_{N}<\varepsilon \)

וזו סתירה. אז קיבלנו ש-\( c \) קטן מכל חסם מלעיל אחר של \( A \), ולכן הוא החסם מלעיל המינימלי, ולכן \( c=\sup A \). זה מסיים את החלק התיאורטי יותר בהוכחה ונשאר לעבור לחלק הקונקרטי - איך בונים בפועל סדרת קטעים \( \left[a_{n},b_{n}\right] \) כזו שעוטפת בצורה כל כך אפקטיבית את הקצה הימני של הקבוצה \( A \)? וכאן הארכימדיות הולכת לצוץ בכל הכוח כי בלעדיה יכול להיות חור עצום בין קבוצת האיברים ב-\( A \) וקבוצת החסמים מלעיל שלהם.

הרעיון הבסיסי הוא זה: בואו נחלק את כל ציר המספרים למקטעים באורכים קצרים - נאמר, \( \frac{1}{2} \). עכשיו נעבור על נקודות הקצה של המקטעים הללו: \( -\frac{1}{2},0,\frac{1}{2},1,\frac{3}{2},\ldots \). מתישהו יגיע הרגע הראשון שבו אנחנו עוברים את \( A \), כלומר מוצאים מספר \( \frac{k}{2} \) שהוא חסם מלעיל של \( A \) אבל \( \frac{k-1}{2} \) הוא לא חסם מלעיל של \( A \). כשזה קורה, נסמן \( a_{1}=\frac{k-1}{2} \) ו-\( b_{1}=\frac{k}{2} \).

איך נגדיר עכשיו את \( a_{2},b_{2} \)? כדאי לחלק את העולם לחלקים עוד יותר קטנים, כי ככל שאנחנו מקטינים את העולם ככה הדיוק שלנו משתפר. אבל צריך להיות זהירים מאוד כאן: אם למשל אני אחלק את העולם לשלישים, \( -\frac{1}{3},0,\frac{1}{3},\frac{2}{3},\ldots \), נקודות הקצה ממש לא בהכרח יהיו שיפור ביחס לקודם. למשל, אם הסופרמום של \( A \) הוא \( \frac{1}{2} \) אז נקבל \( a_{1}=0,b_{1}=\frac{1}{2} \) אבל \( a_{2}=\frac{1}{3},b_{2}=\frac{2}{3} \). במקרה הזה אמנם \( a_{1}<a_{2} \) כפי שהיינו רוצים שיקרה (כי אנחנו רוצים שיתקיים \( \left[a_{1},b_{1}\right]\supseteq\left[a_{2},b_{2}\right] \)) אבל ממש לא מתקיים \( b_{2}<b_{1} \). אז לא מספיק להגדיל את המכנה - צריך להגדיל אותו בצורה שבעצם לוקחת את החלוקה הקודמת ומחלקת אותה עוד קצת. אם קודם חילקנו לקטעים באורך \( \frac{1}{2} \), עכשיו משתלם לחלק לקטעים באורך \( \frac{1}{4} \), וכן הלאה: באופן כללי נחלק לקטעים באורך \( \frac{1}{2^{n}} \).

אם כן, הבניה שלי תהיה כזו: לכל \( n\ge1 \) אני אמצא מספר שלם \( k_{n} \) שהוא המספר השלם המינימלי עבורו \( \frac{k_{n}}{2^{n}} \) הוא חסם מלעיל של \( A \) - כלומר, כך ש-\( \frac{k_{n}}{2^{n}} \) הוא חסם מלעיל של \( A \) אבל \( \frac{k_{n}-1}{2^{n}} \) אינו חסם מלעיל של \( A \) (אני כמובן אצטרך להוכיח שקיים \( k_{n} \) כזה) ואז אגדיר \( a_{n}=\frac{k_{n}-1}{2^{n}} \) ו-\( b_{n}=\frac{k_{n}}{2^{n}} \).

תחת ההגדרה הזו, \( b_{n}-a_{n}=\frac{k_{n}-\left(k_{n}-1\right)}{2^{n}}=\frac{1}{2^{n}} \) ולכן \( \lim_{n\to\infty}\left(b_{n}-a_{n}\right)=0 \) וזה אחד משני הדברים שרצינו עבור תנאי משפט החיתוך של קנטור. הדבר השני שאנחנו צריכים להוכיח הוא \( \left[a_{n},b_{n}\right]\supseteq\left[a_{n+1},b_{n+1}\right] \).

ראשית, להוכיח ש-\( b_{n+1}\le b_{n} \) יהיה קל יחסית. נסתכל על \( b_{n}=\frac{k_{n}}{2^{n}} \) ונכפול ונחלק את זה ב-2, כלומר

\( b_{n}=\frac{k_{n}}{2^{n}}=\frac{2k_{n}}{2^{k+1}} \)

המכנה עכשיו הוא מה שאנחנו מחפשים. המונה? ובכן, תזכרו שאנחנו לוקחים את \( k_{n+1} \) להיות המספר הקטן ביותר עבורו \( \frac{k_{n+1}}{2^{n+1}} \) הוא חסם מלעיל של \( A \) אבל \( \frac{k_{n+1}-1}{2^{n+1}} \) לא. ואנחנו כבר יודעים ש-\( b_{n} \) הוא חסם מלעיל של \( A \), ולכן \( k_{n+1}\le2k_{n} \), כלומר קיבלנו

\( b_{n+1}=\frac{k_{n+1}}{2^{n+1}}\le\frac{2k_{n}}{2^{n+1}}=b_{n} \)

יהיה קצת יותר טריקי להראות ש-\( a_{n}\le a_{n+1} \), כלומר להראות ש-\( \frac{k_{n}-1}{2^{n}}\le\frac{k_{n+1}-1}{2^{n+1}} \). נכפול את שני האגפים ב-\( 2^{n+1} \) ונקבל שמספיק להראות \( 2\left(k_{n}-1\right)\le k_{n+1}-1 \), ואחרי העברת אגפים נקבל שמספיק להראות \( 2k_{n}-1\le k_{n+1} \).

כדי לראות את זה, בואו נסתכל על \( 2k_{n}-2 \). כזכור, בחרנו את \( k_{n} \) כך ש-\( \frac{k_{n}}{2^{n}} \) הוא חסם מלעיל של \( A \) אבל \( \frac{k_{n}-1}{2^{n}} \) אינו חסם מלעיל שכזה. אם נכפול מונה ומכנה ב-2 נקבל ש-\( \frac{2k_{n}-2}{2^{n+1}} \) אינו חסם מלעיל של \( A \). אנחנו יודעים ש-\( \frac{k_{n+1}}{2^{n+1}} \) הוא כן חסם מלעיל של \( A \) ולכן \( 2k_{n}-2<k_{n+1} \), ומכיוון שבשני האגפים יש מספרים שלמים, הוספת 1 לאגף שמאל יכולה לכל היותר להפוך את אי השוויון לשוויון, אגף שמאל לא יכול להפוך לגדול יותר מאגף ימין. לכן \( 2k_{n}-1\le k_{n+1} \), כפי שרצינו.

כל מה שנשאר לנו לעשות הוא להסביר איך עושים את זה: לכל \( n \), למצוא מספר שלם \( k_{n} \) כך ש-\( \frac{k_{n}}{2^{n}} \) הוא חסם מלעיל של \( A \) אבל \( \frac{k_{n}-1}{2^{n}} \) אינו חסם מלעיל של \( A \).

הנתון שלנו הוא ש-\( A \) היא קבוצה לא ריקה וחסומה. מכך שהיא לא ריקה נסיק שיש \( x\in A \) כלשהו. מכך שהיא חסומה נסיק קיים מספר \( M\in\mathbb{F} \) שהוא חסם מלעיל של \( A \).

עכשיו הגיע הזמן להשתמש בארכימדיות. אני אצטט את אחד מהניסוחים של ארכימדיות שנתתי בפוסט הקודם:

“עוד דרך לחשוב על זה, שאני אוהב במיוחד, היא זו: בואו ניקח \( \varepsilon>0 \) כלשהו, כשהאינטואיציה היא לחשוב על \( \varepsilon \) בתור משהו ממש ממש קטן (זה השימוש הסטנדרטי של האות הזו בחדו”א). בואו ניקח גם \( M>0 \) כלשהו, כשהאינטואיציה היא לחשוב עליו בתור מספר ממש ממש ענק. אז ארכימדיות פירושה שקיים \( n \) כך ש-\( n>\frac{M}{\varepsilon} \), או במילים אחרות \( n\varepsilon>M \). זה אומר שלא משנה עד כמה משהו קטן - אם אנחנו בשדה ארכימדי, לחבר אותו מספר פעמים לעצמו יגרום לו לעבור בגודלו כל מספר כולל ענקיים.”

אוקיי, “מספר ענק” \( M \) כבר יש לנו - זה החסם מלעיל של \( A \). המספר הקטן שלנו יהיה \( \varepsilon=\frac{1}{2^{n}} \), והארכימדיות תיתן לנו מספר שלם \( T \) כך ש-\( \frac{T}{2^{n}}>M \) - כלומר, קיבלנו שקיים חסם מלעיל של \( A \) שהוא מהצורה \( \frac{T}{2^{n}} \) כאשר \( T \) שלם. הרעיון הוא שעכשיו אפשר להתחיל “ללכת אחורה” מה-\( T \) הזה עד שמוצאים את הערך המינימלי שעדיין נשאר חסם מלעיל, אבל בשביל זה צריך כמובן להשתכנע שאם נלך מספיק אחורה באמת נגיע למצב שבו האיברים שלנו הם כבר לא חסמים מלעיל. כאן נזדקק ל-\( x\in A \) שמצאנו, ולתכונה הארכימדית פעם נוספת.

מה שהייתי רוצה למצוא הוא \( S \) שלם כך ש-\( \frac{S}{2^{n}}<x \), כי אז \( \frac{S}{2^{n}} \) הוא בודאות לא חסם מלעיל של \( A \). אבל איך מוצאים את זה עם ארכימדיות, שנותנת לנו משהו גדול יותר? בפוסט הקודם אמרנו שזו לא בעיה כי עושים טריק של כפל ב-\( -1 \), אז בואו נעשה טריק של כפל ב-\( -1 \): נשתמש בארכימדיות כדי למצוא \( R \) שלם כך ש-\( -x<\frac{R}{2^{n}} \), ואז נכפול את שני האגפים ב-\( -1 \), נסמן \( S=-R \) ונקבל שמצאנו \( S \) שלם כך ש-\( \frac{S}{2^{n}}<x \).

עכשיו סיימנו: קיבלנו את הסדרה הסופית \( S,S+1,S+2,\ldots,T \) שהאיבר הראשון בה לא נותן חסם מלעיל של \( A \) והאיבר האחרון בה כן נותן חסם מלעיל כזה, אז פשוט ניקח את \( k_{n} \) להיות האיבר המינימלי בסדרה שנותן חסם מלעיל. הוא בודאות קיים (כי זו סדרה סופית, ויש לפחות איבר אחד בסדרה שמקיים את הקריטריון הזה) והוא בודאות גדול מ-\( S \) ולכן \( k_{n}-1 \) הוא גם כן איבר בסדרה, והוא איבר שעבורו לא מתקבל חסם מלעיל של \( A \) - בדיוק מה שרצינו.

אם כן - סיימנו את ההוכחה, הבנו את הקשר בין שלמות-דדקינד ושלמות-קנטור, ועכשיו נשאר לנו רק דבר אחד: להראות את הבניות של קנטור ודדקינד ואיך הן שתיהן נותנות לנו את \( \mathbb{R} \).

אז מה זה בעצם המספרים הממשיים? (חלק ב’: השדה הסדור השלם)

2024-08-31T00:00:00+00:00

מבוא

בפוסט הקודם התחלתי לדבר על המספרים הממשיים ומה הם בכלל. הראיתי את ההגדרה הנפוצה, שרובנו מכירים עוד מבית הספר, של מספר ממשי בתור משהו שיש לו פיתוח עשרוני, נאמר \( 3.14159\ldots \). ההגדרה הזו בעצם מגדירה את המספרים הממשיים על ידי כך שהיא מדברת על האופן שבו מספר ממשי קונקרטי בנוי; אין כאן ממש התייחסות לקבוצה של כל המספרים הממשיים.

חוץ מזה, אמרתי שההגדרה בעייתית כי את רוב המספרים הממשיים אי אפשר ממש לתאר בעולם האמיתי בעזרת פיתוח עשרוני כי לרובם המכריע אין פיתוח עשרוני שיש לנו דרך לחשב את הספרות שלו, או אפילו לתת להם הגדרה קונקרטית כלשהי - הממשיים היא קבוצה “גדולה מדי” בשביל זה. זה נותן מוטיבציה כלשהי לחיפוש אחרי הגדרה שמדברת לא על הממשי הקונקרטי אלא על המכלול שלהם, כל הקבוצה, מה בעצם הקטע שלה.

ועוד משהו בעייתי בהגדרה הזו היא שלא אמרתי בעצם מה אפשר לעשות עם המספרים הללו. מספרים הם משהו שקיים כדי שנוכל לעשות איתו דברים, ובפרט שנוכל לעשות דברים עם שני מספרים: לחבר, לחסר, להכפיל, לחלק, להשוות… אפשר לתת את ההגדרות הללו גם כשמגדירים ממשיים דרך פיתוח עשרוני, אבל זה מאלץ אותנו לנטוש את האינטואיציה הבית ספרית, ואני לא אעשה את זה כרגע.

במקום להמשיך בכיוון הזה, אני ארצה בפוסט הזה להציג את ההגדרה שאני אישית אוהב: המספרים הממשיים הם השדה הסדור השלם. כרגע אין סיבה שתבינו מה אף אחת מהמילים בהגדרה הזו אומרות, מתמטית; עד סוף הפוסט אני מקווה שנבין את כולן. אבל לפני שנתחיל צריך לתת הבהרה קטנה מה בעצם הולך בהגדרה הזו.

במתמטיקה, יש שתי דרכים מקובלות להגדיר אובייקט. דרך אחת היא לתאר במדויק מהו, כמו שעשיתי במקרה של הפיתוח העשרוני (“סדרה אינסופית של ספרות שכוללת נקודה ויכולה לכלול בהתחלה סימן מינוס”). דרך אחרת היא לתאר את האובייקט אקסיומטית. בצורה הזו לא אומרים במפורש מה האובייקט, אלא נותנים רשימה של תכונות שאנחנו מצפים שהאובייקט יקיים. התכונות הללו נקראות אקסיומות, אבל זה שונה מהשימוש במילה “אקסיומה” שהיוונים הקדמונים עשו או שאנחנו עושים בחיי היום יום. “אקסיומה” במובן היומיומי היא “משהו שאנחנו מניחים שהוא נכון בלי הוכחה”. במובן המתמטי שלנו, אקסיומה היא תכונה שיכולה להתקיים עבור אובייקטים מסויימים ולא להתקיים עבור אחרים - אנחנו נראה לזה הרבה דוגמאות עוד מעט.

מרגע שיש לנו אוסף של אקסיומות, אנחנו יכולים לדבר על האובייקטים שמקיימים את כל האקסיומות. ייתכן שיש המון כאלו, ייתכן שיש רק אובייקט אחד, וייתכן שאין בכלל. במקרה של הממשיים אפשר להראות שיש לכל היותר אובייקט אחד כזה, אבל זה בפני עצמו לא אומר שהוא קיים; בנוסף להגדרה האקסיומטית נצטרך גם לתת בניה קונקרטית של הממשיים. אי אפשר להתחמק מזה. אז למה אני אוהב את ההגדרה האקסיומטית? כי היא לטעמי מה שהכי עוזר לנו להבין מה זה בעצם הממשיים, ומה התכונות שלהם. בואו נתחיל ואני מקווה שזה יתבהר בהמשך.

שדה

חזרה לבית הספר היסודי

“שדה” זה השם המפוצץ שהמתמטיקה העניקה לקבוצה שמקיימת את מה שלמדנו בבית הספר היסודי שמספרים מקיימים: יש פעולות חיבור, חיסור, כפל וחילוק ויש את חוק הקיבוץ, חוק החילוף וחוק הפילוג. את כללי החשבון אני מניח שאנחנו זוכרים (אבל יש לי סדרת פוסטים עליהם אם לא) אבל בואו נכתוב את החוקים במפורש:

\( \left(a+b\right)+c=a+\left(b+c\right) \) (חוק הקיבוץ לחיבור)
\( \left(a\cdot b\right)\cdot c=a\cdot\left(b\cdot c\right) \) (חוק הקיבוץ לכפל)
\( a+b=b+a \) (חוק החילוף לחיבור)
\( a\cdot b=b\cdot a \) (חוק החילוף לכפל)
\( a\cdot\left(b+c\right)=a\cdot b+a\cdot c \) (חוק הפילוג).

כל החוקים הללו מתקיימים יפה מאוד כבר על ידי קבוצת המספרים הטבעיים, שמסומנת ב-\( \mathbb{N} \). אבל \( \mathbb{N} \) לא נקראת “שדה” כי יש דברים שחסרים. ספציפית, חיסור. החיסור חסר. אין ב-\( \mathbb{N} \) חיסור. או, ליתר דיוק, בוודאי שיש ב-\( \mathbb{N} \) חיסור, אבל הוא לא מוגדר עד הסוף כי אמנם \( 5-2=3 \) אבל לא ממש ברור מה זה \( 2-5 \) כל עוד “העולם” שלנו כולל רק את המספרים הטבעיים. אז אנחנו מרחיבים את \( \mathbb{N} \) ומוסיפים פנימה את המספרים השליליים ואת 0 (או ש-0 כבר היה ב-\( \mathbb{N} \), תלוי את מי שואלים) ומקבלים את הקבוצה \( \mathbb{Z} \). מה שנחמד ב-\( \mathbb{Z} \) הוא שהיא מקיימת את כל החוקים שכבר ראינו - כלומר, ההרחבה לא “עלתה” לנו באובדן של מבנה קיים, אבל אפשר לנסח בצורה נחמדה עוד חוקים בעזרתה:

קיים איבר שמסומן ב-0 כך ש-\( a+0=a \) לכל \( a \)
לכל \( a \) קיים איבר שמסומן ב-\( -a \) ונקרא הנגדי של \( a \) כך ש-\( a+\left(-a\right)=0 \)

בעזרת המושג הזה של “הנגדי” אפשר להגדיר חיסור בעזרת פעולת החיבור שכבר מוכרת לנו: \( a-b \) זה בעצם \( a+\left(-b\right) \), כלומר מחברים ל-\( a \) את הנגדי של \( b \). ואם אני כבר בקטע של שמות, אז ל-0 קוראים אדיש חיבורי בהקשר הזה, כי הוא לא משפיע על מי שמתחבר איתו.

מה שנחמד בשלמים ומה שלא

אני הולך להגדיר מושג שנקרא שדה אבל שווה לעצור לרגע ולהעיר שהאקסיומות שכבר ראינו משמשות גם להגדרת מבנים אלגבריים אחרים ש-\( \mathbb{Z} \) הוא דוגמא מרכזית אליהם. למשל, המבנה חבורה שדורש רק קיום של פעולה אחת - חיבור - ורק את חוק הקיבוץ, קיום 0 וקיום נגדי. או המבנה חוג שדורש קיום של חיבור וכפל ואת חוקי הקיבוץ וחוק הפילוג ואת קיום 0 וקיום נגדי ואת חוק החילוף לחיבור אבל לא את חוק החילוף לכפל. אני לא אזדקק למושגים הללו בהמשך אבל שווה היה לפחות להזכיר אותם.

עכשיו, האם השלמים \( \mathbb{Z} \) הם האובייקט היחיד שמקיים את כל התכונות שראינו עד כה או שיש אחרים? התשובה היא שבהחלט יש אחרים, למשל פולינומים. הנה למשל פעולת הכפל של פולינומים: \( \left(x+3\right)\left(x+5\right)=x^{2}+8x+15 \). קל לראות שכל התכונות שתיארתי עד כה מתקיימות גם עבור פולינומים (והדמיון שלהם ל-\( \mathbb{Z} \) הוא למעשה גדול עד להפתיע אבל לא ניכנס לזה).

מה בכל זאת חסר ב-\( \mathbb{Z} \) שמדרבן אותנו להמשיך הלאה? חילוק. מכיוון שחילוק הוא סוג של הפעולה ההפוכה לכפל, אפשר לקוות להגדרה שלו שתהיה דומה למה שהלך במקרה של חיבור: קודם נגדיר “אדיש כפלי”, כזה שכפל בו לא משנה את התוצאה (מי זה כבר יכול להיות? נו, 1 כמובן). אחר כך נגדיר “נגדי כפלי” (אני פשוט אקרא לזה הופכי) שכפל בו מחזיר 1; ולבסוף, נגדיר חילוק במישהו בתור כפל בהופכי שלו. זה עובד לא רע, חוץ מבעיה קטנה אחת: אין ל-\( 0 \) הופכי כי לא יכול להיות איבר שמכפלה שלו ב-0 מחזירה את \( 1 \). הראיתי את זה ממש לא מזמן בפוסט שלי על כך שמותר לחלק באפס בכל מני סיטואציות; ובכן עכשיו זו לגמרי לא אחת מאותן סיטואציות.

בואו ניזכר איך ההוכחה הלכה. הסתכלתי על הביטוי \( a\cdot0 \) ואז השתמשתי בכך ש-\( 0=0+0 \) (כי הוא אדיש חיבורי) ולכן, על פי חוק הפילוג

\( a\cdot0=a\cdot\left(0+0\right)=a\cdot0+a\cdot0 \)

עכשיו חיסרתי את \( a\cdot0 \) משני האגפים - כלומר, חיברתי את הנגדי של \( a\cdot0 \) לשני האגפים (קיים כזה כי הנחנו שיש נגדי לכל איבר בקבוצה שלנו). כתוצאה מזה קיבלתי \( 0=a\cdot0 \), כלומר לא משנה באיזה איבר אני כופל את \( 0 \), אני אקבל 0. אבל הרי \( 0\ne1 \) ולכן לא קיים \( a \) כך ש-\( a\cdot0=1 \).

אלא אם כן באמת מתקיים \( 0=1 \). אבל אם היה מתקיים \( 0=1 \) אז על ידי כפל ב-\( a \) בשני האגפים היינו מקבלים \( 0=a \), כלומר הדרך היחידה שבה יתקיים \( 0=1 \) תהיה אם כל הקבוצה שלנו תהיה רק \( \left\{ 0\right\} \) ותו לא.

יודעים מה מעליב? שהקבוצה \( \left\{ 0\right\} \) באמת מקיימת את כל הדרישות שכתבתי עד כה. והיא תקיים גם את הבאות בתור אם אני לא אדרוש במפורש \( 0\ne1 \), אז אני אדרוש את זה במפורש, ופשוט אגדיר הופכי לכל מי שאיננו 0:

קיים איבר שמסומן ב-\( 1 \) כך ש-\( 0\ne1 \) ו-\( a\cdot1=a \) לכל \( a \)
לכל \( a\ne0 \) קיים איבר שמסומן ב-\( a^{-1} \) ונקרא ההופכי של \( a \) כך ש-\( a\cdot a^{-1}=1 \)

המספרים השלמים \( \mathbb{Z} \) אמנם מקיימים את הדרישה על 1, אבל הם לא מקיימים את הדרישה על קיום הופכי. שני המספרים היחידים ב-\( \mathbb{Z} \) שיש להם הופכי הם 1 ו-\( -1 \); אצל שניהם הם ההופכיים של עצמם אבל באופן כללי זה לא חייב להיות ככה, כמובן.

הרציונליים נכנסים לתמונה

כדי לקבל מ-\( \mathbb{Z} \) קבוצה שיש בה הופכי לכל מי ששונה מאפס, אנחנו מכניסים לתמונה שברים, מספרים מהצורה \( \frac{a}{b} \) כך ש-\( b\ne0 \), עם כללי חיבור וכפל שמכלילים את מה שאנחנו מכירים ממספרים שלמים:

\( \frac{a}{b}+\frac{c}{d}=\frac{ad+bc}{bd} \)
\( \frac{a}{b}\cdot\frac{c}{d}=\frac{ac}{bd} \)

זה לא לגמרי מובן מאליו שכל התכונות שכבר ראינו עדיין מתקיימות תחת הכללים החדשים הללו, אבל לא כזה קשה לבדוק את זה. התוצאה שמתקבלת מסומנת ב-\( \mathbb{Q} \) ואנחנו קוראים לה בדרך כל המספרים הרציונליים. אם אני רוצה לבנות פורמלית את \( \mathbb{Q} \) (מה שאני לא עושה כאן) אני צריך קצת להיזהר כי למשל \( \frac{1}{2}=\frac{2}{4} \); אבל בפוסט הזה הגישה שלי היא לא לבנות שום דבר אלא רק לדבר על האקסיומות, ולראות אילו אובייקטים מקיימים אותן. והאקסיומות שתיארתי עד כה הן סוף הדרך מבחינת ההגדרה של מה זה שדה, והמספרים הרציונליים הם סוג של השדה הכי פשוט שקיים (אבל חכו עוד שניה עם זה). כדי לחדד את ההגדרה, בואו נאסוף את מה שפיזרתי לאורך החלק הזה

שדה הוא קבוצה \( F \) עם שתי פעולות בינאריות “חיבור” \( + \) ו”כפל” \( \cdot \) (פעולה בינארית היא פונקציה שמקבלת זוג איברים מ-\( F \) ומחזירה איבר ב-\( F \)) שמקיימת את התכונות הבאות:

\( \left(a+b\right)+c=a+\left(b+c\right) \)
\( \left(a\cdot b\right)\cdot c=a\cdot\left(b\cdot c\right) \)
\( a+b=b+a \)
\( a\cdot b=b\cdot a \)
\( a\cdot\left(b+c\right)=a\cdot b+a\cdot c \)
קיים איבר שמסומן ב-0 כך ש-\( a+0=a \) לכל \( a \)
לכל \( a \) קיים איבר שמסומן ב-\( -a \) ונקרא הנגדי של \( a \) כך ש-\( a+\left(-a\right)=0 \)
קיים איבר שמסומן ב-\( 1 \) כך ש-\( 0\ne1 \) ו-\( a\cdot1=a \) לכל \( a \)
לכל \( a\ne0 \) קיים איבר שמסומן ב-\( a^{-1} \) ונקרא ההופכי של \( a \) כך ש-\( a\cdot a^{-1}=1 \)

תשע האקסיומות הללו הן כל מה שיש; מתוכן אפשר להסיק כללים אחרים שמוכרים לנו, כמו למשל הכלל שכפל של משהו ב-0 תמיד מחזיר 0.

בואו נוכיח עוד תכונה לדוגמא: שהאדיש החיבורי הוא יחיד. כלומר שאין איזה איבר \( 0^{\prime}\ne0 \) כך ש-\( a+0^{\prime}=a \) לכל \( a \). ההוכחה היא די טריוויאלית, כי אם נניח שיש \( 0^{\prime} \) כך ש-\( a+0^{\prime}=a \) לכל \( a \) אז זה בפרט נכון עבור \( a=0 \), ואז \( 0+0^{\prime}=0 \) (כי \( 0^{\prime} \) אדיש) אבל גם \( 0+0^{\prime}=0^{\prime} \) (כי \( 0 \) אדיש) וקיבלנו \( 0=0^{\prime} \).

הנה משהו יותר טריקי באותה רוח: אני רוצה להראות שלא סתם אין אדיש נוסף, אלא שאפילו אם נבחר איבר \( a \) ספציפי כלשהו, אין מישהו נוסף שמשמש כאדיש עבורו. כלומר, אם \( x \) הוא איבר כלשהו כך ש-\( a+x=a \) אז \( x=0 \). על פניו גם זה טריוויאלי: בואו פשוט נעביר את \( a \) אגף ונקבל \( x=0 \). אבל בואו נעשה את זה לאט, כדי שנבין באילו כללים אנחנו משתמשים:

\( a+x=a \) (זו נקודת המוצא שלנו)

\( -a+\left(a+x\right)=-a+a \) (חיברנו \( -a \) לשני האגפים; שימו לב ששמתי סוגריים על \( a+x \) מאגף שמאל כדי להדגיש שפעולת החיבור שלהם “מתבצעת קודם”)

\( \left(-a+a\right)+x=-a+a \) (על אגף שמאל השתמשתי בחוק הקיבוץ לחיבור)

\( \left(a+\left(-a\right)\right)+x=a+\left(-a\right) \) (על שני האגפים השתמשתי בחוק החילוף לחיבור)

\( 0+x=0 \) (השתמשתי בכך שאיבר ועוד הנגדי שלו זה 0)

\( x+0=0 \) (עוד שימוש בחוק החילוף לחיבור)

\( x=0 \) (סיימנו)

שימו לב לרמת הפדנטיות שלי: אני לא אומר \( 0+x=x \) ישירות, כי בניסוח שלי של מהו 0 אמרתי רק ש-\( a+0=a \) לכל \( a \). הסיבה לכך שהגדרתי 0 ככה היא שידעתי שיהיה לי את חוק החילוף; אם חוק החילוף לא היה מובטח לי, הייתי מגדיר את האדיש בתור מישהו שמקיים \( a+0=0+a=a \) (ואכן, אם תסכלו בהגדרות של תורת החבורות, איפה שכללי החילוף לא מובטחים, כך מגדירים).

הנה עוד משהו באותו רוח - לכל \( a \), הנגדי של \( a \) הוא יחיד. כלומר אם \( a+x=0 \) וגם \( a+y=0 \) אז \( x=y \). את זה קל למדי להראות: מכך ש-\( a+x=0=a+y \) נסיק \( a+x=a+y \) ועכשיו נחבר את \( -a \) לשני האגפים, נשתמש בחוק הקיבוץ ונקבל \( x=y \).

בעזרת יחידות הנגדי אני אוכיח עוד תכונה מעניינת במיוחד: \( \left(-a\right)\cdot\left(-b\right)=ab \), כלומר “מינוס כפול מינוס זה פלוס”. יש לי פוסט שמנסה להסביר את האינטואיציה מאחורי זה, אבל עכשיו אנחנו לא זקוקים לאינטואיציה - יש לנו אקסיומות ואפשר להוכיח מהן דברים.

ראשית, בואו נראה ש-\( -a=\left(-1\right)\cdot a \). במילים: הנגדי של \( a \) שווה לנגדי של 1 כפול \( a \). כדי להראות את זה בואו נסתכל על הסכום \( \left(-1\right)\cdot a+a \). נשתמש בחוק הפילוג ונקבל

\( \left(-1\right)\cdot a+a=\left(-1+1\right)\cdot a=0\cdot a=0 \)

ולכן קיבלנו ש-\( \left(-1\right)\cdot a \) הוא באמת הנגדי של \( a \), תוך שאנחנו משתמשים במובלע בזה שהנגדי הוא יחיד.

עוד דוגמאות לשדות ובפרט שדות סופיים

עכשיו בואו נדבר על עוד שדות. מבית הספר אנחנו מכירים את הממשיים \( \mathbb{R} \) שמכילים את \( \mathbb{Q} \), ואולי מכירים גם את המרוכבים \( \mathbb{C} \) שמכילים את \( \mathbb{R} \): כולם שדות, אבל מכיוון שאני מנסה בפוסטים הללו להגדיר את \( \mathbb{R} \) אולי לא נלך לכיוון של הדוגמאות האלו. האם יש עוד דברים? האמת היא שיש המון שדות. הנה דוגמא פשוטה: אנחנו יודעים ששורש 2 הוא לא מספר רציונלי, מה שמסומן ב-\( \sqrt{2}\notin\mathbb{Q} \) (יש לי הסבר כאן). אז אני יכול “לצרף” אותו ל-\( \mathbb{Q} \) במובן הבא: אני יוצר קבוצה \( \mathbb{Q}\left(\sqrt{2}\right)=\left\{ a+b\sqrt{2}\ |\ a,b\in\mathbb{Q}\right\} \). איברים טיפוסיים של הקבוצה הם \( \sqrt{2} \) ו-\( 3-5\sqrt{2} \) וגם \( 17 \). עכשיו, פעולות החיבור והכפל של איברים בקבוצה יתנהגו באופן המתבקש:

\( \left(a+b\sqrt{2}\right)+\left(c+d\sqrt{2}\right)=\left(a+c\right)+\left(b+d\right)\sqrt{2} \)
\( \left(a+b\sqrt{2}\right)\cdot\left(c+d\sqrt{2}\right)=\left(ac+2bd\right)+\left(bc+ad\right)\sqrt{2} \)

לא קשה לראות שתחת ההגדרות הללו, קיבלנו ש-\( \mathbb{Q}\left(\sqrt{2}\right) \) היא שדה. מכיוון שאפשר היה לעשות את המשחק הזה עם כל שורש של כל מספר רציונלי (וגם עם מספרים טיפה יותר מסובכים) אנחנו מקבלים פה בעצם עושר אדיר של שדות. יש תחום שלם - תורת השדות - שמתעסק בשדות הללו ובבלאגן העצום שלהם; זה התחום שבו מוכיחים שלבעיות הבניה בסרגל ומחוגה של היוונים הקדמונים אין פתרון, ושאין נוסחה לפתרון משוואה ממעלה חמישית ומעלה, אבל אני לא אדבר על זה כאן (והמתמטיקה המעורבת היא מסובכת יחסית, אם כי עדיין ברמה של תואר ראשון).

בואו נעבור לראות עוד שדות, פשוטים יותר. קודם ראינו שבאופן מעליב משהו, הקבוצה \( \left\{ 0\right\} \) היא כמעט שדה - הסיבה היחידה שהיא לא הייתה שדה היא הדרישה המפורשת שלנו ש-\( 0\ne1 \). אם כן, מה עם \( \left\{ 0,1\right\} \)? האם הקבוצה הזו היא כן שדה? לכאורה לא, כי פעולת החיבור מוציאה אותנו מגבולות השדה: \( 1+1=2 \). אבל נניח שהיינו רוצים שהקבוצה הזו תהיה שדה, איך היינו צריכים “לתקן” את פעולת החיבור? ובכן, אפשר להגדיר או \( 1+1=1 \) או \( 1+1=0 \). אבל ההגדרה הראשונה מובילה, אחרי העברת אגפים אל \( 1=0 \) שכבר אמרנו שאסור. לעומת זאת ההגדרה \( 1+1=0 \) היא מצוינת; היא לא גורמת לשום בעיות. עם ההגדרה הזו, \( \left\{ 0,1\right\} \) היא באמת שדה, שבדרך כלל מסומן בתור \( \mathbb{Z}_{2} \) או \( \mathbb{F}_{2} \) ותכף נבין את הניואנס שמבדיל בין הסימונים.

אם כן, \( \mathbb{F}_{2} \) הוא השדה הזעיר ביותר שקיים. בפרט יש בו מספר סופי של איברים, להבדיל מ-\( \mathbb{Q} \) האינסופי. האם יש עוד שדות שדומים ל-\( \mathbb{F}_{2} \)? נראה די מתבקש להסתכל על הקבוצה \( \mathbb{Z}_{3}=\left\{ 0,1,2\right\} \). ושוב, אנחנו נתקלים בבעיה כשאנחנו מסתכלים על \( 1+1+1 \) שלא יכול להיות שווה 3. הוא גם לא יכול להיות שווה 1 כי מ-\( 1+1+1=1 \) נקבל \( 2=0 \) ואז אין לנו שלושה איברים; והוא לא יכול להיות 2 כי אז \( 1+1+1=2 \) יגרור \( 1=0 \) כמו קודם; לכן אנחנו מגדירים \( 1+1+1=0 \).

מההגדרה הזו עולה גם מה אמור לצאת \( 2\cdot2 \), כי הרי \( 2=1+1 \) אז אפשר להשתמש בחוק הפילוג ולקבל \( 2\cdot2=\left(1+1\right)\left(1+1\right)=1+1+1+1=1 \). מה שקורה כאן בפועל הוא שב-\( \mathbb{Z}_{3} \) אנחנו נדחפים להגדיר את פעולות החיבור והכפל מודולו 3. כלומר - מבצעים חיבור או כפל רגילים, אבל אחר כך מחלקים את התוצאה ב-3 ולוקחים רק את השארית. בגלל ש-\( 1+1+1 \) מתחלק ב-3, השארית יוצאת 0 ולכן אנחנו מקבלים את השוויון \( 1+1+1=0 \) שממנו אפשר להסיק גם במקרה של \( 2\cdot2 \). עם ההגדרות הללו, \( \mathbb{Z}_{3} \) היא באמת שדה, שמסומן \( \mathbb{F}_{3} \).

את הרעיון הזה אפשר להכליל לכל מספר טבעי \( n \): מסמנים ב-\( \mathbb{Z}_{n} \) את הקבוצה \( \left\{ 0,1,2,\ldots,n-1\right\} \) של כל המספרים הטבעיים מאפס עד \( n-1 \); אם חושבים על זה רגע, זו קבוצת כל השאריות האפשריות שמתקבלות כשמחלקים מספר טבעי כלשהו ב-\( n \). פעולות החיבור והכפל מוגדרות על הקבוצה הזו כמו על מספרים טבעיים רגילים, אבל אחרי קבלת התוצאה מחלקים ב-\( n \) ולוקחים את השארית. לא קשה לראות ש-\( \mathbb{Z}_{n} \) הזו מקיימת את רוב התכונות היפות שדיברנו עליהן: חוקי הקיבוץ, החילוף והפילוג; קיום אדיש חיבורי (0) וקיום נגדי לכל איבר (הנגדי של \( a\ne0 \) הוא \( n-a \) והנגדי של 0 הוא 0); וקיום אדיש כפלי (1). אבל \( \mathbb{Z}_{n} \) הוא לא בהכרח שדה, והדוגמא הראשונה היא \( \mathbb{Z}_{4} \).

הבעיה הבסיסית ב-\( \mathbb{Z}_{4} \) היא ש-\( 2\cdot2=0 \), מה שמבטיח של-\( 2 \) לא יכול להיות הופכי, כי נניח שהיה \( x \) כלשהו כך ש-\( 2x=1 \), אז היינו כופלים את \( 2\cdot2=0 \) ב-\( x \) משני האגפים ומקבלים

\( 0=0\cdot x=2\cdot2x=2 \)

כלומר \( 0=2 \), מה שאנחנו מניחים שלא מתקיים. זו תוצאה שנכונה לא ל-2 אלא באופן כללי במבנה שקראתי לו חוג: אומרים ש-\( a,b \) הם מחלקי אפס אם \( ab=0 \) למרות ש-\( a\ne0 \) וגם \( b\ne0 \), ואפשר להוכיח בדיוק באותו אופן שראינו שמחלקי אפס לא יכולים להיות הפיכים.

כדי ש-\( \mathbb{Z}_{n} \) יהיה שדה, הכרחי שלא יהיו בו מחלקי אפס. מכיוון שאם יש \( a,b>0 \) כך ש-\( n=ab \) אז \( a,b \) כן יהיו מחלקי אפס, תנאי הכרחי לכך ש-\( \mathbb{Z}_{n} \) יהיה שדה הוא ש-\( n \) יהיה ראשוני. לא קשה להראות שזה גם תנאי מספיק, כלומר שאם \( p \) ראשוני אז \( \mathbb{Z}_{p} \) הוא שדה, ובמקרה הזה מסמנים את השדה ב-\( \mathbb{F}_{p} \). הנה הניואנס המדובר: \( \mathbb{Z}_{n} \) הוא סימון כללי עבור החוג שמשתמשים בו גם כשהחוג אינו שדה, אבל ב-\( \mathbb{F}_{n} \) משתמשים רק כשהוא שדה.

אם כן, קיבלנו עכשיו עושר של שדות חדשים: \( \mathbb{F}_{p} \) לכל אחד מאינסוף הראשוניים \( p \) הקיימים. בניגוד ל-\( \mathbb{Q} \) כל השדות הללו הם סופיים. האם אלו כל השדות הסופיים? ובכן, לא, אבל זו נקודת התחלה טובה. אפשר להוכיח שלכל מספר ראשוני \( p \) ולכל מספר טבעי \( n \) קיים שדה אחד ויחיד עם \( p^{n} \) איברים, שמסומן \( \mathbb{F}_{p^{n}} \), והשדה הזה מכיל את \( \mathbb{F}_{p} \) בתור תת-קבוצה.

איך בדיוק \( \mathbb{F}_{p^{n}} \) נראה? זה טיפה טריקי: אפשר לחשוב על אברי \( \mathbb{F}_{p^{n}} \) בתור פולינומים ממעלה קטנה מ-\( n \) שהמקדמים שלהם שייכים ל-\( \mathbb{F}_{p} \), למשל אפשר לחשוב על אברי \( \mathbb{F}_{7^{3}} \) בתור פולינומים כמו \( 2x+5 \) ו-\( 6x^{2}+2 \) ופעולת החיבור מוגדרת באופן הסטנדרטי עבור פולינומים, כך שבדוגמא שלי \( \left(6x^{2}+2\right)+\left(2x+5\right)=6x^{2}+2x+7=6x^{2}+2x \) (ה-\( 7 \) נעלם כי החיבור הוא מודולו 7 כי המקדמים של הפולינום הם איברים של \( \mathbb{F}_{7} \)). אבל כפל הוא לא כזה פשוט. הרעיון הוא שכופלים את הפולינומים, ואז מחלקים את התוצאה בפולינום ספציפי ממעלה \( n \) מעל \( \mathbb{F}_{p} \) שנבחר מראש. כדי שזה יעבוד ונקבל שדה הפולינום הזה צריך להיות אי פריק אבל אני גולש פה כבר לנושא לא קשור - הנה פוסט שלי שמתעסק בשדות סופיים ונכנס לפרטים הללו.

לסיום, בואו נעניק שם מפורש למושג המובלע שהשתמשנו בו בחלק הזה. אנחנו אומרים שהמציין של השדה \( \mathbb{F} \) הוא \( n \) אם לחבר את 1 לעצמו \( n \) פעמים מחזיר 0 אבל כל חיבור של 1 לעצמו מספר קטן יותר של פעמים הוא לא 0. למשל, המציין של \( \mathbb{F}_{7} \) הוא 7. כבר ראינו שהמציין של שדה חייב להיות מספר ראשוני, אם הוא קיים; אם לא משנה כמה פעמים נחבר את 1 לעצמו, תמיד נקבל משהו שונה מאפס, אומרים שהמציין של השדה הוא 0 (למשל, המציין של \( \mathbb{Q} \) הוא 0).

עכשיו כשאנחנו כבר מבינים פחות או יותר מה זה שדה, מה מפריד שדות מדברים דומים שאינם שדות, ויש לנו כמה דוגמאות קונקרטיות לשדות ובפרט \( \mathbb{Q} \) והשדות \( \mathbb{F}_{p} \), אפשר להתקדם הלאה ולעבור אל עוד אקסיומות שאפשר להוסיף לשדה והן פחות נפוצות באלגברה אבל סופר-שימושיות בחשבון דיפרנציאלי ואינטגרלי: אקסיומות סדר.

סדור

מה זה "מספר חיובי"?

כשאנחנו כותבים \( 3<5 \) אנחנו יודעים למה אנחנו מתכוונים: 5 גדול מ-3. הוא בא “אחריו” בסדר של המספרים. אנחנו הרי סופרים ככה: אחת, שתיים, שלוש, ארבע, חמש. שלוש בא קודם, חמש אחר כך, אז זה מסומן קומפקטית ב-\( 3<5 \). אז אינטואיציה יש, אבל איך מגדירים את זה פורמלית?

ההגדרה ה”סדרתית” לא תביא אותנו יותר מדי רחוק אם יש לנו שאיפות גדולות יותר מאשר לדבר על הטבעיים. אנחנו רוצים הגדרה שיהיה בה הגיון בהרבה שדות, למשל ב-\( \mathbb{Q} \). יש לנו את האינטואיציה לכך ש-\( \frac{1}{2}<\frac{3}{4} \), אבל איך זה מוגדר פורמלית? לנסות לסדר את השברים בסדרה כמו שעשינו עם הטבעיים זה כאב ראש שלא ייאמן (נסו!) אבל למרבה המזל יש לנו טריק פשוט מאוד: פשוט נסתכל על \( \frac{3}{4}-\frac{1}{2} \) ונשאל את עצמנו - האם זה מספר חיובי או שלילי?

כמובן, במבט ראשון לא פתרנו הרבה כי מה זה בכלל “מספר חיובי”? ההגדרה הפשוטה היא - מספר \( a \) הוא חיובי אם \( 0<a \), כלומר אני מגדיר חיוביים בעזרת הסימן \( < \) של “גדול מ-“. אבל היופי בעניין הוא שאני לא צריך את הסימן הזה כדי להגדיר חיובי. מלכתחילה אני קורא למספרים הטבעיים (בלי אפס) “החיוביים” ולנגדיים שלהם “השליליים”, אז אני יכול להתבסס על הדיכוטומיה הזו כדי להגדיר את \( < \) מלכתחילה.

זה נשמע קצת רעוע, אני מודה, אבל היופי פה שזה באמת עובד, וכדי לראות כמה טוב זה עובד אני אעשה את זה על שדה כללי, עם הגדרות אבסטרקטיות, ונראה כמה רחוק אפשר להגיע.

הרעיון הוא זה: נניח ש-\( \mathbb{F} \) הוא שדה כלשהו. עכשיו אנחנו מגדירים עליו מבנה חדש באמצעות קבוצה \( P\subseteq\mathbb{F} \) שאנחנו קוראים לאיברים שלה חיוביים. כדי שדברים יעבדו כמו שאנחנו מצפים, אנחנו דורשים שלוש אקסיומות מה”חיוביים” הללו:

לכל \( a\in\mathbb{F} \) בדיוק אחד מהבאים מתקיים: או ש-\( a\in P \), או ש-\( -a\in P \), או ש-\( a=0 \).
אם \( a,b\in P \) אז \( a+b\in P \)
אם \( a,b\in P \) אז \( a\cdot b\in P \)

זה הכל! האקסיומה הראשונה אומרת “כל איבר שונה מאפס הוא או חיובי או שלילי”. שתי האחרות אומרות “סכום ומכפלה של חיוביים הוא חיובי”. אלו בבירור תכונות שאנחנו מצפים מחיוביים לקיים ומתקיימות עבור \( \mathbb{N} \); מה שנראה קצת הזוי פה הוא שזה מספיק כדי להגדיר את יחס הסדר \( < \) ולהסיק את כל התכונות שלו, אבל למרבה השמחה זה בדיוק מה שקורה, ואנחנו קוראים בשם שדה סדור לשדה \( \mathbb{F} \) עם תת-קבוצה \( P \) שמקיימת את האקסיומות הללו.

בתור התחלה, בואו נשים לב ש-\( 1 \) הוא תמיד חיובי, לא משנה כמה מוזר ננסה ש-\( P \) תהיה. מכיוון ש-\( 0\ne1 \) יש ל-1 בדיוק שתי ברירות: או ש-\( 1\in P \) או ש-\( -1\in P \). אבל זכרו שראינו שמינוס כפול מינוס הוא פלוס (ואת זה ראינו עוד לפני שהתחלנו לדבר על חיוביים ושליליים!) אז אם \( -1\in P \), מהאקסיומה על כפל נקבל ש-\( 1=\left(-1\right)\cdot\left(-1\right)\in P \), בסתירה להנחה ש-\( -1\in P \). אז המסקנה שלנו היא ש-\( 1\in P \) ואילו \( -1\notin P \), כלומר 1 הוא תמיד חיובי ו-\( -1 \) הוא תמיד שלילי. עכשיו אפשר להשתמש בסגירות של \( P \) לחיבור כדי לקבל שבכל שדה סדור, כל האיברים מהצורה \( n \) (חיבור של \( 1 \) לעצמו \( n \) פעמים) הם חיוביים וכל האיברים מהצורה \( -n \) הם שליליים. במילים אחרות, כל שדה סדור ממציין 0 מכיל עותק של \( \mathbb{Z} \) ששומר על המשמעות המקורית של “חיוביים” ו”שליליים” ב-\( \mathbb{Z} \).

ההגדרה של \( P \) השתמשה בצורה מהותית באיברים נגדיים, אבל מה עם איברים הופכיים? אם \( a\in P \), האם גם \( a^{-1}\in P \)? התשובה חיובית. ראשית שימו לב ש-\( a^{-1} \) בכלל מוגדר; אם היה מתקיים \( a=0 \) הוא לא היה מוגדר, אבל \( a\in P \) ולכן \( a\ne0 \). שנית, בגלל ש-\( a^{-1}\ne0 \) מאותו נימוק, אז או ש-\( a^{-1}\in P \) או ש-\( -a^{-1}\in P \). בואו נניח בשלילה שדווקא המקרה השני מתקיים, אז בגלל שגם \( a\in P \) נקבל \( -1=\left(-a^{-1}\right)\cdot a\in P \) וזו סתירה, לכן \( a^{-1}\in P \).

התוצאה שזה עתה ראיתי מאפשרת לי לדבר על \( \mathbb{Q} \). כזכור, כל שדה ממציין 0 מכיל יותר מאשר עותק של \( \mathbb{Z} \) - הוא מכיל עותק של \( \mathbb{Q} \); האם גם בו נשמרת המשמעות המקורית של “חיוביים” ו”שליליים”? כל מספר רציונלי ניתן לכתיבה בתור \( \frac{a}{b} \), שזו דרך אחרת לכתוב את הביטוי \( a\cdot b^{-1} \) שמשתמש ישירות באקסיומות השדה. כך ש-\( b\ne0 \). אם \( a=0 \) אז \( \frac{a}{b}=0 \). אחרת, אם \( a\in P \) וגם \( b\in P \) אז \( b^{-1}\in P \) ממה שראינו ולכן \( ab^{-1}\in P \). באופן דומה, אם \( -a,-b\in P \) נקבל שוב \( \frac{a}{b}\in P \) ואילו אם \( a,-b\in P \) או \( -a,b\in P \) נקבל ש-\( -ab^{-1}\in P \) . זה תואם את המשמעות הרגילה של חיוביים והשליליים עבור הרציונליים.

מה עם שדות שהם לא ממציין 0, למשל \( \mathbb{F}_{5} \)? באופן די מובהק פשוט לא ניתן להגדיר עליהם סדר. כי אם \( \mathbb{F} \) הוא שדה ממציין \( n \), אז מצד אחד \( 1,n-1 \) שניהם חיוביים ממה שכבר ראינו, אבל אז גם \( 1+\left(n-1\right) \) צריך להיות חיובי - אבל הוא יוצא 0, ו-0 הוא לא חיובי. אז מלכתחילה כשאנחנו מדברים על “שדה סדור” אנחנו מתכוונים לשדה ממציין 0 (ובפרט, אין שדה סדור סופי).

איך מגדירים סדר וערך מוחלט בעזרת החיוביים

עכשיו בואו נשתמש בחיוביים והשליליים כדי להגדיר יחס סדר \( < \), ונעשה את זה על פי הרעיון האינטואיטיבי שכבר ראינו קודם: נאמר ש-\( a<b \) אם \( b-a\in P \). ונרחיב את הסימון כך ש-\( a\le b \) אם \( a<b \) או \( a=b \).

אנחנו רגילים לחשוב על \( \le \) בתור יחס סדר, כלומר משהו שמקיים שלוש אקסיומות משל עצמו:

\( a\le a \) לכל \( a \) ("רפלקסיביות")
אם \( a\le b \) וגם \( b\le a \) אז \( a=b \) ("אנטיסימטריות")
אם \( a\le b \) וגם \( b\le c \) אז \( a\le c \) ("טרנזיטיביות")

אפשר להוכיח ש-\( \le \) שלנו מקיים את שלוש התכונות הללו.

רפלקסיביות זה פשוט על פי הגדרה: אמרנו שאם \( a=b \) אז \( a\le b \) אז ברור שלכל \( a \) מתקיים \( a\le a \).

אנטיסימטריות זה גם כן די פשוט. אם \( a=b \) סיימנו, אחרת נניח ש-\( a\ne b \) ולכן ההנחות שלנו הן ש-\( a<b \) וגם \( b<a \), כלומר על פי ההגדרה שלנו \( b-a\in P \) וגם \( a-b\in P \). עכשיו, שימו לב ש-\( a-b=-\left(b-a\right) \) (צריך להוכיח את זה מאקסיומות השדה אבל זה קל) אז הגענו לסתירה: מצאנו איבר שגם הוא וגם הנגדי שלו שייכים שניהם ל-\( P \), בסתירה לאקסיומה שאומרת שבדיוק אחד משניהם שייך ל-\( P \). המסקנה היא שההנחה ש-\( a\ne b \) לא הייתה נכונה ולכן \( a=b \), שזה מה שרצינו.

עבור הטרנזיטיביות, הנתון שלנו הוא \( a\le b \) וגם \( b\le c \). אם \( a=b \) אז מ-\( b\le c \) ברור ש-\( a\le c \) (פשוט כותבים \( a \) במקום \( b \)) ובדומה אם \( b=c \) אז מ-\( a\le b \) ברור ש-\( a\le c \). לכן נשאר לנו להוכיח רק שאם \( a<b \) וגם \( b<c \) אז \( a\le c \). משתי ההנחות הללו אנחנו מקבלים \( b-a\in P \) וגם \( c-b\in P \) ועל פי הסגירות של \( P \) לחיבור נקבל ש-\( c-a=\left(c-b\right)+\left(b-a\right)\in P \), כמו שרצינו.

בתורת הקבוצות כשמדברים על יחסי סדר, שלוש האקסיומות למעלה מגדירות את מה שנקרא סדר חלקי. בסדר חלקי, ייתכן שיהיו איברים שבכלל אי אפשר להשוות ביניהם, וזה יכול לסבך מאוד דברים. אצלנו, ביחס הסדר של שדה סדור, זה פשוט לא יכול לקרות ויחס הסדר יהיה מה שנקרא מלא, כלומר לכל \( a,b\in\mathbb{F} \) או שמתקיים \( a<b \) או שמתקיים \( b<a \) או שמתקיים \( a=b \). זה נובע ישירות מכך ש-\( b-a\in P \) או ש-\( -\left(b-a\right)\in P \) או ש-\( b-a=0 \), כלומר מהאקסיומה הראשונה שהייתה לנו על \( P \).

הוכחנו כאן ש-\( \le \) הוא יחס סדר כמו שלומדים בקורס בתורת הקבוצות, אבל למה לעצור כאן? בואו נוכיח את הטענות שראינו בבית הספר! למשל, שאם \( x<y \) ובנוסף \( a>0 \) אז \( ax<ay \). כדי להוכיח את זה, נסתכל על \( ay-ax=a\left(y-x\right) \). מכך ש-\( x<y \) אנחנו מקבלים ש-\( y-x\in P \) ומכך ש-\( a>0 \) אנחנו מקבלים ש-\( a\in P \) (כי \( a=a-0\in P \)) ולכן המכפלה שלהם גם שייכת ל-\( P \) וקיבלנו את מה שרצינו.

עוד דבר שראינו בבית הספר הוא שכפל במספר שלילי הופך את כיוון אי השוויון, כלומר אם \( x<y \) ו-\( a<0 \) אז \( ax>ay \). כדי להוכיח את זה, בואו נסתכל על \( ax-ay=a\left(x-y\right)=-a\left(y-x\right) \). מכיוון ש-\( x<y \) אז \( y-x\in P \) ומכיוון ש-\( a<0 \) אז \( -a\in P \) ולכן שוב קיבלנו מכפלה ששייכת ל-\( P \), כפי שרצינו.

ועוד דבר שראינו בבית הספר הוא שגם לקחת הופכי לשני האגפים של אי שוויון במספרים חיוביים הופך את כיוון אי השוויון. כלומר, אם \( 0<x<y \) אז \( x^{-1}>y^{-1} \). כדי לראות את זה, פשוט נכפול את שני האגפים של \( x<y \) ב-\( x^{-1} \) מצד שמאל ואז נכפול את שני האגפים ב-\( y^{-1} \) מצד ימין ונקבל \( y^{-1}<x^{-1} \). הכל מסתדר מאוד נחמד.

עוד משהו נחמד הוא שעכשיו אנחנו יכולים להגדיר ערך מוחלט. זו פונקציה קטנה ותמימה למראה שהופכת לקריטית ממש כשמתחילים לדבר על חשבון דיפרנציאלי ואינטגרלי, וקל להגדיר אותה בכל שדה סדור (אפשר להגדיר אותה גם בשדות לא סדורים אבל זה סיפור אחר). לכל \( x \) נגדיר

\( \left|x\right|=\begin{cases} x & x\ge0\\ -x & x<0 \end{cases} \)

ומה שנחמד לראות הוא שכבר בהגדרה האבסטרקטית הזו, מתקיימות התכונות הבסיסיות שאנחנו רגילים אליהן מערך מוחלט “רגיל” ואפשר להוכיח אותן מהכמות הבאמת זעומה של אקסיומות שעליהן הסתמכנו.

ראשית, אם \( x\ne0 \), אז גם \( \left|x\right|\ne0 \), פשוט כי אם \( x\ne0 \) אז \( \left|x\right| \) הוא או \( x \) או \( -x \) ושניהם שונים מאפס.

שנית, לכל \( x,y\in\mathbb{F} \) מתקיים \( \left|xy\right|=\left|x\right|\cdot\left|y\right| \), כלומר פונקציית הערך המוחלט היא כפלית. את זה אפשר לראות למשל על ידי בדיקה מפורשת של כל: למשל, אם \( x,y\ge0 \) אז \( \left|x\right|=x,\left|y\right|=y \) וכמו כן \( xy\ge0 \) ולכן \( \left|xy\right|=xy=\left|x\right|\left|y\right| \). והנה דוגמא טיפה יותר מסובכת: אם \( x\ge0 \) אבל \( y<0 \) אז \( xy\le0 \) ולכן נצטרך לחלק פה למקרים: אם \( x=0 \) אז \( xy=0=0\cdot\left|y\right|=\left|x\right|\cdot\left|y\right| \) . לעומת זאת אם \( x>0 \) אז \( xy<0 \) ולכן \( \left|xy\right|=-xy=x\left(-y\right)=\left|x\right|\left|y\right| \), וכן הלאה.

התכונה השלישית היא המעניינת מכולן: אי-שוויון המשולש, שאפילו שמו מגיע לו מגאומטריה שפשוט לא קיימת כאן, בעולם של ההגדרות האלגבריות הטהורות:

הטריק בהוכחה הוא לשים לב שלכל \( a\in\mathbb{F} \) מתקיים \( \left|a\right|^{2}=a^{2} \) פשוט כי אם \( a\ge0 \) זה ברור ואם \( a<0 \) אז \( \left|a\right|^{2}=\left(-a\right)\left(-a\right)=a^{2} \) כי מינוס כפול מינוס זה פלוס, כמו שראינו. אז אפשר לכתוב:

\( \left|x+y\right|^{2}=\left(x+y\right)^{2}=x^{2}+2xy+y^{2}\le \)

\( \left|x\right|^{2}+2\left|xy\right|+\left|y\right|^{2}=\left|x\right|^{2}+2\left|x\right|\left|y\right|+\left|y\right|^{2}=\left(\left|x\right|+\left|y\right|\right)^{2} \)

הגענו אל המסקנה \( \left|x+y\right|^{2}\le\left(\left|x\right|+\left|y\right|\right)^{2} \). מה שאנחנו באמת רוצים לעשות הוא “להוציא שורש” משני האגפים. כלומר, להראות שאם \( a,b\ge0 \) שניהם וגם \( a^{2}\le b^{2} \) אז \( a\le b \). הנה דרך אחת להראות את זה: אם \( a^{2}\le b^{2} \) אז \( b^{2}-a^{2}\ge0 \) אבל \( b^{2}-a^{2}=\left(b-a\right)\left(b+a\right) \). עכשיו, הנחנו ש-\( a,b\ge0 \) ולכן \( b+a\ge0 \). מכאן שאם לא היה מתקיים \( a\le b \) אז היה מתקיים \( b-a<0 \) מה שהיה גורר ש-\( b^{2}-a^{2}<0 \), בסתירה להנחה המקורית שלנו. זה מסיים את ההוכחה של אי שוויון המשולש.

ארכימדיות

אני רוצה לתת עכשיו עוד הגדרה די מהותית, שתהפוך להיות חשובה מאוד בהמשך: ארכימדיות של שדה סדור (מארכימדס, המתמטיקאי היווני). דרך אחת לנסח את תכונת הארכימדיות של שדה סדור \( \mathbb{F} \) היא שלכל \( a\in\mathbb{F} \) קיים \( n\in\mathbb{Z} \) כך ש-\( a<n \) . כאן צריך לחדד שב-\( \mathbb{Z} \) הכוונה שלי היא לתת-הקבוצה של \( \mathbb{F} \) שנוצרת על ידי חיבור/חיסור של \( 1 \) לעצמו (זכרו שמקבלים את \( \mathbb{Z} \) רק אם השדה ממציין 0, אבל אם הוא לא ממציין 0 הוא בפרט לא סדור). במילים אחרות, האיברים של השדה אף פעם לא “בורחים” מבחינת גודלם למספרים הטבעיים.

יש עוד כמה דרכים לראות את זה. ראשית, ארכימדיות הוגדרה בתור “קיים \( n \) גדול יותר” אבל מזה נובע מייד גם “קיים \( n \) קטן יותר”, כלומר לכל \( a\in\mathbb{F} \) קיים \( n\in\mathbb{Z} \) כך ש-\( n<a \). כדי לראות את זה, פשוט נפעיל ארכימדיות “רגילה” על \( -a \), נקבל שקיים \( n^{\prime} \) כך ש-\( -a<n^{\prime} \), נכפול את שני האגפים ב-\( -1 \), מה שכבר ראינו שהופך את הסדר, נסמן \( n=-n^{\prime} \) ונקבל \( n<a \).

שנית, “קיים מספר טבעי גדול כרצוננו” זה אותו הדבר כמו “קיים מספר רציונלי חיובי קטן כרצוננו”. כלומר, לכל \( a>0 \) קיים \( n\in\mathbb{Z} \) כך ש-\( \frac{1}{n}<a \) - כדי לראות את זה, ניקח \( n \) כך ש-\( a^{-1}<n \) ואז ניקח הופכי לשני האגפים ונקבל \( \frac{1}{n}<a \).

עוד דרך לחשוב על זה, שאני אוהב במיוחד, היא זו: בואו ניקח \( \varepsilon>0 \) כלשהו, כשהאינטואיציה היא לחשוב על \( \varepsilon \) בתור משהו ממש ממש קטן (זה השימוש הסטנדרטי של האות הזו בחדו”א). בואו ניקח גם \( M>0 \) כלשהו, כשהאינטואיציה היא לחשוב עליו בתור מספר ממש ממש ענק. אז ארכימדיות פירושה שקיים \( n \) כך ש-\( n>\frac{M}{\varepsilon} \), או במילים אחרות \( n\varepsilon>M \). זה אומר שלא משנה עד כמה משהו קטן - אם אנחנו בשדה ארכימדי, לחבר אותו מספר פעמים לעצמו יגרום לו לעבור בגודלו כל מספר כולל ענקיים.

כמובן, שאלה מתבקשת עכשיו היא אילו שדות סדורים הם לא ארכימדיים. התשובה היא שיש כאלו, אבל להציג אותם קונקרטית יהיה מתוסבך מדי אם אני רוצה לסיים מהר את החלק הזה. עדיין, בואו נחשוב מה המשמעות של קיום שלהם. יש למשל שדה לא ארכימדי שמרחיב את הממשיים, \( \mathbb{R} \) (שדה ה”היפר-ממשיים”). בשדה כזה יהיה איבר \( \omega \) כך ש-\( n<\omega \) לכל \( n \) טבעי; על \( \omega \) הזה אפשר לחשוב בתור איבר מגודל “אינסופי”. מכיוון שאנחנו בשדה קיים לו הופכי, \( \omega^{-1} \); אי השוויון \( n<\omega \) מלמד אותנו ש-\( \omega^{-1}<\frac{1}{n} \). כלומר נקבל ש-\( \omega^{-1} \) קטן מכל מספר ממשי (כי לכל מספר ממשי קיים \( \frac{1}{n} \) שקטן ממנו); \( \omega^{-1} \) הוא מה שמכונה במתמטיקה מודרנית “אינפיניטסימל” (מושג שהייתה לו משמעות הרבה יותר רופפת בימי התהוות החדו”א).

הקיום של שדות לא ארכימדיים שמכלילים את הממשיים הוא מבחינתי תמרור אזהרה עצום להגדרה של הממשיים בתור “כל המספרים על ציר המספרים”. הגישה הזו מניחה שהאינפיניטסימל \( \omega^{-1} \) בכלל לא נמצא על ציר המספרים. עוד הייתי יכול להבין טענות ש-\( \omega \) לא נמצא עליו כי הוא אי שם הרחק באינסוף רחוק רחוק - אבל לטעון ש-\( \omega^{-1} \) הוא לא על ציר המספרים, בהינתן כמה שהוא קרוב לאפס - זה כבר מוזר. אני אישית לא מצליח לחשוב על דרך טובה לנמק למה אסור למה שאנחנו קוראים לו “ציר המספרים” לכלול את \( \omega^{-1} \) בלי פשוט לומר “אנחנו מגדירים את ציר המספרים להיות \( \mathbb{R} \)” וחסל (זו הגישה שלי), מה שכמובן מונע מאיתנו להגדיר את \( \mathbb{R} \) בתור ציר המספרים.

צפיפות

לפני שנמשיך לחלק הבא, יש עוד תכונה סופר-חשובה אחת שתהיה סופר-שימושית בהמשך שכבר אפשר לדבר עליה. מה ההבדל העקרוני בין \( \mathbb{Z} \) ובין \( \mathbb{Q} \) בתור חוגים סדורים? ובכן, \( \mathbb{Q} \) הוא לא סתם חוג אלא שדה וזה באמת הבדל מהותי, אבל אני חושב יותר על הבדל שקשור ליחס הסדר עצמו. ב-\( \mathbb{Z} \), מתקיים למשל אי השוויון \( 3<4 \), ויוצא שבין שני המספרים הללו אין עוד איבר נוסף - אני יכול “לדלג בצעד אחד” מ-\( 3 \) אל \( 4 \). לעומת זאת ב-\( \mathbb{Q} \) אין דבר כזה: לכל \( a,b\in\mathbb{Q} \) כך ש-\( a<b \) קיים \( c\in\mathbb{Q} \) כך ש-\( a<c<b \). התכונה הזו, של קיום איבר בין כל זוג איברים שונים זה מזה נקרא צפיפות ובאמת שהוא חשוב בצורה בלתי רגילה. אז ההבדל בין \( \mathbb{Z} \) ובין \( \mathbb{Q} \) שרציתי לדבר עליו: יחס הסדר של \( \mathbb{Z} \) לא צפוף אבל של \( \mathbb{Q} \) כן.

המקרה של \( \mathbb{Z} \) מראה לנו שקיימים חוגים סדורים שאינם צפופים. אבל האם כל שדה סדור הוא צפוף? ובכן, כן, בצורה לא מעניינת: יהיו \( a<b \) איברים כלשהם של שדה סדור \( \mathbb{F} \), אז \( a=\frac{a+a}{2}<\frac{a+b}{2}<\frac{b+b}{2}=b \) ולכן \( \frac{a+b}{2} \) הוא איבר שנמצא בין \( a \) לבין \( b \). בגלל שזה היה פשוט מדי, אנחנו יכולים לחפש תכונת צפיפות עוד יותר יעילה. מה שהוכחתי הוא שבכל שדה סדור \( \mathbb{F} \), לכל זוג איברים \( a,b\in\mathbb{F} \) קיים \( c\in\mathbb{F} \) כך ש-\( a<c<b \). עכשיו, בגלל ש-\( \mathbb{F} \) שדה סדור הוא ממציין 0 ולכן מכיל עותק של \( \mathbb{Q} \), ואני יכול להראות שהעותק הזה של \( \mathbb{Q} \) צפוף בתוך \( \mathbb{F} \) במובן הזה שאת ה-\( c \) שנמצא בין כל \( a,b\in\mathbb{F} \) אני יכול לבחור מתוך \( \mathbb{Q} \). למה ההוכחה הנוכחית לא עובדת? כי אני בונה את \( c \) שלי בתור הסכום \( \frac{a+b}{2} \), מה שנותן לי משהו שאנחנו רק יודעים עליו שהוא איבר כללי ב-\( \mathbb{F} \) ולכן לא חייב להיות רציונלי. ובאמת, עבור \( \mathbb{F} \) לא ארכימדי אני לא אוכל לקבל צפיפות של \( \mathbb{Q} \) בתוך \( \mathbb{F} \). אבל אם \( \mathbb{F} \) ארכימדי, אפשר להוכיח את זה.

הנקודה המרכזית היא שאם \( b-a>1 \), אז קל למצוא איבר רציונלי ביניהם, ולא סתם רציונלי אלא ממש מספר שלם. למה? ובכן, התכונה הארכימדית אומרת לנו שקיים \( m \) שלם כך ש-\( a<m \). יש הרבה \( m \)-ים כאלו, אבל אני יכול לבחור מתוכם את המינימלי. זה דורש נימוק בפני עצמו, אבל הנה נימוק זריז: ראשית, מכיוון שהשדה ארכימדי קיים \( n_{1} \) כך ש-\( n_{1}<a \) וגם קיים \( n_{2} \) כך ש-\( a<n_{2} \). עכשיו אפשר להסתכל על הקבוצה \( \left\{ n\in\mathbb{Z}\ |n_{1}\le n\le n_{2},a<n\right\} \). זו קבוצה סופית כי יש רק מספר סופי של שלמים בין \( n_{1} \) ל-\( n_{2} \) - בדיוק \( n_{2}-n_{1}+1 \) כאלו. כמו כן זו לא קבוצה ריקה, כי לפחות עבור \( n_{2} \) אנחנו יודעים ש-\( a<n_{2} \). לכן קיים לה איבר מינימלי \( m \) (אני עוד מעט אדבר על איברים מינימליים יותר בפירוט, למי שעדיין חשדנים). ה-\( m \) הזה יקיים ש-\( a<m \) אבל \( m-1<a \).

עכשיו, נתון לי ש-\( b-a>1 \), כלומר \( a+1<b \). ניקח את \( m-1<a \), נחבר 1 לשני האגפים, ונקבל \( m<a+1<b \); קיבלנו ש-\( a<m<b \), כמו שרצינו.

זה מסיים את הוכחת הצפיפות למקרה של \( b-a>1 \). באופן כללי, אם \( a<b \) אז \( b-a>0 \) ולכן ארכימדיות נותנת לנו שקיים \( n>0 \) שלם כך ש-\( \frac{1}{b-a}<n \). נכפול את שני האגפים ב-\( b-a \) ונקבל \( 1<bn-an \), ועכשיו אני יכול להשתמש במה שהוכחתי לפני רגע ולהראות שקיים \( m \) שלם כך ש-\( an<m<bn \). לסיום אני אחלק את כל האגפים ב-\( n \) ואקבל \( a<\frac{m}{n}<b \), וסיימנו! זה לא היה קל במיוחד אבל זו תוצאה שימושית ביותר.

שלם

מה בעצם חסר?

בשלב הזה אנחנו יודעים מה זה שדה סדור, וגם יש לנו דוגמא טובה לשדה סדור שכזה: \( \mathbb{Q} \). אז מה עוד אנחנו צריכים?

ובכן, ראשית אנחנו צריכים מספרים. חסרים לנו מספרים. לא יעלה על הדעת שנסתפק במספרים שיש ב-\( \mathbb{Q} \). אם אני מצייר ריבוע עם אורך צלע 1 ומותח בו אלכסון, האורך של האלכסון הזה יהיה \( \sqrt{2} \) (נובע ממשפט פיתגורס). אבל \( \sqrt{2}\notin\mathbb{Q} \), אז חסרים לי מספרים. אני רוצה לפחות את כל השורשים \( \sqrt{n} \) לכל \( n\ge0 \). ולמה לא גם את השורשים השלישיים, \( \sqrt[3]{n} \)? ובעצם שיהיה \( \sqrt[k]{n} \) לכל \( n\ge0 \) ו-\( k>0 \). אפשר אפילו להגדיל ולומר שאני רוצה את כל המספרים האלגבריים, כלומר כל המספרים שאני יכול לקבל בתור שורשים של פולינום עם מקדמים רציונליים, אבל אני מעדיף לא ללכת לכיוון של טענות כאלו כי הן שוב מניחות שאני כבר מכיר את “העולם הרחב” של המספרים ופשוט גוזר מתוכו תת-קבוצה מעניינת, וכרגע אני רק רוצה להצביע על מספרים קונקרטיים שברור שחסרים לי. גם \( \pi \) חסר. גם \( e \) חסר. בקיצור, \( \mathbb{Q} \) ממש לא מספיק.

העניין הוא שאם אני אוסיף את כל המספרים הללו, הכל הולך ממש להסתבך. ראיתי למשל שאם אני מוסיף את \( \sqrt{2} \) ל-\( \mathbb{Q} \) ו”סוגר” את הקבוצה כך שעדיין אקבל שדה, אני אצטרך להוסיף את כל האיברים מהצורה \( a+b\sqrt{2} \) כך ש-\( a,b\in\mathbb{Q} \). אם אני אוסיף את \( \pi \) זה יהיה יותר בעייתי - אני אצטרך להוסיף את כל האיברים מהצורה \( a_{0}+a_{1}\pi+a_{2}\pi^{2}+a_{3}\pi^{3}+\ldots+a_{k}\pi^{k} \). אבל אפילו זה לא מספיק, כי מכיוון ש-\( \pi>1 \) אז \( 0<\pi^{-1}<1 \) ולכן אני יכול לקחת סכומים אינסופיים של חזקות שליליות של \( \pi \) ולצפות שזה יתכנס למשהו, ובעצם אני מכניס לתמונה המון שיקולים של חדו”א למרות שעדיין לא פיתחתי את החדו"א כי אין לי איפה כי החדו”א הרי מתחיל מזה שמדברים על השדה שבו האקשן הולך להתרחש. בקיצור, כל הגישה הזו של “בואו נרחיב את \( \mathbb{Q} \) עם איברים קונקרטיים” היא קצת מבורחשת, ואני לא רוצה לנקוט בה בכלל (וגם הבניות הקונקרטיות של \( \mathbb{R} \) שאראה בהמשך לא עושות את זה).

מה שאני אעשה, כמו קודם, הוא לשאול את עצמי - איזו אקסיומה חסרה לי? איזו תכונה נוספת של השדה הסדור שאני בונה תיתן לי את מה שאני צריך? וכאן מגיעות בשורות טובות נחמדות מאוד: יש אקסיומה אחת, פשוטה יחסית לניסוח מילולי ודי אינטואיטיבית מבחינת מה שהיא עושה, שהיא כל מה שחסר לי. מרגע שאוסיף אותה אקבל את \( \sqrt{2} \) ואת \( \pi \) ואת \( e \) ואת כל המספרים שחסרים לי, והשדה שאני בונה יהפוך להיות מקום ממש נחמד שבו אפשר להוכיח את כל משפטי הבסיס של החדו”א (שלא אציג בפוסט הזה אבל נראה בהמשך למה הם צריכים דווקא את האקסיומה הזו). האקסיומה המושלמת הזו נקראת אקסיומת השלמות (באנגלית משחק המילים הדלוח הזה לא עובד; היא נקראת Axiom of Completeness). הנה הניסוח שלה, ותכף אסביר מה הוא אומר: לכל קבוצה לא ריקה וחסומה מלעיל קיים חסם עליון.

מה זו קבוצה אנחנו יודעים. בהקשר שלנו יש לנו שדה \( \mathbb{F} \) ו”קבוצה” היא בסך הכל אוסף של איברים מתוכו, מה שמסומן ב-\( A\subseteq\mathbb{F} \). הקבוצה הריקה מסומנת ב-\( \emptyset \) אז כדי להגיד שקבוצה לא ריקה אנחנו כותבים \( A\ne\emptyset \). החלק הבאמת מעניין בהגדרה הוא זה שמערב את המילה “חסם” להטיותיה השונות.

חסמים

קבוצה חסומה זה כבר עניין של הכנסת יחס הסדר \( \le \) לתמונה. אנחנו אומרים ש-\( A \) חסומה מלעיל (“חסומה מלמעלה”) אם קיים \( b\in\mathbb{F} \) כך שלכל \( a\in A \) מתקיים \( a\le b \). יש כמובן גם הגדרה מקבילה עבור חסם מלמטה: אומרים ש-\( A \) חסומה מלרע אם קיים \( b\in\mathbb{F} \) כך שלכל \( a\in A \) מתקיים \( b\le a \), ואנחנו אומרים ש-\( A \) חסומה אם היא חסומה גם מלעיל וגם מלרע (למרות שבטח לפעמים יתפקשש לי סתם “חסומה” גם על קבוצה שחסומה רק מכיוון אחד). הנה כמה דוגמאות פשוטות עבור המקרה של \( \mathbb{F}=\mathbb{Q} \): הקבוצה \( A=\mathbb{N} \) היא חסומה מלרע (על ידי 0, למשל) אבל לא חסומה מלעיל. לעומת זאת הקבוצה \( \left\{ \frac{1}{n}\ |\ n\in\mathbb{N}^{+}\right\} \) (\( \mathbb{N}^{+} \) פירושו הטבעיים פרט ל-0, ולא משנה אם בהגדרה שלנו הטבעיים כוללים את 0 או לא) חסומה גם מלרע (על ידי 0 שוב) וגם מלעיל (על ידי 1). שימו לב להבדל בין שני החסמים: בעוד ש-1 הוא איבר של הקבוצה (\( 1=\frac{1}{1} \)), 0 הוא לא איבר של הקבוצה. על 1 אנחנו אומרים שהוא גם איבר מקסימלי של הקבוצה, אבל מה נגיד על 0? ובכן, נגיד שהוא חסם תחתון, אבל אני מקדים את המאוחר.

ראשית בואו נדבר על מינימום ומקסימום. אם \( A \) קבוצה, וקיים \( a\in A \) כך ש-\( b\le a \) לכל \( b\in A \) אז אומרים ש-\( a \) הוא המקסימום של \( A \) ומסמנים \( a=\max A \). באופן דומה, אם קיים \( a\in A \) כך ש-\( a\le b \) לכל \( b\in A \) אז אומרים ש-\( a \) הוא המינימום של \( A \) ומסמנים \( a=\min A \). לקבוצה יכול להיות רק מקסימום יחיד, כי אם \( a,a^{\prime} \) שניהם מקיימים את ההגדרה אז בגלל ששניהם איברים בקבוצה, מתקיים גם \( a\le a^{\prime} \) וגם \( a^{\prime}\le a \) ומאנטיסימטריות נובע ש-\( a=a^{\prime} \), ובאופן דומה גם המינימום הוא יחיד, אם הוא קיים. אבל הוא לא חייב להיות קיים, ובואו נראה מה יכול להשתבש.

ראשית, אם \( A=\emptyset \) אז לא יכול להיות בה מקסימום מהטעם הפשוט שמקסימום חייב להיות איבר בקבוצה וזה קצת קשה עבור קבוצה בלי איברים. שנית, אם \( A \) לא חסומה מלעיל אז מן הסתם לא יהיה לה מקסימום, כי אם אין בכלל מישהו שגדול או שווה לכל אברי הקבוצה, ברור שלא יהיה מישהו שהוא גם בקבוצה וגם גדול או שווה לכל איבריה. אבל גם בלי שתי הבעיות הברורות האלו, עדיין יכולות להיות קבוצות שהן לא ריקות, חסומות מלעיל ואין להן מקסימום. הנה דוגמא - הקבוצה

\( \left\{ 0.9,0.99,0.999,\ldots\right\} \)

אפשר לחשוב על האיברים בקבוצה הזו כאילו הם עולים ועולים, \( 0.9<0.99<0.999<\ldots \), אבל הם אף פעם לא עוברים את 1. מצד שני, הם גם לא מגיעים אל 1, כי כל איבר בקבוצה הזו הוא מהצורה \( 1-\frac{1}{10^{n}} \) עבור \( n\ge1 \), ולכן תמיד קטן מ-1. אם הייתי מוסיף את 1 לקבוצה, אז הוא היה האיבר המקסימלי שלה; אבל הוא לא שם.

שימו לב שהסיטואציה הזו דרשה ממני קבוצה עם אינסוף איברים. אם יש קבוצה לא ריקה עם מספר סופי של איברים, תמיד קיים לה מקסימום. הנה הוכחה פשוטה: לקבוצה בת איבר אחד יש מקסימום - האיבר האחד הזה. נניח באינדוקציה שלקבוצה בת \( n \) איברים יש תמיד מקסימום; תהא \( A=\left\{ a_{1},\ldots,a_{n},a_{n+1}\right\} \) קבוצה עם \( n+1 \) איברים. אז לקבוצה \( A^{\prime}=\left\{ a_{1},\ldots,a_{n}\right\} \) יש מקסימום, \( b=\max A^{\prime} \). עכשיו, אם \( a_{n+1}>b \) אז קל לראות ש-\( \max A=a_{n+1} \) ואחרת קל לראות ש-\( \max A=b \). זה מוכיח פורמלית את הטיעון שהשתמשתי בו קודם, כשהוכחתי ש-\( \mathbb{Q} \) היא קבוצה צפופה ב-\( \mathbb{F} \).

עכשיו אפשר סוף סוף לסיים את הגדרת אקסיומת השלמות. כזכור, היא אומרת “לכל קבוצה לא ריקה וחסומה מלעיל קיים חסם עליון” אז רק נשאר להסביר מה זה חסם עליון, וזה קל: זה החסם מלעיל המינימלי של הקבוצה אם הוא קיים. באופן דומה מגדירים חסם תחתון בתור החסם מלרע המקסימלי, אם הוא קיים. לשני אלו יש שמות שאני מחבב קצת יותר מאשר “חסם עליון” (שלטעמי הוא תרגום לא טוב של least upper bound כי החלק של ה-least התפספס) - סופרמום לחסם עליון ואינפימום לחסם תחתון. והם מוגדרים פורמלית כך:

\( \sup A=\min\left\{ b\in\mathbb{F}\ |\ \forall a\in A:a\le b\right\} \)

\( \inf A=\max\left\{ b\in\mathbb{F}\ |\ \forall a\in A:b\le a\right\} \)

בואו נדבר על ההגדרה של סופרמום (הדיון על אינפימום יהיה זהה, אבל מעצבן להתייחס לשניהם בבת אחת). ההגדרה של סופרמום דורשת לקחת מינימום על קבוצת כל החסמים העליונים של \( A \). ראינו כבר שלקיחת מינימום היא פעולה “מסוכנת” כי הוא עשוי לא להיות קיים, וראינו שלוש בעיות אפשריות: ראשית, אם הקבוצה שעליה לוקחים מינימום היא ריקה - במקרה שלנו זה אומר שאין ל-\( A \) חסמים מלעיל, כלומר שהיא לא חסומה. אז אוקיי, \( \sup A \) לא מוגדר אם \( A \) לא חסומה מלעיל, נשמע הגיוני.

הבעיה השניה היא אם הקבוצה שעליה לוקחים מינימום היא לא חסומה מלרע. זה אומר שלכל \( b \), לא משנה כמה קטן, עדיין תתקיים התכונה שלכל \( a\in A \) מתקיים \( a\le b \). זה לא ממש הגיוני, כי אם ניקח \( b=a-1 \) עבור \( a\in A \) כלשהו נקבל מישהו שהוא כבר לא חסם מלעיל של כל \( A \). כלומר, סיטואציה כזו יכולה לצוץ רק אם \( A \) ריקה. כש-\( A \) ריקה, התנאי “לכל \( a\in A \) מתקיים \( a\le b \)” מתקיים תמיד, לכל \( b \); זה מה שנקרא במתמטיקה “נכון באופן ריק” (כדי לראות למה זה ככה, שווה לחשוב על הטענה השקולה לוגית: “לא קיים \( a\in A \) כך ש-\( b<a \)”; ברור שאם \( A \) ריקה אז באמת לא קיים כזה). אז אוקיי, \( \sup A \) לא מוגדר אם \( A \) ריקה, נשמע הגיוני.

מה שאקסיומת השלמות אומרת הוא שאלו שתי הבעיות היחידות שיכולות להיווצר, ושבכל מקרה אחר, יהיה ל-\( A \) סופרמום. כדי להבין למה זה כל כך חזק, ואיך זה פותר לנו בעיות ו”יוצר” לנו מספרים כמו \( \sqrt{2} \), בואו נראה את הדוגמא הקלאסית - הקבוצה \( A=\left\{ q\in\mathbb{Q}\ |\ q^{2}\le2\right\} \).

האם הקבוצה הזו לא ריקה? בוודאי, \( 0\in A \). האם הקבוצה הזו חסומה מלעיל? בוודאי, \( 2\in A \) כי אם \( q>2 \) אז \( q^{2}>4 \) ומן הסתם לא מתקיים \( q^{2}<2 \). מכאן שקיים לקבוצה הזו סופרמום. מי הוא יהיה? ובכן, אם ניקח את אברי \( q \) ונגדיל אותם עוד ועוד עד שיהיה שוויון, \( q^{2}=2 \), אז נקבל \( q=\sqrt{2} \) ולכן האינטואיציה היא ש-\( \sup A=\sqrt{2} \), אבל צריך להיזהר מאוד כאן: \( \sqrt{2} \) הוא לא מספר רציונלי, ולכן הוא לא איבר של \( A \), אז עדיין צריך לשלול את האפשרות שיש חסם מלעיל קטן יותר ל-\( A \). למרבה השמחה, קל לשלול את זה. ניקח \( r \) כלשהו כך ש-\( r<\sqrt{2} \). עכשיו אפשר להשתמש בתכונת הצפיפות של הרציונליים שהוכחתי קודם ולקבל שקיים \( q\in\mathbb{Q} \) כך ש-\( r<q<\sqrt{2} \). בפרט \( q^{2}<2 \) ולכן \( q\in A \), ולכן \( r \) לא יכול להיות חסם מלעיל של \( A \), וזה לכל \( r<\sqrt{2} \). בנוסף, ברור ש-\( \sqrt{2} \) עצמו הוא חסם מלעיל שכזה, כי אם \( q>\sqrt{2} \) אז \( q^{2}>2 \) ולכן \( q\notin A \). זה מוכיח ש-\( \sup A=\sqrt{2} \).

דוגמא בעזרת שורש 2

עכשיו אני רוצה לסבך עוד יותר את העניינים, ואלו שאין להם כוח לנקודה העדינה שאני מתעקש עליה כאן מוזמנים לדלג. ההוכחה שהראיתי עכשיו חייתה “בתוך” \( \mathbb{R} \). היא הניחה ש-\( \sqrt{2} \) קיים ואפשר להשתמש בצפיפות הרציונליים יחד איתו. אבל בואו נניח עכשיו שאנחנו עוברים לחיות ביקום \( \mathbb{Q} \) ולא יודעים על שום דבר מחוצה לו, ובפרט \( \sqrt{2} \) לא קיים מבחינתנו. האם יש דרך להוכיח שלקבוצה \( A \) במקרה הזה פשוט לא יהיה סופרמום? אחרת \( A \) היא לא דוגמא מעניינת כל כך - היא לא מראה לנו בעיה שיש ב”סתם” שדה סדור ושדה סדור שלם פותר.

אז בואו נוכיח שאין ל-\( A \) סופרמום ב-\( \mathbb{Q} \), עם הוכחה שמשתמשת רק ב-\( \mathbb{Q} \). ראשית, בואו ניקח \( 0<r\in\mathbb{Q} \) כך ש-\( r^{2}>2 \) ונראה שלא ייתכן ש-\( r=\sup A \); נעשה את זה על ידי מציאת \( d<r \) שהוא חסם מלעיל של \( A \) - ובשביל זה מספיק למצוא \( d<r \) כך ש-\( d^{2}>2 \) כי אז לכל \( q\in A \) שמקיים \( q>0 \) יתקיים \( q^{2}<d^{2} \) וראינו שאפשר להסיק מזה \( q<d \) (אני לא טורח לטפל ב-\( r \) שלילי כי אם \( r<0 \) הוא בוודאי לא חסם מלעיל של \( A \) שכוללת את 0).

איך אני אמצא את \( d \) ואעשה את זה בצורה שלא תהיה טכנית ויבשה? ובכן, בואו נחשוב על הסיטואציה בתור נסיון לקרב את \( \sqrt{2} \) באמצעות שיטת הקירוב היפהפיה של הרון מאלכסנדריה. הרעיון של השיטה הוא זה: נניח שאנחנו רוצים למצוא שורש למספר \( N \). בואו נבנה סדרה \( a_{1},a_{2},a_{3},\ldots \) של קירובים לשורש הזה. נתחיל עם מספר כלשהו \( a_{1} \) שיהיה קירוב גס כלשהו של שורש \( N \). למשל, עבור \( N=2 \) אפשר לקחת \( a_{1}=4 \). עכשיו נתחיל לשפר את הקירוב על ידי הפעלה נשנית של הכלל הבא:

\( a_{n+1}=\frac{1}{2}\left(a_{n}+\frac{N}{a_{n}}\right) \)

הרעיון פה: ניקח את הקירוב הנוכחי שלנו, ונחלק את \( N \) בו. אם הקירוב הנוכחי היה יוצא בדיוק \( \sqrt{N} \) אז החלוקה של \( N \) בקירוב הייתה יוצאת \( \sqrt{N} \) בעצמה. אחרת, יצא לנו מספר קצת שונה - אם למשל \( a_{n} \) הוא גדול מדי מכדי להיות השורש, אז \( \frac{N}{a_{n}} \) ייצא קטן מדי מכדי להיות השורש. ועכשיו אומר הרון - אוקיי, בואו ניקח ממוצע חשבוני של שני המספרים הללו - נראה לי שהוא יהיה קרוב יותר לשורש. עבור הדוגמא שלנו עם \( N=2 \) ו-\( a_{1}=4 \) נקבל \( a_{2}=\frac{1}{2}\left(4+\frac{1}{2}\right)=\frac{9}{4}=2.25 \) וזה יותר טוב! אם נמשיך את הסדרה, נקבל התכנסות מהירה בצורה מפתיעה אל \( \sqrt{2} \):

\( 4,2.25,1.569444\ldots,1.42189\ldots,1.414234\ldots \)

אפשר לחשוב על השיטה הזו בתור מקרה פרטי של אלגוריתם ניוטון-רפסון והזכרתי אותה פה בעבר בפוסט על המעשה המופלא בקבוע המסתורי 0x5f3759df, אבל נראה לי שכבר סטיתי מספיק מהעניין. הפואנטה שלי: אני רוצה בהינתן \( 0<r\in\mathbb{Q} \) כך ש-\( r^{2}>2 \) לקבל \( d<r \) כך שעדיין \( 2<d^{2} \) - זה בדיוק מה ששיטת הרון תיתן לי. אני אגדיר

\( d=\frac{1}{2}\left(r+\frac{2}{r}\right)=\frac{r}{2}+\frac{1}{r} \)

ואקבל \( d \) רציונלי כי \( r \) היה רציונלי. בואו נראה שהוא עובד.

דבר ראשון, קל לראות ש-\( d<r \), כי מכיוון ש-\( 2<r^{2} \) אז נחלק ב-\( 2r \) ונקבל \( \frac{1}{r}<\frac{r}{2} \) ולכן

\( d=\frac{r}{2}+\frac{1}{r}<\frac{r}{2}+\frac{r}{2}=r \)

שנית,

\( d^{2}=\left(\frac{r}{2}+\frac{1}{r}\right)^{2}=\frac{r^{2}}{4}+1+\frac{1}{r^{2}} \)

אנחנו רוצים להראות ש-\( d^{2}>2 \), אז מספיק להראות שאם \( r^{2}>2 \) אז \( \frac{r^{2}}{4}+\frac{1}{r^{2}}>1 \). קל לראות את זה בשיטות של תיכון אם מסמנים \( x=r^{2} \), מקבלים את אי השוויון \( \frac{x}{4}+\frac{1}{x}>1 \) שעבור \( x>0 \) מתורגם לאי השוויון \( x^{2}-4x+4>0 \). אגף שמאל הוא פרבולה “צוחקת” שנקודת החיתוך הימנית שלה עם ציר \( x \) היא \( x=2 \) ולכן היא חיובית לכל \( x>2 \), שזה מה שרצינו.

כל הזוועה הזו הראתה לנו ש-\( r \) הוא לא חסם עליון של \( A \) כי אפשר למצוא חסם מלעיל קטן יותר, \( d \), אבל התחלנו מההנחה ש-\( r^{2}>2 \). אולי בכלל החסם הטוב ביותר מקיים \( r^{2}<2 \)? כלומר, הוא איבר של \( A \) בעצמו? אולי יש ב-\( A \) איבר מקסימלי?

במקרה הזה לנסות להשתמש בנוסחת הרון לא עובד (אם אני אגדיר \( d=\frac{r}{2}+\frac{1}{r} \) אני אקבל \( d^{2}>2 \)) וכבר אין לי רעיונות לדברים נחמדים להראות אז בואו נעשה את זה בכוח: נגדיר \( d=r+\varepsilon \) כשהרעיון הוא שנקבע את \( \varepsilon \) להיות מספר חיובי קטן ותכף נראה כמה קטן. אז

\( d^{2}=r^{2}+2r\varepsilon+\varepsilon^{2} \)

ולכן כדי שיתקיים \( d^{2}<2 \) צריך שיתקיים \( \left(2r+\varepsilon\right)\varepsilon<2-r^{2} \). אם אני אוודא ש-\( \varepsilon<r \) אז מספיק לי אפילו למצוא \( \varepsilon \) שעבורו \( \left(2r+\varepsilon\right)\varepsilon<3r\varepsilon<2-r^{2} \). עכשיו, \( 2-r^{2} \) הוא מספר קבוע וגם \( 3r \) הוא מספר קבוע, אז אפשר להשתמש בארכימדיות של \( \mathbb{Q} \) כדי למצוא \( \varepsilon \) מתאים.

סיום זריז לפני הגרנד פינאלה

אם לסכם את מה שראינו בדוגמא - ב-\( \mathbb{Q} \) יש קבוצות לא ריקות וחסומות בלי חסם עליון, אבל כאלו שיוצרות אצלנו תחושה חזקה שאמור להיות להן חסם עליון. שאפילו בלי להכיר את \( \mathbb{R} \), יש איזה איבר קונקרטי אחד שאנחנו מצפים שיהיה החסם העליון שלהן, וזה שאין כזה - זה מרגיש לנו כמו “חור” בציר המספרים, שתכונת השלמות באה לסתום.

זו אינטואיציה טובה; היא תוביל לאחת משתי הבניות הפורמליות של הממשיים שאני הולך להציג, זו של חתכי דדקינד. כרגע, כזכור, אני עדיין לא בונה שום דבר - אני רק שואל את עצמי אילו תכונות אני רוצה שיהיו לממשיים. זה מעביר אותנו ישירות אל החלק הבא והאחרון.

ה

מה אני רוצה עכשיו?

ההגדרה שלי בתחילת הפוסט הייתה כזכור “השדה הסדור השלם”. מה זה שדה - ראינו. מה זה שדה סדור - ראינו. מה זה שדה סדור שלם - ראינו. מה שעדיין לא ברור הוא התפקיד של האות ה’ בביטוי הזה. אות קטנה, משמעות גדולה: כשאני מדבר על “השדה הסדור השלם” הכוונה היא שקיים שדה כזה והוא יחיד. כלומר, כשאני משתמש בהגדרה הזו אני טוען טענת קיום ויחידות, שהיא משהו שצריך להוכיח. במובן הזה ההגדרה שלי היא יותר מסתם הגדרה - היא גם הבטחה.

מצד שני, זה מרגיש שאני קצת מרמה כי אני לא באמת מסביר עד הסוף איך אפשר לקבל לידיים את האובייקט שאני מגדיר. כאמור, זה דבר די סטנדרטי במתמטיקה; אנחנו צריכים להבדיל בין הגדרה אקסיומטית שמתארת תכונות רלוונטיות של אובייקטים שאחר כך אפשר להשתמש בהן כדי להוכיח תכונות נוספות של האובייקטים, וההוכחה תהיה תקפה לכל אובייקט שמקיים את התכונות - ובין מה שאני מעדיף לקרוא לו בנייה שמתאר איך מייצרים את האובייקט מתוך אובייקטים פשוטים יותר.

ראינו סוג של בניה בפוסט הקודם, עם הייצוגים העשרוניים; זו לא הייתה בניה מלאה כי הגדרתי את האובייקטים של הקבוצה אבל לא את פעולות החיבור והכפל ולא את האופן שבו מוגדר יחס הסדר (כל אלו לא טריוויאליים). אני אראה בפוסט הבא שתי בניות נוספות, שאותן אציג עד הסוף. יותר מזה - שתי הבניות לא הולכות לבנות את אותו הדבר, במובן זה שאחת מהן תיצור לנו אוסף של קבוצות של רציונליים, ואילו השניה תיצור אוסף של מחלקות שקילות של סדרות של רציונליים. אלו שני אובייקטים שונים, מה שמעלה את השאלה - מי מביניהם יהיה \( \mathbb{R} \) “האמיתי”? התשובה היא ששניהם הם \( \mathbb{R} \) האמיתי, במובן זה ששניהם מקיימים את התכונות המהותיות שאנחנו מצפים להן מ-\( \mathbb{R} \) - שניהם יהיו שדה סדור שלם ויותר מכך - שביחס לתכונות הללו הם יהיו בדיוק אותו אובייקט עד כדי שינוי שמות האיברים. זו המהות של טיעון ה”יחידות”, ואותו אני אוכל להוכיח כאן, אפילו לפני שאני מציג בניות אלו ואחרות. פורמלית, אני אוכיח שאם \( \mathbb{F}_{1},\mathbb{F}_{2} \) הם שני שדות סדורים שלמים, אז הם איזומורפיים, עם ההגדרה הבאה של איזומורפיזם:

\( f:\mathbb{F}_{1}\to\mathbb{F}_{2} \) הוא איזומורפיזם של שדות סדורים אם \( f \) פונקציה חד-חד-ערכית ועל ומתקיים

\( f\left(x+y\right)=f\left(x\right)+f\left(y\right) \)
\( f\left(x\cdot y\right)=f\left(x\right)\cdot f\left(y\right) \)
\( x<y \) אם ורק אם \( f\left(x\right)<f\left(y\right) \)

אני אזכיר מה “חד-חד-ערכית” ו”על” אומרים (ויש לי גם פוסט): \( f:A\to B \) היא חח”ע אם \( f\left(x\right)=f\left(y\right) \) גורר \( x=y \), כלומר אם קלטים שונים מתמפים לפלטים שונים. \( f:A\to B \) היא על אם לכל \( b\in B \) קיים \( a\in A \) כך ש-\( f\left(a\right)=b \), כלומר כל איבר של \( B \) מתקבל כפלט של \( f \) על משהו מ-\( A \). זה שפונקציה היא גם חח”ע וגם על אומר שאפשר לחשוב עליה כאילו היא מסדרת את אברי \( A \) ו-\( B \) בזוגות-זוגות - לכל איבר של \( a \) יש בן זוג אחד ויחיד מ-\( b \), וההפך. זה מאפשר לנו לדמיין ש-\( B \) היא פשוט “אברי \( A \) עם שמות אחרים”: לוקחים את \( A \), מחליפים את השם של כל איבר \( a\in A \) ב-\( f\left(a\right) \), מקבלים את \( B \).

אם על \( A,B \) יש עוד מבנה מלבד סתם איברים, האשליה הזו של שינוי השם עשוי להתנפץ. למשל, אם \( A=\mathbb{N} \) ו-\( B=\mathbb{Z} \) אז פונקציה חח”ע ועל \( f:A\to B \) היא \( f\left(n\right)=\begin{cases} \frac{n}{2} & n\equiv_{2}0\\ -\frac{n+1}{2} & n\equiv_{2}1 \end{cases} \). מה ש-\( f \) עושה הוא להעביר את סדרת הטבעיים \( 0,1,2,3,\ldots \) אל סדרת השלמים \( 0,-1,1,-2,2,\ldots \). זו התאמה חח”ע ועל, אבל היא ממש לא מתנהגת יפה עם המבנה הנוסף שיש לנו על \( \mathbb{N} \). למשל, \( 1+1=2 \) ולכן אם \( f \) היא בסך הכל שינוי שם היינו מצפים שיתקיים \( f\left(1\right)+f\left(1\right)=f\left(2\right) \). אבל \( f\left(2\right)=1 \) ואילו \( f\left(1\right)=-1 \) ולכן \( f\left(1\right)+f\left(1\right)=-2=f\left(3\right)\ne f\left(2\right) \), כך שהאשליה שיש כאן שינוי שמות ותו לא מתנפצת ברגע שבו אנחנו מצפים משינוי השמות לשחק יפה עם המבנה הנוסף שיש על הקבוצות.

מה הולכים להוכיח ואיך

על שדה סדור יש שלושה מבנים: פעולת החיבור, פעולת הכפל ויחס הסדר \( < \) (או באופן שקול, הקבוצה \( P \); במקום הדרישה השלישית היינו יכולים לדרוש \( f\left(P_{1}\right)=P_{2} \)). האתגר שלי יהיה להציג פונקציה שמשחקת יפה עם כולם.

הנה בגדול הרעיון:

ראשית נראה שכל שדה סדור מכיל עותק של \( \mathbb{Q} \) וששני העותקים הללו איזומורפיים.
אחר כך נראה שכל שדה סדור שלם הוא ארכימדי.
המסקנה מזה תהיה שאפשר להציג כל איבר בשדה בתור \( \sup \) של קבוצה של רציונליים, וזה יאפשר לנו להרחיב את האיזומורפיזם של הרציונליים לאיזומורפיזם של כל השדה.

בעצם, בואו נתחיל מזה שכל שדה סדור שלם הוא ארכימדי, זו תוצאה קלילה להוכחה וככה היא לא תקטע את הרצף של מה שנעשה אחר כך. ניקח שדה סדור שלם \( \mathbb{F} \) כלשהו. כבר ראינו שבגלל שהשדה סדור, הוא חייב להיות ממציין 0, כלומר כל האיברים \( 1,1+1,1+1+1,\ldots \) קיימים ושונים זה מזה - במילים אחרות, יש בתוך \( \mathbb{F} \) עותק של \( \mathbb{Z} \). עכשיו, אם \( \mathbb{F} \) לא ארכימדי, מה זה אומר? ארכימדיות פירושה שלכל \( a\in\mathbb{F} \) קיים \( n\in\mathbb{Z} \) כך ש-\( a<n \).

אם ניקח את השלילה של הטענה הזו נקבל שקיים \( a\in\mathbb{F} \) כך שלכל \( n\in\mathbb{Z} \) מתקיים \( n\le a \). במילים אחרות, \( a \) הוא חסם מלעיל של \( \mathbb{Z} \), והשלמות של \( \mathbb{F} \) אומרת ש-\( d=\sup\mathbb{Z} \) קיים. עכשיו, בואו ניקח \( n\in\mathbb{Z} \) כלשהו. מכיוון שגם \( n+1\in\mathbb{Z} \), אנחנו יודעים ש-\( n+1<d \), כלומר \( n<d-1 \), וזה נכון לכל \( n\in\mathbb{Z} \) ולכן גם \( d-1 \) חסם מלעיל של \( \mathbb{Z} \), בסתירה למינימליות של \( d \). כלומר - בשדה סדור, או ש-\( \mathbb{Z} \) לא חסומה (כלומר, השדה ארכימדי) או שהשדה לא שלם, אין עוד אפשרויות.

עכשיו בואו נדבר על \( \mathbb{Q} \). ראינו כבר במהלך הפוסט שיש ב-\( \mathbb{F} \) קבוצה שזהה ל-\( \mathbb{Q} \), אבל בואו נעשה את זה שוב, הכי מסודר שאפשר. מה שאקסיומות השדה נותנות לנו הוא קיום של איברים \( 0,1\in\mathbb{F} \). שימו לב שהאיברים הללו הם לא המספרים 0,1; הם סתם שני איברים של \( \mathbb{F} \) שזכו לסימון מיוחד. אז בואו כרגע ניתן להם סימון אחר: את האדיש החיבורי אסמן ב-\( \mathcal{O} \) ואת האדיש הכפלי אסמן ב-\( \mathcal{I} \). מה שאני יודע לומר הוא שלכל \( a\in\mathbb{F} \) מתקיים \( a+\mathcal{O}=a \) ו-\( a\cdot\mathcal{I}=a \). עכשיו בואו נבנה מזה את \( \mathbb{Q} \).

בונים את הרציונליים (מתוך השדה הקיים)

ראשית, לכל מספר טבעי \( n\in\mathbb{N} \) בואו נגדיר איבר \( \mathcal{Z}_{n}\in\mathbb{F} \). נעשה את זה רקורסיבית: \( \mathcal{Z}_{0}=\mathcal{O} \) ואם \( \mathcal{Z}_{n} \) כבר הוגדר, נגדיר \( \mathcal{Z}_{n+1}=\mathcal{Z}_{n}+\mathcal{I} \).

עכשיו אני רוצה לטעון ש-\( \mathcal{Z}_{k}+\mathcal{Z}_{n}=\mathcal{Z}_{k+n} \). ההוכחה תכה אותנו בכזה הלם של טרחנות שנוותר על המשך ההוכחות בסגנון, כי זה הכל אותו דבר (מי שמכירים את ההגדרות הפורמליות של טבעיים ירגישו בוודאי בבית עם ההוכחה הזו). אני אוכיח את הטענה באינדוקציה על \( n \). אם \( n=0 \) אז על פי הגדרה, \( \mathcal{Z}_{0}=\mathcal{O} \) ולכן

\( \mathcal{Z}_{k}+\mathcal{Z}_{0}=\mathcal{Z}_{k}+\mathcal{O}=\mathcal{Z}_{k}=\mathcal{Z}_{k+0} \)

ואם הטענה כבר הוכחה עבור \( n \) ואנחנו רוצים להוכיח אותה עבור \( n+1 \), נשתמש בכך ש-\( \mathcal{Z}_{n+1}=\mathcal{Z}_{n}+\mathcal{I} \) ונקבל

\( \mathcal{Z}_{k}+\mathcal{Z}_{n+1}=\mathcal{Z}_{k}+\left(\mathcal{Z}_{n}+\mathcal{I}\right)=\left(\mathcal{Z}_{k}+\mathcal{Z}_{n}\right)+\mathcal{I}= \)

\( =\mathcal{Z}_{k+n}+\mathcal{I}=\mathcal{Z}_{\left(k+n\right)+1}=\mathcal{Z}_{k+\left(n+1\right)} \)

אני לא חושב שקיימת אפשרות להיות יותר פדנט מזה, אבל לא הכל נורא! עכשיו אנחנו רואים יפה וברור שבהוכחה הזו משתמשים באסוציאטיביות החיבור (“חוק הקיבוץ”) גם ב-\( \mathbb{F} \) וגם ב-\( \mathbb{N} \). בלי אסוציאטיביות, שום דבר לא היה עובד! אנחנו לא תמיד מעריכים עד כמה היקום היה קורס בלי אסוציאטיביות.

בכל מקרה, עכשיו אני ארשה לעצמי לנופף ידיים בפראות בהמשך. לא קשה להוכיח גם ש-\( \mathcal{Z}_{k}\cdot\mathcal{Z}_{n}=\mathcal{Z}_{k\cdot n} \) ולא קשה גם להוכיח ש-\( \mathcal{Z}_{k}<\mathcal{Z}_{n} \) אם ורק אם \( k<n \), הכל עם אינדוקציות מזעזעות. לכן מה שעשיתי כאן בעצם היה להגדיר פונקציה \( f:\mathbb{N}\to\mathbb{F} \) על ידי \( f\left(n\right)=\mathcal{Z}_{n} \), והפונקציה הזו מקיימת את שלוש הדרישות שלי:

\( f\left(n+k\right)=f\left(n\right)+f\left(k\right) \)
\( f\left(n\cdot k\right)=f\left(n\right)\cdot f\left(k\right) \)
\( n<k \) אם ורק אם \( f\left(n\right)<f\left(k\right) \)

בנוסף, זו פונקציה חח”ע, כי אם \( \mathcal{Z}_{n}=\mathcal{Z}_{k} \) עבור \( k<n \) אז נשתמש בטענה הנכונה תמיד \( \mathcal{Z}_{k}+\mathcal{Z}_{n-k}=\mathcal{Z}_{n} \), נעביר את \( \mathcal{Z}_{k} \) אגף, נשתמש ב-\( \mathcal{Z}_{n}=\mathcal{Z}_{k} \) ונקבל \( \mathcal{Z}_{n-k}=\mathcal{O} \), ומכיוון ש-\( n-k>0 \) המסקנה היא שקיבלנו סכום של \( \mathcal{I} \)-ים שמסתכם לאפס - זאת בסתירה למה שכבר ראינו, שהשדה הוא ממציין 0.

המסקנה היא ש-\( f \) היא פונקציית “אותו הדבר רק בסימון אחר” מצויינת, ולכן אפשר לנטוש את כל פיאסקו הכתיבה של דברים בתור \( \mathcal{Z}_{n} \) וכאלו ופשוט לכתוב \( 0,1,2\ldots,n,\ldots \) עבור האיברים שהגדרתי פה ולהתייחס אליהם כאילו הם “באמת” הטבעיים.

מרגע שיש לנו את זה, אפשר להרחיב את הגדרת \( f \). ראשית, נגדיר אותה על כל \( \mathbb{Z} \), כלומר צריך להסביר איך היא מתנהגת גם על השליליים, איברים מהצורה \( -n \) כך ש-\( n\in\mathbb{N} \): \( f\left(-n\right)=-n \). זו נראית הגדרה כמעט ריקה, אבל העיקרון לא טריוויאלי: אנחנו מזמנים את \( \mathcal{Z}_{n} \), ואז מפעילים את האקסיומה של \( \mathbb{F} \) שאומרת שקיים לו נגדי, שמסומן \( -\mathcal{Z}_{n} \), וזה מה ש-\( f \) תחזיר - רק שכאמור, כבר הפסקתי עם השטות של כתיבת \( \mathcal{Z}_{n} \) ואני כותב \( n \) וזהו.

גם על ההגדרה הזו צריך להוכיח שהיא מקיימת את שלוש התכונות שלמעלה. זה עובד. תסמכו עלי. בואו נרוץ אל הרחבת \( f \) לכל \( \mathbb{Q} \). מה שמדגדג לומר הוא שנגדיר לכל \( a,b\in\mathbb{Z} \) כך ש-\( b\ne0 \) את ההגדרה הבאה:

\( f\left(\frac{a}{b}\right)=a\cdot b^{-1} \)

כלומר, אנחנו לוקחים את האיבר ב-\( \mathbb{F} \) שמתאים ל-\( a \) והאיבר ב-\( \mathbb{F} \) שמתאים ל-\( b \), משתמשים בזה שהאיבר שמתאים ל-\( b \) יהיה שונה מ-0 כי \( b \) שונה מאפס ו-\( f \) חח”ע, משתמשים באקסיומות השדה כדי למצוא הופכי ל-\( b \) הזה וכופלים אותו ב-\( a \). אין שום בעיה בהגדרה הזו אבל צריך לוודא שהיא מה שנקרא מוגדרת היטב כי קיימת הסכנה שאותו מספר רציונלי יניב פלטים שונים של \( f \), כתלות בייצוג שלו. כלומר, אני רוצה להראות למשל ש-\( f\left(\frac{1}{2}\right)=f\left(\frac{2}{4}\right) \). זה לא לגמרי מובן מאליו כי באגף ימין של ההגדרה אין מספרים אלא יש איברים של \( \mathbb{F} \) ולכו תדעו איזה מוזרויות יש להם, אבל למרבה המזל ההוכחה די פשוטה.

נניח שברציונליים, \( \frac{a}{b}=\frac{c}{d} \). כלומר, \( ad=bc \). זו משוואה של מספרים ב-\( \mathbb{Z} \), ולכן היא נכונה גם בתוך \( \mathbb{F} \). לכן אפשר לקחת את \( ad=bc \) בתוך \( \mathbb{F} \) ולכפול את שני האגפים ב-\( b^{-1} \) וב-\( d^{-1} \) ולקבל \( ab^{-1}=cd^{-1} \), כלומר \( f\left(\frac{a}{b}\right)=ab^{-1}=cd^{-1}=f\left(\frac{c}{d}\right) \), שזה מה שרצינו. אנחנו עדיין צריכים להוכיח ששאר התכונות של \( f \) מתקיימות - זה כאמור תרגיל טוב שאני לא הולך לעשות כאן. קיבלנו \( f:\mathbb{Q}\to\mathbb{F} \) שהיא חח”ע ומכבדת את המבנה של השדה. במתמטית קוראים לזה שיכון (להבדיל מאיזומורפיזם; כי כאן \( f \) לא על כל \( \mathbb{F} \)). מכאן ואילך אני יכול להתייחס ל-\( \mathbb{F} \) כאילו יש עותק של \( \mathbb{Q} \) שיושב בתוכה, כמו שבעצם עשיתי גם קודם.

עכשיו הגענו סוף סוף אל הפאנץ’ האחרון: יש לי שני שדות סדורים שלמים \( \mathbb{F}_{1},\mathbb{F}_{2} \). אני רוצה להגדיר \( g:\mathbb{F}_{1}\to\mathbb{F}_{2} \) שהיא חח”ע, על ומכבדת את המבנה של השדה הסדור. איך אני אעשה את זה? התשובה היא שכל אחד ואחד מהאיברים של השדות הללו הוא חסם עליון של קבוצה של רציונליים ואני הולך לבנות את \( g \) כך שהיא מעבירה את החסם העליון של קבוצה ב-\( \mathbb{F}_{1} \) אל החסם העליון של אותה קבוצה ב-\( \mathbb{F}_{2} \).

בואו ננסח את זה פורמלית. אנחנו יודעים שיש תת-שדות \( \mathbb{Q}_{1}\subseteq\mathbb{F}_{1} \) ו-\( \mathbb{Q}_{2}\subseteq\mathbb{F}_{2} \) שאיזומורפים לרציונליים ובפרט איזומורפים זה לזה, עם פונקציה \( f:\mathbb{Q}_{1}\to\mathbb{Q}_{2} \) שהיא איזומורפיזם. אני הולך להרחיב את \( f \) הזו כדי להגדיר איזומורפיזם \( f:\mathbb{F}_{1}\to\mathbb{F}_{2} \) באופן הבא: לכל \( x\in\mathbb{F}_{1} \) נגדיר קבוצה \( A_{x}\subseteq\mathbb{F}_{2} \) (כלומר, של איברים בשדה השני) על ידי

\( A_{x}=\left\{ f\left(q\right)\ |\ q\in\mathbb{Q}_{1}\wedge q<x\right\} \)

עכשיו אני אגדיר \( f\left(x\right)=\sup A_{x} \). זהו, זו כל ההגדרה - ועכשיו תגיע המהומה הגדולה מכולן, להראות שההגדרה הזו עובדת.

המהומה הגדולה מכולן

מה זה אומר, להראות שההגדרה עובדת? צריך להוכיח את כל הדברים הבאים:

\( f \) מוגדרת היטב (לכל קלט קיים פלט יחיד)
\( f \) חד-חד-ערכית
\( f \) על
\( f\left(x+y\right)=f\left(x\right)+f\left(y\right) \)
\( f\left(x\cdot y\right)=f\left(x\right)\cdot f\left(y\right) \)
\( x<y \) אם ורק אם \( f\left(x\right)<f\left(y\right) \)

ראשית צריך להראות ש-\( f \) מוגדרת היטב. יש כאן שתי סכנות: גם סכנה של הגדרה כפולה, וגם סכנה שיהיו קלטים שעבורם \( f \) לא מוגדרת. נתחיל עם ההגדרה הכפולה: הרי לקחתי פונקציה קיימת \( f:\mathbb{Q}_{1}\to\mathbb{Q}_{2} \) והגדרתי באמצעותה פונקציה חדשה \( f:\mathbb{F}_{1}\to\mathbb{F}_{2} \). אני רוצה להראות שאם \( x\in\mathbb{Q}_{1} \) אז שתי ההגדרות מסכימות זו עם זו על \( x \), כלומר ש-\( f\left(x\right)=\sup A_{x} \) (אגף שמאל הוא ההגדרה “המקורית”, אגף ימין הוא ההגדרה החדשה). אפשר ובצדק לשאול למה לא פשוט להגדיר פונקציה חדשה בעזרת \( f \) אבל לקרוא לפונקציה החדשה הזו \( g \) ואז לדלג על השלב הזה; התשובה היא שאני אסתמך על כך שהפונקציה שבניתי מרחיבה את \( f \) המקורית בהמשך ההוכחה, כשנצטרך להוכיח שהפונקציה החדשה היא על.

נתחיל עם להראות ש-\( \sup A_{x}\le f\left(x\right) \) עבור \( x\in\mathbb{Q}_{1} \). בשביל זה מספיק להראות ש-\( f\left(x\right) \) הוא חסם מלעיל של \( A_{x} \) כי הסופרמום של \( A_{x} \) קטן או שווה לכל חסם מלעיל שלה. אז ניקח איבר כללי ב-\( A_{x} \), כלומר איבר \( f\left(q\right) \) כך ש-\( q<x \), ועכשיו נשתמש בכך ש-\( f \) היא איזומורפיזם, כלומר משמרת סדר, כלומר \( f\left(q\right)<f\left(x\right) \), שהוא מה שרצינו. עכשיו, בואו נראה שלא ייתכן ש-\( \sup A_{x}<f\left(x\right) \): במקרה הזה, הצפיפות של \( \mathbb{Q}_{2} \) ב-\( \mathbb{F}_{2} \) נותנת לנו איבר \( p^{\prime}\in\mathbb{Q}_{2} \) כך ש-\( \sup A_{x}<p^{\prime}<f\left(x\right) \). במקום לעבוד עם \( p^{\prime} \) ישירות, יהיה לי כאן ובהמשך יותר קל לדבר עליו בתור \( f\left(p\right) \) עבור \( p\in\mathbb{Q}_{1} \) - אני יודע ש-\( p \) כזה קיים כי \( f \) היא איזומורפיזם ולכן פשוט \( p=f^{-1}\left(p^{\prime}\right) \).

אם כן, נתון לי \( \sup A_{x}<f\left(p\right)<f\left(x\right) \). אי השוויון \( f\left(p\right)<f\left(x\right) \) פירושו \( p<x \) (שוב, כי \( f \) איזומורפיזם ובפרט משמרת סדר), כלומר \( f\left(p\right)\in A_{x} \) על פי הגדרת \( A_{x} \) ולכן \( f\left(p\right)\le\sup A_{x} \) - סתירה לנתון \( \sup A_{x}<f\left(p\right) \). זה מראה לנו ש-\( \sup A_{x}=f\left(x\right) \).

זה עדיין לא מסיים את ההוכחה ש-\( f \) מוגדרת היטב כי יש עוד סכנה: שעבור \( x \) כלשהו, \( A_{x} \) תהיה קבוצה נטולת סופרמום. אני כמובן משתמש פה חזק בכך ש-\( \mathbb{F}_{2} \) מקיים את אקסיומת השלמות (ומתי אשתמש בה עבור \( \mathbb{F}_{1} \)?) אבל גם עם אקסיומת השלמות אני עדיין צריך להשתכנע ש-\( A_{x} \) לא ריקה (הארכימידיות של \( \mathbb{F}_{2} \) נותנת את זה מיד) וש-\( A_{x} \) חסומה. החסימות נובעת מהארכימידית של \( \mathbb{F}_{1} \), שנותנת לנו \( n \) כך ש-\( x<n \). אז \( f\left(n\right) \) הוא חסם מלעיל של \( A_{x} \), כי אם ניקח איבר כלשהו ב-\( A_{x} \) הוא מהצורה \( f\left(q\right) \) כך ש-\( q<x \) ולכן מטרנזיטיביות יחס הסדר, \( q<n \) ומכך ש-\( f \) היא איזומורפיזם נקבל \( f\left(q\right)<f\left(n\right) \). זה מסיים את הטענה ש-\( g \) מוגדרת היטב, כי ראינו שאכן \( \sup A_{x} \) קיים.

כדי לראות ש-\( f \) חח”ע, בואו ניקח \( x\ne y\in\mathbb{F}_{1} \) כלשהם ונראה ש-\( f\left(x\right)\ne f\left(y\right) \). בלי הגבלת הכלליות אני אניח ש-\( x<y \), ומהצפיפות של הרציונליים קיימים \( p_{1},p_{2}\in\mathbb{Q}_{1} \) כך ש-\( x<p_{1}<p_{2}<y \). עכשיו, \( f\left(p_{1}\right) \) הוא חסם מלעיל של \( A_{x} \), כי אם \( q<x \) אז בפרט \( q<x<p_{1} \) ולכן \( f\left(q\right)<f\left(p_{1}\right) \) (כבר ראינו לפני רגע את אותו טיעון) ולכן \( \sup A_{x}\le f\left(p_{1}\right) \) (כי הסופרמום הוא החסם מלעיל הקטן ביותר). בנוסף, \( p_{2}<y \) פירושו על פי הגדרה \( f\left(p_{2}\right)\in A_{y} \) ולכן \( f\left(p_{2}\right)\le\sup A_{y} \) ולכן

\( f\left(x\right)=\sup A_{x}\le f\left(q\right)<f\left(p\right)\le\sup A_{y}=f\left(y\right) \)

כלומר \( f\left(x\right)<f\left(y\right) \) ובפרט \( f\left(x\right)\ne f\left(y\right) \). שימו לב שבעצם הוכחנו כבר חצי מהתכונה האחרונה: הראינו שאם \( x<y \) אז \( f\left(x\right)<f\left(y\right) \). אבל למעשה, זה נותן לנו גם את החצי השני: אם \( f\left(x\right)<f\left(y\right) \) אבל \( y\le x \) אז \( f\left(y\right)\le f\left(x\right) \) וקיבלנו סתירה (כאן אנחנו מסתמכים על כך שיחס הסדר הוא מלא; עבור יחס סדר כללי לא מקבלים את שני הכיוונים ביחד).

כדי לראות ש-\( f \) על, בואו ניקח \( y\in\mathbb{F}_{2} \) כלשהו ונמצא \( x\in\mathbb{F}_{1} \) כך ש-\( f\left(x\right)=y \). לצורך כך, בואו נסתכל על הקבוצה \( B_{y}=\left\{ q\in\mathbb{Q}_{1}\ |\ f\left(q\right)<y\right\} \) - זו הגדרה שמזכירה את זו של \( A_{x} \) ולא במקרה - זה כאילו אני מנסה להגדיר פונקציה בכיוון ההפוך, מ-\( \mathbb{F}_{2} \) אל \( \mathbb{F}_{1} \), אז גם ברור מה יהיה הצעד הבא: אני ארצה להגדיר \( x=\sup B_{y} \). בשביל זה אצטרך לראות ש-\( B_{y} \) לא ריקה וחסומה. בשביל שני אלו אני אשתמש בכך ש-\( f \) היא איזומורפיזם, כלומר \( f^{-1} \) קיימת: אני אשתמש בארכימדיות של \( \mathbb{F}_{2} \) כדי לקבל איברים \( f\left(q_{1}\right)<y<f\left(q_{2}\right) \) כך ש-\( q_{1},q_{2}\in\mathbb{Q}_{1} \), ואז \( q_{1}\in B_{y} \) ולכן זו לא קבוצה ריקה, ו-\( f\left(q_{2}\right) \) יהיה חסם מלעיל של \( B_{y} \), כי אם \( q\in B_{y} \) אז \( f\left(q\right)<y<f\left(q_{2}\right) \) ולכן בגלל ש-\( f \) משמרת סדר \( f\left(q\right)<f\left(q_{2}\right) \) ייתן לנו \( q<q_{2} \).

הגדרתי את \( x \) אבל עדיין צריך להראות ש-\( f\left(x\right)=y \). האם ייתכן ש-\( f\left(x\right)<y \)? במקרה כזה, צפיפות הרציונליים תיתן לנו \( p\in\mathbb{Q}_{1} \) כך ש-\( f\left(x\right)<f\left(p\right)<y \), אבל מכיוון ש-\( f\left(p\right)<y \) הרי ש-\( p\in B_{y} \), ולכן מכיוון ש-\( x=\sup B_{y} \) אז \( p\le x \) ולכן \( f\left(p\right)\le f\left(x\right) \) (זה נובע מכך שכבר הוכחנו שאם \( a<b \) אז \( f\left(a\right)<f\left(b\right) \)) וזו סתירה לכך ש-\( f\left(x\right)<f\left(p\right) \). נשאר רק להראות שלא ייתכן \( y<f\left(x\right) \). אם זה כן היה מתקיים, אז היינו מקבלים \( f^{-1}\left(y\right)<x \), אבל \( f^{-1}\left(y\right) \) הוא בעצמו חסם מלעיל של \( B_{y} \) (כי אם \( f\left(q\right)<y \) אז \( q<f^{-1}\left(y\right) \)) ולכן \( f^{-1}\left(y\right)<x \) סותר את ההגדרה \( x=\sup B_{y} \). זה מסיים את החלק הזה של ההוכחה.

עכשיו צריך להוכיח ש-\( f\left(x+y\right)=f\left(x\right)+f\left(y\right) \). כרגיל כבר, אנחנו מניחים שזה לא המצב ולכן אפשר לכתוב \( f\left(x+y\right)<f\left(x\right)+f\left(y\right) \) או \( f\left(x+y\right)>f\left(x\right)+f\left(y\right) \) ולהתעלל בכל אחד מהמקרים הללו לחוד עם כל מני רציונליים שנדחפים בין האיברים. במקרה \( f\left(x+y\right)<f\left(x\right)+f\left(y\right) \) אני אמצא \( p\in\mathbb{Q}_{1} \) כך ש-\( f\left(x+y\right)<f\left(p\right)<f\left(x\right)+f\left(y\right) \) .

בואו נסתכל על \( f\left(x+y\right)<f\left(p\right) \). בגלל ש-\( f \) משמרת סדר, \( x+y<p \), ועכשיו נשתמש בטריק יפה. נמצא \( q_{x},q_{y}\in\mathbb{Q}_{1} \) כך ש-\( p=q_{x}+q_{y} \) ו-\( x<q_{x} \) ו-\( y<q_{y} \), באופן הבא: מכיוון ש-\( x+y<p \) אז \( x<p-y \), ולכן ניתן לבחור רציונלי \( q_{x} \) כך ש-\( x<q_{x}<p-y \). עכשיו נגדיר \( q_{y}=p-q_{x} \); \( q_{y} \) יהיה רציונלי כי \( p \) ו-\( q_{x} \) שניהם רציונליים. בנוסף, \( q_{y}=p-q_{x}>p-\left(p-y\right)=y \), כלומר קיבלתי \( x<q_{x} \) וגם \( y<q_{y} \), כמו שרציתי.

עכשיו נשתמש במספרים הללו:

\( f\left(p\right)=f\left(q_{x}+q_{y}\right)=f\left(q_{x}\right)+f\left(q_{y}\right)>f\left(x\right)+f\left(y\right) \)

וקיבלנו סתירה ל-\( f\left(p\right)<f\left(x\right)+f\left(y\right) \). המעבר השני מתבסס על כך ש-\( f \) בגרסה המצומצמת שלה היא איזומורפיזם של \( \mathbb{Q}_{1} \) ו-\( \mathbb{Q}_{2} \).

במקרה השני, \( f\left(x\right)+f\left(y\right)<f\left(x+y\right) \), עושים משהו דומה - זה מה שנקרא “תרגיל טוב” כדי לוודא שהבנו את הרעיון.

נשאר לנו רק להראות \( f\left(x\cdot y\right)=f\left(x\right)\cdot f\left(y\right) \). ראשית נוכיח את זה עבור ערכים חיוביים, \( 0<x,y \), כי כאן נמצא עיקר הרעיון. כמו קודם, אני אניח שאין שוויון ואטפל במקרה \( f\left(xy\right)<f\left(x\right)f\left(y\right) \) והמקרה השני יהיה “תרגיל טוב”. אני אמצא \( p\in\mathbb{Q}_{1} \) כך ש-\( f\left(xy\right)<f\left(p\right)<f\left(x\right)f\left(y\right) \) ואז אמצא \( q_{x},q_{y}\in\mathbb{Q}_{1} \) כך ש-\( x<q_{x},y<q_{y} \) ו-\( q_{x}q_{y}=p \) , כך שאני אקבל

\( f\left(p\right)=f\left(q_{x}q_{y}\right)=f\left(q_{x}\right)f\left(q_{y}\right)>f\left(x\right)f\left(y\right) \)

וזו סתירה ל-\( f\left(p\right)<f\left(x\right)f\left(y\right) \).

נשאר רק למצוא את \( q_{x},q_{y} \) הללו. \( xy<p \) ולכן \( x<\frac{p}{y} \) - אבל שימו לב שכאן נזקקתי להנחה ש-\( 0<y \) אחרת זה לא היה עובד (הנחה שלא הייתי צריך במקרה של חיבור, כשאמרתי ש-\( x<p-y \)). עכשיו אפשר רציונלי \( q_{x} \) כך ש-\( x<q_{x}<\frac{p}{y} \) ואגדיר \( q_{y}=\frac{p}{q_{x}} \) (ושוב, בלי \( 0<x \) הייתי מסתכן כאן בחלוקה באפס). עם ההגדרה הזו, \( q_{x}q_{y}=p \) וכמו כן \( q_{y} \) רציונלי כי הוא מנה של שני רציונליים. אנחנו יודעים ש-\( x<q_{x} \) על פי האופן שבו \( q_{x} \) נבחר. בנוסף, מכיוון ש-\( q_{x}<\frac{p}{y} \) ושני המספרים הללו חיוביים, אנחנו מקבלים \( \frac{1}{q_{x}}>\frac{y}{p} \) ולכן \( q_{y}=\frac{p}{q_{x}}>p\cdot\frac{y}{p}=y \) וקיבלנו גם את \( q_{y}>y \) שהיינו צריכים.

הראינו את \( f\left(xy\right)=f\left(x\right)f\left(y\right) \) למקרה שבו \( 0<x,y \), אבל מה עם המקרים האחרים? ראשית, אם \( x=0 \) אז קל לראות ש-\( f\left(0\right)=0 \), פשוט כי \( f\left(0\right)=f\left(0+0\right)=f\left(0\right)+f\left(0\right) \), אז השוויון בוודאי יתקיים כי

\( f\left(xy\right)=f\left(0\cdot y\right)=f\left(0\right)=0=0\cdot f\left(y\right)=f\left(0\right)\cdot f\left(y\right)=f\left(x\right)f\left(y\right) \)

ובדומה גם אם \( y=0 \). שימו לב שכאן לא השתמשנו במה שהוכחנו כבר על כפל, אבל כן במה שהוכחנו כבר על חיבור (טוב, ליתר דיוק רק על \( f\left(0+0\right)=f\left(0\right)+f\left(0\right) \) שנבע מכך ש-\( f \) המקורית על הרציונליים הייתה איזומורפיזם).

עכשיו, מה אם \( x<0 \) אבל \( y>0 \)? במקרה הזה \( -x>0 \) אז אפשר להשתמש עליו במה שכבר הוכחנו. לפני כן, בואו נראה שמתקיים הדבר המתבקש \( f\left(-x\right)=-f\left(x\right) \), מה שמזמין שוב שימוש במה שהוכחנו על חיבור:

\( f\left(-x\right)+f\left(x\right)=f\left(-x+x\right)=f\left(0\right)=0 \)

ולכן אחרי העברת אגפים נקבל \( f\left(-x\right)=-f\left(x\right) \). ועכשיו אפשר לחזור אל הכפל:

\( f\left(xy\right)=-f\left(-xy\right)=-f\left(-x\right)f\left(y\right)=f\left(x\right)f\left(y\right) \)

ובאופן דומה מטפלים במקרה שבו \( x>0 \) ו-\( y<0 \). ואם \( x,y<0 \) שניהם? זה הכי קל:

\( f\left(xy\right)=f\left(\left(-x\right)\left(-y\right)\right)=f\left(-x\right)f\left(-y\right)=\left(-1\right)^{2}f\left(x\right)f\left(y\right)=f\left(x\right)f\left(y\right) \)

וסיימנו את כל ההוכחה!

סיכום זריז

זה היה פוסט ארוך במיוחד ומחולק להרבה חלקים כי רציתי שכל הדברים הרלוונטיים זה לזה ישבו באותו מקום. יש משהו קצת אירוני שעבור ההגדרה המאוד פשוטה “הממשיים הם השדה הסדור השלם” הייתי צריך לכתוב כל כך הרבה, ועוד יותר אירוני שבעצם לא בנינו את הממשיים בכלל כאן. קיבלנו מושג מאוד ברור של מה הממשיים אמורים להיות: מה זה שדה, מה זה סדור, מה זה שלם. ראינו גם שאם בכלל קיימת קבוצה שמקיימת את התכונות הללו שאנחנו דורשים מהממשיים, אז היא יחידה במובן זה שכל קבוצה אחרת שמקיימת את התכונות הללו איזומורפית אליה. אבל עדיין לא בניתי שום קבוצה כזו - את זה אני אעשה בהמשך, עם שתי הבניות הסטנדרטיות של הממשיים: זו שמשתמשת בחתכי דדקינד וזו שמשתמשת בסדרות קושי. ההגדרה של חתכי דדקינד מגיעה באופן כמעט ישיר מאקסיומת השלמות שדיברנו עליה בפוסט הזה; אבל ההגדרה עם סדרות קושי (שאני אישית אוהב טיפה יותר למרות ששתי ההגדרות נהדרות) תדרוש עוד קצת עבודת הכנה תיאורטית, שבה יעסוק הפוסט הבא.

אז מה זה בעצם המספרים הממשיים? (חלק א’: השיטה העשרונית)

2024-08-11T00:00:00+00:00

המספרים הממשיים הם אחד מהדברים המרכזיים במתמטיקה. הם מופיעים בערך בכל מקום. בבית הספר משתמשים בהם כל הזמן באופן מובלע; כשמתחילים ללמוד מתמטיקה ברמת אוניברסיטה הם צצים מייד בתור העולם המרכזי שבו מתרחש החשבון הדיפרנציאלי והאינטגרלי, בתור בסיס למה שקורה באלגברה לינארית, בתור קבוצה מעניינת במיוחד בתורת הקבוצות, וכו’ וכו’ וזה עוד בלי שנתחיל לדבר על השימושים שלהם בפיזיקה ויתר המדעים.

רק דבר אחד לא ממש ברור - מהם המספרים הממשיים? במתמטיקה מגדירים כל דבר אפשרי בערך, אז איך הממשיים מוגדרים? מתברר שזה לא כל כך פשוט. יש הגדרה קצרה וקולעת שאני אוהב: השדה הסדור השלם. כרגע ההגדרה הזו היא פשוט רצף אקראי של מילים שלא אומר שום דבר ולא ברור מה הקשר בינו לבין מה שכולם מכירים מבית הספר, אז בואו נחזור קודם כל ליסודות ונדבר על מה שכולם יודעים, ואז נראה למה צריך יותר מזה ואיך אפשר לעשות את זה.

כשאני מבקש מאנשים להגדיר את הממשיים, הגדרה די נפוצה היא “כל המספרים, חוץ מהמרוכבים”. זו הגדרה שמשמחת אותי כי אני תמיד אוהב לראות כמה הרבה אנשים מכירים את המספרים המרוכבים, אבל זו לא הגדרה מועילה כל כך עבורנו כי היא מניחה שאנחנו כבר יודעים מה זה כל המספרים ורק צריך לסנן החוצה את אלו הבעייתיים. אז אני לא אדבר פה בכלל על מרוכבים, ולא אניח שאנחנו כבר מכירים ממשיים.

הגדרה נפוצה אחרת היא “כל המספרים שעל ציר המספרים” ועוד אחזור גם אליה בהמשך כי יש איתה כמה בעיות לטעמי, אבל הברורה ביותר היא שגם פה אנחנו מסבירים מה זה אובייקט מסובך (הממשיים) על ידי הנחה שאנחנו כבר מכירים אובייקט מסובך (ציר המספרים שהוא לכאורה פשוט אבל בפועל ממש לא).

אז הנה ההגדרה הכי פשוטה ומוכרת שגם עובדת לא רע בפועל: כל המספרים שאפשר לכתוב בייצוג עשרוני. בואו נראה כמה דוגמאות לפני שנסביר מה זה בכלל ייצוג עשרוני: \( 42 \) הוא מספר ממשי. גם \( -13 \) הוא מספר ממשי. גם \( 0.5 \) הוא מספר ממשי (שאנחנו מכירים בתור “חצי”). גם \( 1.4142\ldots \) הוא מספר ממשי (שאנחנו מכירים בתור \( \sqrt{2} \)). גם \( 3.14159\ldots \) הוא מספר ממשי (שאנחנו מכירים בתור \( \pi \)).

כל המספרים הללו נכתבים בצורה דומה: סדרה של ספרות, כשכל ספרה היא בין 0 ל-9. אנחנו קוראים את הספרות הללו משמאל לימין. לפני הספרות עשוי להופיע הסימן \( - \) שמציין “מינוס” ואומר שהמספר הוא שלילי. בתוך סדרת הספרות עשויה להופיע נקודה (שנקראת “הנקודה העשרונית”) וייתכן שבצד ימין של הספרות יופיעו שלוש נקודות, “\( \ldots \)” שהמשמעות שלהן היא קצת טריקית אבל בגדול הן אומרות “ויש עוד ספרות בהמשך אבל נמאס לנו לכתוב אותן”. זה הכל, אין עוד דקויות לאיך כותבים מספר בייצוג עשרוני - רק צריך להבין מה הכתיב הזה אומר בכלל.

פחות או יותר כל שיטה שאני מכיר לכתיבת מספרים מבוססת על כמה “אבני בניין”, מספרים פשוטים יחסית שיש לנו סימונים ספציפיים עבורם, ואז כתיבה של מספר מורכב יותר כוללת הוראות איך לקחת את אבני הבניין הללו ולחבר אותן ביחד. דוגמא פשוטה ויפה לזה היא השיטה הרומית, שבה \( I \) הוא הסימן של 1, \( V \) הוא הסימן של 5, \( X \) הוא הסימן של 10 ויש עוד כל מני סימנים. כשכותבים \( XXVIII \) אומרים “קחו פעמיים 10, תוסיפו לזה פעם אחת 5 ושלוש פעמים 1” וככה מקבלים את המספר 28. בשיטה הרומית יש גם התחכמות; כדי לא לכתוב את אותו סימן 4 פעמים ברצף, מרשים סוג של חיסור, כלומר עבור 9 במקום לכתוב \( VIIII \) כותבים \( IX \) כשהעובדה ש-\( I \) בא לפני \( X \) אומרת “במקום לחבר 1 בואו נחסר 1”. בייצוג עשרוני למרבה השמחה אין שטיקים כאלה: תמיד מחברים, אין חיסורים ואין שום שטות אחרת.

“אבני הבניין” בשיטה העשרונית הם המספרים \( 1,10,100,1000 \) וכן הלאה - חזקות של 10. בשביל לפשט את העניינים אני אכתוב לפעמים \( 10^{1} \) במקום 10, \( 10^{2} \) במקום 100 וכן הלאה, וכמו כן \( 10^{0} \) במקום 1; יש לי פוסט על למה להעלות דברים בחזקת 0 אמור להחזיר 1 אז לא אכנס לזה כאן.

כשאני כותב מספר בשיטה העשרונית והנקודה העשרונית לא מופיעה, הרעיון הוא זה: הספרה הימנית ביותר אומרת כמה פעמים 1 משתתף במספר. הספרה הבאה אחריה לכיוון שמאל אומרת כמה פעמים 10 משתתף במספר, הבאה אחריה מדברת על 100 וכן הלאה. כלומר, כשאני כותב \( 42 \) הכוונה היא לקחת את 1 ולחבר אותו פעמיים, ואז לקחת את 10 ולחבר אותו 4 פעמים: \( 2\times1+4\times10 \). ו-\( 103 \) פירושו \( 3\times1+0\times10+1\times100 \). אני אישית מוצא את סגנון הכתיבה הזה בלתי קריא לחלוטין, עם כל האיקסים והמהומות. אני מעדיף \( 3\cdot10^{0}+0\cdot10^{1}+1\cdot10^{2} \) שקצת יותר קל לי לקרוא. מה שאפשר לראות כאן קצת יותר בקלות הוא שהמספר בנוי מסכום של חזקות של 10 שמוכפלות במספרים שהיו הספרות שהופיעו בייצוג העשרוני: בהקשר הזה, המספרים הללו נקראים המקדמים של החזקות.

עם השיטה שהצגתי עד עכשיו אפשר לבנות את כל המספרים הטבעיים, שהם המספרים הפשוטים ביותר שאנחנו מכירים - \( 1,2,3 \) וכן הלאה (גם 0 יכול להיחשב מספר טבעי אבל לא ניכנס לזה) ומסומנים ב-\( \mathbb{N} \). אני מניח שאנחנו מכירים את המספרים הטבעיים, ואני מניח גם שאנחנו בסדר עם המספרים השליליים. הטבעיים והשליליים יחד עם 0 נקראים המספרים השלמים ומסומנים ב-\( \mathbb{Z} \). בשיטה העשרונית כדי לייצג מספר שלילי מה שעושים הוא כאמור להוסיף סימן מינוס לפניו, כך שאנחנו כבר עכשיו יודעים איך לתאר את כל המספרים השלמים.

כשמתחילים לדבר על שברים הסיפור מסתבך. בדרך כלל נוח לנו לתאר שברים באמצעות קו שבר: את “חצי” אנחנו כותבים בתור \( \frac{1}{2} \) ואת “שליש” בתור \( \frac{1}{3} \) ואת “שלושת-רבעי” בתור \( \frac{3}{4} \) וכן הלאה. בשיטת הכתיבה הזו יש לנו קו - קו השבר - שמעליו יש מספר שלם שנקרא המונה, מתחתיו יש מספר שנקרא המכנה והאינטואיציה הוא שהמספר שמיוצג בצורה כזו הוא התוצאה של חילוק המונה במכנה. לכן \( \frac{5}{10} \) הוא שיטה אחרת לכתוב \( \frac{1}{2} \), למשל. זו שיטת כתיב שימושית בצורה יוצאת מן הכלל, וגם במתמטיקה מתקדמת זה האופן שבו בדרך כלל מתארים שברים.

אם רוצים לתאר שברים בעזרת כתיב עשרוני, אנחנו מסתבכים. אמרנו שכתיב עשרוני עובד עם לחבר חזקות של 10, אבל איזה חזקות של 10 אפשר לחבר בכלל כדי לקבל \( \frac{1}{2} \)? לכאורה החזקה הקטנה ביותר של 10 היא \( 10^{0}=1 \) שהיא לבדה גדולה מחצי. אז בשביל לקבל שברים צריך להכניס לתמונה סוג חדש של חזקות של 10: חזקות שליליות. ההגדרה די פשוטה: אם \( n \) הוא מספר טבעי (בפרט, לא שלילי) אז \( 10^{-n}=\frac{1}{10^{n}} \). כלומר, \( 10^{-1} \) הוא עשירית, \( 10^{-2} \) הוא מאית וכן הלאה. אם יש לי עשיריות, אני יודע לתאר את חצי: \( 5\cdot\frac{1}{10} \) הולך לצאת בדיוק חצי, כמו שראינו. אז כשאני הולך לכתוב את חצי בשיטה העשרונית, אני אשתמש בספרה 5 - אבל איך מסמנים שאני מתחיל להשתמש בחזקות שליליות של 10 במקום בחיוביות?

כאן נכנסת לתמונה הנקודה העשרונית. את חצי כותבים בתור \( 0.5 \). מה זה אומר? ה-0 בצד שמאל הוא ספרת האחדות. הנקודה שמימין ל-0 הזה אומרת “כאן מתחילות להופיע חזקות שליליות של 10” וככל שמתקדמים יותר ימינה, מקבלים חזקות שליליות קטנות יותר של 10. ב-\( 0.5 \) יש רק ספרה אחת, שמייצגת את המקדם של החזקה השלילית \( 10^{-1} \). כלומר, המספר הזה הוא

\( 0\cdot10^{0}+5\cdot10^{-1} \)

וכפי שראינו, זה אכן יוצא חצי. זה היה פשוט, אבל מהר מאוד זה מסתבך. כדי לכתוב \( \frac{1}{4} \), למשל, אני נזקק ל-\( 0.25 \), כי

\( 2\cdot\frac{1}{10}+5\cdot\frac{1}{100}=\frac{25}{100}=\frac{1}{4} \)

אפשר לחשוב על זה ככה: ראשית שאלתי את עצמי - האם יש מספר טבעי \( a \) כך ש-\( \frac{a}{10}=\frac{1}{4} \)? קל לראות שאין כזה, כי \( a \) צריך לצאת \( 2.5 \) בעצמו. אז הלכנו אל החזקה הבאה בתור ושאלנו את עצמנו האם יש \( a \) טבעי כך ש-\( \frac{a}{100}=\frac{1}{4} \). כאן התשובה הייתה חיובית: \( a=25 \). אבל אי אפשר לכתוב מספר שבו המקדם של ספרת המאיות היא 25 כי 25 הוא גדול מ-\( 9 \), שהיא הספרה הגדולה ביותר, אז היה הכרח “לפצל” את המספר לסכום. זה קצת מבלבל אבל באמת שלא כזה נורא.

מה שכן נורא הוא \( \frac{1}{3} \). הבעיה איתו היא שפשוט לא קיים מספר \( a \) שלם כך ש-\( \frac{a}{10}=\frac{1}{3} \). או \( \frac{a}{100}=\frac{1}{3} \). או \( \frac{a}{10^{n}}=\frac{1}{3} \) ולא משנה איזו חזקה של \( 10 \) ניקח. למה? כי נניח ש-\( \frac{a}{10^{n}}=\frac{1}{3} \) כן מתקיים עבור מספר שלם \( a \) כלשהו, אז \( a=\frac{10^{n}}{3} \), כלומר \( 10^{n} \) מתחלק ב-3 בלי שארית וזה פשוט לא נכון - כל חזקה של 10 שנחלק ב-3 תחזיר שארית 1. אז יש לנו בעיה. ולמעשה, יש לנו את הבעיה הזו כמעט תמיד, עבור כל מכנה שהמספר שבו לא מחלק בלי שארית חזקה כלשהי של 10. ובגלל ש-\( 10=2\cdot5 \) כש-\( 2,5 \) ראשוניים, גם קל לאפיין את המספרים הבעייתים: כל מספר שיש לו גורם ראשוני שהוא לא 2 או 5 יהיה בעייתי. כמעט כל המספרים! הדוגמאות הנחמדות של \( \frac{1}{2} \) ושל \( \frac{1}{4} \) (כמו גם \( \frac{1}{5} \) למשל, שיוצא \( 0.2 \)) הן היוצא מן הכלל. ברוב המוחלט של המקרים פשוט אי אפשר לכתוב את השבר בתור סכום סופי של חזקות שליליות של 10.

אז מה עושים? אה, כאן הכיף מתחיל. משתמשים במספר אינסופי של חזקות שליליות של 10. למשל, בהחלט יש מצב שכבר ידעתם ש-\( \frac{1}{3}=0.333\ldots \). בדור שלי ידענו את זה כי השתעממנו למוות בשיעור מתמטיקה ועשינו דברים אקראיים עם מחשבונים, למשל לחלק 1 ב-3 ולצהול איך המסך של המחשבון התמלא בספרות. אבל מחשבון לא כותב בדרך כלל \( 0.333\ldots \). הוא כותב משהו כמו \( 0.333333333 \) וזהו. או אולי \( 0.3333333334 \) אם הוא ממש רוצה לשגע אותנו. אין אצלו את שלוש הנקודות, מה שיוצר אולי אשליה ש-\( \frac{1}{3}=0.33333333 \), אבל זה פשוט לא נכון: למשל, \( 0.333=\frac{3}{10}+\frac{3}{100}+\frac{3}{1000}=\frac{333}{1000} \), והמספר הזה הוא לא \( \frac{1}{3} \). אם נכפיל אותו ב-3 נקבל \( \frac{999}{1000} \), לא 1. ואם נכפיל ב-3 את \( \frac{334}{1000} \) נקבל \( \frac{1002}{1000} \), לא 1. אז לעצור אחרי מספר סופי של 3-ים משאיר אותנו עם קירוב של המספר, לא עם המספר עצמו, וגם לשנות את הספרה האחרונה לא יעזור לנו. אנחנו חייבים אינסוף ספרות.

מה קורה כשיש אינסוף ספרות? ובכן, האינטואיציה היא שמשהו כמו \( 0.333\ldots \) הוא הסכום

\( \frac{3}{10}+\frac{3}{100}+\frac{3}{1000}+\ldots \)

שפשוט נמשך עוד ועוד עד אינסוף, מה שבמתמטית מסומן בקיצור בתור \( \sum_{n=1}^{\infty}\frac{3}{10^{n}} \). זה מה שנקרא טור אינסופי. יש במתמטיקה תחום מכובד ומפותח שמטפל בין היתר בטורים אינסופיים - החשבון הדיפרנציאלי והאינטגרלי. במסגרת שלו אפשר להוכיח שהטור \( \sum_{n=1}^{\infty}\frac{3}{10^{n}} \) באמת מתכנס, כלומר שאפשר לייחס ערך מספרי לסכום שלו, וגם אפשר להוכיח שהערך הזה יהיה \( \frac{1}{3} \). אבל מה זה אומר? שאנחנו נזקקים למתמטיקה מתקדמת למדי כדי להסביר סימון פשוט. הרי \( \frac{1}{3} \) זה משהו שאנחנו מכירים מבית הספר היסודי; איך זה הגיוני בכלל שאנחנו נזקקים לחומר של אוניברסיטה כדי להצדיק כתיב עשרוני לאותו מספר? זו שאלה שאני תוהה כמה אנשים בכלל טורחים לשאול את עצמם; הרי רואים גם את השיטה העשרונית, וגם את השטיק של \( 0.333\ldots \) בשלב מוקדם יחסית של ההיכרות עם המתמטיקה, ואני חושד שפשוט קל לקבל את זה ש”זה עובד” בלי לפקפק יותר מדי. הפקפוקים מגיעים רק כשאנשים מגיעים לפינות אפלות, כמו השאלה האם \( 0.999\ldots \) שווה ל-1 (תשובה: כן, בוודאי, זה נובע ישירות מההגדרה של \( 0.999\ldots \) ועוד נחזור לזה בסדרת הפוסטים הזו).

מה שראינו עד עכשיו עשוי לתת רושם שכשכותבים מספר בייצוג עשרוני אינסופי, מה שקורה הוא פשוט שיש ספרה שחוזרת על עצמה לנצח. בדרך כלל המצב מסובך יותר. אם למשל נחשב את \( \frac{1}{7} \) נגלה ש-\( \frac{1}{7}=0.142857142857\ldots \), כלומר רצף הספרות \( 142857 \) חוזר על עצמו לנצח, לא סתם ספרה בודדת. הדרך הטובה ביותר להרגיש “מה קורה כאן” היא באמת לחשב בפועל את \( \frac{1}{7} \) לפי שיטת החילוק הארוך (אני מציג אותה ומראה את החישוב הספציפי הזה כאן). בלי להיכנס יותר מדי לפרטים, מה שקורה בחילוק ארוך הוא שהחל משלב מסוים, המשך תהליך החילוק תלוי רק בשארית שיש לנו כרגע, ואם אנחנו למשל מחלקים ב-7 אז השארית הזו תהיה מספר מ-0 עד 6. זה אומר שמתישהו אותה שארית תחזור על עצמה פעמיים, ואז המשך החישוב יהיה חזרה שוב ושוב על מה שקורה בין מופעים עוקבים של השארית הזו. גם אם לא עקבתם, השורה התחתונה היא זו: כשאנחנו מחשבים את הייצוג העשרוני של שבר, הוא תמיד יהיה מחזורי החל ממקום מסויים אחרי הנקודה העשרונית.

התוצאה הזו יכולה לתת לנו תקווה שבעצם, אפשר לתת ייצוג עשרוני סופי לכל מספר. במקום השלוש נקודות המטופשות הללו אפשר פשוט לשים קו מעל הספרות שהולכות לחזור על עצמן. למשל, במקום לכתוב \( 0.333\ldots \) לכתוב פשוט \( 0.\overline{3} \). במקום לכתוב \( 0.142857142857\ldots \) לכתוב פשוט \( 0.\overline{142857} \), וכן הלאה.

העניין הוא, שזה באמת נותן לנו רק את השברים. במתמטית “השברים” נקראים מספרים רציונליים, מסומנים ב-\( \mathbb{Q} \), והם קבוצה חשובה ביותר ומרכזית לשלל ענפי המתמטיקה - והם רחוקים מלכלול את כל המספרים שמעניינים אותנו. למשל, \( \sqrt{2} \) הוא לא מספר רציונלי (כאן אני מדבר על זה) וגם \( \pi \) הוא לא מספר רציונלי. בפרט, זה אומר שאין להם ייצוג מחזורי כשבר עשרוני - אנחנו חייבים לכתוב משהו מטופש כמו \( \pi=3.14159\ldots \) כששלוש הנקודות אומרות “כן, ומכאן והלאה זה נמשך, אבל זה לא נמשך באופן מחזורי ובתכל’ס פשוט אין לי מושג מה הספרות הולכות להיות אבל אני יכול לנסות לחשב אותן אם אתאמץ”.

אז בשביל מספרים כלליים, אני חייב להרשות את זה שהייצוג העשרוני יהיה אינסופי, גם אם הספרות לא חוזרות על עצמן. זה מוביל אותנו להגדרה הכללית של ייצוג עשרוני של מספר ממשי: סדרה אינסופית של ספרות, שכוללת סימן של נקודה איפה שהוא בתוכה, ויכולה גם להתחיל בסימן מינוס.

ההגדרה נשמעת אולי קצת מוגזמת: ב-\( 0.5 \) אין אינסוף ספרות, וב-\( 42 \) אין אפילו נקודה עשרונית. אבל כמובן, אפשר לחשוב על הסימונים הללו בתור קיצורים. \( 0.5 \) הוא קיצור של \( 0.5000\ldots \) ואילו \( 42 \) הוא קיצור של \( 42.000\ldots \). זה מאפשר לנו לתת הגדרה די פשוטה לייצוג עשרוני של מספר ממשי.

אז מה בעצם הבעיה פה?

חשוב לי להבהיר שאין בעיה אמיתית. אני מעדיף גישות אחרות להגדרת הממשיים ואראה את כולן, אבל אפשר להגדיר את המספרים הממשיים גם בעזרת הגישה הזו ובהמשך אני כנראה גם אסביר כל הפרטים, אבל זה בהחלט לא יהיה חף מסיבוכים טכניים. לב הקושי הוא בזה שלא מספיק להגדיר את המספרים עצמם; צריך גם להגדיר עליהם פעולות אלגבריות כמו חיבור וכפל. אבל כרגע זה אפילו לא מה שמעניין אותי.

מה שמעניין אותי הוא שאני חושב שלפעמים מתפספסת ההבנה עד כמה ההגדרה שנתנו כרגע היא גורפת ומה המשמעויות שלה. סדרות אינסופיות של ספרות יש המון - בלשון של תורת הקבוצות, זו קבוצה לא בת מניה. המשמעות של זה היא שעבור רובם המוחץ, המכריע של המספרים הממשיים אין דרך לחשב את הספרות שלהם כמו שהיה במקרה של \( \pi \). אצל \( \pi \), כזכור, אמרתי “אוקיי אני שם פה שלוש נקודות כדי להגיד שאין לי כוח לתאר עוד ספרות, אבל בעיקרון גם אם תבקשו ממני לחשב את הספרה במקום ה-1,345,823 אני אוכל לעשות את זה”. עבור רוב המספרים הממשיים אין את זה, ולעולם לא יהיה (אינטואיטיבית, זה נובע מכך שיש רק מספר בן מניה של תוכניות מחשב אפשריות אבל מספר לא בן מניה של ממשיים). אפילו יותר גרוע מזה - עזבו אתכם מלחשב, את רוב המספרים הממשיים לא ניתן בכלל להגדיר. מה שאני יודע להגדיר הוא את קבוצת כל המספרים הממשיים, אבל איברים קונקרטיים וספציפיים שלה? אני יכול להצביע אינדיבידואלית רק על מיעוט זניח מביניהם. כמעט כל המספרים הממשיים הם משהו שאף פעם לא נכתוב, אף פעם לא נשתמש בו במפורש בחישוב, אף פעם לא יהיה רלוונטי לחיים שלנו בשום צורה.

זו, אגב, גם תשובה לאלו שמגדירים מספרים ממשיים בתור “כל המספרים שיכולים להתקבל בתור תוצאת מדידה פיזיקלית” (נעזוב את השאלה האם גם מרוכבים יכולים להתקבל כך) - כל מכשירי המדידה שלנו הם בעלי רזולוציה מוגבלת, ויוצא שאנחנו מודדים רק כמות בת מניה של מספרים, אז גם בגישה הזו אנחנו לא מגרדים את כל קבוצת הממשיים. ההגדרה שנתתי למעלה מנסה לחמוק מזה עם מעבר לדיבור על משהו פוטנציאלי (“שיכולים להתקבל”) אבל אני חושב שאם נוקטים בגישה הזו הדבר ההוגן לעשות הוא קודם לתאר את כל סט מכשירי המדידה שעומדים לרשותנו, ואז לשאול את השאלה האם נוכל למדוד איתם את כל המספרים הממשיים (לא; נוכל למדוד איתם רק קבוצה בת מניה של מספרים, כלומר זניחה יחסית לכל המספרים הממשיים).

העניינים הללו מעלים שאלה מצוינת - אם כך, בשביל מה אנחנו בכלל צריכים את המספרים הממשיים? אי אפשר פשוט להצטמצם רק למספרים שאפשר לחשב אותם או משהו? התשובה היא שאפשר, ויש כאלו שעושים את זה, אבל את רוב המתמטיקאים זה פשוט לא מעניין, כי הרבה יותר קל לעבוד עם המספרים הממשיים. כי אולי להצביע על ממשיים אינדיבידואליים זה כאב ראש, אבל כשמסתכלים על הקבוצה כולה, המכלול - זו קבוצה עם תכונות מאוד נוחות ויפות שמאפשרות למתמטיקאים להוכיח משפטים בקלות יחסית. כשאני קורא לממשיים “השדה הסדור השלם” אני בעצם מציין בדיוק את התכונות הללו. בפוסט הבא נדבר עליהן יותר לעומק.

למה מותר לחלק באפס?

2024-08-09T00:00:00+00:00

מבוא

כידוע לכולם, אסור לחלק באפס.

התמונה שלעיל, שלקוחה מהתוכנית הקלאסית “חשבון פשוט” שאפשר לראות כאן, מסכמת יפה את העניין - היא פשוט אומרת “חילוק באפס זו טעות, כיוון שאין לו - משמעות”. זה מה שאנחנו גדלים עליו מגיל צעיר, ואפשר להוסיף לזה שלל סיפורי זוועות על אנשים אומללים שחילקו באפס וסופם היה רע ומר, ובפרט אהוב הסיפור על ספינת הקרב USS Yorktown שנתקעה למשך כמה שעות טובות אחרי שהמחשב שלה קרס בעקבות חלוקה באפס.

אני לא אוהב את זה.

אני לא אוהב את זה, בגלל שזה יוצר את הרושם שמתמטיקה היא מין תחום כזה של חוקים ברורים וחד משמעיים שאי אפשר לערער עליהם. ותגידו - כן, נו, ברור, זו בדיוק המהות של המתמטיקה! ובכן, אני לא בדיוק מסכים. במתמטיקה, כמו למשל בציור, חוקים קיימים כדי שישברו אותם, אבל סתם לשבור אותם כדי לשבור דברים זה לא מעניין לכשעצמו, כמו שסתם קשקושים אקראיים זה לא מעניין; אם השבירה הזו מגיעה ממישהו שמכיר היטב את החוקים והסיבה שהם קיימים אבל מערער עליהם כי יש לו מה להגיד עם זה - זה כבר סיפור אחר. וכשזה נוגע לחלוקה באפס, הדבר הזה קורה שוב ושוב - אנחנו מחלקים באפס בסבבה, כי בהקשרים מסוימים ותחת מגבלות מסוימות זה דווקא יכול להיות בסדר. אז אני רוצה להסביר בפוסט הזה את ה”למה לא” וגם את ה”למה כן”. יש לי כבר פוסט ישן על זה, מראשית ימי הבלוג, אבל אני אפילו לא אנסה לקרוא אותו, משתי סיבות: ראשית, כי חלק ניכר ממנו ומפוסט ההמשך שלו סבב סביב איזה טרחן שהמציא שיטה לחלק באפס, וזה פשוט פחות מעניין ללמוד משהו חדש אם זה משולב בהתעסקות בטרחנים; ושנית - כי אני מקווה להיות אפילו יותר חיובי בפוסט הזה מאשר בפוסט הישן ההוא.

אז למה יש בכלל בעיה עם חלוקה באפס?

כשהייתי ילד וניסיתי להסביר לעצמי מה הבעיה עם חלוקה באפס (כי לא כל כך הצלחתי להבין - אמרו לי שאסור, אבל לא לגמרי הבנתי למה) סיפרתי לעצמי את הסיפור הבא: לחלק 0 תפוחים ל-4 ילדים זה קל - כל ילד יקבל 0 תפוחים, וזה הגיוני. אבל אם אני מחלק 4 תפוחים ל-0 ילדים, זה בעייתי כי אז השאלה “כמה תפוחים יקבל כל ילד” היא חסרת משמעות כי אין בכלל ילדים. אני חושב שזו התחלה של טיעון טוב, אבל זה לא הטיעון עצמו - כרגע זה מרגיש לי כמו נפנוף ידיים, סוג של תעלול לשוני, אולי דרך להראות שבהקשר הספציפי של ילדים ותפוחים חילוק באפס לא עובד הכי טוב. אבל חלק מהיופי במתמטיקה הוא בסיטואציות שבהן עושים ניסים ונפלאות למרות שנראה שמה שבאים לעשות הוא בכלל בלתי אפשרי - תחשבו למשל על המלון של הילברט. אז כשאני בא לנסח טיעון נגד חלוקה באפס אני רוצה לומר משהו יותר קונקרטי. והנה משהו יותר קונקרטי: אם אני מחלק 6 תפוחים ל-3 ילדים ומקבל שכל ילד קיבל 2 תפוחים, זה אומר שאם אני מבקש מהילדים להחזיר את התפוחים, כל ילד יחזיר 2 תפוחים ואני אקבל ככה 3 פעמים 2 תפוחים, כלומר 6. אבל אם אני מחלק איכשהו 6 תפוחים ל-0 ילדים ואז מבקש להחזיר - מאיפה התפוחים יגיעו? אני אקבל 0 פעמים תפוחים מה”ילדים” שלא קיימים, ולכן בסוף הסיפור יהיו לי ביד 0 תפוחים למרות שאמורים להיות 6. אז יש כאן בבירור בעיה אמיתית של תפוחים נעלמים, ואני אנסה לחדד אותה קצת.

לפני ששואלים מה מפריע לנו עם לחלק באפס אפשר לשאול אם משהו מפריע לנו עם לחלק באופן כללי: נאמר, אם יגידו לנו “נא לחלק 6 ב-2” כנראה שנגיד 3 בלי הרבה ויכוחים, אבל אם יגידו לנו “נא לחלק 5 ב-2” עלולה להתעורר מהומה כלשהי כי תמיד יש את ההוא שאומר שאין דבר כזה בכלל “שברים” ורק המספרים הטבעיים קיימים, ותמיד יש את המתחכם כמוני שיגיד “אוקיי אבל מה אם אלו 5 כלבים?” כלומר, יש משהו בעייתי קצת בכל פעולת החילוק - משהו בעייתי שאין בפעולת הכפל. כשאנחנו כופלים מספרים טבעיים, התוצאה תהיה תמיד מספר טבעי. אבל כשאנחנו מחלקים מספרים טבעיים, ייתכן שנצטרך לצאת מהעולם הנוח והנחמד של הטבעיים, ותמיד כשיוצאים מאיזור הנוחות שלנו יהיו השגות לגבי זה.

אם אנחנו מהסוג שאומר “אה, \( 5 \) חלקי \( 2 \) זה \( 2.5 \) שהוא מספר שלא שמעתי עליו מעולם עד עכשיו אבל יאללה, נזרום” למה בעצם שלא נזרום עם האפשרות שיש מספר ששווה ל-5 חלקי 0? ובכן, אין שום בעיה עם זה. השאלה היא רק מה יהיו התכונות של המספר הזה. זה מה שמעניין אותנו במתמטיקה - לא השאלה אם “מותר” להגדיר משהו, אלא איך אנחנו מצפים שהוא יתנהג אחרי שהגדרנו אותו והאם זה יהיה מעניין. והנה הבשורות המרות: זה לא יהיה כזה מעניין. ובשביל לראות את הסיבה לכך, בואו נעבור לדבר במשוואות. נניח ש-\( \frac{6}{3}=x \), מה \( x \) הזה מקיים? אם נכפיל את שני אגפי המשוואה ב-\( 3 \) נקבל שהוא מקיים \( 6=3\cdot x \). זה מה שקראתי לו קודם “הילדים מחזירים את התפוחים שלהם”. תוצאה של חילוק במשהו אמורה להיות מספר שהכפל שלו באותו משהו מחזיר אותי למספר שממנו התחלתי. ולכן, אם אני מחלק באפס וכותב \( \frac{6}{0}=x \) הציפייה שלי היא שיתקיים \( 6=0\cdot x \), וזה לא קורה עם מספרים רגילים, כי במספרים רגילים - לכפול משהו באפס תמיד מחזיר אפס.

זה השלב שבו אפשר וצריך לפקפק בטענה הזו של “לכפול משהו באפס תמיייייד מחזיר אפס”. במתמטיקה שום דבר הוא לא שרירותי כזה, זו טענה שאפשר להוכיח. בואו נראה את ההוכחה: ניקח “משהו” כללי שנקרא לו \( a \), ואת 0. נסתכל על המכפלה שלהם ונעשה את התעלול הבא:

\( 0\cdot a=\left(0+0\right)\cdot a=0\cdot a+0\cdot a \)

קיבלנו \( 0\cdot a=0\cdot a+0\cdot a \) ועכשיו נחסר \( 0\cdot a \) משני האגפים, ונקבל \( 0=0\cdot a \). זו הוכחה קצרה וקומפקטית מאוד, אבל היא כן מניחה כל מני הנחות ששווה לשים עליהן זרקור.

ראשית, המעבר הראשון בהוכחה הוא \( 0\cdot a=\left(0+0\right)\cdot a \), שמניח את השוויון \( 0=0+0 \). אני חושב שאין לנו ויכוח על השוויון הזה, שבכלל לא נוגע למספר הקסום \( a \), אלא למהות של 0 שהופכת אותו למספר כזה בעייתי: \( 0 \) הוא המספר הנייטרלי לפעולת החיבור, כלומר אם מחברים 0 למשהו, המשהו לא משתנה. גם כשהמשהו הוא אפס בעצמו.

המעבר השני בהוכחה \( \left(0+0\right)\cdot a=0\cdot a+0\cdot a \) הוא מקרה פרטי של משהו שנקרא חוק הפילוג (או במתמטית, דיסטריביוטיביות). הנה הכתיב הכללי:

\( \left(x+y\right)\cdot z=x\cdot z+y\cdot z \)

את חוק הפילוג אנחנו רואים כבר בבית הספר היסודי, ואפשר להוכיח שהוא מתקיים לכל המספרים הממשיים. אבל - אף אחד לא טוען ש-\( a \) הוא מספר ממשי, אז בהחלט ייתכן שההוכחה נשברת בשלב הזה; אלא שזה אומר שהיא גוררת איתה למצולות את חוג הפילוג. עוד מעט אחזור לזה.

השלב האחרון בהוכחה הוא ה”לחסר \( 0\cdot a \) משני האגפים” שהוא בעצם ההנחה שמתקיים \( 0\cdot a-0\cdot a=0 \). גם כאן, זו לא הנחה מובנת מאליה: לכאורה לחסר משהו מעצמו אמור תמיד לתת אפס, אבל בהמשך אני אראה דוגמה לסיטואציה שבה זה לא המצב ואנחנו חיים עם זה טוב במתמטיקה. אלא מה, אם אני מניח ש-\( 0\cdot a \) הוא מספר ממשי, ההנחה הזו כן נכונה. כלומר, אם אני טוען ש-\( 0\cdot a=6 \), אז לחסר אותו מעצמו כן צריך לתת 0.

בקיצור, אם אני רוצה לטעון שיש \( a \) כך ש-\( 0\cdot a=6 \), מה שברור לי הוא ש-\( a \) לא יכול להיות מספר ממשי - כלומר, מהמספרים ה”רגילים” שאנחנו מתעסקים איתם ביומיום. הוא חייב להיות מספר חדש. וזה קצת מזכיר סיטואציה דומה שהתרחשה במתמטיקה לפני כמה מאות שנים: אנחנו יכולים להוכיח די בקלות שלכל מספר ממשי \( a \) מתקיים \( a\cdot a\ge0 \), ולכן פשוט לא קיים מספר ממשי \( a \) כך ש-\( a^{2}=-1 \), אבל המתמטיקאים מצאו את עצמם בסיטואציה שבה הם נאלצים להוציא שורש ל-\( -1 \) ולעבוד איתו מתמטית. אז הם “המציאו” (במרכאות, כי זו לא באמת המצאה, יש בניות קונקרטיות מאוד) מספר \( i=\sqrt{-1} \) והכניסו אותו למתמטיקה והיום אי אפשר לזוז שני מטרים במתמטיקה בלי להיתקל ב-\( i \) הזה ובמספרים שנבנים בעזרתו (“מספרים מרוכבים”). זו המצאה שימושית בצורה יוצאת דופן והמתמטיקה שהיא הניבה היא יפהפיה. אבל הנה לב העניין כאן: המתמטיקה עם \( i \) היא יפהפיה כי \( i \) משחק יפה עם המספרים הקיימים. כדי להכניס אותו לתמונה לא היינו צריכים לוותר על חוק הפילוג או על זה שמספר פחות עצמו הוא 0. במתמטית נפוצה אנחנו אומרים על זה שהמספרים הממשיים \( \mathbb{R} \) היו שדה, שזו קבוצה שמקיימת את חוקי החשבון הרגילים (חיבור, חיסור, כפל, חילוק) עם כל התכונות הנחמדות שלהן מבית הספר (חוק הקיבוץ, חוק החילוף, חוק הפילוג) וגם המרוכבים \( \mathbb{C} \) הם שדה.

זה לא אומר שלהוסיף את \( i \) לתמונה לא עלה לנו שום דבר. בממשיים \( \mathbb{R} \) יש יחס סדר, אפשר להשוות בין שני מספרים ולומר ש-\( 3<8 \) וכדומה. אם מכניסים את \( i \) לתמונה זה הולך לאיבוד. אין ב-\( \mathbb{C} \) יחס סדר “טבעי”, כזה שמשחק יפה עם תכונות השדה. במתמטית: \( \mathbb{R} \) הוא שדה סדור ואילו \( \mathbb{C} \) הוא כבר לא שדה סדור. זה מחיר שאנחנו מוכנים לשלם, משתי סיבות: ראשית, כי אנחנו עדיין יכולים לעבוד עם \( \mathbb{R} \) לבדה, אף אחד לא מכריח אותנו תמיד לעבוד עם \( \mathbb{C} \), אנחנו לא זורקים לפח את המתמטיקה שלא מערבת מרוכבים. שנית, כי המתמטיקה שאנחנו כן יכולים לעשות עם \( \mathbb{C} \) היא כאמור די יפהפיה. וזה פשוט לא קורה אם אנחנו מגדירים \( a=\frac{6}{0} \). במקום זה רק צצות עוד ועוד בעיות.

בואו נראה עוד בעיה. דיברתי על חוק הקיבוץ. הוא אומר (עבור כפל) ש-\( \left(a\cdot b\right)\cdot c=a\cdot\left(b\cdot c\right) \). נשמע סביר? ובכן, אם \( a\cdot0=6 \) אז בואו נכפול ב-2 את שני האגפים. נקבל

\( \left(a\cdot0\right)\cdot2=12 \)

ומחוק הקיבוץ נקבל

\( a\cdot\left(0\cdot2\right)=12 \)

כלומר

\( a\cdot0=12 \)

אבל התחלנו מכך ש-\( a\cdot0=6 \), אז קיבלנו \( 6=12 \), ובמילים אחרות קיבלנו \( 6=0 \). אאוץ’. אין מנוס, נצטרך לוותר על חוק הקיבוץ כש-\( a \) מעורב, או על הקטע הזה שאם \( a\cdot0 \) שווה לשני דברים שונים אז הם שווים זה לזה, שזה עיקרון בסיסי במתמטיקה עוד מאז אוקלידס (“שוויון הוא טרנזיטיבי” במתמטית מודרנית).

אוקיית אז אם אנחנו מניחים ש-\( \frac{6}{0}=a \) הלכו לנו חוק הפילוג וחוק הקיבוץ. אבל אולי אפשר להציל את עצמנו בדרך פשוטה? להגיד שמכך ש-\( \frac{6}{0}=a \) לא נובע ש-\( 6=0\cdot a \)? אפשר לעשות את זה, ואז עולה השאלה מה השוויון \( \frac{6}{0}=a \) בעצם נותן לנו; ומכיוון שזה אחד מאותם דברים שעושים בפועל והם אפילו שימושיים, אני אדבר על זה בהמשך.

הדבר האחרון שאני רוצה לדבר עליו בגזרת ה”בעיות” הוא השאלה הבאה: אם אמרנו ש-0 כפול כל דבר יוצא 0, מה בעצם הבעיה עם \( \frac{0}{0} \)? אם אני למשל אגדיר \( \frac{0}{0}=0 \), האם זה יוביל לסתירה? לא, כי \( 0=0\cdot0 \). ומה אם, למשל, אני אגדיר \( \frac{0}{0}=1 \)? גם במקרה הזה אין סתירה כי \( 0=0\cdot1 \). אז מה הבעיה? ובכן, זה עתה ראינו מה הבעיה - עכשיו הבעיה היא לא שאין לנו מספר מתאים עבור \( \frac{0}{0} \) אלא שיש יותר מדי כאלו. איך אני אמור להגדיר? \( \frac{0}{0}=0 \) או \( \frac{0}{0}=1 \) או אולי משהו אחר? אני הרי לא יכול להגדיר את שניהם גם יחד, כי אז \( 0=\frac{0}{0}=1 \) וקיבלנו \( 0=1 \) או שוב פעם ויתור על העקרון הממש בסיסי ששוויון הוא טרנזיטיבי.

עכשיו, אנחנו יודעים שלכל \( x\ne0 \) מתקיים \( \frac{x}{x}=1 \), אז באמת, למה שלא נגדיר \( \frac{0}{0}=1 \)? אה, טוב ששאלתם, כי זה לא ייגמר כאן. אני אחבר את \( \frac{0}{0} \) עם עצמו: אם זה באמת מספר ממשי, אז לא אמורה להיות בעיה לעשות את זה. אז \( \frac{0}{0}+\frac{0}{0}=1+1=2 \) מצד אחד, אבל מצד שני

\( \frac{0}{0}+\frac{0}{0}=\frac{0+0}{0}=\frac{0}{0}=1 \)

וזה כשאני משתמש בכללי החיבור הרגילים של שברים - והופס, קיבלתי \( 1=2 \), סתירה במתמטיקה! אז אני יכול או לוותר על ההגדרה \( \frac{0}{0}=1 \) או לוותר על העיקרון לפיו אפשר לחבר שברים כשיש 0 במכנה, מה שהופך את \( \frac{0}{0} \) שוב למשהו שאין לנו מושג מה אפשר לעשות איתו, בעצם. אז לכאורה כל זה דוחף אותנו לכיוון ההגדרה \( \frac{0}{0}=0 \), אבל אל תתפתו לחשוב שזה יאפשר לנו לעשות חשבון עם הדבר הזה. כזכור, כשמחברים זוג שברים \( \frac{a}{b},\frac{c}{d} \), הנוסחה היא \( \frac{a}{b}+\cfrac{c}{d}=\frac{ad+bc}{bd} \), ולכן

\( 1=1+0=\frac{1}{1}+\frac{0}{0}=\frac{0+0}{0}=\frac{0}{0} \)

והופס! קיבלנו שוב את \( \frac{0}{0}=1 \) שכבר ראינו שהוא רועץ המתמטיקה - אלא אם כן שוב נוותר על משהו בסיסי. זה פשוט לא נגמר. זה כמו הצעצועים הללו שלוחצים עליהם במקום אחד ויוצאת בליטת פיכסה מהצד השני.

לפני שאני אעבור לדברים החיוביים, יש לי עוד דבר שלילי אחד לומר, שהוא אולי הגרוע מכולם - איך חלוקה באפס יכולה ממש לשגע אותנו. זה יקרה כשאנחנו נחלק באפס בלי לשים לב בכלל, אם איכשהו יצא שאנחנו פותרים להנאתנו משוואה ומחלקים אותה בביטוי כלשהו ושוכחים לסייג את זה שהוא לא שווה לאפס. יש לי פוסט עם דוגמא יפה במיוחד לזהת שבה ניסו לנצל את העניין הזה כדי לטעון שכל המתמטיקה מבוססת על כשלים לוגיים. כאן אני אסתפק בדוגמה הבסיסית שבה אפשר לראות עד כמה זה בעצם מטופש. הביטו במשוואה הבאה:

\( 4x=3x \)

אני יכול לחלק את שני האגפים ב-\( x \) ולקבל \( 4=3 \). הופס, סתירה במתמטיקה! הבעיה היא, כמובן, שאני לא יכול לחלק את שני האגפים ב-\( x \). לעשות דבר כזה אומר שלא משנה מה הערך של \( x \), תמיד ניתן לחלק בו. או, טכנית, תמיד ניתן לכפול את שני אגפים המשוואה בהופכי שלו. ל-\( 0 \) אין הופכי - אין מספר שאפשר לכפול בו את שני אגפי המשוואה ופשוט יעלים את \( x \) ממנה במקרה שבו \( x=0 \). מה שכן אפשר לעשות הוא להגיד “נניח ש-\( x \) שונה מאפס” ואז לחלק ב-\( x \), אבל אם מקבלים תוצאה לא הגיונית, המסקנה היא שההנחה הייתה לא נכונה. כמובן, את המשוואה \( 4x=3x \) אפשר לפתור יותר בקלות - מחסרים \( 3x \) משני האגפים ומקבלים \( x=0 \) מייד.

יפה, אז ראינו למה חלוקה באפס היא בעייתית. עכשיו בואו נראה הקשרים שבהם אנחנו כן עושים אותה בכל זאת, כי היא מועילה - תחת מגבלות מאוד מדויקות.

לאינסוף, והמינוס שלו

ההקשר המרכזי שצריך לדבר עליו הוא התחום המאוד מרכזי במתמטיקה שהבסיס שלו נעוץ בטריק של “בואו נחלק באפס, אבל בעצם לא” שאיכשהו באופן פלאי במהלך המאה ה-19 המתמטיקאים הבינו איך לפרמל עד הסוף - החשבון הדיפרנציאלי והאינטגרלי. אני לא אכנס פה לכל ההגדרות - יש לי פוסטים על זה. במקום זה, הנה הרעיון המרכזי.

נניח שאני רוצה לחלק את 1 ב-0 אבל אמרנו שהתוצאה לא יכולה לצאת מספר ממשי. מה כן הולך לצאת מספר ממשי? אם אני אחלק את 1 לא באפס אבל במשהו די קטן. למשל, \( \frac{1}{10000} \). זה מספר די קטן, לא? אם אני מחלק את 1 בו, אני מקבל \( 10000 \), שהוא די גדול. אבל “קטן” ו”גדול” זה מושג יחסי. 10000 הוא גדול אם אנחנו רוצים לאכול 10000 תפוחים, אבל לא אם אנחנו מסתכלים על מספר הכוכבים ביקום. אפשר לקחת מספרים עוד יותר קטנים ולחלק את 1 בהם. למשל \( \frac{1}{10^{100}} \), ותוצאת החלוקה תהיה \( 10^{100} \) - המספר שמכונה “גוגול”. הבנו את הרעיון: לכל מספר טבעי \( n \), אני יכול לחלק את 1 ב-\( \frac{1}{n} \) והתוצאה תהיה \( n \) עצמו. אז המתמטיקאים אומרים - בואו לא נסתכל על חלוקה במספר קונקרטי, אלא ניקח סדרה של מספרים: המספרים \( 1,\frac{1}{2},\frac{1}{3},\ldots \) וכן הלאה. הסדרה שהאיבר הכללי שלה הוא \( \frac{1}{n} \).

ככל ש-\( n \) גדול יותר, כך המספרים בסדרה הזו קטנים יותר, והם מתקרבים עוד ועוד לאפס באופן בלתי מוגבל: על הדבר הזה אומרים שהסדרה \( \frac{1}{n} \) שואפת לאפס כאשר \( n \) שואף לאינסוף. אפילו כותבים \( \lim_{n\to\infty}\frac{1}{n}=0 \), למי שממש רוצים להיות פורמליים. מעשית זה אומר שאם ניקח מספר חיובי כלשהו, לא משנה כמה קטן הוא יהיה, נוכל למצוא מקום בסדרה שבו האיברים של הסדרה כבר יותר קטנים. פורמלית: לכל \( \varepsilon>0 \) יש \( n \) כך ש-\( \frac{1}{n}<\varepsilon \) (ההגדרה האמיתית של גבולות יותר מסובכת, אם כי לא בהרבה, כי היא מיועדת להתמודד גם עם מקרים מסובכים יותר - כאמור, לא אכנס לזה כאן).

בואו נכניס עוד סימון: את הסדרה של המספרים שתיארתי אסמן על ידי \( a_{n}=\frac{1}{n} \). כלומר, \( a_{n} \) הוא האיבר ה-\( n \)-י בסדרה. עכשיו, בואו נגדיר סדרה חדשה שהאיבר הכללי שלה הוא \( \frac{1}{a_{n}} \) ונשאל את עצמנו לאן הסדרה הזו שואפת כש-\( n \) שואף לאינסוף. מכיוון שכפי שכבר ראינו, \( \frac{1}{a_{n}}=n \), זה אומר שככל ש-\( n \) נעשה יותר גדול, כך גם \( \frac{1}{a_{n}} \) נעשה יותר גדול. קצת יותר פורמלית, לכל \( M \) ממשי, \( \frac{1}{a_{n}}>M \) החל מאיזה שהוא מקום \( n \) בסדרה. על כזו סיטואציה אנחנו אומרים שהסדרה שואפת לאינסוף ומסמנים את זה \( \lim_{n\to\infty}\frac{1}{a_{n}}=\infty \).

מה שקריטי להבהיר כאן הוא שכרגע \( \infty \) הוא בסך הכל סימון. הוא לא מתאר מספר כלשהו. הוא לא מתאר איבר כלשהו. הוא בסך הכל מתאר את ההתנהגות “לכל \( M \) ממשי, \( \frac{1}{a_{n}} \) גדול מ-\( M \) החל ממקום \( n \) כלשהו”. הניסוח המאוד פתלתל הזה הוא בדיוק מה שהמתמטיקאים של המאה ה-19 חתרו אליו; המטרה הייתה בדיוק להעיף את האינסוף המוזר הזה מהחדו”א היפה שלהם, כי כשהאינסוף הזה השתתף בדברים בתור איבר מן השורה הוא באמת עשה צרות.

מה שהצגתי כאן היה דוגמא, אבל הוא נכון באופן כללי. אני רוצה לחדד את זה טיפה על ידי הצגת משפט אפילו עוד יותר כללי. אם \( a_{n},b_{n}>0 \) הן שתי סדרות שונות של מספרים חיוביים ואנחנו בונים את הסדרה \( \frac{a_{n}}{b_{n}} \) ורוצים לדעת מהו \( \lim_{n\to\infty}\frac{a_{n}}{b_{n}} \), אז הנה שתי סיטואציות חשובות:

אם \( \lim_{n\to\infty}a_{n}=A \) וגם \( \lim_{n\to\infty}b_{n}=B \) כך ש-\( A,B \) מספרים ממשיים ששניהם שונים מאפס, אז \( \lim_{n\to\infty}\frac{a_{n}}{b_{n}}=\frac{A}{B} \)
אם \( \lim_{n\to\infty}a_{n}=A \) וגם \( \lim_{n\to\infty}b_{n}=0 \) כך ש-\( A>0 \) מספר ממשי חיובי, \( \lim_{n\to\infty}\frac{a_{n}}{b_{n}}=\infty \)

תוצאה מס’ 1 היא כלל שימושי ביותר בחשבונות שמערבים גבולות - הוא מראה שבדרך כלל, אפשר “להחליף את הסדר” בין פעולת החילוק והפעולה של לקיחת גבול של סדרה. אפשר קודם לחלק את הסדרות ואז לקחת את הגבול שלהן, או קודם לקחת את הגבול ואז לחלק את הגבולות, והתוצאה תהיה זהה. זה חשוב לעניין שלנו כי אם אנחנו באים לעשות משהו שמזכיר הגדרה של חילוק באפס, אז בהקשר של החדו”א אנחנו מסוגלים לומר “אוקיי, אנחנו לא יודעים לחלק באפס, אבל כן מעניין אותנו איך מתנהגת הפעולה שבנסיבות שבהן לא מערבים חלוקה באפס היא שקולה לחלוקה רגילה אם אנחנו שוברים את הנסיבות הללו וכן מחלקים באפס.” הנה אנלוגיה לא קשורה בעליל. יש לי בבית סכין שף וסכין משוננת קטנה ופושטית. למרבה הבושה אני רגיל לחתוך ירקות עם הסכין הפושטית, ובדרך כלל כשאני משתמש בסכין השף במקומה אני מגיע לאותה תוצאה בדיוק. אבל אם יגיע אלי פתאום נאמר אבטיח, אני לא בטוח שאצליח לחתוך אותו בכלל עם הסכין הפושטית, אז מעניין אותי לראות מה סכין השף תשיג - זה יהיה עולם חדש ושונה שעם הסכין הפושטית אני לא נחשף אליו - אבל בעצם, אני חושב לעצמי, זה בערך אותו דבר שהייתי מקבל עם הסכין הפושטית אלמלא המגבלות הטכניות הטיפשיות שלה.

אז תוצאה מס’ 2 היא מה שקורה כשאני חותך את האבטיח עם סכין שף. כשאני מחלק סדרה ששואפת למשהו חיובי בסדרה של מספרים חיוביים ששואפת לאפס, אני מקבל שאיפה לאינסוף. זה מוביל לתפיסה הדי פופולרית שלחלק משהו באפס מחזיר אינסוף, וזו תפיסה לא רעה: אם אני אראה מישהו כותב \( \frac{1}{0}=\infty \) אני לא אתפלץ. אבל צריך להבין שזו גם תפיסה שגויה כי היא פשטנית מדי. מ-2 שכתבתי למעלה אי אפשר עדיין להסיק “לחלק משהו באפס נותן אינסוף”. פשוט כי יש הרבה סיטואציות שלא נכללות ב-1-2 האלו שלמעלה.

שימו לב שהנחתי קודם (כמעט באופן מובלע, שלא תשימו לב) ש-\( a_{n},b_{n}>0 \), כלומר שתי הסדרות הללו הן של מספרים חיוביים. אבל מה קורה אם למשל ה-\( a_{n} \) יכולים להיות שליליים? בכזו סיטואציה \( A \) יכול להיות שלילי. למשל, בואו נסתכל על הסדרה \( a_{n}=-1 \) - סדרה קבועה שמחזירה תמיד 1. ניקח את הסדרה \( b_{n}=\frac{1}{n} \) שראינו קודם, אז במקרה הזה \( \frac{a_{n}}{b_{n}}=-n \) והדבר הזה לא הולך וגדל ככל ש-\( n \) גדל, אלא ההפך - הולך וקטן. אבל לא קטן במובן של “מתקרב לאפס” אלא במובן של “נהיה מספר שלילי עם ערך מוחלט ענקי”. פורמלית, לכל \( M \) (כולל \( M \) שלילי), החל ממקום בסדרה מתקיים \( \frac{a_{n}}{b_{n}}<M \). על כזה דבר אומרים שיש לנו שאיפה למינוס אינסוף, \( \lim_{n\to\infty}\frac{a_{n}}{b_{n}}=-\infty \). זה מה שקורה אם \( b_{n}>0 \) היא עדיין סדרה חיובית ו-\( a_{n} \) היא סדרה כלשהי כך ש-\( \lim_{n\to\infty}a_{n}=A \) ו-\( A<0 \).

הצרות רק מתחילות. מה קורה אם \( a_{n} \) היא כן סדרה חיובית, נאמר אפילו \( a_{n}=1 \), אבל דווקא אברי \( b_{n} \) הם כולם שליליים, למשל \( b_{n}=-\frac{1}{n} \)? גם במקרה כזה הגבול יצא \( -\infty \). אבל אם גם אברי \( b_{n} \) שליליים כולם וגם \( \lim_{n\to\infty}a_{n}=A \) כך ש-\( A<0 \) אז הגבול יהיה דווקא \( \infty \). כלומר, אי אפשר סתם להגיד על כל משהו חלקי אפס שהוא אינסוף - זה תלוי גם בשאלה האם ה”משהו” הוא חיובי או שלילי, אבל עוד יותר מכך - הוא תלוי בשאלה האם ה”אפס” שבמכנה הוא חיובי או שלילי, כלומר האם הסדרה ששואפת לאפס היא חיובית או שלילית. כשאנחנו רואים רק ביטוי כמו \( \frac{1}{0} \) אין בו, מן הסתם, שום מידע על סדרה בדיונית כלשהי ששואפת לאפס במכנה שלו. יש רק 0. לכן הביטוי \( \frac{1}{0} \) הוא לא מוגדר היטב גם אם מאמצים את הגישה של החדו”א.

שימו לב שבכל מה שתיארתי עד כה היה מקרה אחד שהתרחקתי ממנו כמו מאש - המקרה \( \frac{0}{0} \). אצלי הגבול \( A \) של המונה תמיד היה שונה מאפס, ובכוונה. כי אם \( \lim_{n\to\infty}a_{n}=A=0 \) הסיטואציה משתגעת סופית ופשוט אי אפשר לדעת מה יקרה. הנה ניסוח פורמלי:

אם \( \lim_{n\to\infty}a_{n}=\lim_{n\to\infty}b_{n}=0 \) אז \( \lim_{n\to\infty}\frac{a_{n}}{b_{n}} \) יכול להיות בלתי מוגדר, או \( \infty \), או \( -\infty \), או \( r \) לכל מספר ממשי \( r\in\mathbb{R} \).

זה אפילו ממש קל להראות דוגמאות לכל הדברים הללו:

אם \( a_{n}=\frac{r}{n} \) וגם \( b_{n}=\frac{1}{n} \) אז \( \frac{a_{n}}{b_{n}}=r \) וזו סדרה ששואפת ל-\( r \).
אם \( a_{n}=\frac{1}{n} \) וגם \( b_{n}=\frac{1}{n^{2}} \) אז \( \frac{a_{n}}{b_{n}}=n \) וזו סדרה ששואפת ל-\( \infty \).
אם \( a_{n}=-\frac{1}{n} \) וגם \( b_{n}=\frac{1}{n^{2}} \) אז \( \frac{a_{n}}{b_{n}}=-n \) וזו סדרה ששואפת ל-\( -\infty \).
אם \( a_{n}=\frac{\left(-1\right)^{n}}{n} \) וגם \( b_{n}=\frac{1}{n} \) אז \( \frac{a_{n}}{b_{n}}=\left(-1\right)^{n} \) וזו סדרה שאין לה גבול (הסדרה \( 1,-1,1,-1,\ldots \))

זה יפה, כי זו בעצם חזרה על מה שראינו בתחילת הדיון: משהו כמו \( \frac{1}{0} \) מציב לנו בעיה כי אין לנו מספר מתאים לתאר אותו; אבל משהו כמו \( \frac{0}{0} \) מציב לנו בעיה כי יש לנו יותר מדי מספרים שלכאורה יכולים לתאר אותו.

מה שיש למחשבים לומר בעניין

הזכרתי קודם את ה-USS Yorktown שנתקעה אחרי שהמחשב שלה חילק באפס וקרס. האם זה באמת מה שמחשבים אמורים לעשות כשמחלקים באפס? לקרוס? יש לזה שתי תשובות: אחת היא “כן” והשניה היא “לא”. זה פחות תלוי בשאלה מה היחס שלכם לחלוקה באפס ויותר מה היחס שלכם לתכנות ולמערכות תוכנה.

בגדול, כשתוכנית מחשב כלשהי נתקלת בבעיה, יש שלושה דברים שהיא יכולה לעשות. היא יכולה להתעלם מהבעיה ולהמשיך הלאה כאילו כלום לא קרה; היא יכולה להזהיר מהבעיה ולהמשיך הלאה כאילו כלום לא קרה; והיא יכולה לקרוס. השם הטכני לקריסה כזו הוא “חריגה”, Exception. כשתוכנית מחשב זורקת חריגה, היא בעצם מפסיקה את הריצה הנוכחית שלה ובתקווה גם נותנת הסבר למה שהתרחש.

המוסכמה ברוב שפות התכנות היא שאם מבצעים פעולה של חלוקה באפס, זה גורר מייד חריגה שמקריסה את התוכנית. זה גם מה שקרה אצל ה-USS Yorktown. אפשר לומר, ובצדק, שמחשב של ספינת מלחמה הוא מערכת קריטית, ומערכת קריטית לא אמורה לקרוס אפילו אם קורים בה דברים חריגים. אבל זה תלוי, כמובן, בשאלה מה בדיוק היה הקוד שבו התרחשה החלוקה באפס. כי מה היה קורה אם היינו מתעלמים מהבעיה? אם התוכנית מחלקת שני ערכים ושמה את התוצאה במשתנה, ואחר כך ממשיכה לעשות דברים על פי הערך של המשתנה, אז אם חילקנו באפס פשוט אין לנו שום ערך הגיוני שאמור להיכנס למשתנה. אז אם נתעלם מהבעיה והתוכנית פשוט תמשיך לרוץ, היא תרוץ עם ערך מספרי שהוא ג’יבריש. זה לא כזה נורא אם כל מה שעושים עם המספר הזה, למשל, הוא לתזמן צפירה שגרתית בצהריים; זו זוועת עולם אם מה שעושים עם המספר הזה הוא לכוון תותח בשביל ירי אימונים, ואם ישתמשו בתוצאה הג’יברישית של החלוקה זה עלול לגרום לתותח להתפוצץ ולהטביע את הספינה - אסון חמור בהרבה מאשר התקעות של כמה שעות בלי מחשב. ואיך הקוד יודע אם החלוקה באפס מתרחשת בנקודה שבה צריך לקרוס או בנקודה שבה סבבה להמשיך כרגיל? הקוד לא יכול לדעת.

מה שיש בפועל בשפות תכנות מודרניות הוא מנגנון שמאפשר לתפוס חריגות. אם אנחנו מבצעים פעולת חלוקה ורוצים להתאושש מהסיטואציה שבה חילקנו באפס, אנחנו מצהירים במפורש “כאן עלולה להיות חלוקה באפס, ובמקרה שבו יש חלוקה באפס אל תקרוס אלא תעשה כך-וכך” (המנגנון הטכני קצת יותר מתוחכם אבל נעזוב את זה). כלומר, אנחנו עוברים משיקול הדעת של הקוד עצמו לשיקול הדעת של המתכנתת. אני מנחש שהבעיה במקרה של USS Yorktown לא הייתה קריטית והיה אפשר להתאושש ממנה בקלות יחסית, כך שהבעיה היא הנדסת התוכנה הגרועה של המערכות של הספינה - לא עצם החלוקה באפס. באופן כללי, חלוקה באפס היא בעיה זניחה יחסית במערכות תוכנה; רוב הזמן הן קורסות מסיבות אחרות.

אבל לפעמים אנחנו באמת לא רוצים לקרוס כשמחלקים באפס, וגם לא לתפוס את החריגה - אנחנו רוצים פשוט לאפשר חלוקה באפס ולהתמודד עם התוצאות. זה קורה, למשל, בספרייה כמו Numpy של פייתון שמיועדת לחישובים נומריים. בספרייה כמו זו אנחנו עשויים למצוא את עצמנו מבצעים חישובים עם כמות עצומה של נתונים בבת אחת, למשל (שוב, תיאור קצת פשטני) לקחת שתי סדרות \( a_{n},b_{n} \) שמיוצגות כל אחת על ידי רשימה בגודל 100,000 איברים, ולחשב את הרשימה שאבריה הם \( \frac{a_{n}}{b_{n}} \). בכזו סיטואציה ממש לא היינו רוצים לקרוס באמצע החישוב, אפילו לא אם אנחנו תופסים את החריגה; אנחנו רוצים שכל החישוב יסתיים, ואם היו לנו מקרי חלוקה באפס באמצע, שיהיה, פשוט נחזיר תוצאה מתאימה. כאן “תוצאה מתאימה” מתקבלת מכך ש-Numpy מרחיב את טווח הערכים שיכולים להתקבל - לא רק מספרים ממשיים אלא גם \( \infty \) (שנכתב בתור inf), גם \( -\infty \) (שנכתב בתור -inf) ועוד ערך אחד, שבא לומר “אוקיי יש כאן בעיה” שנקרא NaN, קיצור של Not a Number.

בואו נראה איך זה קורה בפועל ברמת הקוד. הנה קוד פייתון פשוט מאוד שאפשר להריץ בפני עצמו ומחלק באפס:

1/0

התוצאה של הרצת הקוד הזה נותנת

ZeroDivisionError: division by zero 

כלומר, כאן פייתון זרקה חריגה עם השם מאוד ספציפי ZeroDivisionError וההודעה “division by zero” שמסבירה מה קרה. זו הגישה של השפה עצמה לחלוקה באפס. אבל Numpy היא לא חלק מהשפה - היא ספרייה, כלומר תוכנה גדולה שנבנתה בשפה הזו (ובסיוע שפות נוספות) ועם יותר שליטה על “מה שקורה בפנים”. אני הולך להדגים מה Numpy עושה על ידי זה שאייצר שתי רשימות באורך 3: אחת של \( 1,-1,0 \) והשניה של \( 0,0,0 \), ואחלק אותן איבר-איבר, כמו בדוגמאות ה-\( \frac{a_{n}}{b_{n}} \) שלי. זה הקוד:

import numpy as np
a = np.array([1,-1,0])
b = np.array([0,0,0]) 
a/b

התוצאה של הקוד הזה תיראה כך:

array([ inf, -inf,  nan])

כלומר, כמו שאמרתי קודם - החלוקה \( \frac{1}{0} \) נתנה \( \infty \), החלוקה \( \frac{-1}{0} \) נתנה \( -\infty \) והחלוקה \( \frac{0}{0} \) נתנה NaN. כל הערכים הללו הם לא המצאה של Numpy; הם מוגדרים בסטנדרט שנקרא IEEE 754 שעוסק בייצוג של מספרים ממשיים בשפות תכנות באמצעות שיטת הייצוג שנקראת “נקודה צפה”.

מה אפשר לעשות עם הערכים הללו? ראשית, אפשר כמובן לבדוק אם משתנה שווה אליהם או לא - זו דרך שלנו לבדוק אם חישוב כלשהו נכשל או לא. אבל מעבר לכך, בגלל שאנחנו לא רוצים לקרוס (מהסיבה שתיארתי קודם) אנחנו גם מאפשרים לבצע חשבון איתם, תוך השלמה עם המחיר שתיארתי בתחילת הפוסט של שבירת כללי החשבון הרגילים. למשל, אם מבצעים פעולת חשבון כלשהי שמערבת את NaN (חיבור, חיסור, כפל, חילוק, העלאה בחזקה, הוצאת שורש, סינוס, כל דבר) התוצאה תהיה פשוט NaN. הוא “בולע” הכל. זו הדרך של פייתון לסמן למשתמש “החישוב כלל מידע שהוא ג’יבריש אז עכשיו כל תוצאת החישוב היא ג’יבריש”. אפילו אם אנחנו מחברים ומחסרים את המשתנה שמכיל את ה-NaN ולכן לכאורה הוא בכלל לא היה מעורב בחישוב - עדיין החישוב יחזיר NaN, כי המטרה פה היא ללכת על בטוח.

לגבי \( \infty \) כבר מתגלה גמישות רבה יותר, ותוצאות של פעולות חשבון מוגדרות בצורה שנראית לנו הגיונית:

אם \( a \) הוא מספר ממשי כלשהו אז \( \infty+a=\infty \) וגם \( \infty-a=\infty \)
אם \( a>0 \) הוא מספר ממשי חיובי כלשהו, אז \( a\cdot\infty=\infty \).
אם \( a<0 \) הוא מספר ממשי שלילי כלשהו, אז \( a\cdot\infty=-\infty \).
\( \infty+\infty=\infty\cdot\infty=\infty \)

כל הדברים הללו הגיוניים כי הם תואמים את חוקי הגבולות שראינו קודם. לעומת זאת, \( 0\cdot\infty \) או \( \infty-\infty \) הם NaN, בדיוק בגלל אותה בעיה לפיה יכולות להיות “יותר מדי תוצאות”. כלומר, כאן אנחנו מוותרים על הדרישה שהיא לכאורה הכי בסיסית, לפיה אם \( \frac{a}{b}=c \) אז \( a=bc \); זה פשוט לא קורה עבור \( \frac{1}{0}=\infty \) כי \( 0\cdot\infty \) הוא לא מוגדר. בהרבה סיטואציות זה גם לא מפריע לנו, כי מה שמעניין אותנו במספרים הללו הוא לא הזווית האלגברית אלא הזווית החדו”אית, אבל זה באמת תלוי סיטואציה. יש מקרים שבהם עדיף להתייחס ל-\( \infty \) הזה בתור עוד סוג של NaN וחסל. מה שברור הוא שמרגע שהשתרבב לנו \( \infty \) לחישוב, זהו - התוצאה של החישוב כבר לא תחזור להיות מספרים ממשיים.

ולסיום קצת חשיבה מרחבית

עד עכשיו אמרתי שמספר שהוא התוצאה של חילוק באפס הוא בעייתי מאוד כשאנחנו באים לעשות אלגברה, כלומר מנסים לחקור מבנה שמורכב מאיברים שמצייתים לחוקי חשבון פשוטים יחסית. ואמרתי שהוא יחסית מועיל כשאנחנו באים לדבר על גבולות, אבל בעיקר בתור איזו שהיא דרך מקוצרת לדבר על מושג מורכב יותר. ואמרתי שהוא משהו מועיל למדי גם במחשבים, בסיטואציות שבהן אנחנו לא רוצים לשבור את הכלים על כל חלוקה באפס. אני רוצה לסיים את הפוסט עם הגישה הכי אופטימית שלי - מקום שבו \( \frac{1}{0}=\infty \) הוא שוויון מתבקש, ברור ולא חריג בכלל בנוף, אלא משהו שמשחק מאוד יפה עם כל מה שמסביב. המקום הזה נקרא הספירה של רימן והוא מושג בסיסי יחסית עבור מי שמכירים אנליזה מרוכבת, מה שאני בוודאי לא הולך להניח על הקוראים של הפוסט, אז היכונו להסברים עם הרבה נפנופי ידיים ואפשר לקרוא את הפירוט הטכני בפוסט שלי כאן.

לפני שנתחיל לדבר על מספרים מרוכבים, שהם כידוע די מושמצים בעצמם בלי שום סיבה מוצדקת, בואו נדבר על מספרים ממשיים. כשאומרים “מספר ממשי” חושבים בדרך כלל על מה שנקרא ציר המספרים שהוא מין קו כזה עם 0 במרכז, המספרים החיוביים בצד ימין והשליליים בצד שמאל ואנחנו קוראים בשם “מספר ממשי” לכל מה שנמצא עליו (השאלה מה בעצם נמצא עליו היא לא פשוטה כמו שזה נשמע, אבל זה סיפור לפעם אחרת). אנחנו בדרך כלל חושבים על הקו הזה כאילו הוא ממשיך עד אינסוף לשני הכיוונים, ובמתמטית אוהבים לתאר אותו בתור הקבוצה \( \left(-\infty,\infty\right) \) - אוסף כל המספרים \( x \) שמקיימים \( -\infty<x<\infty \).

עכשיו אני רוצה שנדמיין משהו כי אין לי תקציב לסרטוני וידאו. נדמיין את ציר המספרים. אנחנו לא רואים את כולו, רק את המספרים מ-\( -10 \) עד \( 10 \). ואז אנחנו מתחילים לעשות זום אאוט. ואנחנו רואים את כל המספרים מ-\( -100 \) עד \( 100 \), ואז \( -1000 \) עד \( 1000 \) ועוד ועוד ועוד - ואז פתאום זה נגמר. סיימנו. אנחנו רואים את הקצוות של ציר המספרים. הקצה השמאלי הוא \( -\infty \) והימני הוא \( \infty \). זה כמובן לא תרחיש מציאותי כל כך כי ציר המספרים אמור להתמשך עד אינסוף לכל כיוון, אבל בואו נניח שאיכשהו עשינו זום אאוט לכל האינסוף הזה.

עכשיו אפשר לחשוב על \( \infty \) ועל \( -\infty \) בתור נקודות קונקרטיות, כאלו שנמצאות בקצה ציר המספרים. הן הפכו לאובייקט גאומטרי. אבל מה, יש כאן בעיה קטנה - כשאני אומר “גאומטריה” אני חושב על סיטואציה שבה אני יכול למדוד מרחקים בין דברים (זה ליטרלי מה ש”גאומטריה” אומר - מדידת הקרקע) אבל אי אפשר למדוד מרחק מנקודה כלשהי עד אינסוף, הרי המרחק הזה הוא אינסוף. אם אני מצייר את הסיטואציה כאילו האינסוף הוא קצה של קטע שנמצא במרחק סופי מהנקודות שבו, איבדתי את הגאומטריה. נשארו לי רק התכונות הגאומטריות של המרחב שהן “גמישות” - לא תלויות במרחקים הקונקרטיים אלא הן משהו שנשאר גם כשאני “מכווץ” או “מותח” את המרחב. התחום שמתעסק בתכונות כאלו נקרא טופולוגיה.

מבחינה טופולוגית, ציר המספרים המורחב הזה, שמסומן \( \left[-\infty,\infty\right] \) (הסוגריים המרובעים אומרים שנקודות הקצה של הקטע שייכות אליו, להבדיל מ-\( \left(-\infty,\infty\right) \)) לא שונה מהותית מאשר הקטע \( \left[-1,1\right] \), למשל. דבר אחד שכן צריך לעשות, וקצת גולש לפירוט טכני שאתם יכולים לדלג עליו, הוא להבהיר מי הקבוצות הפתוחות בציר המספרים המורחב הזה, כי בטופולוגיה מושג הבסיס שעליו אפשר לבנות מגדלים שלמים הוא מושג הקבוצה הפתוחה. בציר המספרים הרגיל \( \left(-\infty,\infty\right) \), “קבוצה פתוחה” היא כל קטע פתוח מהצורה \( \left(a,b\right) \) או איחוד כלשהו של קטעים כאלו (על זה אומרים שהקטעים \( \left(a,b\right) \) הם בסיס לטופולוגיה של ציר המספרים). בישר המורחב אנחנו מוסיפים את כל הקטעים מהצורה \( [-\infty,a) \) ו-\( (b,\infty] \) (פורמלית זו דוגמא למשהו שנקרא טופולוגיית סדר; זה לא חשוב מה זה בדיוק אומר אבל הנקודה היא שזה מושג סטנדרטי, לא משהו שהומצא אד-הוק לצורך הדוגמא הזו).

דבר אחד שאפשר לעשות עם קבוצות פתוחות הוא להגדיר גבולות בצורה שלא נזקקת לדיבור על אי שוויונים ומרחקים. את ההגדרה ה”קלאסית” של גבול לא נתתי כאן, אבל הנה הגדרה טופולוגית: \( \lim_{n\to\infty}a_{n}=A \) אם לכל קבוצה פתוחה שמכילה את \( A \), קיים מקום בסדרה שהחל ממנו כל ה-\( a_{n} \)-ים שייכים לקבוצה הפתוחה. מה שנחמד בהגדרה הזו היא שעם ההגדרה ה”מורחבת” של הטופולוגיה שהצגתי, המושג של שאיפה לאינסוף או למינוס אינסוף הוא בסך הכל גבול “רגיל”, על פי אותה הגדרה, ולא כמו שקורה בחדו”א שם מתייחסים למקרים הללו בתור מקרים מיוחדים שזוכים לניסוח מיוחד.

עכשיו בואו נעבור לדבר על מספרים מרוכבים. המספרים המרוכבים לא ניתנים להצגה בתור קו - צריך לחשוב עליהם בתור מישור דו ממדי. מישור כזה נמשך עד לאינסוף לכל הכיוונים, אז על פניו נראה שאי אפשר לעשות בו את אותו תרגיל ולהוסיף נקודות אינסוף כי נצטרך להוסיף יותר מדי. אבל למעשה, אפשר לעשות תעלול פשוט מאוד - להוסיף רק נקודה אחת של אינסוף. אפשר לדמיין את זה ככה: במקום לחשוב על המישור המרוכב כאינסופי, לעשות זום אאוט גם כאן ולחשוב עליו בתור מטפחת בד. תעטפו כדור בתוך המטפחת, מה יקרה? כל הקצוות של המטפחת יתרכזו בנקודה אחת: קחו את הנקודה הזו, קחו חוט ומחט ו”תתפרו” את הכל ביחד והופס, קיבלתם יריעת בד עם צורה של פני השטח של כדור - מה שנקרא ספירה, ועם נקודה חדשה שנוצרה במקום שבו תפרתם את הכל - זו נקודת ה”אינסוף”. הקבוצה הזו, \( \mathbb{C}\cup\left\{ \infty\right\} \) עם הגאומטריה הכדורית הזו נקראת הספירה של רימן.

אני לא אכנס לפרטים מפורטים יותר על הבניה הזו, כי בשביל זה יש את הפוסט הייעודי שלי, אבל שתי הנקודות שצריך להבהיר הן ראשית כל שגם זה בסך הכל תעלול מקובל בטופולוגיה, שנקרא קומפקטיפיקציה עם נקודה אחת; ושנית, שבמקרה הזה אנחנו לא מאבדים את כל הגאומטריה - יש דרך “לתרגם” מרחקים במישור המרוכב למרחקים על הספירה עד רמה כלשהי. אבל אני לא ארחיב על זה פה.

איך כל זה קשור לחלוקה באפס? ובכן, אם יש לנו במרחב שלנו את הנקודה \( \infty \), אנחנו נהיים הרבה יותר פתוחים להגדרה של \( \frac{1}{0}=\infty \). זו עדיין לא הגדרה שיכולה לעבוד מבחינה אלגברית, כלומר לא הולך להתקיים \( 1=0\cdot\infty \). אז בשביל מה זה כן טוב? ובכן, למשל כדי לדבר על העתקות מביוס. העתקת מביוס היא פונקציה מרוכבת מהצורה \( f\left(z\right)=\frac{az+b}{cz+d} \). אלו פונקציות שימושיות בצורה יוצאת מן הכלל, אבל בשביל שהשימושיות הזו תבוא לידי ביטוי, נוח לנו לעבוד איתן במרחב שבו הן “נחמדות”, למשל מוגדרות בכל מקום. אז למשל עבור העתקת המביוס \( f\left(z\right)=\frac{1}{z} \) (כאן \( a=d=0 \) ו-\( b=c=1 \)) אנחנו רוצים שהיא תהיה מוגדרת גם ב-\( z=0 \), ולכן במישור המרוכב המורחב אפשר להגדיר \( f\left(z\right)=\infty \). בגלל ש-\( \infty \) היא פשוט נקודה כמו כל נקודה אחרת (כי ספירה היא סימטרית לגמרי, אז אפשר לחשוב על כל הנקודות כזהות) אנחנו מקבלים מזה מעין אחידות של כל העתקות המביוס, במקום שנצטרך להתחיל לפצל לכל מני מקרים וסוגים. אז זו בהחלט דוגמא לסיטואציה שבה משתלם להגדיר \( \frac{1}{0}=\infty \) למרות האובדן של המשמעות האלגברית של שוויון כזה.

אז לסיכום - חילוק באפס הוא לא טעות. יכולה להיות לו משמעות. אבל כדאי מאוד להבין גם למה הוא “אסור” וגם למה הוא “מותר”, כי כמו תמיד במתמטיקה, הכל מגיע עם סט ניואנסים משל עצמו.

על עקומות ואינטגרלים

2024-06-15T00:00:00+00:00

מבוא

הפוסט הזה נולד מהרצון שלי לכתוב פוסט על אינטגרל מרוכב, שהוא נושא יפהפה ומרתק שנפתח כמובן עם הגדרה. ההגדרה בסיסית ומוכרת ואף אחד בעולם לא חולק עליה ולכן כמובן שהייתי צריך לשכנע את עצמי שהיא מוצדקת, מה שהוביל אותי למחילת ארנב: האינטגרל המרוכב הוא סוג של אינטגרל קווי, ולכן חזרתי אל הפוסט שלי על אינטגרל קווי כדי לראות מה כתבתי אז, כשהעמקתי לעובי הקורה. מה חשכו עיני כשגיליתי שבחלקים מסוימים חיפפתי ובחלקים אחרים פשוט טעיתי. אז הפוסט הזה כאן כדי לתקן (אל תחפשו לי טעויות בפוסט ההוא; פשוט הורדתי אותן וקישרתי לפוסט הזה במקום זאת למי שרוצים להעמיק).

מה אני הולך לעשות בפוסט הזה? מטרת העל שלי היא להסביר אינטגרלים קוויים (יש שני סוגים, אינטגרל קווי מסוג ראשון ואינטגרל קווי מסוג שני ולמרות שהם דומים עדיין יש מספיק מה לדבר על כל אחד בנפרד). בשביל זה אני ארצה קודם כל להזכיר מה זה בכלל אינטגרל, ולא פחות חשוב - נצטרך להסביר מה זה בכלל “קו” - או ליתר דיוק, מה זו עקומה. הלב הטכני של הפוסט הזה מתחבא לדעתי בכלל בנוסחה שנותנת לנו אורך של עקומה באמצעות אינטגרל, כלומר נגיע אל הלב הטכני עוד לפני שנציג אינטגרלים קוויים. בנוסף, אני מתכנן להיות פדנט אפילו יותר מהרגיל - למרות שהבלוג נקרא “לא מדויק” זה מהפוסטים הללו שבהם אני מרגיש שאני פשוט חייב להיות מדויק עד הסוף אחרת אני ארגיש שאני בכלל לא מבין את הנושא (על מי אני עובד? אני באמת לא מבין את הנושא כרגע! אני אולי אבין אותו רק אחרי שאסיים לכתוב את הפוסט הזה, ולא משנה כמה ספרים כבר קראתי על הנושא).

אז בואו נתחיל מההתחלה.

אינטגרל רימן

ראשית, מה זה בכלל אינטגרל? בהינתן פונקציה \( f \) ותחום מסוים שהיא מוגדרת בו, אפשר לחשוב על אינטגרל בתור סכום משוקלל של הערכים של הפונקציה בכל התחום. אם הפונקציה קבועה, האינטגרל שלה על התחום צריך להיות שווה לאורך/שטח/נפח שלו (המידה שלו, אם קופצים למושג מתמטי שלא אשתמש בו כאן). האופן שבו עושים את זה הוא על ידי קירובים שהולכים ומשתפרים, כפי שתמיד עושים באינפי.

האינטגרל הבסיסי ביותר הוא אינטגרל רימן ויש שתי שיטות סטנדרטיות להגדיר אותו שנותנות בסופו של דבר את אותו הדבר. שיטה מקובלת אחת משתמשת במשהו שנקרא סכומי דארבו וזו דרך די יפה ואלגנטית ואני לא אשתמש בה כאן. השניה, סכומי רימן, תתאים הרבה יותר למה שאני רוצה לעשות. באינטגרל רימן יש לנו פונקציה \( f:\left[a,b\right]\to\mathbb{R} \) ואנחנו רוצים להגדיר את הביטוי \( \int_{a}^{b}f\left(t\right)dt \). הרעיון הוא להגדיר אותו בעזרת קירובים: במקום לחשב סכום אינסופי, אנחנו מחלקים את הקטע \( \left[a,b\right] \) למספר סופי של קטעים, בוחרים נקודה שרירותית בכל אחד מהקטעים, וסוכמים את הערך של \( f \) על נקודה כזו באורך הקטע שבו הנקודה נמצאת. התקווה היא שככל שהקטעים הופכים לקטנים יותר ויותר, כך הסכום שנקבל יתקרב יותר ויותר אל משהו ספציפי; \( \int_{a}^{b}f\left(t\right)dt \) יוגדר להיות המשהו הספציפי הזה.

אם כן, בואו נגדיר חלוקה של \( \left[a,b\right] \). נסמן חלוקה כזו באות \( P \) (מלשון Partition) והיא כוללת סדרה של נקודות \( a=t_{0}<t_{1}<t_{2}<\ldots<t_{n}=b \) שאנחנו חושבים עליהן כמגדירות סדרה של \( n \) קטעים: \( \left[t_{0},t_{1}\right],\left[t_{1},t_{2}\right],\ldots,\left[t_{n-1},t_{n}\right] \). האיחוד של כל הקטעים הללו נותן את הקטע \( \left[a,b\right] \) המקורי. בשביל לפרמל את “הקטעים הופכים לקטנים יותר ויותר” אני מסמן \( \Delta t_{i}=t_{i}-t_{i-1} \) ומגדיר לכל חלוקה \( P \) את פרמטר החלוקה \( \lambda\left(P\right)=\max\left\{ \Delta t_{i}\right\} _{i=1}^{n} \), האורך של הקטע הארוך ביותר בחלוקה.

עכשיו כשיש לנו חלוקה אפשר לבחור באופן שרירותי נקודות מכל קטע שלה, וליצור את מה שקראתי לו סכום רימן: אז בוחרים סדרה \( t_{1}^{*},\ldots,t_{n}^{*} \) של נקודות כך ש-\( t_{i}^{*}\in\left[t_{i-1},t_{i}\right] \) ואז בונים את הסכום \( S_{P}=\sum_{i=1}^{n}f\left(t_{i}^{*}\right)\Delta t_{i} \) של הערכים של \( f \) בנקודות שבחרתי בתוך כל קטע, כפול אורך הקטע הזה. שימו לב שב-\( S_{P} \) מופיעה החלוקה \( P \) אבל לא טרחתי לציין במפורש את סדרת ה-\( t_{i}^{*} \)-ים שבחרתי; אינטואיטיבית זה בגלל שעבור כל בחירות נקודות בתוך החלוקה \( P \) אמור להתקיים אותו דבר נחמד.

מה הדבר הנחמד? הנה ההגדרה הפורמלית לאינטגרל שנעזרת בסכומי רימן: אם קיים מספר ממשי \( I\in\mathbb{R} \) כך שלכל \( \varepsilon>0 \) קיים \( \delta>0 \) כך שעבור כל חלוקה \( P \) שמקיימת \( \lambda\left(P\right)<\delta \) וכל סכום רימן \( S_{P} \) שמתאים לחלוקה הזו, מתקיים \( \left|S_{P}-I\right|<\varepsilon \), אז אומרים ש-\( \int_{a}^{b}f\left(t\right)dt \) מוגדר ו-\( \int_{a}^{b}f\left(t\right)dt=I \).

זו הייתה הגדרה טיפה ארוכה ומפותלת, אבל אין כאן שום דבר מורכב במיוחד למי שכבר התרגלו להגדרות \( \varepsilon-\delta \) בחדו”א, אז אני לא אתעכב עליה יותר מזה.

עקומות והאורך שלהן

הרעיון באינטגרלים קוויים הוא לבצע אינטגרציה שבה התחום הוא עקומה שחיה ב-\( \mathbb{R}^{n} \). מה זו עקומה? אינטואיטיבית זו קבוצת נקודות ב-\( \mathbb{R}^{n} \) שנראית כמו קו חד ממדי, אבל כזה שיכול להסתובב ולהתפתל - תחשבו על חוט מתוח שאנחנו נותנים לחתול להתפרע איתו. כמובן, אנחנו לא רוצים להתפרע יותר מדי - אסור לקו הזה להיקרע, או לבצע סיבובים חדים מדי; הדרך שלנו לפרמל את זה היא להגדיר עקומה בתור פונקציה \( \gamma:\left[a,b\right]\to\mathbb{R}^{n} \) שהיא גזירה ברציפות, מה שנקרא חלקה. אפשר לדמיין את מה ש-\( \gamma \) עושה בתור לקחת את הקטע \( \left[a,b\right] \), לשתול אותו במרחב \( \mathbb{R}^{n} \) ולעקם ולפתל אותו כמו חתול, בלי לקרוע - האובייקט שמתקבל הוא עדיין חד ממדי. אפשר לדמיין את מה ש-\( \gamma \) עושה גם בתור “טיול על העקומה”: יש לנו משתנה \( a\le t\le b \) שמתאר את הזמן הנוכחי של הטיול, שמתחיל בזמן \( a \) ומסתיים בזמן \( b \), ו-\( \gamma\left(t\right) \) אומר איפה בתוך \( \mathbb{R}^{n} \) אנחנו נמצאים בדיוק בזמן \( t \) של הטיול.

שימו לב ש-\( \gamma \) לא בדיוק מתארת קבוצת נקודות במישור - היא מתארת טיול על הקבוצה הזו. אפשר לסמן את הקבוצה הזו בסימון קונקרטי - \( C=\gamma\left(\left[a,b\right]\right) \) ואני לרוב קורא ל-\( C \) עקום. כלומר - העקום הוא אוסף הנקודות עצמו, העקומה היא דרך אפשרית אחת לתאר אותו (לפעמים גם משתמשים בביטוי פרמטריזציה של העקום כדי לתאר את \( \gamma \)). אפשר להוכיח שלא משנה איזו \( \gamma \) נבחר עבור \( C \) - כל עוד בחרנו \( \gamma \) “נחמדה מספיק”, תמיד נקבל את אותו ערך של אינטגרל - אבל אני לא אכנס לזה כאן.

לפני שאני מתחיל להשתמש בעקומות כדי לתאר אינטגרלים, יש שתי שאלות שאני רוצה לענות עליהן:

איך מגדירים את האורך של עקומה?
איך מחשבים את האורך של עקומה?

עבור 1 אפשר לתת הגדרה פשוטה למדי שלא מניחה כמעט כלום על \( \gamma \) מלבד זה שהיא רציפה. בשביל חישוב האורך נצטרך ש-\( \gamma \) תהיה גם חלקה, אבל בואו קודם נתחיל מהגדרת האורך של העקומה. שימו לב שההגדרה הזו לא תחול על כל העקומות, פשוט כי על פיה יוצא שיש עקומות בעלות אורך אינסופי למרות שהן נוצרות מהקטע \( \left[a,b\right] \) בעל האורך הסופי; אלו עקומות “פתולוגיות” חריגות, ואני לא אתעסק איתן; אני כן אגיד שאומרים שעקומה היא Rectifiable (לא יודע איך זה נקרא בעברית) אם ההגדרה שאתן עכשיו עובדת ונותנת אורך סופי.

הרעיון הבסיסי מאחורי ההגדרה הוא ההנחה/אקסיומה/וואטאבר שהמרחק הקצר ביותר בין שתי נקודות הוא הקו הישר שמחבר אותן - זה מה שקורה בגאומטריה האוקלידית, אבל לאו דווקא נכון בגאומטריות אחרות (תלוי מה זה “קו ישר”). אם מקבלים את ההנחה הזו, אז אפשר לחשוב על שיטת קירוב לאורך של עקומה שמתבססת על לקחת סדרת נקודות על העקומה, לחבר אותן בקווים ישרים ולקבל קירוב פוליגוני של העקומה על ידי משהו שקל לנו יחסית לחשב את האורך שלו כי לחשב אורך של קו זה קל. פורמלית, אם העקומה שלנו היא \( \gamma:\left[a,b\right]\to\mathbb{R}^{n} \), אז לוקחים חלוקה \( a=t_{0}<t_{1}<t_{2}<\ldots<t_{m}=b \) שאני מסמן ב-\( P \) כמו קודם, ועכשיו אפשר לסמן את הקירוב הפוליגוני ש-\( P \) מגדירה עם \( \pi\left(P\right) \) ולהגדיר את האורך שלו בתור

\( \left|\pi\left(P\right)\right|=\sum_{i=1}^{m}\|\gamma\left(t_{i}\right)-\gamma\left(t_{i-1}\right)\| \)

צריך טיפה להסביר מה קורה כאן. ראשית, אם \( v=\left(v_{1},\ldots,v_{n}\right)\in\mathbb{R}^{n} \) אז במטריקה האוקלידית מגדירים את הנורמה שלו להיות

\( \|v\|=\sqrt{\sum_{k=1}^{n}\left|v_{k}\right|^{2}} \)

זה קצת מפחיד אבל אם מסתכלים על המקרה של \( n=2 \) רואים שהמרחק בין שתי נקודות \( \left(x_{1},y_{1}\right),\left(x_{2},y_{2}\right) \) יוצא

\( \|\left(x_{1},y_{1}\right)-\left(x_{1},y_{1}\right)\|=\sqrt{\left|x_{1}-x_{2}\right|^{2}+\left|y_{1}-y_{2}\right|^{2}} \)

וזה פשוט שימוש רגיל במשפט פיתגורס, אז הנורמה ה-\( n \)-ממדית היא פשוט הכללה של זה. מה שאולי טיפה פחות ברור הוא ש-\( \gamma\left(t_{i}\right)-\gamma\left(t_{i-1}\right) \) הוא הנקודה שהקו שמחבר אותה עם ראשית הצירים הוא מאותו אורך כמו הקו שמחבר את \( \gamma\left(t_{i-1}\right) \) עם \( \gamma\left(t_{i}\right) \) - זה שימוש בכלל המקבילית שקל להבין עם איור.

באיור הזה אני מצייר שתי נקודות \( a,b \), כשהוקטור אל \( a \) הוא כחול והוקטור אל \( b \) הוא אדום. הרעיון בכלל המקבילית הוא שכאשר אני מחבר שני וקטורים, אני מדביק עותק של כל אחד מהם לקצה של השני, כך שאני יוצאר מקבילית, והנקודה שבה שני העותקים הללו נפגשים היא הסכום. אצלנו אני מתעניין ב-\( a-b \) ולכן אני מצייר מקבילית שהוקטורים שבונים אותה הם \( b \) ו-\( a-b \) (שהוקטור שמתאים לו הוא סגול), ואפשר לראות איך אורך הוקטור של \( a-b \) (הקו הסגול התחתון יותר, שמחבר את \( a-b \) עם ראשית הצירים) זהה באורכו לקו הסגול העליון, שהוא מה שמחבר את \( b \) עם \( a \).

עכשיות אמרתי שהרעיון בקירוב פוליגוני הוא שהקו הישר בין שתי נקודות הוא תמיד קצר יותר מאשר העקומה שעוברת דרכן (ליתר דיוק - לא ארוך יותר, כי אולי גם העקומה היא קו ישר בין שתי הנקודות הללו) לכן אנחנו מצפים מאורך העקומה להיות חסם עליון עבור כל אורך של קירוב פוליגונלי אליה. מצד שני, ככל שאנחנו מוסיפים יותר ויותר נקודות כך אפשר לקוות שהקירובים שלנו מתקרבים יותר ויותר אל העקומה - כלומר, אנחנו מצפים לכך שהאורך של הקירובים ילך ויתקרב אל אורך העקומה עצמו, בלי “להיתקע” מתחת לאורך קטן יותר בדרך. לכן אנחנו מצפים שאורך העקומה יהיה החסם העליון הקטן ביותר של קבוצת אורכי הקירובים הפוליגונליים - או כמו שזה נקרא במתמטיקה, סופרמום. לכן אנחנו מגדירים את האורך של העקומה \( \gamma \) בין הנקודות \( a,b \) להיות \( \Lambda_{\gamma}\left(a,b\right)=\sup_{P}\left\{ \left|\pi\left(P\right)\right|\right\} \) כאשר \( P \) רץ על כל החלוקות הסופיות של \( \left[a,b\right] \). בשביל שההגדרה הזו באמת תעבוד, הכרחי שבכלל יהיה חסם סופי לקבוצה הזו, כלומר שיהיה קיים \( M \) כלשהו כך ש-\( \left|\pi\left(P\right)\right|\le M \) לכל חלוקה \( P \); אם אין כזה, העקום הוא Nonrectifiable.

זה מטפל בהגדרה, אבל מה עם חישוב של האורך? בשביל זה אני מכניס לתמונה את ההנחה ש-\( \gamma \) גזירה ברציפות, ואני רוצה להראות שבמקרה הזה יתקיים \( \Lambda_{\gamma}\left(a,b\right)=\int_{a}^{b}\|\gamma^{\prime}\left(t\right)\|dt \), אבל זה לא יהיה טריוויאלי להראות את זה - למעשה, זה הלב הטכני של הפוסט הזה.

ראשית, אינטואיציות: אם \( \gamma\left(t\right) \) היא פונקציה שמתארת טיול על העקומה, במובן של “בזמן \( t \) הייתי כאן וכאן”, אז הנגזרת שלה, \( \gamma^{\prime}\left(t\right) \), מתארת את מהירות הטיול הזה - מהירות במובן שנקרא בפיזיקה Velocity, כלומר כזה שמדבר גם על כיוון התנועה ולא רק על הגודל שלה. אם נסתכל על \( \|\gamma^{\prime}\left(t\right)\| \) נקבל את המהירות במובן של Speed, גודל בלבד שלא תלוי בכיוון. לכן האינטגרל \( \int_{a}^{b}\|\gamma^{\prime}\left(t\right)\|dt \) מודד “כמה מרחק עברתי”. זו נראית הגדרה כל כך מתבקשת שרוב הספרים מתחילים איתה וזהו; רק אני (ולמשל הספר של Tom Apostol שהחלק הזה של הפוסט מסתמך מאוד על דרך ההצגה שלו) מתעקש לדבר על הסופרמום (טוב, אם להודות על האמת, לא מעט ספרים מדברים על הסופרמום ואז אומרים בנפנוף ידיים שזה שווה לאינטגרל וגם זה בסדר).

שנית, למה זה בעצם טריקי? אני אראה עכשיו הוכחה שגויה, שהיא פחות או יותר משהו שהופיע בפוסט המקורי שלי. אנחנו לוקחים קירוב פוליגונלי עם \( P \) כלשהי:

\( \left|\pi\left(P\right)\right|=\sum_{i=1}^{m}\|\gamma\left(t_{i}\right)-\gamma\left(t_{i-1}\right)\| \)

ואז אנחנו אומרים - היי, אנחנו מכירים דרך טובה להתמודד עם ביטויים שהם הפרש של הפונקציה בשתי נקודות שונות; זה מזכיר לנו משפט אולטרה-שימושי מחדו”א, משפט הערך הממוצע של לגראנז'. המשפט הזה אומר שאם \( f:\left[a,b\right]\to\mathbb{R} \) היא פונקציה רציפה ובנוסף היא גזירה ב-\( \left(a,b\right) \) אז קיימת נקודה \( c\in\left(a,b\right) \) כך ש-\( f^{\prime}\left(c\right)=\frac{f\left(b\right)-f\left(a\right)}{b-a} \) - הנגזרת של \( f \) מקבלת ב-\( c \) את הערך הממוצע של הפונקציה \( f \) בקטע. זה מאפשר לנו לומר ש-\( f\left(b\right)-f\left(a\right)=\left(b-a\right)f^{\prime}\left(c\right) \), כלומר להמיר את ההפרש בין ערכי הפונקציה בקטע, אל אורך הקטע כפול הנגזרת בתוכו. אז אם אני מפעיל את זה על הביטוי שלמעלה אני מקבל

\( \sum_{i=1}^{m}\|\gamma\left(t_{i}\right)-\gamma\left(t_{i-1}\right)\|=\sum_{i=1}^{m}\|\gamma^{\prime}\left(t_{i}^{*}\right)\|\Delta t_{i} \)

והדבר הזה נראה כמו סכום רימן של הפונקציה \( f\left(t\right)=\|\gamma^{\prime}\left(t\right)\| \), כלומר ככל שהחלוקה \( P \) קטנה יותר כך הקירוב הפוליגונלי שואף גם ל-\( \Lambda_{\gamma}\left(a,b\right) \) וגם אל \( \int_{a}^{b}\|\gamma^{\prime}\left(t\right)\|dt \). זה נראה מצוין, אבל הבעיה היא שאי אפשר להשתמש כאן במשפט הערך הממוצע של לגראנז’. כי המשפט הזה עובד עבור פונקציות שהטווח שלהן הוא \( \mathbb{R} \), ואילו במקרה שלנו \( \gamma \) היא פונקציה וקטורית, פונקציה שהטווח שלה הוא \( \mathbb{R}^{n} \), ובאופן כללי משפט הערך הממוצע לא עובד עבורן. לכן או שצריך עוד עבודה טכנית כדי להציל את ההוכחה הזו, או שצריך ללכת על הוכחה שונה, וזה מה שאני הולך לעשות כאן.

לפני שנעבור להוכחה, בואו נדבר שניה על מה זה בעצם אומר ש-\( \gamma \) היא פונקציה וקטורית, כי עד עכשיו החבאתי את המורכבות של זה בכוונה. בפועל זה אומר שקיימות פונקציות ממשיות \( \gamma_{1},\gamma_{2},\ldots,\gamma_{n}:\left[a,b\right]\to\mathbb{R} \) כך ש-\( \gamma\left(t\right)=\left(\gamma_{1}\left(t\right),\ldots,\gamma_{n}\left(t\right)\right) \). אפשר להוכיח שהרציפות של \( \gamma \) עוברת לפונקציות הרכיבים הללו, וש-\( \gamma^{\prime}\left(t\right)=\left(\gamma_{1}^{\prime}\left(t\right),\ldots,\gamma_{n}^{\prime}\left(t\right)\right) \) ובהמשך אני גם אשתמש בסימון \( \int_{a}^{b}\gamma\left(t\right)dt \) כשהכוונה היא לוקטור \( \left(\int_{a}^{b}\gamma_{1}\left(t\right)dt,\ldots,\int_{a}^{b}\gamma_{n}\left(t\right)dt\right) \).

עכשיו בואו נעבור להוכחה. הטריק מאחוריה די מזכיר את האופן שבו מגדירים אינטגרל לא מסוים ומחברים אותו אל האינטגרל המסוים עם המשפט היסודי של החדו”א. אנחנו נגדיר פונקציה ממשית \( s:\left[a,b\right]\to\mathbb{R} \) שמודדת את המרחק שעברנו לאורך העקום מתחילתו ועד הנקודה שהגענו אליה, כלומר \( s\left(t\right)=\Lambda_{\gamma}\left(a,t\right) \) (בפרט, \( s\left(a\right)=0 \)). אם נצליח להראות ש-\( s^{\prime}\left(t\right)=\|\gamma^{\prime}\left(t\right)\| \) בכל נקודה \( t\in\left[a,b\right] \), אז נוכל להשתמש במשפט היסודי של החדו”א כדי להראות ש-

\( \Lambda_{\gamma}\left(a,b\right)=s\left(b\right)-s\left(a\right)=\int_{a}^{b}s^{\prime}\left(t\right)dt=\int_{a}^{b}\|\gamma^{\prime}\left(t\right)\|dt \)

אז המטרה שלנו היא להוכיח שמתקיים \( s^{\prime}\left(t\right)=\|\gamma^{\prime}\left(t\right)\| \). זה יהיה קצת טריקי, ואני אצטרך שתי תוצאות לפני כן:

\( \Lambda_{\gamma}\left(a,b\right)\le\int_{a}^{b}\|\gamma^{\prime}\left(t\right)\|dt \), כלומר האינטגרל הוא קירוב מלמעלה של האורך.
פונקציית אורך העקומה היא חיבורית ("אדיטיבית") במובן הבא: אם \( c\in\left[a,b\right] \) אז \( \Lambda_{\gamma}\left(a,b\right)=\Lambda_{\gamma}\left(a,c\right)+\Lambda_{\gamma}\left(c,b\right) \)

נתחיל מ-1. בגלל ש-\( \Lambda_{\gamma}\left(a,b\right) \) הוגדר בתור סופרמום על קבוצה, אם נוכיח שכל איבר בקבוצה קטן או שווה למשהו, גם הסופרמום יהיה קטן או שווה ממנו. לכן אנחנו לוקחים חלוקה \( P \) כללית ורוצים להוכיח ש-\( \left|\pi\left(P\right)\right|\le\int_{a}^{b}\|\gamma^{\prime}\left(t\right)\|dt \). כאן נלך על פי ההגדרות ועל פי תכונות בסיסיות של אינטגרלים:

\( \left|\pi\left(P\right)\right|=\sum_{i=1}^{m}\|\gamma\left(t_{i}\right)-\gamma\left(t_{i-1}\right)\|=\sum_{i=1}^{m}\|\int_{t_{i-1}}^{t_{i}}\gamma^{\prime}\left(t\right)dt\|\le \)

\( \sum_{i=1}^{m}\int_{t_{i-1}}^{t_{i}}\|\gamma^{\prime}\left(t\right)\|dt=\int_{a}^{b}\|\gamma^{\prime}\left(t\right)\|dt \)

בואו נבין את המעברים. הראשון הוא פשוט הגדרת האורך שכבר ראינו. השני הוא שימוש במשפט היסודי של החדו”א. המעבר האחרון משתמש באדיטיביות של אינטגרלים (\( \int_{a}^{c}f\left(t\right)dt+\int_{c}^{b}f\left(t\right)dt=\int_{a}^{b}f\left(t\right)dt \) - דומה למה שאנחנו הולכים להוכיח עבור \( \Lambda \)). המעבר שבו מתחבא הלב הטכני הוא זה שמסתמך על \( \|\int_{t_{i-1}}^{t_{i}}\gamma^{\prime}\left(t\right)dt\|\le\int_{t_{i-1}}^{t_{i}}\|\gamma^{\prime}\left(t\right)\|dt \). כאן אני מרשה לעצמי סוף סוף לעצור ולא להוכיח את הטענה הזו, פשוט כי היא הכללה טבעית של טענה מוכרת עבור פונקציות ממשיות עם משתנה יחיד (להבדיל ממשפט הערך הממוצע של לגראנז’ שפשוט לא היה אפשר להכליל). אם רוצים את ההוכחה, היא נמצאת למשל בספר של Apostol ואולי יום אחד יהיה לי התקף של רצון עז להוכיח גם אותה - אבל הפעם אני נמנע מזה כי זה יאריך את הפוסט הארוך ממילא הזה אפילו עוד יותר.

עכשיו בואו נוכיח את האדיטיביות של \( \Lambda_{\gamma}\left(a,b\right) \). זה יהיה טיעון קליל וחמוד ומאוד חדו”אי באופי שלו. אנחנו לוקחים נקודה כלשהי \( c\in\left[a,b\right] \) ורוצים להוכיח ש–\( \Lambda_{\gamma}\left(a,b\right)=\Lambda_{\gamma}\left(a,c\right)+\Lambda_{\gamma}\left(c,b\right) \), אז יהיה מעורב פה אי שוויון דו כיווני. מכיוון ש-\( \Lambda_{\gamma} \) מוגדר בתור סופרמום על קבוצת איברים, הדרך להתמודד איתו היא על ידי לקיחת איבר כלשהו מהקבוצה ומעבר לרמה הזו של הדיון.

שימו לב שלפני שנוכיח \( \Lambda_{\gamma}\left(a,b\right)=\Lambda_{\gamma}\left(a,c\right)+\Lambda_{\gamma}\left(c,b\right) \) בכלל צריך להוכיח ש-\( \Lambda_{\gamma}\left(a,c\right),\Lambda_{\gamma}\left(c,b\right) \) מוגדרים בכלל - שתת-העקומות הללו הן Rectifiable, מה שלא נתון לי כי הנתון מדבר רק על \( \Lambda_{\gamma}\left(a,b\right) \). ובכן, בואו ניקח שתי חלוקות, חלוקה \( P_{1} \) של \( \left[a,b\right] \) וחלוקה \( P_{2} \) של \( \left[c,b\right] \). האיחוד של שתי החלוקות הללו נותן לי חלוקה \( P \) של \( \left[a,b\right] \) ואם אני מסתכל על הקירוב הפוליגונלי \( \pi\left(P\right) \) הוא כולל בדיוק את הקווים שב-\( \pi\left(P_{1}\right) \) ו-\( \pi\left(P_{2}\right) \) ולכן

\( \left|\pi\left(P_{1}\right)\right|+\left|\pi\left(P_{2}\right)\right|=\left|\pi\left(P\right)\right|\le\Lambda_{\gamma}\left(a,b\right) \)

בפרט, קיבלתי שקיים חסם מלעיל עבור \( \left|\pi\left(P_{1}\right)\right| \) וגם עבור \( \left|\pi\left(P_{2}\right)\right| \) ולכן \( \Lambda_{\gamma}\left(a,c\right),\Lambda_{\gamma}\left(c,b\right) \) קיימים. אבל כדי להראות את הכיוון הראשון של אי שוויון שאנחנו רוצים, \( \Lambda_{\gamma}\left(a,c\right)+\Lambda_{\gamma}\left(c,b\right)\le\Lambda_{\gamma}\left(a,b\right) \), נצטרך לעבוד עוד טיפה. ניקח את אי השוויון שקיבלנו

\( \left|\pi\left(P_{1}\right)\right|+\left|\pi\left(P_{2}\right)\right|\le\Lambda_{\gamma}\left(a,b\right) \)

נעביר אגף ונקבל

\( \left|\pi\left(P_{1}\right)\right|\le\Lambda_{\gamma}\left(a,b\right)-\left|\pi\left(P_{2}\right)\right| \)

אם אני משאיר את \( P_{2} \) קבוע ומרשה ל-\( P_{1} \) לרוץ על כל קבוצת החלוקות של \( \left[a,b\right] \) אנחנו רואים ש-\( \Lambda_{\gamma}\left(a,b\right)-\left|\pi\left(P_{2}\right)\right| \) הוא חסם מלעיל של אורכי כל החלוקות בקבוצה הזו, ולכן הסופרמום של הקבוצה גם כן קטן ממנו. הסופרמום הוא בדיוק \( \Lambda_{\gamma}\left(a,c\right) \) אז קיבלנו

\( \Lambda_{\gamma}\left(a,c\right)\le\Lambda_{\gamma}\left(a,b\right)-\left|\pi\left(P_{2}\right)\right| \)

אי השוויון הזה נכון לכל חלוקה \( P_{2} \) שניקח, ולכן אפשר להסיק ממנו ש-\( \Lambda_{\gamma}\left(a,c\right)\le\Lambda_{\gamma}\left(a,b\right)-\Lambda_{\gamma}\left(b,c\right) \). אם זה נראה לכם ברור, נהדר! אבל למקרה שלא, בואו נראה את זה פורמלית בכל זאת. אני אשתמש בטכניקה הסטנדרטית: אני אראה שלכל \( \varepsilon>0 \) מתקיים \( \Lambda_{\gamma}\left(a,c\right)\le\Lambda_{\gamma}\left(a,b\right)-\Lambda_{\gamma}\left(b,c\right)+\varepsilon \) ומכיוון שזה קורה לכל \( \varepsilon>0 \) אז אי השוויון חייב להתקיים גם כשאני מציב \( \varepsilon=0 \), כי באופן כללי - אם \( X\le Y+\varepsilon \) לכל \( \varepsilon>0 \) אבל \( X>Y \) אז ניקח \( \varepsilon=\frac{X-Y}{2} \) ונקבל

\( X\le Y+\varepsilon=Y+\frac{X-Y}{2}=\frac{X+Y}{2}<\frac{X+X}{2}=X \)

וקיבלנו \( X<X \), וזו בוודאי סתירה. אז חזרה למקרה שלנו, לקחנו \( \varepsilon>0 \) כלשהו, ועכשיו אנחנו מסתכלים על \( \Lambda_{\gamma}\left(b,c\right) \). מכיוון שזה סופרמום של קבוצה, אז קיים בקבוצה איבר \( \left|\pi\left(P_{2}\right)\right| \) כך ש-\( \left|\pi\left(P_{2}\right)\right|\ge\Lambda_{\gamma}\left(b,c\right)-\varepsilon \), כלומר \( -\left|\pi\left(P_{2}\right)\right|\le-\Lambda_{\gamma}\left(b,c\right)+\varepsilon \) ולכן

\( \Lambda_{\gamma}\left(a,c\right)\le\Lambda_{\gamma}\left(a,b\right)-\left|\pi\left(P_{2}\right)\right|\le\Lambda_{\gamma}\left(a,b\right)-\Lambda_{\gamma}\left(b,c\right)+\varepsilon \)

כמו שרצינו. זה מראה ש-\( \Lambda_{\gamma}\left(a,c\right)\le\Lambda_{\gamma}\left(a,b\right)-\Lambda_{\gamma}\left(b,c\right) \), ואחרי העברת אגפים \( \Lambda_{\gamma}\left(a,c\right)+\Lambda_{\gamma}\left(b,c\right)\le\Lambda_{\gamma}\left(a,b\right) \) וזה הכיוון הראשון של אי השוויון שרצינו.

עבור הכיוון השני אז בואו ניקח חלוקה \( P \) של \( \left[a,b\right] \). ונראה שלא משנה מה, \( \left|\pi\left(P\right)\right|\le\Lambda_{\gamma}\left(a,c\right)+\Lambda_{\gamma}\left(c,b\right) \) ומזה ינבע ש-\( \Lambda_{\gamma}\left(a,b\right)\le\Lambda_{\gamma}\left(a,c\right)+\Lambda_{\gamma}\left(c,b\right) \).

אם אני לוקח את \( P \) ומוסיף לה את הנקודה \( c \) (אלא אם \( c \) כבר נמצאת בה), מה משתנה? אני יכול עכשיו להסתכל על \( P \) בתור איחוד של שתי חלוקות, חלוקה \( P_{1} \) של \( \left[a,c\right] \) וחלוקה \( P_{2} \) של \( \left[c,b\right] \). החלוקות הללו כוללת בדיוק את אותם קטעים כמו ב-\( P \) למעט אולי קטע \( \left[t_{i-1},t_{i}\right] \) שעבורו \( c\in\left(t_{i-1},t_{i}\right) \), ובמקרה זה הקטע הזה הוחלף בשני הקטעים \( \left[t_{i-1},c\right] \) ו-\( \left[c,t_{i}\right] \). כעת נכניס לתמונה את אי שוויון המשולש ב-\( \mathbb{R}^{n} \):

\( \|\gamma\left(t_{i}\right)-\gamma\left(t_{i-1}\right)\|=\|\gamma\left(t_{i}\right)-\gamma\left(c\right)+\gamma\left(c\right)-\gamma\left(t_{i-1}\right)\|\le\|\gamma\left(t_{i}\right)-\gamma\left(c\right)\|+\|\gamma\left(c\right)-\gamma\left(t_{i-1}\right)\| \)

כלומר, אורך הקטע שהסרנו קטן או שווה לאורך שני הקטעים שהוספנו, ולכן נקבל

\( \left|\pi\left(P\right)\right|\le\left|\pi\left(P_{1}\right)\right|+\left|\pi\left(P_{2}\right)\right|\le\Lambda_{\gamma}\left(a,c\right)+\Lambda_{\gamma}\left(c,b\right) \)

מה שמסיים את הכיוון הזה, ואת הוכחת האדיטיביות. עכשיו אפשר לחזור אל העיקר: ההוכחה ש-\( \Lambda_{\gamma}\left(a,b\right)=\int_{a}^{b}\|\gamma^{\prime}\left(t\right)\|dt \) שכבר צמצמנו אל הצורך להוכיח רק \( s^{\prime}\left(t\right)=\|\gamma^{\prime}\left(t\right)\| \) כאשר, כזכור, \( s\left(t\right)=\Lambda_{\gamma}\left(a,t\right) \). בשביל לראות איך עושים את זה, בואו נחזור ליסודות - איך מגדירים נגזרת? \( s^{\prime}\left(t\right)=\lim_{h\to0}\frac{s\left(t+h\right)-s\left(t\right)}{h} \). אני אנסה לחסום את הביטוי הזה משני הכיוונים על ידי גבולות ששואפים לאותו דבר כש-\( h\to0 \) ואז להשתמש בכלל הסנדוויץ'.

בתור התחלה, בואו נסתכל על \( \|\gamma^{\prime}\left(t\right)\| \). אם אני מנסה להבין אותו בתור גבול, אני מקבל

\( \lim_{h\to0}\|\frac{\gamma\left(t+h\right)-\gamma\left(t\right)}{h}\|=\lim_{h\to0}\frac{1}{h}\|\gamma\left(t+h\right)-\gamma\left(t\right)\| \)

כאן \( \|\gamma\left(t+h\right)-\gamma\left(t\right)\| \) הוא בעצם האורך של קו ישר שמחבר את שתי הנקודות \( \gamma\left(t+h\right) \) ו-\( \gamma\left(t\right) \). כלומר, זה ביטוי שחסום מלמעלה על ידי אורך העקומה \( \Lambda_{\gamma}\left(t,t+h\right) \) (אם \( h<0 \) אז \( t+h \) בעצם באה קודם ולכן צריך לכתוב \( \Lambda_{\gamma}\left(t+h,t\right) \) אבל העיקרון זהה). אבל

\( \Lambda_{\gamma}\left(t,t+h\right)=\Lambda_{\gamma}\left(a,t+h\right)-\Lambda_{\gamma}\left(a,t\right)=s\left(t+h\right)-s\left(t\right) \)

בזכות האדיטיביות שהוכחנו קודם, כך שאנחנו מקבלים

\( \|\gamma\left(t+h\right)-\gamma\left(t\right)\|\le s\left(t+h\right)-s\left(h\right) \)

ולכן

\( \frac{1}{h}\|\gamma\left(t+h\right)-\gamma\left(t\right)\|\le\frac{s\left(t+h\right)-s\left(t\right)}{h} \)

אגף שמאל פה שואף ל-\( \|\gamma^{\prime}\left(t\right)\| \) כאשר \( h\to0 \), אז נשאר רק לחסום מלמעלה את \( \frac{s\left(t+h\right)-s\left(t\right)}{h} \). בשביל זה אני אסתמך על כך שכבר הוכחתי \( \Lambda_{\gamma}\left(a,b\right)\le\int_{a}^{b}\|\gamma^{\prime}\left(t\right)\|dt \), כלומר

\( s\left(t+h\right)-s\left(t\right)=\Lambda_{\gamma}\left(t,t+h\right)\le\int_{t}^{t+h}\|\gamma^{\prime}\left(t\right)\|dt \)

עכשיו, שימו לב שאם אני מגדיר פונקציה \( f:\left[a,b\right]\to\mathbb{R} \) על ידי \( f\left(x\right)=\int_{a}^{x}\|\gamma^{\prime}\left(t\right)\|dt \) אז בזכות העובדה ש-\( \|\gamma^{\prime}\left(t\right)\| \) היא פונקציה רציפה (מה שנובע מכך ש-\( \gamma \) חלקה) המשפט היסודי של החדו”א נותן לי ש-\( f^{\prime}=\|\gamma^{\prime}\left(t\right)\| \) בכל \( \left[a,b\right] \) וש-\( \int_{t}^{t+h}\|\gamma^{\prime}\left(t\right)\|dt=f\left(t+h\right)-f\left(t\right) \). כלומר, קיבלתי את החסם

\( s\left(t+h\right)-s\left(t\right)\le f\left(t+h\right)-f\left(t\right) \)

וכשנחלק את שניהם ב-\( h \) נקבל

\( \frac{s\left(t+h\right)-s\left(t\right)}{h}\le\frac{f\left(t+h\right)-f\left(t\right)}{h} \)

וכאשר \( h\to0 \) אז אגף ימין שואף, על פי הגדרה, אל \( f^{\prime}\left(t\right)=\|\gamma^{\prime}\left(t\right)\| \), וזה בדיוק מה שרצינו. זה מסיים את ההוכחה: הראינו שאורך העקומה \( \gamma \) הוא בדיוק \( \int_{a}^{b}\|\gamma^{\prime}\left(t\right)\|dt \), במקרה שבו \( \gamma \) חלקה, מה שמצדיק את ההגדרה של אורך העקומה באמצעות האינטגרל הזה כדי לחסוך את כל ההתעסקות הטכנית שראינו כאן.

אינטגרל קווי (מסוג ראשון)

אפשר לחשוב על אינטגרל רימן בתור סכימה של הערכים של \( f \) לאורך הקו הישר שמחבר את \( a \) אל \( b \) ביקום החד-ממדי \( \mathbb{R} \). הרעיון באינטגרל קווי הוא להכליל את אותו קונספט של סכימה בדיוק אל ופונקציות שחיים בתוך מרחב גדול יותר - למשל, ב-\( \mathbb{R}^{n} \), אבל כדי לשמור על החד-ממדיות של אינטגרל רימן, אנחנו לא סוכמים את הערכים של \( f \) בכל המרחב, אלא על תת-מרחב ש”נראה כמו” משהו חד ממדי, או במילים אחרות - על עקומה. הסיבה שיש לנו שני סוגים של אינטגרלים קוויים היא שיש שני סוגים של פונקציות שאנחנו רוצים לבצע עליהן אינטגרציה: פונקציה סקלרית \( f:\mathbb{R}^{n}\to\mathbb{R} \) שמחזירה מספר ממשי בודד, ופונקציה וקטורית \( F:\mathbb{R}^{n}\to\mathbb{R}^{n} \) שמחזירה וקטור מהמרחב שעליו הפונקציה פועלת (אני לא מכיר דרך נפוצה שבה מטפלים בפונקציות שבהן הטווח הוא \( \mathbb{R}^{m} \) כך ש-\( m\ne n,1 \)).

שתי ההנחות הקבועות שלי בהמשך יהיו שהפונקציה \( f \) או \( F \) שאני מבצע לה אינטגרציה היא רציפה, ושהעקומה שאני מבצע עליה את האינטגרציה מיוצגת על ידי \( \gamma \) שהיא פונקציה חלקה (גזירה ובעלת נגזרת רציפה). בלי אלו ההוכחות שלי לא הולכות לעבוד (ואני לא בטוח אם הן יכולות לעבוד בכלל או שאפשר לתת דוגמאות נגדיות פתולוגיות).

בואו נתחיל מלדבר על המקרה הראשון. אני אסמן ב-\( \int_{C}fd\gamma \) אינטגרל של \( f \) על העקום \( C \). בפוסט הקודם שלי על אינטגרלים קוויים דיברתי קצת על מה שנדרש מ-\( \gamma \) כדי שהאינטגרל על \( C \) לא יהיה תלוי בפרמטריזציה \( \gamma \) המדויקת, אבל הפעם אני לא אכנס לזה כי זה לא קשור למה שאני רוצה להוכיח. מה אני כן רוצה להוכיח? את השוויון \( \int_{C}fd\gamma=\int_{a}^{b}f\left(\gamma\left(t\right)\right)\|\gamma^{\prime}\left(t\right)\|dt \) שבו בדרך כלל משתמשים כדי להגדיר את משמעות הביטוי \( \int_{C}fd\gamma \). זה אומר שאני צריך להתחיל מלהגדיר את \( \int_{C}fd\gamma \) בדרך אחרת, בתור הכללה טבעית של סכומי רימן.

בואו נתחיל שוב מאינטואיציה. מה בעצם קורה בביטוי \( \int_{a}^{b}f\left(\gamma\left(t\right)\right)\|\gamma^{\prime}\left(t\right)\|dt \)? אם אנחנו לוקחים את הפונקציה הקבועה \( f\left(x\right)=1 \), אנחנו מקבלים בדיוק את האינטגרל שחישב את האורך של \( \gamma \). אפשר לדמיין את \( \gamma \) כאילו היא מתארת חוט של חומר שמפוזר במרחב, ואת \( f \) כאילו היא מתארת את צפיפות החומר בכל נקודה במרחב, ואנחנו רוצים לחשב את כמות החומר הכוללת; אם הצפיפות היא 1 בכל נקודה, הכמות הזו תהיה בדיוק אורך החוט, אבל אנחנו רוצים לטפל בסיטואציה היותר מורכבת של צפיפות משתנה. אפשר גם לחשוב על זה בצורה הרגילה שבה חושבים על אינטגרלים: באינטגרל רגיל, \( \int_{a}^{b}f\left(t\right)dt \), אנחנו לכאורה לוקחים את הערך \( f\left(t\right) \) של הפונקציה בנקודה קונקרטית \( t \), כופלים באורך של “המרחק מ-\( t \) אל הנקודה הבאה אחריה”, אורך שאנחנו מסמנים ב-\( dt \) וחושבים עליו בתור מספר קטן יותר מכל מספר ממשי, וסוכמים את הכל. אז גם ב-\( \int_{a}^{b}f\left(\gamma\left(t\right)\right)\|\gamma^{\prime}\left(t\right)\|dt \) אפשר לחשוב שאנחנו לוקחים את הערך של \( f \) בנקודה קונקרטית - הפעם בנקודה הקונקרטית על העקומה \( \gamma\left(t\right) \) שהיא בעצמה הנקודה שמגיעים אליה בטיול על העקומה שמגיע לנקודה הקונקרטית \( t \), ואז כופלים את ערך הפונקציה הזו ב”מרחק מ-\( \gamma\left(t\right) \) אל הנקודה הבאה על \( \gamma \) אחריה”. ראינו כבר שמרחק כזה הוא \( \|\gamma^{\prime}\left(t\right)\|dt \), אבל כל זה היה נפנופי ידיים אינטואיטיביים בלבד; אין כאן משהו פורמלי. לפורמליזם נגיע עכשיו.

את התשתית כבר יש לנו - אנחנו מבינים את הרעיון של לקחת חלוקה \( P \) של \( \left[a,b\right] \) שמורכבת מהנקודות \( a=t_{0}<t_{1}<t_{2}<\ldots<t_{m}=b \) (אני משתמש ב-\( m \) לאינדקס האחרון כי \( n \) תפוס על ידי המימד של המרחב) ולהסתכל על החלוקה שהיא משרה על העקומה \( \gamma \). עכשיו נמשיך בדיוק כמו עם סכומי רימן הרגילים: בוחרים סדרה \( t_{1}^{*},\ldots,t_{m}^{*} \) של נקודות כך ש-\( t_{i}^{*}\in\left[t_{i-1},t_{i}\right] \) ואז בונים את הסכום \( S_{P}^{\gamma}=\sum_{i=1}^{m}f\left(\gamma\left(t_{i}^{*}\right)\right)\Delta\gamma_{i} \) כאשר \( f\left(\gamma\left(t_{i}^{*}\right)\right) \) הוא באופן מובן מאליו הערך של \( f \) על הנקודה בעקומה שמגיעים אליה בזמן \( t_{i}^{*} \), ו-\( \Delta\gamma_{i} \) הוא המרחק בין \( \gamma\left(t_{i}\right) \) ו-\( \gamma\left(t_{i-1}\right) \).

הגענו להגדרה של האינטגרל עצמו: אם קיים מספר \( I \) כך שלכל \( \varepsilon>0 \) קיים \( \delta>0 \) כך שלכל חלוקה \( P \) עם \( \lambda\left(P\right)<\delta \) מתקיים \( \left|S_{P}^{\gamma}-I\right|<\varepsilon \), אז אומרים ש-\( \int_{C}fd\gamma \) קיים ו-\( \int_{C}fd\gamma=I \). זה ממש 1:1 ההגדרה של אינטגרל רימן הרגיל. נשאר רק לקבל עבורה נוסחה.

בואו נסתכל על המרחק \( \Delta\gamma_{i} \) שמופיע בסכום שבנינו. עבדנו ממש קשה כדי לקבל נוסחה שימושית למרחק הזה אז בואו נשתמש בה עכשיו: \( \Delta\gamma_{i}=\int_{t_{i-1}}^{t_{i}}\|\gamma^{\prime}\left(t\right)\|dt \). במבט ראשון הייצוג הזה ל-\( \Delta\gamma_{i} \) נראה לי מעורר חלחלה. בגרסאות המקוריות והכושלות של הפוסט הזה כתבתי \( \Delta\gamma_{i}=\left|\gamma\left(t_{i}\right)-\gamma\left(t_{i-1}\right)\right| \) ואז השתמשתי בלגראז’ כדי לקבל \( \Delta\gamma_{i}=\Delta t_{i}\cdot\left|\gamma^{\prime}\left(c_{i}\right)\right| \) וקיבלתי מייד משהו שנראה כמו סכום רימן של \( \int_{a}^{b}f\left(\gamma\left(t\right)\right)\|\gamma^{\prime}\left(t\right)\|dt \). אלא שכאמור, השימוש הזה בלגראנז’ הוא פשוט שגוי. אני לא יכול לעשות אותו, כי \( \gamma \) היא לא פונקציה ממשית אלא פונקציה וקטורית.

העניין הוא שקיימת הכללה של משפט לגראנז’ שבה אני כן יכול להשתמש - הכללה עבור אינטגרלים. הנה הניסוח המדויק: אם \( g:\left[a,b\right]\to\mathbb{R} \) היא פונקציה רציפה, אז קיימת \( c\in\left(a,b\right) \) כך ש-\( \int_{a}^{b}g\left(t\right)dt=g\left(c\right)\left(b-a\right) \). במקרה שלנו, \( g\left(t\right)=\|\gamma^{\prime}\left(t\right)\| \). זו פונקציה ממשית, כי הנורמה של וקטור היא מספר ממשי בודד. זו פונקציה רציפה כי היא הרכבה של פונקציה רציפה (הנורמה) על פונקציה שהנחתי שהיא רציפה (הנחתי ש-\( \gamma \) חלקה, לכן \( \gamma^{\prime} \) רציפה). לכן אפשר להשתמש במשפט הזה עבור \( \Delta\gamma_{i}=\int_{t_{i-1}}^{t_{i}}\|\gamma^{\prime}\left(t\right)\|dt \) ולקבל שקיים \( t_{i}^{*}\in\left(t_{i-1},t_{i}\right) \) כך ש-\( \Delta\gamma_{i}=\|\gamma^{\prime}\left(t_{i}^{*}\right)\|\Delta t_{i} \), כמו שרציתי.

אינטואיטיבית, סיימנו: אנחנו אומרים “היי, תראו, מצאנו ייצוג ל-\( S_{P}^{\gamma} \) שנראה בדיוק כמו סכום רימן רגיל!” כשהייצוג הזה הוא \( S_{P}^{\gamma}=\sum_{i=1}^{m}f\left(\gamma\left(t_{i}^{*}\right)\right)\|\gamma^{\prime}\left(t_{i}^{*}\right)\|\Delta t_{i} \), אבל אם רוצים להיות ממש פורמליים צריך להיזהר. למשל, בביטוי של הסכום מופיע \( t_{i}^{*} \) פעמיים - פעם אחת בתוך \( \gamma^{\prime}\left(t_{i}^{*}\right) \), ולשם הוא הגיע בעזרת משפט לגראנז’ האינטגרלי שהמציא אותו יש מאין, אבל הוא גם מופיע בתוך \( f\left(\gamma\left(t_{i}^{*}\right)\right) \) ולשם הוא הגיע סתם כי בחרנו סדרת נקודות שרירותית לחלוטין, הרבה לפני שבכלל דיברנו על משפט לגראנז’ האינטגרלי. בניסוח זהיר צריך להפוך את היוצרות - קודם לקבל את סדרת הנקודות שלגראנז’ נותן, ואז לומר “מכיוון שבסכום רימן אנחנו בוחרים נקודות באופן שרירותי אז ניקח את הנקודות שמצאנו קודם”. בואו נעשה את זה מסודר טיפ טופ עד הסוף, כי זה הפוסט שבו אני מרכז את כל הקטנוניות שלי.

אני רוצה להוכיח \( \int_{C}fd\gamma=\int_{a}^{b}f\left(\gamma\left(t\right)\right)\|\gamma^{\prime}\left(t\right)\|dt \). הדרך החדו”אית הפורמלית להוכיח ששני דברים הם שווים היא להוכיח שלכל \( \varepsilon>0 \) מתקיים

\( \left|\int_{C}fd\gamma-\int_{a}^{b}f\left(\gamma\left(t\right)\right)\|\gamma^{\prime}\left(t\right)\|dt\right|<\varepsilon \)

טריק חדו”אי ידוע בשביל להוכיח דבר כזה הוא למצוא מספר \( S \) שקרוב לשני הביטויים הללו עד כדי \( \frac{\varepsilon}{2} \):

\( \left|\int_{C}fd\gamma-S\right|<\frac{\varepsilon}{2} \)

\( \left|S-\int_{a}^{b}f\left(\gamma\left(t\right)\right)\|\gamma^{\prime}\left(t\right)\|dt\right|<\frac{\varepsilon}{2} \)

אם נמצא מספר כזה, נוכל ללכת לביטוי המקורי, לחבר ולחסר בו את \( S \) ולהשתמש באי שוויון המשולש:

\( \left|\int_{C}fd\gamma-\int_{a}^{b}f\left(\gamma\left(t\right)\right)\|\gamma^{\prime}\left(t\right)\|dt\right|=\left|\left(\int_{C}fd\gamma-S\right)+\left(S-\int_{a}^{b}f\left(\gamma\left(t\right)\right)\|\gamma^{\prime}\left(t\right)\|dt\right)\right|\le \)

\( \left|\int_{C}fd\gamma-S\right|+\left|S-\int_{a}^{b}f\left(\gamma\left(t\right)\right)\|\gamma^{\prime}\left(t\right)\|dt\right|\le\frac{\varepsilon}{2}+\frac{\varepsilon}{2}=\varepsilon \)

מי ה-\( S \) הזה יהיה? כמובן, הוא יהיה סכום רימן שקרוב מספיק לשני הביטויים הללו. בואו נבנה אותו בזהירות כדי שסדרת ה-\( t_{i}^{*} \)-ים תתקבל בצורה נכונה.

ראשית, אנחנו יודעים שעבור \( \frac{\varepsilon}{2} \) קיים \( \delta_{1}>0 \) כך שלכל חלוקה \( P \) עם \( \lambda\left(P\right)<\delta_{1} \), לכל סכום רימן \( S_{P}^{\gamma} \) שנבנה על החלוקה \( P \) עם בחירה של סדרת נקודות כלשהי, מתקיים \( \left|\int_{C}fd\gamma-S_{P}^{\gamma}\right|<\frac{\varepsilon}{2} \). אני עדיין לא מגדיר את \( S \) המדובר; בינתיים רק קיבלתי את \( \delta_{1} \).

בנוסף, שעבור \( \frac{\varepsilon}{2} \) קיים \( \delta_{2}>0 \) כך שלכל חלוקה \( P \) עם \( \lambda\left(P\right)<\delta_{2} \), לכל סכום רימן \( S_{P} \) שנבנה על החלוקה \( P \) עם בחירה של סדרת נקודות כלשהי, מתקיים \( \left|S_{P}-\int_{a}^{b}f\left(\gamma\left(t\right)\right)\|\gamma^{\prime}\left(t\right)\|dt\right|<\frac{\varepsilon}{2} \). גם פה: עוד לא בניתי את \( S \), רק מצאתי את \( \delta_{2} \).

עכשיו אני אגדיר \( \delta=\min\left\{ \delta_{1},\delta_{2}\right\} \). ואקח חלוקה כלשהי \( P \) של \( \left[a,b\right] \) כך ש-\( \lambda\left(P\right)<\delta \) (זו יכולה להיות חלוקה אחידה, למשל; זה לא ממש משנה לי). שימו לב שגם בשלב הזה עדיין לא בניתי את \( S \); אבל אני כבר יודע שכל סכום רימן שייבנה על פי \( P \) הולך להיות קרוב לאינטגרלים שלעיל. העניין הוא שאני צריך למצוא \( S \) ספציפי כך ש-\( S=S_{P}=S_{P}^{\gamma} \) למרות ש-\( S_{P} \) ו-\( S_{P}^{\gamma} \) מוגדרים בצורה שונה - זה בדיוק האופן שבו לגראנז’ נכנס לעניין.

אם כן, אני מפעיל את לגראנז’ על החלוקה \( P \) ומוצא סדרת נקודות \( t_{1}^{*},t_{2}^{*},\ldots,t_{m}^{*} \) כך ש-\( \Delta\gamma_{i}=\|\gamma^{\prime}\left(t_{i}^{*}\right)\|\Delta t_{i} \), ועכשיו אני מגדיר:

\( S=\sum_{i=1}^{m}f\left(\gamma\left(t_{i}^{*}\right)\right)\|\gamma^{\prime}\left(t_{i}^{*}\right)\|\Delta t_{i} \)

עכשיו שיחקתי אותה, כי מצד אחד אם אני אסתכל על סכום הרימן שנוצר על ידי הפונקציה \( f\left(\gamma\left(t\right)\right)\|\gamma^{\prime}\left(t\right)\| \), החלוקה \( P \) וסדרת הנקודות \( t_{1}^{*},t_{2}^{*},\ldots,t_{m}^{*} \), הסכום הזה הוא בדיוק

\( S_{P}=\sum_{i=1}^{m}f\left(\gamma\left(t_{i}^{*}\right)\right)\|\gamma^{\prime}\left(t_{i}^{*}\right)\|\Delta t_{i}=S \)

ומצד שני אם אני אסתכל על סכום הרימן \( S_{P}^{\gamma} \) שנוצר על ידי העקומה \( \gamma \), החלוקה \( P \), סדרת הנקודות \( t_{1}^{*},t_{2}^{*},\ldots,t_{m}^{*} \) והפונקציה \( f \), הסכום הזה הוא בדיוק

\( S_{P}^{\gamma}=\sum_{i=1}^{m}f\left(\gamma\left(t_{i}^{*}\right)\right)\Delta\gamma_{i}=\sum_{i=1}^{m}f\left(\gamma\left(t_{i}^{*}\right)\right)\|\gamma^{\prime}\left(t_{i}^{*}\right)\|\Delta t_{i}=S \)

וקיבלתי את \( S \) המבוקש שלי, מה שמסיים את ההוכחה: ראינו ש-\( \int_{C}fd\gamma=\int_{a}^{b}f\left(\gamma\left(t\right)\right)\|\gamma^{\prime}\left(t\right)\|dt \). מבחינתי הסיפור של הוכחת הנוסחה הזו סגור ואני עכשיו בסדר עם ספרים שמשתמשים בה פשוט בתור ההגדרה.

אינטגרל קווי (מסוג שני)

אינטגרל קווי מסוג שני מטפל בסיטואציה שבה מבצעים אינטגרל על פונקציה וקטורית, \( F:\mathbb{R}^{n}\to\mathbb{R}^{n} \). היה אפשר לחשוב על כל מני דרכים לעשות את זה: אפשר למשל להתייחס אל \( F \) בתור \( F\left(x\right)=\left(f_{1}\left(x\right),\ldots,f_{n}\left(x\right)\right) \) כשכל \( f_{i} \) היא פונקציה סקלרית ובמקרה הזה כבר טיפלנו עם אינטגרל קווי מסוג ראשון. בצורה הזו היינו מקבלים אינטגרל שהתוצאה שלו היא וקטור. אני לא רואה משהו שמונע מאיתנו להגדיר דבר כזה, כמו שאני לא רואה סיבה לא להגדיר כפל מטריצות “איבר-איבר”. זו פשוט לא הגדרה שימושית במיוחד.

מה כן הגדרה שימושית? או, אם אמרנו שימושים אז כאן אין מנוס מלהיכנס לפיזיקה כי אינטגרל קווי מסוג שני משמש שם לתיאור אחד מהדברים הבסיסיים ביותר במכניקה - תיאור של עבודה.

בואו נחשוב על הסיטואציה הבאה - אנחנו לוקחים כדורגל ומעיפים אותו גבוה לאוויר, בקו אנכי לגמרי. מה שיקרה הוא שהכדורגל יתחיל לעוף במהירות מסוימת, וככל שכח הכובד יפעל עליו כך המהירות תקטן עוד ועוד עד אשר הכדורגל ייעצר לרגע באוויר, ואז יתחיל לצבור מהירות לכיוון ההפוך. עד שיפול בחזרה למטה. בכל הזמן הזה פעל על הכדור כוח אחד ויחיד - כוח הכובד. בהתחלה הוא הקטין את מהירות הכדור, ואחר כך הוא הגדיל אותה. מה השתנה? דרך אחת לחשוב על כך היא זו: בהתחלה הכדור זז למעלה בזמן שכוח הכובד פעל למטה, ואחר כך הכדור זז למטה תוך כדי שכוח הכובד פועל למטה. יש כאן קשר בין וקטור הכוח (כלומר לא רק הגודל שלו, גם הכיוון שלו) ומסלול התנועה של הכדור.

הנה עוד סיטואציה לדוגמא: נדמיין לווין שמסתובב סביב כדור הארץ במסלול מעגלי לגמרי. מסלול מעגלי שכזה לא מתרחש “מעצמו”; החוק הראשון של ניוטון אומר שאם לא מופעלים על גוף כוחות, הוא יתמיד במסלול שהוא קו ישר. מסלול מעגלי נוצר רק כשבכל רגע משנים את כיוון התנועה של האובייקט. כאן ספציפית אפשר לדמיין שהלווין נע שמאלה בזמן שכדור הארץ מפעיל עליו כוח למטה, בניצב לכיוון התנועה של הלווין. זה גורם לכיוון התנועה של הלווין להשתנות ולהיות “שמאלה וקצת למטה” ; בשלב הזה הוא כבר זז קצת אבל כדור הארץ ממשיך להפעיל עליו כוח שניצב לכיוון התנועה שלו, וכן הלאה. בסיטואציה כזו של תנועה מעגלית מושלמת (ולא, נאמר, שהלווין נע במעין אליפסה) הגודל של המהירות של הלווין (מה שנקרא speed, להבדיל מ-velocity) הולך להישאר קבוע - זה שונה מהכדורגל שבו המהירות השתנתה כל הזמן. מה ההבדל? בסיפור של הלווין הכוח פועל בניצב לכיוון התנועה של הלווין, ובסיפור הכדורגל וקטור הכוח היה חופף לכיוון התנועה (או שהוא היה זהה לו, או שהוא היה הפוך בכיוונו).

בואו נעבור לפורמליזם הפיזיקלי. בפיזיקה משתמשים ב-\( v\left(t\right) \) כדי לתאר את וקטור המהירות של גוף בזמן \( t \). אם אנחנו במרחב תלת ממדי, למשל, אז \( v\left(t\right)=\left(v_{x}\left(t\right),v_{y}\left(t\right),v_{z}\left(t\right)\right) \). המהירות במובן של speed של הוקטור הזה היא \( \|v\|=\sqrt{v_{x}^{2}+v_{y}^{2}+v_{z}^{2}} \), אבל אפשר לפשט את הסימונים אם מכניסים לתמונה מכפלה סקלרית. באופן כללי, מכפלה סקלרית של שני וקטורים \( a,b\in\mathbb{R}^{n} \) היא \( a\cdot b=\sum_{i=1}^{n}a_{i}b_{i} \), ולא קשה לראות ש-\( \|v\|^{2}=v\cdot v \) (למי שזוכרים אלגברה לינארית, מכפלה סקלרית היא מקרה פרטי של מכפלה פנימית).

עכשיו, בפיזיקה יש לנו את החוק השני של ניוטון שמתאר את האופן שבו כוח שפועל על גוף משפיע על המהירות שלו: \( F=ma \), כאשר \( F \) הואה כוח שפועל על הגוף ו-\( a \) היא התאוצה של הגוף, כלומר \( a=v^{\prime} \) (הפיזיקאים מעדיפים סימון כמו \( a=\frac{dv}{dt} \) ועושים איתו להטוטים אבל אני בכוונה אמנע מכך כאן). עכשיו, מערכת שכוללת גוף וכוח שפועל עליו יכולה להיות מסובכת למדי: הכוח משפיע על התאוצה, שהיא הנגזרת הראשונה של המהירות, ולכן הנגזרת השנייה של המיקום, אבל המיקום עצמו עשוי להשפיע על הכוח כי באופן כללי הכוח תלוי במיקום האובייקט במרחב. אם נפתח את זה עד הסוף נקבל משוואה דיפרנצאלית וזה יכול להיות אתגר להתמודד עם דבר כזה, אז הפיזיקאים מוצאים דרכים להתמודד עם הקשיים בלי ללכת איתם ראש בראש, ואחת מהדרכים הללו היא לדבר על אנרגיה.

אנרגיה היא גודל מספרי כלשהו שניתן לחשב עבור מערכת, והרעיון בו הוא שהחישוב הוא כזה שהערך של האנרגיה נשאר קבוע גם כשהמערכת עוברת שינויים (הרעיון הזה של אינוריאנטה ככלי להבנה של מערכות מסובכות הוא להיט גם במתמטיקה; הפוסט הראשון בבלוג דיבר על זה). אחד מהגדלים שצריך לחשב כדי לקבל את האנרגיה של מערכת הוא האנרגיה הקינטית של העצמים שנמצאים בה, שמתארת גודל שנובע מהמהירות שלהם. עבור גוף בעל מסה \( m \) ומהירות \( v \), האנרגיה הקינטית היא \( \frac{m\|v\|^{2}}{2}=\frac{m\left(v\cdot v\right)}{2} \). עכשיו, לפני שאתקדם, הנה להטוט חמוד: אם \( a\left(t\right),b\left(t\right) \) הן שתי פונקציות וקטוריות, \( a,b:\mathbb{R}\to\mathbb{R}^{n} \), אז לא קשה להראות בעזרת חוקי הנגזרות הרגילים שמתקיים

\( \left(a\cdot b\right)^{\prime}=\left(\sum_{i=1}^{n}a_{i}b_{i}\right)^{\prime}=\sum_{i=1}^{n}a_{i}^{\prime}b_{i}+\sum_{i=1}^{n}a_{i}b_{i}^{\prime}=a^{\prime}\cdot b+a\cdot b^{\prime} \)

לכן, אם אני אסמן \( T=\frac{m\|v\|^{2}}{2} \) כדי לתאר את האנרגיה הקינטית של גוף, ואז אחשב את קצב השינוי שלה, אני אקבל

\( T^{\prime}=\frac{m}{2}\left(v\cdot v\right)^{\prime}=mv^{\prime}\cdot v=F\cdot v \)

כלומר, השינוי באנרגיה הקינטית של הגוף הוא הכוח \( F \) שפועל עליו, כפול וקטור המהירות של הגוף - זה תואם את הדיון שלמעלה, ומן הסתם לא במקרה - ההגדרה של אנרגיה קינטית מיועדת כדי שזה יעבוד. עכשיו, נפנוף הידיים הפיזיקאי אומר בשלב הזה ש-\( F\cdot v \) מתאר את השינוי הרגעי באנרגיה בהתאם לשינוי הרגעי בזמן, ולכן \( \int_{a}^{b}F\cdot vdt \) הולך לתאר את השינוי באנרגיה לאורך פרק הזמן \( a\le t\le b \), מה שנקרא העבודה של הכוח על הגוף. עכשיו, אם נתאר ב-\( \gamma \) את המסלול שהעצם עבר בפרק הזמן הזה, אז \( v=\gamma^{\prime} \) (כי מהירות היא תמיד הנגזרת של המקום), ולכן השינוי באנרגיה של הגוף יהיה \( \int_{a}^{b}F\cdot\gamma^{\prime}dt \). עכשיו אפשר להחזיר את מה שהסתרנו - הרי \( F \) היא פונקציה שתלויה לא בזמן אלא במקום של העצם בכל רגע נתון, כלומר ב-\( \gamma\left(t\right) \), אז את האינטגרל אפשר לכתוב בתור

\( \int_{a}^{b}F\left(\gamma\left(t\right)\right)\cdot\gamma^{\prime}dt \)

הדבר הזה הוא איך שמוגדר אינטגרל קווי מסוג שני. לפעמים הוא מסומן גם בתור \( \int_{C}F\cdot\gamma d\gamma \), בדומה למה שקורה לאינטגרל קווי מסוג ראשון, אבל צריך לזכור שכאן הכפל בין \( F \) ל-\( \gamma \) הוא מכפלה סקלרית וחישוב האינטגרל בפועל מסתמך עליה: \( \int_{C}F\cdot\gamma d\gamma=\int_{a}^{b}F\left(\gamma\left(t\right)\right)\cdot\gamma^{\prime}dt \).

ושוב עולה אצלי השאלה - האם אני חייב פשוט להגדיר את האינטגרל להיות \( \int_{a}^{b}F\left(\gamma\left(t\right)\right)\cdot\gamma^{\prime}dt \)? או שאני יכול להשתמש בגישת סכומי רימן גם כאן? בואו נחשוב איך סכום רימן כזה הולך להיראות כאן. כרגיל, אני אקח את הקטע \( \left[a,b\right] \) ואחלק אותו לחלוקה \( P \) כלשהי עם נקודות הביניים \( a=t_{0}\le t_{1}\le\ldots\le t_{m}=b \). אני אקח נקודה \( t_{i}^{*}\in\left[t_{i-1},t_{i}\right] \) מתוך כל קטע כזה, אחשב את הפונקציה באותה נקודה של העקום שמתאימה לזמן \( t_{i}^{*} \) כלומר אסתכל על \( F\left(\gamma\left(t_{i}^{*}\right)\right) \), ואת זה אני אכפול באורך… לא, רגע, עוד לא. כאמור, \( F\left(\gamma\left(t_{i}^{*}\right)\right) \) הוא וקטור שאנחנו לא רוצים לקחת את כולו; אנחנו רוצים לקחת רק את הגודל של ההיטל שלו על הכיוון שאליו העקום \( \gamma \) הולך בזמן \( t_{i}^{*} \). בשביל דברים כאלו יש לנו מכפלה סקלרית.

הנה עוד תזכורת על מכפלה סקלרית. מצד אחד, \( u\cdot v=\sum_{i=1}^{n}u_{i}v_{i} \) וזו דרך לחשוב על מכפלה סקלרית בתור איך בדיוק מחשבים אותה. מצד שני, אפשר להראות ש-\( u\cdot v=\|u\|\cdot\|v\|\cdot\cos\theta \) כש-\( \theta \) היא הזווית שבין שני הוקטורים. עכשיו, אפשר לחשוב על \( \|u\|\cdot\cos\theta \) בתור גודל ההיטל של \( u \) על הציר ש-\( v \) מגדיר - הנה דרך לדמיין את זה (החלק של \( v \) עד הקו המקווקו, שצבעתי בסגול, הוא מאורך \( \|u\|\cdot\cos\theta \)):

ולכן אפשר לחשוב על \( u\cdot v \) בתור גודל ההיטל של \( u \) על \( v \), כל זה כפול הגודל של \( v \). אם אנחנו רוצים להשתמש ב-\( v \) רק בתור וקטור שמצביע על כיוון, בלי לכפול בגודל שלו, אפשר פשוט לנרמל אותו - להסתכל על המכפלה \( u\cdot\frac{v}{\|v\|} \). אפשר לעשות את זה גם כאן: אם אנחנו רוצים רק את וקטור הכיוון שאליו \( \gamma \) הולכת בזמן \( t_{i}^{*} \) אפשר להסתכל על הוקטור \( \frac{\gamma^{\prime}\left(t_{i}^{*}\right)}{\|\gamma^{\prime}\left(t_{i}^{*}\right)\|} \). כמובן, זה מניח ש-\( \gamma^{\prime}\left(t_{i}^{*}\right)\ne0 \), כי אם \( \gamma^{\prime}\left(t_{i}^{*}\right)=0 \) אין מה לחלק בנורמה שלו אבל יותר גרוע מזה, הוא בכלל לא מגדיר כיוון מוגדר ולכן כל הדיון חסר תוחלת; אבל אנחנו מניחים שהפרמטריזציה היא “נחמדה” ולכן אין לה סיבה לבצע עצירות פתאומיות, אז נתעלם מזה באלגנטיות.

אם כן, הפונקציה שאנחנו רוצים שתופיע לנו בסכום הרימן, ותוכפל כרגיל ב-\( \Delta\gamma_{i} \) כמו שקרה באינטגרל קווי מסוג ראשון, היא הפונקציה \( \frac{F\left(\gamma\left(t_{i}^{*}\right)\right)\cdot\gamma^{\prime}\left(t_{i}^{*}\right)}{\|\gamma^{\prime}\left(t_{i}^{*}\right)\|} \), ולכן סכום הרימן שלי הולך להיות

\( S_{P}^{\gamma}=\sum_{i=1}^{m}\frac{F\left(\gamma\left(t_{i}^{*}\right)\right)\cdot\gamma^{\prime}\left(t_{i}^{*}\right)}{\|\gamma^{\prime}\left(t_{i}^{*}\right)\|}\cdot\Delta\gamma_{i} \)

ובכן, זו נראית כמו חתיכת מהומה ענקית! אבל בואו ניזכר שעשינו לא מעט עבודה כשדיברנו על אינטגרל קווי מסוג ראשון כדי להראות שאפשר לכתוב \( \Delta\gamma_{i}=\|\gamma^{\prime}\left(t_{i}^{*}\right)\|\Delta t_{i} \). זה לא נכון לכל סדרה שרירותית של נקודות \( t_{i}^{*} \)! אבל בהינתן חלוקה \( P \) תמיד אפשר למצוא סדרה ספציפית כזו של נקודות שעבורן השוויון יתקיים - זה היה שימוש במשפט לגראנז’ האינטגרלי. לכן, עבור בחירה מתאימה של נקודות כאלו, סכום הרימן שלנו הופך להיות

\( S_{P}^{\gamma}=\sum_{i=1}^{m}F\left(\gamma\left(t_{i}^{*}\right)\right)\cdot\gamma^{\prime}\left(t_{i}^{*}\right)\cdot\Delta t_{i} \)

ואפשר להשתמש בדיוק באותה הוכחה שראינו במקרה של אינטגרל קווי מסוג ראשון כדי להראות שבגלל שהסכום הזה הוא בעצם אותו דבר כמו סכום רימן של האינטגרל הרגיל \( \int_{a}^{b}F\left(\gamma\left(t\right)\right)\cdot\gamma^{\prime}dt \), אנחנו מקבלים \( \int_{C}F\cdot\gamma d\gamma=\int_{a}^{b}F\left(\gamma\left(t\right)\right)\cdot\gamma^{\prime}dt \). למעשה, אפשר ממש לחשוב על מה שעשינו פה בתור רדוקציה למקרה של אינטגרל קווי מסוג ראשון - כאילו אמרנו “היי, בואו נסתכל על הפונקציה \( \frac{F\left(\gamma\left(t\right)\right)\cdot\gamma^{\prime}\left(t\right)}{\|\gamma^{\prime}\left(t\right)\|} \), זו פונקציה סקלרית אז בואו נחשב לה אינטגרל קווי מסוג ראשון”. זה מסיים עבורי את הסיפור של אינטגרל קווי מסוג שני - גם פה, אני עכשיו בסדר גמור עם פשוט להגדיר אותו בתור \( \int_{a}^{b}F\left(\gamma\left(t\right)\right)\cdot\gamma^{\prime}dt \).

ומה עם אינטגרל מרוכב?

כל המהומה הזו נולדה מהנסיון לשכנע את עצמי שההגדרה של אינטגרל מרוכב היא “מה שהיא צריכה להיות” למרות שאין שום צורך בשכנוע כזה מלכתחילה כי מרגע שמתחילים עם ההגדרה הזו קורים קסמים. אז אני לא יכול לסיים את הפוסט הזה בלי לדבר גם על ההגדרה הזו.

ההגדרה עצמה דומה מאוד להגדרה של אינטגרל קווי מסוג שני: יש לנו עקומה \( C \), רק שהפעם היא לא עקומה ב-\( \mathbb{R}^{n} \) אלא במישור המרוכב, כלומר אני מתאר אותה עם פונקציה שאסמן \( z:\left[a,b\right]\to\mathbb{C} \). יש לנו פונקציה מרוכבת \( f:\mathbb{C}\to\mathbb{C} \), ואנחנו מגדירים

\( \int_{C}f\left(z\right)dz=\int_{a}^{b}f\left(z\left(t\right)\right)z^{\prime}\left(t\right)dt \)

זה מאוד, מאוד מזכיר אינטגרל קווי מסוג שני, אבל יש הבדל ברור אחד - הכפל שמופיע בתור האינטגרל הימני הוא לא מכפלה סקלרית, הוא פשוט פעולת הכפל הרגילה של מספרים מרוכבים, שהיא די שונה ממכפלה סקלרית. אם אני כותב את המספר המרוכב \( a+bi \) בתור \( \left(a,b\right) \), אז נקבל את המכפלה \( \left(a_{1},b_{1}\right)\cdot\left(a_{2},b_{2}\right)=\left(a_{1}a_{2}-b_{1}b_{2},a_{1}b_{2}+a_{2}b_{1}\right) \) שהיא כמובן גם לא סקלר ממשי אלא עדיין משהו עם שני רכיבים ממשיים שונים, וגם היא ערבוביה מוחלטת של המקדמים, בזכות פעולת הכפל המוזרה של מספרים מרוכבים. אז אי אפשר להגיד שזה פשוט לקחת את ההגדרה של אינטגרל קווי מסוג שני ולהשתמש בה על מרוכבים; ועוד דבר שהפריע לי מאוד הוא למה להשתמש דווקא באינטגרל קווי מסוג שני ולא באינטגרל קווי מסוג ראשון, שלכאורה מתאים יותר לסיטואציה של פונקציה שמחזירה סקלר שאפשר לכפול בו כפל רגיל. למה לא להגדיר \( \int_{C}f\left(z\right)dz=\int_{a}^{b}f\left(z\left(t\right)\right)\|z^{\prime}\left(t\right)\|dt \)?

ובכן, אפשר היה להגדיר ככה, זה פשוט לא היה שימושי כמו מה שכן הוגדר. הטעות הבסיסית שלי כשניגשתי לנושא הייתה לחשוב שאינטגרל מרוכב מוגדר בצורה דומה לאינטגרל קווי, כשבפועל הוא לא: הוא מוגדר בצורה דומה למה שנקרא אינטגרל רימן-סטילטיס.

מה הרעיון של אינטגרל רימן-סטילטיס? זה כמובן ראוי לפוסט משלו, אז אשאר כאן יחסית ממוקד. באינטגרל רימן, סכום רימן נראה כמו \( S_{P}=\sum_{i=1}^{n}f\left(t_{i}^{*}\right)\Delta t_{i} \) כאשר \( \Delta t_{i}=t_{i}-t_{i-1} \) והרעיון הוא ש-\( \Delta t_{i} \) מייצג אורך קטע. בעצם, אפשר לחשוב על הסכום הזה בתור סכום ממושקל, כשהערך של פונקציה בקטע מסוים מקבלת משקל שמתאים לאורך שלו. זה תואם את האינטואיציה שלנו כשאנו חושבים על אינטגרל בתור “השטח שמתחת לגרף הפונקציה \( f \)”. אבל למה להגביל את עצמנו? אפשר להשתמש בפונקציות משקל שונות ומשונות שנקראות אינטגרטורים. אם כן, לוקחים פונקציה \( g:\left[a,b\right]\to\mathbb{R} \) ומגדירים סכום רימן-סטילטיס בתור \( S_{P}=\sum_{i=1}^{n}f\left(t_{i}^{*}\right)\left(g\left(t_{i}\right)-g\left(t_{i-1}\right)\right) \). אם כל הדבר הזה מתכנס למשהו באותו מובן שבו סכום רימן התכנס, מסמנים את התוצאה ב-\( \int_{a}^{b}fdg \), כאשר כאן ה-\( dg \) במקום \( dt \) רומז לנו ש-\( g \) הוא אינטגרטור. אינטגרל רימן ה”רגיל” מתקבל אם בוחרים \( g\left(t\right)=t \).

במקרים שבהם \( g \) חלקה, אפשר להמיר את החישוב של אינטגרל רימן-סטילטיס בחישוב של אינטגרל רימן, באופן דומה למה שכבר ראינו אבל למרבה השמחה אפילו עוד יותר קל כי כאן אפשר להשתמש במשפט הערך הממוצע המקורי של לגראנז’, על \( g \) עצמה, ולקבל \( g\left(t_{i}\right)-g\left(t_{i-1}\right)=g^{\prime}\left(t_{i}^{*}\right)\Delta t_{i} \) לכל תת-קטע. מרגע שיש לנו את זה, זו פשוט חזרה על ההוכחה שכבר ראינו קודם ש-\( \int_{a}^{b}fdg=\int_{a}^{b}f\left(t\right)g^{\prime}\left(t\right)dt \) (שימו לב שכאן הפרמטר של \( f \) הוא פשוט \( t \); הוא לא \( g\left(t\right) \) כמו שקורה באינטגרל קווי).

אינטגרל מרוכב מוגדר בצורה דומה מאוד. יש לנו את העקומה \( \gamma:\left[a,b\right]\to\mathbb{C} \) שממלאת את התפקיד של \( g \), אבל במקום לסכום “סתם” ערכים של \( f \), אנחנו סוכמים ערכים של \( f\left(\gamma\left(t\right)\right) \), כלומר אנחנו מסתכלים על משהו דמוי רימן-סטילטיס עבור אינטגרטור \( \gamma \) והפונקציה \( f\circ\gamma \). מכיוון שאנחנו כבר ממש ממש ממש בסוף, בואו עוד פעם אחת אחרונה ודי נעשה את הכל פורמלי, כדי שלא יהיו לי יותר דאגות.

אם כן: נתונה לנו פונקציה \( f:\mathbb{C}\to\mathbb{C} \) ועקומה \( z:\left[a,b\right]\to\mathbb{C} \). אנחנו לוקחים חלוקה \( P \) של \( \left[a,b\right] \), ולכל בחירת נקודות \( t_{i}^{*} \) אנחנו בונים את הסכום \( S_{P}^{z}=\sum_{i=1}^{n}f\left(z\left(t_{i}^{*}\right)\right)\left(z\left(t_{i}\right)-z\left(t_{i-1}\right)\right) \). הפעם זה סכום של מספרים מרוכבים; גם \( f\left(z\left(t_{i}^{*}\right)\right) \) וגם \( \left(z\left(t_{i}\right)-z\left(t_{i-1}\right)\right) \) הם מספרים מרוכבים. הגדרת ההתכנסות נשארת זהה: אם קיים \( I\in\mathbb{C} \) כך שלכל \( \varepsilon>0 \) קיים \( \delta \) כך שלכל חלוקה \( P \) עם \( \lambda\left(P\right)<\delta \) וכל בחירת נקודות עבור חלוקה כזו, מתקיים \( \left|S_{P}^{z}-I\right|<\varepsilon \), אז אומרים ש-\( \int_{C}f\left(z\right)dz=I \). הפעם הערך המוחלט ב-\( \left|S_{P}^{z}-I\right| \) הוא פונקציית הערך המוחלט של מספרים מרוכבים: \( \left|a+bi\right|=\sqrt{a^{2}+b^{2}} \).

אני רוצה להוכיח שתחת ההגדרה הזו מתקיים השוויון \( \int_{C}f\left(z\right)dz=\int_{a}^{b}f\left(z\left(t\right)\right)z^{\prime}\left(t\right)dt \), אבל מה בעצם הולך באגף ימין? זה לא אינטגרל רימן רגיל. אמנם, המשתנה של הפונקציה שבאינטגרל הוא מספר ממשי, \( t\in\left[a,b\right] \), אבל הפונקציות עצמן הן עדיין מרוכבות ולא דיברתי על אינטגרלים של פונקציות מרוכבות עם משתנה ממשי. למרבה המזל, זה ממש פשוט: כל פונקציה מרוכבת \( g:\left[a,b\right]\to\mathbb{C} \) אפשר להציג בתור \( g\left(t\right)=x\left(t\right)+iy\left(t\right) \) כאשר \( x,y:\mathbb{R}\to\mathbb{R} \) הן פונקציות ממשיות, ואז אפשר להגדיר

\( \int_{a}^{b}g\left(t\right)dt=\int_{a}^{b}x\left(t\right)dt+i\int_{a}^{b}y\left(t\right)dt \)

כאשר כאן באגף ימין יש שני אינטגרלים רגילים של פונקציות ממשיות. זה גם מה שעשינו כשלקחנו אינטגרל של פונקציה וקטורית, כשהתעסקנו באינטגרלים קוויים. דבר דומה קורה גם עבור נגזרות:

\( g^{\prime}\left(t\right)=\lim_{h\to0}\frac{g\left(t+h\right)-g\left(t\right)}{h}=\lim_{h\to0}\left(\frac{x\left(t+h\right)-x\left(t\right)}{h}+i\frac{y\left(t+h\right)-y\left(t\right)}{h}\right)=x^{\prime}\left(t\right)+iy^{\prime}\left(t\right) \)

אז זה מה שנצטרך לעשות כדי להוכיח את השוויון \( \int_{C}f\left(z\right)dz=\int_{a}^{b}f\left(z\left(t\right)\right)z^{\prime}\left(t\right)dt \) - לפרק לשני חלקים שאחד ממשי והשני מדומה, ולהוציא את ה-\( i \) החוצה. אז בואו ונכתוב

\( f\left(z\left(t\right)\right)=u\left(t\right)+iv\left(t\right) \)

\( z\left(t\right)=x\left(t\right)+iy\left(t\right) \)

\( z^{\prime}\left(t\right)=x^{\prime}\left(t\right)+iy^{\prime}\left(t\right) \)

ועכשיו:

\( \int_{a}^{b}f\left(z\left(t\right)\right)z^{\prime}\left(t\right)dt=\int_{a}^{b}\left[u\left(t\right)+iv\left(t\right)\right]\left[x^{\prime}\left(t\right)+iy^{\prime}\left(t\right)\right]dt \)

\( =\int_{a}^{b}\left[u\left(t\right)x^{\prime}\left(t\right)-v\left(t\right)y^{\prime}\left(t\right)\right]dt+i\int_{a}^{b}\left[u\left(t\right)y^{\prime}\left(t\right)+v\left(t\right)x^{\prime}\left(t\right)\right]dt \)

זה נראה כמו סמטוחה אחת גדולה, אבל אין עם זה בעיה - כל עוד גם \( \int_{C}f\left(z\right)dz \) מתכנן להיראות כמו סמטוחה אחת גדולה דומה כשנסיים איתו. בואו נכתוב סכום רימן כללי עבורו:

\( \sum_{i=1}^{n}f\left(z\left(t_{i}^{*}\right)\right)\left(z\left(t_{i}\right)-z\left(t_{i-1}\right)\right) \)

בינתיים אני לא יכול לפשט את \( z\left(t_{i}\right)-z\left(t_{i-1}\right) \) כי אין לי אנלוג ישיר למשפט לגראנז’ עבור פונקציות עם טווח מרוכב. אז מה אני אעשה? אני אלך עם הראש בקיר ואציב דברים:

\( \sum_{i=1}^{n}f\left(z\left(t_{i}^{*}\right)\right)\left(z\left(t_{i}\right)-z\left(t_{i-1}\right)\right)=\sum_{i=1}^{n}\left[\left(u\left(t_{i}^{*}\right)+iv\left(t_{i}^{*}\right)\right)\left(x\left(t_{i}\right)+iy\left(t_{i}\right)-x\left(t_{i-1}\right)-iy\left(t_{i-1}\right)\right)\right]= \)

\( =\sum_{i=1}^{n}\left[u\left(t_{i}^{*}\right)\left(x\left(t_{i}\right)-x\left(t_{i-1}\right)\right)-v\left(t_{i}^{*}\right)\left(y\left(t_{i}\right)-y\left(t_{i-1}\right)\right)\right]+ \)

\( +i\sum_{i=1}^{n}\left[u\left(t_{i}^{*}\right)\left(y\left(t_{i}\right)-y\left(t_{i-1}\right)\right)+v\left(t_{i}^{*}\right)\left(x\left(t_{i}\right)-x\left(t_{i-1}\right)\right)\right] \)

בינתיים זה נראה טוב, אבל שוד ושבר - יש לנו גם את הביטוי \( x\left(t_{i}\right)-x\left(t_{i-1}\right) \) וגם את הביטוי \( y\left(t_{i}\right)-y\left(t_{i-1}\right) \) ולא נוכל להשתמש בלגראנז’ סימולטנית על שניהם. לכן אני אנקוט בטקטיקה אחרת - אני אפצל את הכל עוד פעם ואקבל מהאינטגרל המקורי סכום של ארבעה אינטגרלים, ומסכום הרימן המקורי ארבעה סכומים. בואו נכתוב אותם זה לצד זה:

\( \int_{a}^{b}u\left(t\right)x^{\prime}\left(t\right)dt \) אל מול \( \sum_{i=1}^{n}u\left(t_{i}^{*}\right)\left(x\left(t_{i}\right)-x\left(t_{i-1}\right)\right) \)
\( -\int_{a}^{b}v\left(t\right)y^{\prime}\left(t\right)dt \) אל מול \( -\sum_{i=1}^{n}v\left(t_{i}^{*}\right)\left(y\left(t_{i}\right)-y\left(t_{i-1}\right)\right) \)
\( i\int_{a}^{b}u\left(t\right)y^{\prime}\left(t\right)dt \) אל מול \( i\sum_{i=1}^{n}u\left(t_{i}^{*}\right)\left(y\left(t_{i}\right)-y\left(t_{i-1}\right)\right) \)
\( i\int_{a}^{b}v\left(t\right)x^{\prime}\left(t\right)dt \) אל מול \( i\sum_{i=1}^{n}v\left(t_{i}^{*}\right)\left(x\left(t_{i}\right)-x\left(t_{i-1}\right)\right) \)

עכשיו אני אוכיח שמתקיים\( \int_{C}f\left(z\right)dz=\int_{a}^{b}f\left(z\left(t\right)\right)z^{\prime}\left(t\right)dt \) על פי ההגדרה של \( \int_{C}f\left(z\right)dz \). כלומר, ניקח \( \varepsilon>0 \) ונוכיח שקיימת \( \delta>0 \) כך שאם \( P \) היא חלוקה כלשהי עם \( \lambda\left(P\right)<\delta \), אז \( \left|S_{P}^{z}-\int_{a}^{b}f\left(z\left(t\right)\right)z^{\prime}\left(t\right)dt\right|<\varepsilon \).

עכשיו, ראינו איך אפשר לפצל גם את \( S_{P}^{z} \) וגם את \( \int_{a}^{b}f\left(z\left(t\right)\right)z^{\prime}\left(t\right)dt \) לארבעה חלקים שמתאימים זה לזה בזוגות. לכן כדי לחסום את ההפרש, אני משתמש באי שוויון המשולש על פיצול לארבעה חלקים של כל אחד מהביטויים. בואו נראה איך דבר כזה נראה, סכמטית:

\( \left|\left(A_{1}+B_{1}+C_{1}+D_{1}\right)-\left(A_{2}+B_{2}+C_{2}+D_{2}\right)\right|\le\left|A_{1}-A_{2}\right|+\left|B_{1}-B_{2}\right|+\left|C_{1}-C_{2}\right|+\left|D_{1}-D_{2}\right| \)

במקרה שלנו המקבילה ל-\( \left|A_{1}-A_{2}\right| \) תהיה

\( \left|\int_{a}^{b}u\left(t\right)x^{\prime}\left(t\right)dt-\sum_{i=1}^{n}u\left(t_{i}^{*}\right)\left(x\left(t_{i}\right)-x\left(t_{i-1}\right)\right)\right| \)

ודי ברור מה יהיו שאר המקבילות (ושהכפל ב-\( -1 \) או ב-\( i \) לא משפיע; הערך המוחלט מעלים אותו).

עכשיו צריך לשים לב לנקודה עדינה: \( \int_{a}^{b}u\left(t\right)x^{\prime}\left(t\right)dt \) נראה כמו החישוב של אינטגרל רימן-סטילטיס, וכבר ראינו ש-\( \int_{a}^{b}u\left(t\right)x^{\prime}\left(t\right)dt=\int_{a}^{b}u\left(t\right)dx \). המשמעות של השוויון הזה היא שסכומי רימן-סטילטיס של \( \int_{a}^{b}u\left(t\right)dx \) מתקרבים אל \( \int_{a}^{b}u\left(t\right)x^{\prime}\left(t\right)dt \). כלומר, עבור \( \frac{\varepsilon}{4} \) קיים \( \delta_{1} \) כך שאם \( P \) חלוקה עם \( \lambda\left(P\right)<\delta_{1} \), אז כל סכום רימן-סטילטיס ובפרט הסכום \( \sum_{i=1}^{n}u\left(t_{i}^{*}\right)\left(x\left(t_{i}\right)-x\left(t_{i-1}\right)\right) \) יהיה קרוב אל \( \int_{a}^{b}u\left(t\right)x^{\prime}\left(t\right)dt \) עד כדי \( \frac{\varepsilon}{4} \).

באותו האופן אנחנו מוצאים \( \delta_{2},\delta_{3},\delta_{4} \) עבור שלושת הביטויים האחרים, ואז מגדירים \( \delta=\min\left\{ \delta_{1},\delta_{2},\delta_{3},\delta_{4}\right\} \). עכשיו מובטח לנו שעבור כל חלוקה \( P \) שמקיימת \( \lambda\left(P\right)<\delta \) וכל סכום רימן \( S_{P}^{z} \) שמתאים לה, \( \left|S_{P}^{z}-\int_{a}^{b}f\left(z\left(t\right)\right)z^{\prime}\left(t\right)dt\right|<\varepsilon \). זה מסיים את ההוכחה, ומרגיע אותי סופית. עכשיו מבחינתי זה בסדר גמור להגדיר אינטגרל מרוכב על ידי \( \int_{C}f\left(z\right)dz=\int_{a}^{b}f\left(z\left(t\right)\right)z^{\prime}\left(t\right)dt \) ותו לא. סוף טוב הכל טוב!

טורי טיילור - ההוכחות הפורמליות

2024-05-18T00:00:00+00:00

בפוסט הקודם הצגתי טורי טיילור והראיתי שלל דוגמאות, תוך הבטחה שנראה את ההוכחות הפורמליות הנדרשות בהמשך. בואו נעשה את זה עכשיו. ראשית, אני אזכיר את ההגדרה: אם \( f \) היא פונקציה שגזירה אינסוף פעמים בנקודה \( a \), אז טור הטיילור של \( f \) סביב הנקודה \( a \) הוא טור החזקות \( \sum_{n=0}^{\infty}\frac{f^{\left(n\right)}\left(a\right)}{n!}\left(z-a\right)^{n} \). כמה נקודות שצריך לשים לב אליהן בהגדרה הזו:

משום מה אני משתמש ב-\( z \) במקום ב-\( x \) לציון המשתנה של הפונקציה. זה מכיוון שיותר מקובל להשתמש ב-\( z \) לתיאור המשתנה של פונקציה מרוכבת, מה שמביא אותי לנקודה השניה:
לא אמרתי מה התחום והטווח של \( f \). זה כי אני בעצם רוצה לדבר בו זמנית על שני מקרים: המקרה של פונקציה \( f:D\to\mathbb{R} \) כאשר \( D\subseteq\mathbb{R} \) אבל גם המקרה של פונקציה \( f:D\to\mathbb{C} \) כאשר \( D\subseteq\mathbb{C} \) שהוא המקרה המעניין יותר עבורי כי אני רוצה להתקדם מפה לדיון על פונקציות מרוכבות, וטורי טיילור זו נקודת פתיחה חשובה של דיון כזה. אז אני מסמן את \( f \) בתור \( f\left(z\right) \) אבל בפוסט הזה ההוכחות שלי עובדות גם ל-\( \mathbb{R} \) וגם ל-\( \mathbb{C} \) באותה מידה.
זה שהגדרתי טור חזקות לא אומר שהוא מתכנס ל-\( f \) בכל נקודה שבה \( f \) מוגדרת (כלומר, בכל \( z\in D \)) או אפילו שהוא מתכנס בכלל ב-\( D \). המקום היחיד שעבורו זה מובטח הוא \( z=a \), כי כשמציבים אותו בטור כל האיברים מתאפסים למעט הראשון, שהוא על פי הגדרה \( f\left(a\right) \). בפוסט הקודם ראינו דוגמא לפונקציה ממשית שגזירה אינסוף פעמים ב-0 אבל טור הטיילור שלה סביב 0 שונה ממנה בכל נקודה שונה מ-0: הפונקציה \( f\left(x\right)=\begin{cases} e^{-\frac{1}{x^{2}}} & x\ne0\\ 0 & x=0\end{cases} \) . בפוסט הזה ננסה להבין מתי כן מובטחת לנו התכנסות כזו.

השאלה הראשונה שאני שואל את עצמי היא - התחלנו מהדרישה ש-\( f \) תהיה גזירה אינסוף פעמים. האם זה הכרחי, כדי ש-\( f \) תיוצג על ידי טור חזקות? ובכן, אני יכול לקחת פונקציה מממשית כמו \( f\left(x\right)=\left|x\right| \) שלא גזירה ב-\( x=0 \) ועדיין “לייצג” אותה עם טור החזקות \( \sum_{n=0}^{\infty}x^{n} \) במובן זה שהיא תהיה שווה ל-\( f \) ב-\( x=0 \) ושונה מ-\( f \) בכל \( x \) אחר. זו דוגמא לכמה מעצבנות וקטנוניות יכולות להיות דוגמאות נגדיות בחדו”א אם לא מנסים את הדרישה שלנו בזהירות. מה שלרוב גורם לעניינים להתנהג נחמד הוא לא לדרוש משהו נקודתי אלא משהו שיתקיים בסביבה של נקודה, עבור כל האיברים שלה. כלומר, אנחנו מניחים שקיימת קבוצה פתוחה \( D \) כך ש-\( f \) מוגדרת על כל \( D \) ושואלים את עצמנו מה אפשר לדעת על \( f \) מכך ש-\( f \) מיוצגת על ידי טור חזקות שמתכנס אליה לכל \( z\in D \).

מכיוון ש”קבוצה פתוחה” היא מושג קריטי, בפרט באנליזה מרוכבת, הנה תזכורת מה זה: זו פשוט קבוצה כך שכל נקודה בה היא נקודת פנים שלה, כש”נקודת פנים” פירושו שקיימת סביבה של הנקודה שמוכלת בקבוצה. פורמלית, \( D \) פתוחה אם לכל \( a\in D \) קיים \( \varepsilon>0 \) כך שאם \( \left|z-a\right|<\varepsilon \) אז \( z\in D \). אפשר וכדאי לחשוב על קבוצות פתוחות בתור “תת-יקום זעיר” של \( \mathbb{R} \) או \( \mathbb{C} \), שמתנהג מאוד דומה לקבוצות הללו - יש בו אינסוף איברים ואין בו נקודות קצה ברורות. זו אנלוגיה שעשוי להישבר לפעמים (מה אם יש לנו קבוצה פתוחה “עם חור” באמצע, כמו בייגלה? לא ניכנס לזה כרגע) אבל זו התחלה טובה. אני לפעמים משתמש במילה תחום (Domain) כדי לתאר קבוצה פתוחה - זה קצת מבלבל עם המושג של תחום ההגדרה של פונקציה, אבל יהיה טוב.

אם כן, נניח שיש לנו טור חזקות כלשהו \( \sum_{n=0}^{\infty}a_{n}\left(z-a\right)^{n} \) עם רדיוס התכנסות \( R>0 \). נסמן \( f\left(z\right)=\sum_{n=0}^{\infty}a_{n}\left(z-a\right)^{n} \). נתחיל עם הוכחה ש-\( f^{\prime}\left(z\right) \) קיימת. מה היינו מצפים שהנגזרת הזו תהיה? ובכן, הנה תזכורת כללית. גם עבור פונקציה ממשית וגם עבור פונקציה מרוכבת, הנגזרת של פונקציה \( g \) כלשהי היא

\( \lim_{h\to0}\frac{g\left(z+h\right)-g\left(z\right)}{h} \)

לא קשה להראות, בעזרת הבינום של ניוטון, שאם \( g\left(z\right)=z^{n} \) אז \( g^{\prime}\left(z\right)=nz^{n-1} \), ולא קשה להראות שנגזרת היא לינארית, מה שאומר שעבור כל סכום סופי של איברים מהצורה \( a_{n}\left(z-a\right)^{n} \), אם נגזור את הסכום נקבל סכום של איברים מהצורה \( na_{n}\left(z-a\right)^{n-1} \). לכן האינטואיציה שלנו היא שאמור להתקיים

\( f^{\prime}\left(z\right)=\sum_{n=1}^{\infty}na_{n}\left(z-a\right)^{n-1} \)

אבל בשלב הזה מדובר על אינטואיציה בלבד, כי הטענה על סכומים סופיים לא עובדת עבור סכומים אינסופיים תמיד; היא כן עובדת במקרה הזה, הפשוט יחסית, שבו הסכום האינסופי נותן לנו טור חזקות.

אם כן, בואו נסתכל על טור החזקות \( \sum_{n=1}^{\infty}na_{n}\left(z-a\right)^{n-1} \). אמרתי שלטור המקורי היה רדיוס התכנסות \( R \)? קודם כל אני רוצה להוכיח שגם לטור הזה יש רדיוס התכנסות \( R \). כזכור מהפוסט על טורי חזקות, יש לנו למרבה השמחה נוסחה מדויקת לרדיוס ההתכנסות של כל טור חזקות:

\( \frac{1}{R}=\lim\sup\sqrt[n]{\left|a_{n}\right|} \)

אז כל מה שאנחנו צריכים לעשות הוא להוכיח שעבור הטור החדש מתקיים גם כן

\( \lim\sup\sqrt[n-1]{\left|na_{n}\right|}=\frac{1}{R} \)

(למי שה-\( n-1 \) בחזקה מציק לו, היה אפשר לעשות גם \( \sqrt[n]{\left(n+1\right)a_{n+1}} \), אבל זה יותר מסורבל).

את \( \lim\sup\sqrt[n-1]{\left|na_{n}\right|} \) אפשר לחשב על ידי פירוק של הגבול העליון הזה למכפלה:

\( \lim\sup\sqrt[n-1]{\left|na_{n}\right|}=\lim\sup\left(\sqrt[n-1]{\left|n\right|}\right)\cdot\lim\sup\sqrt[n-1]{\left|a_{n}\right|} \)

את המעבר הזה אי אפשר לבצע באופן כללי אבל אפשר לבצע כמעט באופן כללי: אם \( b_{n},c_{n} \) הן שתי סדרות כלשהן של מספרים חיוביים וממשיים ואם \( b=\lim_{n\to\infty}b_{n},c=\lim\sup c_{n} \) אז

\( \lim\sup\left(b_{n}c_{n}\right)=bc \)

שימו לב לחוסר הסימטריה: עבור \( b_{n} \) אני דורש את הדרישה הקשוחה יותר \( b=\lim_{n\to\infty}b_{n} \) (אם סדרה היא מתכנסת אז הגבול שלה הוא גם ה-\( \lim\sup \) שלה), פשוט כי אם הייתי דורש רק \( b=\lim\sup b_{n} \) המשפט לא היה נכון (תסתכלו על הסדרות \( 2,\frac{1}{2},2,\frac{1}{2},\ldots \) ו-\( \frac{1}{2},2,\frac{1}{2},2,\ldots \)).

אני לא אוכיח כאן את טענת העזר הזו; היא מה שנקרא “תרגיל טוב” (כלומר, זה יהיה טכני מדי עבורי להתחיל להוכיח אותה באמצע משהו אחר). במקום זה בואו ונראה מה אני הולך להראות כדי שאוכל להשתמש בה:

\( \lim\sup\left(\sqrt[n-1]{\left|n\right|}\right)=\lim_{n\to\infty}\left(\sqrt[n-1]{\left|n\right|}\right)=1 \)
\( \lim\sup\sqrt[n-1]{\left|a_{n}\right|}=\frac{1}{R} \)

בשביל \( \lim_{n\to\infty}\left(\sqrt[n-1]{\left|n\right|}\right)=1 \), בואו קודם כל נכתוב בצורה קצת יותר ברורה את הביטוי הזה: \( \lim_{n\to\infty}n^{\frac{1}{n-1}} \). טריק נפוץ כדי להתמודד עם ביטויים עם חזקה מעצבנת הוא לקחת לוגריתם של הביטוי, מה שמוריד את החזקה למטה: \( \ln n^{\frac{1}{n-1}}=\frac{\ln n}{n-1} \). עכשיו, אם נוכיח \( \lim_{n\to\infty}\ln n^{\frac{1}{n-1}}=0 \) ינבע מכך \( \lim_{n\to\infty}n^{\frac{1}{n-1}}=1 \) בזכות הרציפות של \( \ln \) (הנה עוד תרגיל טוב). את \( \lim_{n\to\infty}\frac{\ln n}{n-1}=0 \) קל להוכיח אם מוכיחים את הטענה המקבילה לפונקציות, \( \lim_{x\to\infty}\frac{\ln x}{x-1}=0 \) (הנה עוד תרגיל טוב) על ידי שימוש בכלל לופיטל (אני מניח שאנחנו מכירים את כלל לופיטל), שנותן את הגבול \( \lim_{x\to\infty}\frac{1/x}{1}=0 \). זה מסיים את הטענה הראשונה.

הטענה השניה, \( \lim\sup\sqrt[n-1]{\left|a_{n}\right|}=\frac{1}{R} \), נראית קלה באופן מתעתע: הרי מה ההבדל הגדול כל כך בין \( \sqrt[n-1]{\left|a_{n}\right|} \) ובין \( \sqrt[n]{\left|a_{n}\right|} \) כשמשאיפים את \( n \) לאינסוף? אבל כמובן, יכול להיות הבדל כזה, הכל תלוי באיך \( a_{n} \) מתנהגת. הנקודה שבה הדמיון בין שני הביטויים כן עוזר לנו היא בכך שאפשר לחשוב גם על \( \lim\sup\sqrt[n-1]{\left|a_{n}\right|} \) בתור משהו שנותן רדיוס התכנסות של טור חזקות: הטור \( \sum_{n=0}^{\infty}a_{n+1}z^{n} \).

הטור \( \sum_{n=0}^{\infty}a_{n+1}z^{n} \) דומה מאוד לטור \( \sum_{n=0}^{\infty}a_{n}z^{n} \) המקורי; אפשר לקבל אותו מהטור המקורי על ידי פירוק שלו לאיבר הראשון וכל היתר, והוצאת \( z \) החוצה (אם יצא לכן להתעסק עם פונקציות יוצרות, הטריקים הללו עשויים להיות מוכרים):

\( \sum_{n=0}^{\infty}a_{n}z^{n}=a_{0}+\sum_{n=1}^{\infty}a_{n}z^{n}=a_{0}+z\sum_{n=1}^{\infty}a_{n}z^{n-1}=a_{0}+z\sum_{n=0}^{\infty}a_{n+1}z^{n} \)

עבור \( z \) קבוע, ההתכנסות של \( a_{0}+z\sum_{n=0}^{\infty}a_{n+1}z^{n} \) לא מושפעת מה-\( a_{0} \) בחוץ או מה-\( z \) שבו הכל מוכפל, ולכן אם \( \sum_{n=0}^{\infty}a_{n+1}z^{n} \) מתכנס נובע מכך שגם \( \sum_{n=0}^{\infty}a_{n}z^{n} \) מתכנס. בדומה, אם \( \sum_{n=0}^{\infty}a_{n}z^{n} \) מתכנס נובע מכך ש-\( \sum_{n=0}^{\infty}a_{n+1}z^{n}=\frac{\sum_{n=0}^{\infty}a_{n}z^{n}-a_{0}}{z} \) מתכנס (אם \( z=0 \) הוא בוודאי מתכנס גם בלי לחלק שום דבר ב-\( z \)), לכן רדיוסי ההתכנסות של הטורים הללו זהים, מה שמשלים את ההוכחה.

בואו ניזכר מה היה היעד שלנו. הגדרנו \( f\left(z\right)=\sum_{n=0}^{\infty}a_{n}\left(z-a\right)^{n} \) ורצינו להראות ש-\( f^{\prime}\left(z\right)=\sum_{n=1}^{\infty}na_{n}\left(z-a\right)^{n-1} \). עוד לא הראינו את זה; הראינו רק שהטור \( \sum_{n=1}^{\infty}na_{n}\left(z-a\right)^{n-1} \) הוא בעל רדיוס ההתכנסות \( R \) של הטור המקורי, ולכן הוא מגדיר פונקציה על אותו תחום כמו זה של \( f \). אבל עדיין צריך להראות שהוא שווה אל \( f^{\prime}\left(z\right) \). עכשיו, איך מגדירים את \( f^{\prime}\left(z\right) \)? ההגדרה עבור פונקציות מרוכבות זהה להגדרה עבור פונקציות ממשיות:

\( f^{\prime}\left(z\right)=\lim_{w\to z}\frac{f\left(w\right)-f\left(z\right)}{w-z} \)

רק שכאן \( w \) הוא מספר מרוכב כלשהו והשאיפה \( w\to z \) היא שאיפה במובן של מספרים מרוכבים, כלומר ש-\( \left|w-z\right| \) שואף לאפס עבור פונקציית הערך המוחלט של מספרים מרוכבים. מי שזוכרים חדו”א של מספרים ממשיים אולי מכירים את הגדרת הנגזרת עם \( \lim_{h\to0}\frac{f\left(x+h\right)-f\left(x\right)}{h} \); זה אותו רעיון, פשוט \( w=x+h \) ולכן אם \( h\to0 \) אז \( w\to x \).

כרגיל, יהיה נוח להניח בלי הגבלת הכלליות שהטורים שלנו מוגדרים סביב 0 - זו אותה הוכחה עבור כשהם מוגדרים סביב \( a \) כלשהו, פשוט עם סימונים יותר מסורבלים.

אוקיי, אז הנה הסימונים והמטרות שלנו:

\( f\left(z\right)=\sum_{n=0}^{\infty}a_{n}z^{n} \)

\( g\left(z\right)=\sum_{n=1}^{\infty}na_{n}z^{n-1} \)

רדיוס ההתכנסות של שני הטורים הללו הוא \( R \). ניקח \( z \) כך ש-\( \left|z\right|<R \) ונרצה להראות ש-\( f^{\prime}\left(z\right)=g\left(z\right) \). כלומר, אני ארצה להראות שהביטוי \( \frac{f\left(w\right)-f\left(z\right)}{w-z} \) הולך ומתקרב אל \( g\left(z\right) \) כאשר \( w \) מתקרב אל \( z \). זו הוכחת אפסילון-דלתא רגילה: אני לוקח \( \varepsilon>0 \) שרירותי כלשהו וצריך למצוא ערך טוב של \( \delta>0 \) כך שאם \( 0<\left|w-z\right|<\delta \) אז \( \left|\frac{f\left(w\right)-f\left(z\right)}{w-z}-g\left(z\right)\right|<\varepsilon \).

הביטוי \( f\left(w\right)-f\left(z\right) \) שבמונה הוא הפרש בין שני טורים אינסופיים וקצת קשה לעבוד עם זה, אז מה שנרצה לעשות הוא לפרק את הטור האינסופי\( f\left(z\right)=\sum_{n=0}^{\infty}a_{n}z^{n} \) לשני טורים - “ראש” סופי ו”זנב” אינסופי. הנקודה שבה הפיצול הזה יתבצע תהיה \( n \), כש-\( n \) הוא כרגע שרירותי ובהמשך נבחר אותו להיות מה שמתאים לנו. אני אכתוב

\( f\left(z\right)=\sum_{k=0}^{\infty}a_{k}z^{k}=\sum_{k=0}^{n}a_{k}z^{k}+\sum_{k=n+1}^{\infty}a_{k}z^{k}=S_{n}\left(z\right)+R_{n}\left(z\right) \)

כש-\( S_{n}\left(z\right) \) היא הפונקציה שמתאימה לסכום החלקי עד \( n \) ו-\( R_{n}\left(z\right) \) היא הפונקציה שמתארת את השארית (אלו סימונים סטנדרטיים אז תסלחו לי על השימוש ב-\( R \) גם לרדיוס ההתכנסות וגם לפונקציית השארית).

עכשיו בואו נעבור לחלק הכיפי ביותר בחדו”א - האלגברה:

\( \frac{f\left(w\right)-f\left(z\right)}{w-z}-g\left(z\right)=\left[\frac{S_{n}\left(w\right)-S_{n}\left(z\right)}{w-z}-S_{n}^{\prime}\left(z\right)\right]+\left[S_{n}^{\prime}\left(z\right)-g\left(z\right)\right]+\left[\frac{R_{n}\left(w\right)-R_{n}\left(z\right)}{w-z}\right] \)

פיצלתי כאן את הביטוי המקורי לסכום של שלושה ביטויים, תוך שאני גם מחבר ומחסר \( S_{n}^{\prime}\left(z\right) \), מתוך ראייה קדימה שאני אוכל לחסום את הגודל של כל אחד מהביטויים הללו על ידי בחירה נכונה של \( n,\delta \). אני אמצא ערכים מתאימים כדי שכל אחד מהם בערכו המוחלט יהיה קטן מ-\( \frac{\varepsilon}{3} \), כך שהסכום של שלושתם לא יעלה על \( \varepsilon \).

שימו לב שאין בעיה להשתמש ב-\( S_{n}^{\prime}\left(z\right) \) כאן: מכיוון ש-\( S_{n}\left(z\right)=\sum_{k=0}^{n}a_{k}z^{k} \) היא פונקציה שמוגדרת על ידי סכום סופי הנגזרת שלה קיימת ופשוטה מאוד לחישוב על ידי גזירה “איבר-איבר” של אברי הטור. מה שאנחנו בעצם עושים בהוכחה הזו הוא לקחת את הפשטות הסופית הזו ולגרור אותה מעלה, אל המקרה האינסופי. שימו לב עד כמה הגרירה הזו קשה! המתח הזה שבין “סופי-קל, אינסופי-קשה” חוזר על עצמו בכל מקום במתמטיקה.

את שניים מהביטויים קל לחסום. ראשית, \( \frac{S_{n}\left(w\right)-S_{n}\left(z\right)}{w-z}-S_{n}^{\prime}\left(z\right) \) הוא פשוט כי צד שמאל של החיסור הוא בדיוק מה שמופיע בהגדרת הנגזרת של צד ימין: \( S_{n}^{\prime}\left(z\right)=\lim_{w\to z}\frac{S_{n}\left(w\right)-S_{n}\left(z\right)}{w-z} \). זה אומר שאפשר למצוא \( \delta>0 \) כך שלכל \( 0<\left|w-z\right|<\delta \) מתקיים \( \left|\frac{S_{n}\left(w\right)-S_{n}\left(z\right)}{w-z}-S_{n}^{\prime}\left(z\right)\right|<\frac{\varepsilon}{3} \).

שנית, \( S_{n}^{\prime}\left(z\right)-g\left(z\right) \) הוא פשוט למדי כי \( S_{n}^{\prime}\left(z\right) \) הוא בסך הכל הרישא של הטור \( g\left(z\right)=\sum_{n=1}^{\infty}na_{n}z^{n-1} \), ולכן \( \lim_{n\to\infty}S_{n}^{\prime}\left(z\right)=g\left(z\right) \), כך שעל פי הגדרת הגבול - קיים \( N_{1} \) כך שלכל \( n>N_{1} \) מתקיים \( \left|S_{n}^{\prime}\left(z\right)-g\left(z\right)\right|<\frac{\varepsilon}{3} \).

לבסוף, הביטוי שיהיה לי הכי קשה לטפל בו הוא השארית, \( \frac{R_{n}\left(w\right)-R_{n}\left(z\right)}{w-z} \). אני צריך למצוא עבורה \( N_{2} \) כך שאם \( n>N_{2} \) אז \( \left|\frac{R_{n}\left(w\right)-R_{n}\left(z\right)}{w-z}\right|<\frac{\varepsilon}{3} \). הבעיה עם השארית הזו היא שיש לנו פה טור אינסופי, אבל די בקלות נוכל לבצע רדוקציה שלו אל הטור \( g\left(z\right) \) שכבר טיפלנו בו קודם.

ראשית, על פי ההגדרה של \( R_{n} \), נקבל\( \frac{R_{n}\left(w\right)-R_{n}\left(z\right)}{w-z}=\sum_{k=n+1}^{\infty}a_{k}\frac{w^{k}-z^{k}}{w-z} \) לכן אם ניקח להכל ערך מוחלט, נקבל

\( \left|\frac{R_{n}\left(w\right)-R_{n}\left(z\right)}{w-z}\right|\le\sum_{k=n+1}^{\infty}\left|a_{k}\right|\left|\frac{w^{k}-z^{k}}{w-z}\right| \)

ביטוי כמו \( \frac{w^{k}-z^{k}}{w-z} \) אפשר לפשט אלגברית:

\( \frac{w^{k}-z^{k}}{w-z}=w^{k-1}+w^{k-2}z+\ldots+wz^{k-2}+z^{k-1} \)

כדי לראות שזה עובד, פשוט כופלים את שני האגפים ב-\( w-z \) ורואים איך באגף ימין כל איבר מתקבל פעמיים עם סימנים שונים, חוץ מ-\( w^{k} \) ו-\( z^{k} \). עכשיו, בואו ניזכר בכך ש-\( z \) נבחר מלכתחילה כך ש-\( \left|z\right|<R \) ועל \( w \) יש לנו אילוץ ש-\( \left|z-w\right|<\delta \). אז אפשר למצוא \( r<R \) כך ש-\( \left|z\right|<r \) ולבחור את \( \delta \) כך ש-\( \left|z-w\right| \) קטן מהמרחק מ-\( z \) אל \( r \) כך ש-\( \left|w\right|<r \) גם כן, ואז אפשר למצוא חסם בערך מוחלט על הביטוי שמצאנו קודם:

\( \left|\frac{w^{k}-z^{k}}{w-z}\right|\le\left|w^{k-1}\right|+\ldots+\left|z^{k-1}\right|\le kr^{k-1} \)

כי בסכום הזה יש \( k \) איברים שכל אחד מהם הוא מכפלה של שני מונומים (\( w \) ו-\( z \)) שסכום המעריכים שלהם הוא \( k-1 \).

קיבלנו:

\( \left|\frac{R_{n}\left(w\right)-R_{n}\left(z\right)}{w-z}\right|\le\sum_{k=n+1}^{\infty}\left|a_{k}\right|kr^{k-1} \)

מה שיש באגף ימין דומה מאוד לטור של \( g\left(z\right) \):

\( g\left(z\right)=\sum_{n=1}^{\infty}na_{n}z^{n-1} \)

כבר הוכחנו ש-\( g\left(z\right) \) מתכנס לכל \( \left|z\right|<R \), ולכן הוא בפרט יתכנס עבור \( z=r \) (כי \( r<R \)) ולכן הוא גם יתכנס בערך מוחלט, מה שאומר שזנב הטור יתכנס לאפס. כלומר אפשר למצוא \( N_{2} \) כך שאם \( n>N_{2} \) אז \( \sum_{k=n+1}^{\infty}\left|a_{k}\right|kr^{k-1}<\frac{\varepsilon}{3} \).

זה בעצם מסיים את ההוכחה! ניקח \( n=\max\left\{ N_{1},N_{2}\right\} +1 \) ואת ה-\( \delta \) שבחרנו קודם על בסיס שני האילוצים שצצו לנו בהוכחה, ונקבל \( \left|\frac{f\left(w\right)-f\left(z\right)}{w-z}-g\left(z\right)\right|<\frac{\varepsilon}{3}+\frac{\varepsilon}{3}+\frac{\varepsilon}{3}=\varepsilon \).

מה יצא לנו מכל זה? ובכן, הוכחה פורמלית למה שנראה על פניו די מובן מאליו: שאם \( f\left(z\right)=\sum_{n=0}^{\infty}a_{n}\left(z-a\right)^{n} \) עם רדיוס התכנסות \( R \) סביב \( a \), אז \( f \) גזירה בכל התחום הזה (הכדור הפתוח ברדיוס \( R \) סביב \( a \)) והנגזרת שלה היא \( f^{\prime}\left(z\right)=\sum_{n=1}^{\infty}na_{n}\left(z-a\right)^{n-1} \) והיא בעלת אותו רדיוס התכנסות. ואם אפשר לעשות את זה פעם אחת, אפשר לעשות את זה שוב, ולקבל שגם הנגזרת גזירה שוב, והנגזרת שלה היא בעלת אותו רדיוס התכנסות, וכן הלאה עד אינסוף.

זו תוצאה די חזקה, אז בואו נגיד אותה שוב. אני אומר שפונקציה \( f \) היא אנליטית בתחום \( D \) אם לכל \( a\in D \), קיים ל-\( f \) ייצוג באמצעות טור חזקות סביב \( a \) עם רדיוס התכנסות גדול מ-0. צריך את התנאי הזה של “גדול מ-0” כי אנחנו כבר יודעים שאם מרשים רדיוס התכנסות 0, אז כל טור חזקות שהאיבר החופשי שלו הוא \( f\left(a\right) \) יעבוד.

מה שהוכחנו כרגע הוא שאם \( f \) היא אנליטית, אז היא גזירה אינסוף פעמים בכל נקודה של \( D \). זו תוצאה חזקה מאוד, אבל בתורת הפונקציות המרוכבות היא מתגלה כחזקה עוד יותר בזכות העובדה שאם פונקציה \( f \) גזירה בכל נקודה של הקבוצה הפתוחה \( D \), אז היא אנליטית ב-\( D \). כלומר, כשאנחנו עוסקים בפונקציות מרוכבות, להיות גזיר פעם אחת גורר את להיות גזיר אינסוף פעמים, כל עוד הגזירות היא לא “נקודתית” אלא בתחום שלם \( D \). אין שום מקבילה לתוצאה הזו בתורת הפונקציות הממשיות, וזו בעצם נקודת התחלה לא רעה כדי לראות כמה קסמים מתרחשים באנליזה מרוכבת.

עכשיו בואו נראה עוד משהו. נניח של-\( f \) יש ייצוג בתור \( f\left(z\right)=\sum_{n=0}^{\infty}a_{n}\left(z-a\right)^{n} \) כשלטור יש רדיוס התכנסות גדול מאפס. נציב \( z=a \) ונקבל

\( f\left(a\right)=a_{0} \)

כי שאר האיברים התאפסו. עכשיו נגזור ונקבל

\( f^{\prime}\left(z\right)=\sum_{n=1}^{\infty}na_{n}\left(z-a\right)^{n-1} \)

ולכן אם נציב \( z=a \) נקבל

\( f^{\prime}\left(a\right)=1\cdot a_{1} \)

ואם נגזור שוב, נקבל

\( f^{\prime\prime}\left(z\right)=\sum_{n=2}^{\infty}n\left(n-1\right)a_{n}\left(z-a\right)^{n-2} \)

ולכן

\( f^{\prime\prime}\left(a\right)=1\cdot2\cdot a_{2} \)

ובאופן כללי:

\( f^{\left(k\right)}\left(a\right)=1\cdot2\cdots k\cdot a_{k} \)

או במילים אחרות:

\( a_{k}=\frac{f^{\left(k\right)}\left(a\right)}{k!} \)

וזה נותן לנו את כל אינסוף המקדמים של טור החזקות - מה שמראה שטור החזקות הזה שווה למה שקראתי לו טור הטיילור של \( f \):

\( f\left(z\right)=\sum_{n=0}^{\infty}\frac{f^{\left(n\right)}\left(a\right)}{n!}\left(z-a\right)^{n} \)

עשינו את אותו החשבון גם בפוסט הקודם, אבל עכשיו יש לנו הצדקה לעשות אותו. עכשיו גם יש לנו תשובה לשאלה מתחילת הפוסט: התחלנו מהדרישה ש-\( f \) תהיה גזירה אינסוף פעמים. האם זה הכרחי, כדי ש-\( f \) תיוצג על ידי טור חזקות? כפי שראינו, התשובה היא כן: אם \( f \) מיוצגת על ידי טור חזקות (במובן לא טריוויאלי של טורים עם רדיוס התכנסות 0) אז היא אוטומטית גזירה אינסוף פעמים, ולכן זה אכן הכרחי. זמן טוב לעצור בו.

טורי טיילור

2024-05-03T00:00:00+00:00

מבוא

אני יכול לשים אצבע מדויקת על אחד מהרגעים שבהם התחלתי להתלהב ממתמטיקה. זה היה בכיתה י”ב. המתמטיקה עבורי הייתה שלל דברים טכניים לא מעניינים במיוחד, שאליהם הצטרף לאחרונה מושג הנגזרת שגם הוא לא הלהיב אותי במיוחד כי לא הבנתי מה בעצם הוא אומר. הספר אמר על גבולות ש”לא נוכל להציג את מושג הגבול במדויק” ואז נתן הסבר שלא הבנתי ממנו כלום. בקיצור, המתמטיקה עבורי הייתה חור שחור.

חור שחור גדול במיוחד היוו פונקציות כמו סינוס וקוסינוס. הבנתי איך מגדירים אותן, אבל לא הבנתי איך מחשבים אותן. מה הקסם שהמחשבון עושה כדי לקבל אותן. ואז, במהלך שיעור פיזיקה כלשהו (אהבתי אז פיזיקה הרבה יותר ממתמטיקה) השאלה הזו עלתה והמורה אמר שיסביר את זה לי ולחבר שלי אחרי השיעור. ואז נשארנו ובשתי דקות הוא הראה לי משהו שפוצץ לי את המוח וגרם לי להתחיל לשרבט נגזרות על נייר בהתלהבות ולא להאמין שזה עובד ולהרגיש, אולי בפעם הראשונה, שבאמת יש הגיון עמוק מאחורי כל זה ויש סיבה למה אנחנו עושים את כל הדברים הטכניים הללו.

מה שהמורה הראה לנו הוא מה שנקרא טור טיילור. הרעיון בטור טיילור הוא שזה טור חזקות (מה שדיברתי עליו בפוסט הקודם) שניתן לחשב מתוך פונקציה \( f \), ועם קצת מזל הולך להיות שווה ל-\( f \) בתחום שמעניין אותנו. אני אומר “עם קצת מזל” כי למרבה הצער זה לא תמיד עובד, ונראה דוגמאות, אבל כשזה עובד, זה עובד ממש יפה בזכות העובדה שטור חזקות הוא אובייקט פשוט למדי, ולכן ייצוג של פונקציה בעזרת טור חזקות הוא ייצוג מאוד נוח שלה. אני כן רוצה להזהיר שלמרות ההקדמה שלי, טור טיילור של פונקציה הוא לא בהכרח הדרך הכי טובה לחשב אותה - לפעמים יש שיטות אפקטיביות עוד יותר. אבל זו שיטה לא רעה.

מה זה טור טיילור בכלל?

בואו נתחיל מלהסביר מה זה טור טיילור בכלל. לצורך כך בואו נניח שיש לנו פונקציה \( f\left(x\right):\mathbb{R}\to\mathbb{R} \) (כרגע אני מניח שזו פונקציה מהממשיים לעצמם, בהמשך נכניס לתמונה גם מספרים מרוכבים) ונניח שהפונקציה הזו מיוצגת על ידי טור חזקות בעל רדיוס התכנסות \( R=\infty \), כלומר מתקיים \( f\left(x\right)=\sum_{n=0}^{\infty}a_{n}x^{n} \) לכל \( x\in\mathbb{R} \) ונניח שמותר לנו לגזור את טור החזקות הזה (עוד לא הוכחתי שאפשר לעשות את זה), אז אני אקבל:

\( f^{\prime}\left(x\right)=\sum_{n=1}^{\infty}na_{n}x^{n-1} \)

ועכשיו נניח שגם את הטור שקיבלתי עכשיו אפשר לגזור שוב, אז נקבל

\( f^{\prime\prime}\left(x\right)=\sum_{n=2}^{\infty}n\left(n-1\right)a_{n}x^{n-2} \)

וככה באופן כללי נקבל

\( f^{\left(k\right)}\left(x\right)=\sum_{n=k}^{\infty}n\left(n-1\right)\cdots\left(n-k+1\right)a_{n}x^{n-k} \)

עכשיו, מה קורה כשאני מציב \( x=0 \) בפונקציה ובכל הנגזרות שלה? אני הולך לאפס כל מקדם מלבד המקדם של \( x^{0} \), כלומר אני אקבל:

\( f\left(0\right)=a_{0} \)

\( f^{\prime}\left(0\right)=1\cdot a_{1} \)

\( f^{\prime\prime}\left(0\right)=2\cdot1\cdot a_{2} \)

ובאופן כללי:

\( f^{\left(k\right)}\left(0\right)=k\cdot\left(k-1\right)\cdots1\cdot a_{k}=k!\cdot a_{k} \)

כלומר, קיבלתי ייצוג מפורש של מקדמי טור החזקות עבור \( f \) בעזרת הנגזרות של \( f \):

\( a_{k}=\frac{f^{\left(k\right)}\left(0\right)}{k!} \)

ולכן אפשר לכתוב

\( f\left(x\right)=\sum_{n=0}^{\infty}\frac{f^{\left(n\right)}\left(0\right)}{n!}x^{n} \)

הטור \( \sum_{n=0}^{\infty}\frac{f^{\left(n\right)}\left(0\right)}{n!}x^{n} \) הוא מה שנקרא טור הטיילור של \( f \). שימו לב שהוא מוגדר היטב לכל \( f \) שגזירה אינסוף פעמים ב-\( x=0 \), ואם \( f \) לא גזירה אינסוף פעמים ב-\( x=0 \) אז אפשר לקחת טור חזקות סביב נקודה אחרת, \( a \), כלומר להסתכל על הטור \( \sum_{n=0}^{\infty}\frac{f^{\left(n\right)}\left(a\right)}{n!}\left(x-a\right)^{n} \) - על הטור הזה אומרים שזה טור הטיילור של \( f \) שמפותח סביב \( x=a \). ההגדרה הזו עובדת לכל \( f \) שגזירה אינסוף פעמים, אבל אני מזהיר שלא נכון שמתקיים השוויון \( f\left(x\right)=\sum_{n=0}^{\infty}\frac{f^{\left(n\right)}\left(a\right)}{n!}\left(x-a\right)^{n} \) אפילו אם \( f \) באמת גזירה אינסוף פעמים ב-\( a \). ייתכן שטור החזקות הזה בכלל לא יתכנס, וייתכן שאפילו אם הוא מתכנס, הוא לא מתכנס לערך של \( f\left(x\right) \), ואנחנו נראה דוגמאות גם לזה. אבל קודם בואו נראה דוגמאות לסיטואציות שבהן זה עובד יפה יחסית.

טור טיילור של אקספוננט ופונקציות טריגונומטריות

הדוגמא הראשונה והקלה ביותר היא הפונקציה \( f\left(x\right)=e^{x} \), אקספוננט. לא ניכנס כרגע לשאלה מאיפה היא באה ולמה אוהבים אותה (יש לי פוסט עליה), אלא רק נזכיר את התכונה הבסיסית שלה: \( \left(e^{x}\right)^{\prime}=e^{x} \), היא הנגזרת שלה עצמה. לכן יש לה אינסוף נגזרות ב-\( x=0 \) וכשמציבים בהן \( x=0 \) מקבלים 1, כלומר \( f^{\left(n\right)}\left(0\right)=1 \) לכל \( n \), מה שנותן את טור הטיילור \( \sum_{n=0}^{\infty}\frac{x^{n}}{n!} \). לשמחתנו, הטור הזה באמת מתכנס ושווה ל-\( e^{x} \) בכל \( \mathbb{R} \) ולכן אפשר לכתוב

\( e^{x}=\sum_{n=0}^{\infty}\frac{x^{n}}{n!}=1+x+\frac{x^{2}}{2}+\frac{x^{3}}{6}+\ldots \)

זה טור מצויין כדי לחשב את \( e^{x} \) (למרות ששוב, זו לא הדרך הכי טובה לחשב את \( e^{x} \)).

בואו נעבור עכשיו לפונקציות הטריגונומטריות - סינוסים וקוסינוסים. גם עליהן יש לי פוסט שמנסה להסביר את אחת מהדרכים שבהן הן צצות - בתור פתרונות של המשוואה הדיפרנציאלית \( f^{\prime\prime}=-f \), מה שאומר שלנגזרות שלהן יש “מחזור מאורך 4” - אחרי שגוזרים אותן 4 פעמים חוזרים לפונקציה המקורית. זה נובע מכך ש:

\( \left(\sin x\right)^{\prime}=\cos x \)

\( \left(\cos x\right)^{\prime}=-\sin x \)

בנוסף, \( \sin0=0 \) ו-\( \cos0=1 \). אלו מספיקים לנו כדי למצוא את טורי טיילור של הפונקציות הללו - ולמרבה השמחה, גם הפעם הטורים הללו שווים לפונקציות בכל \( \mathbb{R} \) (נקודה שצריך להזכיר היא שכאן \( \sin,\cos \) הן פונקציות שמניחות שהקלט שלהן נתון ברדיאנים, לא במעלות; אם היה נתון במעלות הנוסחאות לא היו יפות כל כך). נקבל:

\( \sin x=\sin\left(0\right)x^{0}+\cos\left(0\right)x^{1}-\frac{\sin\left(0\right)}{2}x^{2}-\frac{\cos\left(0\right)}{6}x^{3}+\ldots \)

כל פעם שכתוב \( \sin\left(0\right) \) זה הולך להתאפס, ולכן נישאר רק עם האיברים במקומות האי-זוגיים. עבורם, \( \cos\left(0\right)=1 \) ולכן ההשפעה של המקדם תהיה רק בכך שפעם מחברים ופעם מחסרים; ואסור לשכוח את ה-\( n! \) שבמכנה. כלומר, אני אקבל:

\( \sin x=x-\frac{x^{3}}{3!}+\frac{x^{5}}{5!}-\frac{x^{7}}{7!}+\ldots \)

ובכתיב קומפקטי:

\( \sin x=\sum_{n=0}^{\infty}\left(-1\right)^{n}\frac{x^{2n+1}}{\left(2n+1\right)!} \)

עבור קוסינוס נקבל

\( \cos x=\cos\left(0\right)x^{0}-\sin\left(0\right)x^{1}-\frac{\cos\left(0\right)}{2}x^{2}+\frac{\sin\left(0\right)}{6}x^{3}+\ldots \)

כלומר הפעם נשארים רק האיברים במקומות הזוגיים, וגם הם מזפזפים בין פלוס למינוס:

\( \cos x=1-\frac{x^{2}}{2!}+\frac{x^{4}}{4!}-\frac{x^{6}}{6!}+\ldots \)

ובכתיב קומפקטי:

\( \cos x=\sum_{n=0}^{\infty}\left(-1\right)^{n}\frac{x^{2n}}{\left(2n\right)!} \)

שימו לב למשהו נחמד שקורה כאן: הטורים של \( \sin x,\cos x \) נראים כאילו לקחנו את הטור של \( e^{x} \) ופירקנו אותו לשני טורים - אחד עם האיברים במקומות הזוגיים והשני עם האיברים במקומות האי זוגיים. רק שאז גם כפלנו חלק מהאיברים הללו במינוס 1, וזה קצת פחות ברור, עד שחושבים על הרעיון הגאוני של להכניס לתמונה מספרים מרוכבים. את כל מה שאני עושה כאן צריך כמובן להצדיק מתמטית, אבל בואו בינתיים נזרום עם ההנחה שזה חוקי, ניקח את הטור של \( e^{x} \), ונציב בתוכו \( ix \) במקום סתם \( x \). נקבל:

\( e^{ix}=1+ix+\frac{\left(ix\right)^{2}}{2!}+\frac{\left(ix\right)^{3}}{3!}+\frac{\left(ix\right)^{4}}{4!}+\ldots= \)

\( =1+ix-\frac{x^{2}}{2!}-i\frac{x^{3}}{3!}+\frac{x^{4}}{4!}+i\frac{x^{5}}{5!}-\frac{x^{6}}{6!}-\ldots= \)

\( =\left(1-\frac{x^{2}}{2!}+\frac{x^{4}}{4!}-\ldots\right)+i\left(x-\frac{x^{3}}{3!}+\frac{x^{5}}{5!}-\ldots\right)= \)

\( =\cos x+i\sin x \)

כלומר, קיבלנו את הנוסחה \( e^{ix}=\cos x+i\sin x \) שנקראת נוסחת אוילר ומפורסמת במיוחד כשמציבים בתוכה \( x=\pi \) כי מכיוון ש-\( \cos\pi=-1 \) ו-\( \sin\pi=0 \), מקבלים

\( e^{i\pi}=-1 \)

ואחרי העברת אגפים:

\( e^{i\pi}+1=0 \)

וזו באמת נוסחה מבדרת ביותר כי היא מחברת ביחד חמישה מהסלבריטיז של המתמטיקה: \( 0,1,e,i,\pi \). אבל האם כדי לקבל אותה היה לי מותר לעשות את המעברים שביצעתי? ובכן, אני אדבר על זה בפוסט נפרד, כשאתחיל לדבר ברצינות על פונקציות מרוכבות (כן, השורה התחתונה היא “כן”).

טור טיילור של הטור ההנדסי המתכנס ואיך זה קשור לקומבינטוריקה

בואו עכשיו נסתכל לרגע על הסיפור מהכיוון ההפוך - נתחיל מטור טיילור ונעבור לפונקציה שנותנת אותו: הטור ההנדסי המתכנס, \( 1+x+x^{2}+\ldots \) שמתכנס ל-\( \left|x\right|<1 \) וראינו כבר שנותן \( \frac{1}{1-x}=\sum_{n=0}^{\infty}x^{n} \). כמובן, גם בהכרזה שלי שזה טור הטיילור של הפונקציה מסתתר משפט: שאין לפונקציה ייצוג באמצעות שני טורי פונקציות שונים. אבל לא צריך להאמין למשפט כאן, אפשר פשוט לגזור את \( \frac{1}{1-x} \). נכתוב \( \left(\frac{1}{1-x}\right)=\left(1-x\right)^{-1} \) ונגזור על פי כלל השרשרת:

\( \left[\left(1-x\right)^{-1}\right]^{\prime}=-\left(1-x\right)^{-2}\cdot\left(1-x\right)^{\prime}=\frac{1}{\left(1-x\right)^{2}} \)

באופן דומה אפשר לגזור את \( \frac{1}{\left(1-x\right)^{n}} \):

\( \left[\left(1-x\right)^{-n}\right]^{\prime}=-n\left(1-x\right)^{-\left(n+1\right)}\cdot\left(1-x\right)^{\prime}=\frac{n}{\left(1-x\right)^{n+1}} \)

כלומר, בכל פעם שבה גוזרים משהו מהצורה \( \frac{1}{\left(1-x\right)^{n}} \) התוצאה היא גם כפל ב-\( n \) וגם הגדלת מעריך החזקה שבמכנה. זה מאפשר לנו לקבל באינדוקציה את הנגזרת ה-\( n \)-ית של \( \frac{1}{1-x} \): \( \left(\frac{1}{1-x}\right)^{\left(n\right)}=\frac{n!}{\left(1-x\right)^{n+1}} \), ולכן כשנציב את זה בנוסחה לטור טיילור באמת נקבל

\( \frac{1}{1-x}=\sum_{n=0}^{\infty}\frac{n!}{\left(1-0\right)^{n+1}}\cdot\frac{x^{n}}{n!}=\sum_{n=0}^{\infty}x^{n} \)

כלומר, כאן ה-\( n! \) שתמיד מופיע בנוסחה של טור טיילור מצומצם עם מה שצץ לנו בסדרת הנגזרות.

עוד משהו חמוד שאפשר לעשות עם הטור \( \frac{1}{1-x}=\sum_{n=0}^{\infty}x^{n} \), עכשיו כשאנחנו יודעים מה הנגזרת של \( \frac{1}{1-x} \), הוא לגזור את שני האגפים יחד ולקבל

\( \frac{1}{\left(1-x\right)^{2}}=\sum_{n=1}^{\infty}nx^{n-1}=1+2x+3x^{2}+4x^{3}+\ldots \)

בשוויון הזה השתמשתי בפוסט על בעיית איסוף הקופונים, כשחישוב תוחלת נתן לי באופן טבעי את הטור, והיה לי נוח לעבור ממנו לייצוג הקומפקטי \( \frac{1}{\left(1-x\right)^{2}} \), וזו כמובן רק דוגמא אחת - השוויונות הללו הם כלי עבודה בסיסי במתמטיקה.

אפשר כמובן להמשיך עם זה הלאה ולגזור עוד את הפונקציה והטור, על פי החישובים שכבר ראינו, ולקבל

\( \frac{2}{\left(1-x\right)^{3}}=\sum_{n=2}^{\infty}n\left(n-1\right)x^{n-2} \)

או, בייצוג היותר מקובל,

\( \frac{1}{\left(1-x\right)^{3}}=\sum_{n=2}^{\infty}\frac{n\left(n-1\right)}{2}x^{n-2} \)

ובאופן כללי:

\( \frac{1}{\left(1-x\right)^{k}}=\sum_{n=k}^{\infty}\frac{n\left(n-1\right)\cdots\left(n-k+1\right)}{k!}x^{n-k} \)

הביטוי \( \frac{n\left(n-1\right)\cdots\left(n-k+1\right)}{k!} \) מזכיר קומבינטוריקה, ולא במקרה. אפשר לכתוב \( n\left(n-1\right)\cdots\left(n-k+1\right)=\frac{n!}{\left(n-k\right)!} \), ולכן לקבל

\( \frac{n\left(n-1\right)\cdots\left(n-k+1\right)}{k!}=\frac{n!}{k!\left(n-k\right)!}={n \choose k} \)

ולכן קיבלנו

\( \frac{1}{\left(1-x\right)^{k}}=\sum_{n=k}^{\infty}{n \choose k}x^{n-k} \)

וזה ביטוי שימושי מאוד כשמנסים למצוא פונקציות יוצרות לבעיות קומבינטוריות - אבל זה נושא לפעם אחרת.

טור טיילור של לוגריתם

שמחים וטובי לב מההצלחות שלנו עד עכשיו, אנחנו רוצים לרוץ ולטפל בפונקציה המסובכת הבאה שכולנו מכירים: \( \ln x \), הפונקציה ההופכית של \( e^{x} \). כזכור, \( \ln x=y \) אם \( e^{y}=x \). זה בפרט אומר ש-\( \ln0 \) זה ביטוי לא מוגדר כי אין \( y \) כך ש-\( e^{y}=0 \). בכלל, הפונקציה לא מוגדרת לשום \( x\le0 \), כך שאפשר לשכוח מטור טיילור שעובד בכל \( \mathbb{R} \). מצד שני אנחנו עדיין רוצים משהו. אז כאן אפשר טיפה להתחכם. במקום לדבר על הפונקציה \( \ln x \), נדבר על הפונקציה \( \ln\left(1-x\right) \), שכן מוגדרת ב-\( x=0 \) ואפילו מאוד פשוטה שם: \( \ln\left(1-0\right)=\ln1=0 \), ואני הולך למצוא עבורה טור טיילור שעובד לכל \( \left|x\right|<1 \). לכאורה לדבר על הפונקציה הזו ממש מגביל אותנו כי נראה שאני יכול לחשב את \( \ln \) רק עבור ערכים בתחום שמ-0 עד 2, אבל בפועל אפשר לחשב באמצעות הפונקציה הזו את \( \ln \) המקורית לכל ערך שנרצה: נניח שאנחנו רוצים לחשב את \( \ln t \) עבור \( t>0 \), אז נגדיר \( x=1-\frac{1}{t} \) ועכשיו נשים לב לשני דברים:

מכיוון ש-\( t>0 \) אז \( 0<\frac{1}{t}<1 \) ולכן \( 0<x<1 \) ובפרט אנחנו בתחום שבו טור הטיילור של \( \ln\left(1-x\right) \) מתכנס;
על ידי העברת אגפים נקבל \( \frac{1}{t}=1-x \), כלומר \( t=\frac{1}{1-x} \), וכעת אפשר להשתמש בתכונה של לוגריתמים: \( \ln\left(t\right)=\ln\left(\frac{1}{1-x}\right)=-\ln\left(1-x\right) \)

כלומר, על ידי חישוב \( \ln\left(1-x\right) \) וכפל במינוס אחד, מקבלים את \( \ln t \) וזה לכל ערך של \( t \) שנרצה (ושוב אני מזהיר - זו לא הדרך הכי יעילה לחשב את \( \ln \)! אבל זה עובד).

אוקיי, אז בואו נמצא את טור הטיילור של \( \ln\left(1-x\right) \).

מה הנגזרת של \( \ln x \)? מחדו”א אנחנו יודעים ש-\( \left(\ln x\right)^{\prime}=\frac{1}{x} \). לכן עם כלל השרשרת נקבל

\( \left[\ln\left(1-x\right)\right]^{\prime}=-\frac{1}{1-x} \)

הופה! פגשנו את ידידנו הותיק \( \frac{1}{1-x} \), שלגמרי במקרה לפני רגע בחלק הקודם של הפוסט חישבנו את כל הנגזרות שלו מכאן ועד אינסוף. אבל אנחנו לא באמת חייבים לעבור שוב דרך הנוסחה הכללית של טור טיילור, אלא אפשר לקחת את טור הטיילור של \( \frac{1}{1-x} \) ולבצע עליו אינטגרציה איבר איבר. במילים אחרות, אנחנו מתחילים מהשוויון

\( \frac{1}{1-x}=\sum_{n=0}^{\infty}x^{n} \)

שאנחנו כבר מכירים, כופלים ב-\( -1 \) ואז לוקחים אינטגרל ומקבלים:

\( \ln\left(1-x\right)=-\int_{0}^{x}\frac{1}{1-t}dt=-\int_{0}^{x}\sum_{n=0}^{\infty}t^{n}dt= \)

\( =-\sum_{n=0}^{\infty}\int_{0}^{x}t^{n}dt=-\sum_{n=0}^{\infty}\frac{x^{n+1}}{n+1} \)

כאן השתמשתי באחד המשפטים שהראיתי על טורי פונקציות: אם טור מתכנס במ”ש, אז אפשר לבצע עליו אינטגרציה איבר-איבר (שימו לב שחישבתי אינטגרל מסוים בתור דרך לקבל אינטגרל לא מסוים ספציפי). כמובן שצריך להצדיק את זה שהטור מתכנס במ”ש במקרה הזה, אבל אנחנו אפילו לא צריכים משפטים כלליים על טורי טיילור: אנחנו כבר יודעים לחשב את רדיוס ההתכנסות של \( \sum_{n=0}^{\infty}x^{n} \) ולדעת שהוא \( R=1 \), ולכן הטור מתכנס במ”ש בכל תחום \( \left|x\right|<r<R \) שנרצה.

לסיכום, קיבלנו את הנוסחה

\( \ln\left(1-x\right)=-\sum_{n=1}^{\infty}\frac{x^{n}}{n}=-x-\frac{x^{2}}{2}-\frac{x^{3}}{3}-\ldots \)

כדי לחשב ערכים קטנים של \( \ln \), בין \( 0 \) ל-2, נוח יותר לקחת את הנוסחה הזו ולהציב בה \( y=-x \) ולקבל

\( \ln\left(1+y\right)=y-\frac{y^{2}}{2}+\frac{y^{3}}{3}-\ldots \)

ואז להשתמש בנוסחה הזו תוך שאנחנו מציבים בה ישירות ערכים של \( -1<y<1 \).

עבור ערכי \( y \) שמקיימים \( \left|y\right|>1 \) הטור יתבדר בודאות (ראינו את זה כשהוכחנו שזה מה שרדיוס התכנסות עושה) ועבור \( y=-1 \) ברור לנו שהוא יתפוצץ כי \( \ln0 \) מתפוצץ, אבל מה עם \( y=1 \)? באופן כללי, על מספר שיושב “על” רדיוס ההתכנסות הטור עדיין יכול להתכנס - ואם הוא מתכנס, אז הנוסחה של טור טיילור עדיין עובדת (גם אם זה צריך להוכיח). במקרה של \( y=1 \), הטור שאנחנו מקבלים הוא טור מוכר ואהוב במתמטיקה - הטור ההרמוני המתחלף:

\( 1-\frac{1}{2}+\frac{1}{3}-\frac{1}{4}+\ldots \)

הטור הזה הוא הדוגמא הראשונה שנותנים כשמציגים את מבחן ההתכנסות לטורים של לייבניץ, שאומר שאם \( a_{n} \) היא סדרה חיובית ששואפת לאפס, אז הטור \( \sum_{n=0}^{\infty}\left(-1\right)^{n}a_{n} \) מתכנס. מכאן שהטור ההרמוני המתחלף מתכנס, ועל פי הנוסחה שראינו, כשמציבים בה \( y=1 \):

\( 1-\frac{1}{2}+\frac{1}{3}-\frac{1}{4}+\ldots=\ln2 \)

מתי העניינים לא כל כך נחמדים?

מה שעשיתי עד עכשיו כלל תיאור של שלל טורי טיילור עם מעט מאוד הצדקה למה שעשיתי. זה חשוב בשביל שיהיה לנו כיף, אבל מאוד מסוכן באופן כללי, ולכן בפוסט הבא אני הולך לתת את המשפטים הפורמליים שמצדיקים את הדברים שעשיתי עד כה. לפני שנגיע לזה, אני רוצה בפוסט הזה לראות איך דברים יכולים להישבר: הדוגמא הקלאסית היא פונקציה \( f\left(x\right) \) שגזירה אינסוף פעמים ב-\( x=0 \) ולכן אפשר להגדיר את הטור \( \sum_{n=0}^{\infty}\frac{f^{\left(n\right)}\left(0\right)}{n!}x^{n} \); ויותר מזה, הטור הזה גם יתכנס לכל \( x\in\mathbb{R} \), אבל לא יתקיים ש-\( f\left(x\right)=\sum_{n=0}^{\infty}\frac{f^{\left(n\right)}\left(0\right)}{n!}x^{n} \) עבור \( x\ne0 \).

הפונקציה הרלוונטית היא

\( f\left(x\right)=\begin{cases} e^{-\frac{1}{x^{2}}} & x\ne0\\ 0 & x=0 \end{cases} \)

מה הנגזרת שלה? עבור \( x\ne0 \) אפשר לקחת סביבה של \( x \) שבה \( f\left(y\right)=e^{-\frac{1}{y^{2}}} \) לכל \( y \) בסביבה, ולכן אפשר לחשב את הנגזרת ב-\( x \) על פי כלל השרשרת:

\( \left(e^{-\frac{1}{x^{2}}}\right)^{\prime}=e^{-\frac{1}{x^{2}}}\cdot\left[-\frac{1}{x^{2}}\right]^{\prime}=\frac{2}{x^{3}}e^{-\frac{1}{x^{2}}}\cdot \)

החלק המעניין הוא הנגזרת ב-\( x=0 \), שאותה נצטרך לחשב ישירות על פי הנוסחה:

\( f^{\prime}\left(0\right)=\lim_{h\to0}\frac{f\left(h\right)-f\left(0\right)}{h}=\lim_{h\to0}\frac{e^{-\frac{1}{h^{2}}}}{h} \)

זה גבול קצת טריקי: בדרך כלל בגבולות כאלו קל להשתמש בכלל לופיטל אבל כאן הגזירה של המונה רק תסבך אותנו עוד יותר. גישה אחרת היא להשתמש בכלל הסנדוויץ’: אם אני אוכיח ש-\( 0\le e^{-\frac{1}{h^{2}}}\le h^{2} \) אז מכך ש-

\( 0=\lim_{h\to0}\frac{0}{h}\le\lim_{h\to0}\frac{e^{-\frac{1}{h^{2}}}}{h}\le\lim_{h\to0}\frac{h^{2}}{h}=\lim_{h\to0}h=0 \)

אני אקבל ש-\( \lim_{h\to0}\frac{e^{-\frac{1}{h^{2}}}}{h}=0 \). אי השוויון \( 0\le e^{-\frac{1}{h^{2}}} \) הוא מובן מאליו כי \( e \) בחזקת משהו זה תמיד חיובי; בשביל \( e^{-\frac{1}{h^{2}}}\le h^{2} \) אני אלך, איך לא, לטור הטיילור של \( e^{x} \):

\( e^{x}=1+x+\frac{x^{2}}{^{2!}}+\frac{x^{3}}{3!}+\ldots \)

בפרט, לכל \( x \) חיובי, כל איברי הטור חיוביים ולכן לכל \( n \) מתקיים \( e^{x}\ge\frac{x^{n}}{n!} \), כלומר \( \frac{1}{e^{x}}\le\frac{n!}{x^{n}} \), כלומר \( e^{-x}\le\frac{n!}{x^{n}} \). במקרה שלנו נציב \( x=\frac{1}{h^{2}} \) (שימו לב ש-\( x \) חיובי תמיד כי \( h^{2} \) חיובי תמיד), ונציב \( n=1 \) ונקבל \( e^{-\frac{1}{h^{2}}}=e^{-x}\le\frac{1!}{x}=h^{2} \). זה מסיים את ההוכחה שהנגזרת של \( f \) היא

\( f^{\prime}\left(x\right)=\begin{cases} \frac{2}{x^{3}}e^{-\frac{1}{x^{2}}} & x\ne0\\ 0 & x=0 \end{cases} \)

אבל לא גמרנו פה! אנחנו רוצים ש-\( f \) תהיה גזירה אינסוף פעמים באפס, בשביל זה צריך לחשב גם את הנגזרת של \( f^{\prime} \) וכן הלאה, ואת הנגזרת של \( \frac{2}{x^{3}}e^{-\frac{1}{x^{2}}} \) כבר יותר קשה לחשב, אבל אני לא צריך כי אני יכול לנפנף בידיים: כשאני גוזר את הפונקציה הזו, אני אקבל \( e^{-\frac{1}{x^{2}}} \) כפול כל מני גורמים שמתקבלים מכפל וחילוק של \( e^{-\frac{1}{x^{2}}} \) בחזקות של \( x \). מספיק אם כך להראות שלא משנה כמה החזקה של האיקס שבה כופלים גבוהה, עדיין הגבול יוצא אפס - כלומר, להראות ש-\( \lim_{h\to0}\frac{e^{-\frac{1}{h^{2}}}}{h^{k}}=0 \) לכל \( k \). בשביל לראות את זה נשתמש בסנדוויץ’ כמו קודם. כזכור, ראינו ש-\( e^{-x}\le\frac{n!}{x^{n}} \) לכל \( n \); ה”לכל \( n \)” הזה הוא הכוח שלי. אני פשוט אציב \( n=k \) ו-\( x=\frac{1}{h^{2}} \) ואקבל

\( e^{-\frac{1}{h^{2}}}\le k!h^{2k} \), ואז

\( \lim_{h\to0}\frac{e^{-\frac{1}{h^{2}}}}{h^{k}}\le\lim_{h\to0}\frac{k!h^{2k}}{h^{k}}=\lim_{h\to0}k!h^{k}=0 \)

מה שמסיים את ההוכחה גם במקרה הזה: לכל \( k \), קיבלנו ש-\( f^{\left(k\right)}\left(0\right)=0 \). זה אומר שבפרט, טור הטיילור של הפונקציה הזו הוא פשוט 0, אבל כמובן שהפונקציה איננה זהותית אפס. זו האנומליה שרצינו.

יפה, אז כאן סיימנו עם הכיף והמשחקים ובפוסט הבא יגיעו הסבל והטרחנות של המשפטים הפורמליים. יהיה כיף!

טורי חזקות ורדיוס התכנסות

2024-04-27T00:00:00+00:00

מבוא

בפוסט הקודם דיברתי על סדרות וטורים כלליים של פונקציות, והפעם אני רוצה לדבר על סוג ספציפי של טורי פונקציות, שהוא נחמד/שימושי/ברור מספיק כדי לתת לו שם משל עצמו ולעסוק בנפרד בתכונות שלו - טור חזקות.

מה זה טור חזקות? בהגדרה הפשוטה שלו, זה טור פונקציות מהצורה \( \sum_{n=0}^{\infty}a_{n}x^{n} \) כאשר ה-\( a_{n} \)-ים הם מספרים (“המקדמים”). כלומר, זה טור שמתקבל מסדרה שהאיבר הכללי שלה הוא \( a_{n}x^{n} \) - פונקציה שהיא חזקה של \( x \), ומכאן שמו. בואו נראה כמה דוגמאות.

ראשית, הטור הפשוט שבו \( a_{n}=1 \) לכל \( n \): \( \sum_{n=0}^{\infty}x^{n} \). אם אני אציב ערך קונקרטי ב-\( x \), למשל \( 2 \), אני אקבל את מה שנקרא טור הנדסי: \( 1+2+4+8+16+\ldots \). היופי בטורים הנדסיים הוא שיש לנו נוסחה לסכום של מספר סופי של איברים בטור כזה, ואני אף פעם לא אשתעמם מלהראות איך מוצאים את הנוסחה הזו. בואו נסתכל על הטור \( 1+q+q^{2}+\ldots+q^{n} \). אם \( q=1 \) אנחנו יודעים מה הסכום שלו - \( n \) (כי יש \( n \) איברים, כל אחד מהצורה \( 1^{k}=1 \)). אם \( q\ne1 \) בואו נעשה תעלול: ניקח את הסכום \( q^{n}+q^{n-1}+\ldots+q+1 \) (שימו לב, הפכתי את הסדרה וכתבתי אותה מהגדול לקטן) ונכפול אותו ב-\( \left(q-1\right) \), מה שגורם כמעט לכל האיברים להצטמצם, כי כשאני כופל את הטור ב-\( q \) אני מקבל

\( q^{n+1}+q^{n}+\ldots+q^{2}+q \)

וכשאני כופל ב-\( -1 \) אני מקבל

\( -q^{n}-q^{n-1}-\ldots-q-1 \)

וכשמחברים את שניהם כל החזקות של \( q \) נעלמות מלבד הגדולה ביותר והקטנה ביותר, כלומר אני מקבל \( \left(1+q+q^{2}+\ldots+q^{n}\right)\left(q-1\right)=q^{n+1}-1 \). עכשיו נחלק את שני האגפים ב-\( q-1 \) (הנחתי ש-\( q\ne1 \) אז מותר לי, אין פה חלוקה באפס) ונקבל

\( 1+q+q^{2}+\ldots+q^{n}=\frac{q^{n+1}-1}{q-1} \)

עכשיו, אם \( \left|q\right|<1 \) אז \( \lim_{n\to\infty}q^{n+1}=0 \) ולכן נקבל

\( \lim_{n\to\infty}\frac{q^{n+1}-1}{q-1}=\frac{-1}{q-1}=\frac{1}{1-q} \)

כלומר, קיבלנו \( \sum_{n=0}^{\infty}q^{n}=\frac{1}{1-q} \). זו הנוסחה לסכום טור הנדסי אינסופי מתכנס. אם לעומת זאת \( \left|q\right|=1 \) אפשר להראות שהטור תמיד מתבדר. לכן, אם אני חוזר לטור החזקות \( \sum_{n=0}^{\infty}x^{n} \), למדתי עליו משהו: למדתי שאם \( \left|x\right|<1 \) אז הטור מתכנס ואילו עבור \( \left|x\right|\ge1 \) הטור מתבדר. זה מקרה פרטי של תכונה כללית חזקה מאוד עבור טורי חזקות: אם קיים ערך שונה מאפס שעבורו הטור מתכנס, וקיים ערך שעבורו הטור מתבדר, אז קיים מספר ממשי \( R>0 \) שנקרא רדיוס ההתכנסות של הטור, כך שאם \( \left|x\right|<R \) אז \( \sum_{n=0}^{\infty}a_{n}x^{n} \) מתכנס ואילו אם \( \left|x\right|>R \) הוא מתבדר (אם \( \left|x\right|=R \) הטור יכול או להתבדר או להתכנס; לא מובטח לנו משהו בודאות). סדרת המקדמים \( a_{n} \) היא שקובעת מה בדיוק יהיה ה-\( R \) הזה ועוד מעט נראה גם דרכים להעריך אותו.

בואו נחזור לרגע אל הטור \( \sum_{n=0}^{\infty}2^{n}=1+2+4+8+16+\ldots \). אמרנו שהטור הזה לא מתכנס, כי הוא מתאים למקרה \( \left|q\right|=2>1 \). מה אם בכל זאת ננסה להציב את הטור הזה בנוסחה? נקבל \( \sum_{n=0}^{\infty}2^{n}=\frac{1}{1-2}=-1 \), מה שנראה הזוי לחלוטין - איך אפשר לחבר איברים חיוביים ולקבל סכום שלילי? אז זהו, שאפשר. כל מה שאני מדבר עליו בפוסט הזה מתרחש מעל המספרים הממשיים, \( \mathbb{R} \), ועוד מעט אדבר גם על המרוכבים, \( \mathbb{C} \); אבל יש עוד יקומים מתמטיים מעניינים שאפשר לעשות בהם חדו”א, ואחד מהם (שעליו אני מדבר למשל פה) הוא מה שנקרא “מספרים \( p \)-אדיים” - זה לא יקום מתמטי אחד אלא אוסף שלם של יקומים, ובאחד מהם הטור \( \sum_{n=0}^{\infty}2^{n} \) בהחלט מתכנס (על פי אותה הגדרת התכנסות כמו בחדו”א) והשוויון \( \sum_{n=0}^{\infty}2^{n}=-1 \) הוא נכון לגמרי ונובע מאותן טכניקות שראינו פה. אז לא לפסול שום דבר על הסף! לזכור שמה שאנחנו רואים פה הוא רק קצה מעניין אחד של קרחון מעניין ממש.

כשאנחנו עובדים מעל הממשיים, קל לראות ש-\( \sum_{n=0}^{\infty}2^{n} \) לא יכול להתכנס כי האיבר הכללי של הטור הזה, \( 2^{n} \), לא שואף לאפס - ומעל הממשיים תנאי הכרחי לכך שהטור \( \sum_{n=0}^{\infty}a_{n} \) יתכנס הוא ש-\( \lim_{n\to\infty}a_{n}=0 \). אני אזכיר איך מוכיחים את התכונה הזו: נסמן \( S_{n}=\sum_{k=0}^{n}a_{k} \) ונניח שהטור מתכנס, כלומר שיש \( L \) כך ש-\( \lim_{n\to\infty}S_{n}=L \). נגדיר גם סדרה אחרת, \( T_{n}=\sum_{k=0}^{n-1}a_{k} \) (כאן \( T_{0}=0 \), \( T_{1}=a_{0} \), \( T_{2}=a_{0}+a_{1} \) וכן הלאה). כלומר, לכל \( n>0 \) מתקיים \( T_{n}=S_{n-1} \) ולכן ברור שגם \( \lim_{n\to\infty}T_{n}=L \) (זה תרגיל ממש פשוט להוכיח את זה, תנסו). כמו כן \( S_{n}-T_{n}=a_{n} \) ממש על פי ההגדרה, ולכן נקבל

\( \lim_{n\to\infty}a_{n}=0=\lim_{n\to\infty}\left(S_{n}-T_{n}\right)=\lim_{n\to\infty}S_{n}-\lim_{n\to\infty}T_{n}=L-L=0 \)

(את הפיצול הזה של גבול של הפרש סדרות להפרש של גבולות הסדרות אפשר לעשות כששתי הסדרות מתכנסות)

שימו לב שהקריטריון הזה שהאיבר הכללי שואף לאפס הוא הכרחי אבל לא מספיק - למשל הטור ההרמוני \( \sum_{n=0}^{\infty}\frac{1}{n} \) לא מתכנס (הנה הוכחה) למרות שהאיבר הכללי שלו כן שואף לאפס. כשאנחנו במספרים ה-\( p \)-אדיים, אגב, זה דווקא כן תנאי מספיק להתכנסות (וביקום הספציפי שבו \( \sum_{n=0}^{\infty}2^{n} \) מתכנס, המספרים ה-2-אדיים, באמת \( 2^{n} \) שואף לאפס).

עכשיו, בואו נחזור לטורי חזקות כלליים. אם אני מציב ב-\( \sum_{n=0}^{\infty}a_{n}x^{n} \) את הערך 2 ומקבל את הטור \( \sum_{n=0}^{\infty}a_{n}2^{n} \) בהחלט עדיין יש לי תקווה שהטור יתכנס - זה תלוי במקדמים של טור החזקות, ה-\( a_{n} \)-ים. מה שברור הוא שאני רוצה שהם לא סתם ישאפו לאפס, אלא ישאפו לאפס חזק מספיק כדי לנצח את \( 2^{n} \). האם יש דרך לדעת כמה חזק זה צריך להיות? ובכן, לפעמים כן. לצורך כך אפשר לגייס לשירותינו שני מבחנים שקושי גילה עבור התכנסות של טורים רגילים: מבחן השורש ומבחן המנה. הרעיון בשני המבחנים הללו הוא זה - בהינתן טור המספרים החיוביים \( \sum_{n=0}^{\infty}a_{n} \) אפשר לנסות לחשב את הגבול של הסדרה \( R=\lim_{n\to\infty}\sqrt[n]{a_{n}} \) או את הגבול של הסדרה \( R=\lim_{n\to\infty}\frac{a_{n+1}}{a_{n}} \). אם חישבנו את אחד מהגבולות הללו, אז

אם \( R<1 \) הטור מתכנס.
אם \( R>1 \) הטור מתבדר.
אם \( R=1 \) אז המבחן לא סיפק לנו מידע נוסף.

אני לא אוכיח כאן שהמבחנים עובדים; אין מנוס מלשבת ולכתוב גם פוסטים על טורי מספרים “רגילים”. אבל הם בהחלט יוכלו לסייע לנו כאן. למשל, עבור \( \sum_{n=0}^{\infty}a_{n}2^{n} \) אם אני אשתמש במבחן השורש אני צריך שיתקיים \( \lim_{n\to\infty}\sqrt[n]{a_{n}2^{n}}=\lim_{n\to\infty}2\sqrt[n]{a_{n}}<1 \) כדי שהטור יתכנס, כלומר אני רוצה \( \lim_{n\to\infty}\sqrt[n]{a_{n}}<\frac{1}{2} \) אז אני יכול לבחור \( a_{n}=\left(\frac{1}{3}\right)^{n} \), למשל, וזה יעבוד לי (כמובן, אפשר לומר לא הייתי צריך את מבחן השורש, אם אני סתם מציב \( a_{n}=\left(\frac{1}{3}\right)^{n} \) אני מקבל את הטור ההנדסי המתכנס \( \sum_{n=0}^{\infty}\left(\frac{2}{3}\right)^{n} \); ובכן, זה קצת רומז על האופן שבו מוכיחים את מבחן השורש). עכשיו, \( \left(\frac{1}{3}\right)^{n} \) זו דרך אחרת לכתוב \( \frac{1}{3\cdot3\cdot3\cdots3} \) כשיש \( n \) מוכפלים במכנה; אני יכול להחליף את זה ב-\( \frac{1}{1\cdot2\cdot3\cdots n}=\frac{1}{n!} \) ואז יילך לי אפילו טוב יותר, כפי שמבחן המנה מראה:

\( \lim_{n\to\infty}\frac{2^{n+1}/\left(n+1\right)!}{2^{n}/n!}=\lim_{n\to\infty}2\frac{n!}{\left(n+1\right)!}=\lim_{n\to\infty}\frac{2}{n+1}=0 \)

וכאן אפשר לראות שגם אם נחליף את ה-\( 2 \) בכל מספר אחר, עדיין נקבל גבול שהוא 0, ולכן הטור \( \sum_{n=0}^{\infty}\frac{x^{n}}{n!} \) מתכנס לכל \( x \) (על מקרה כזה אומרים שרדיוס ההתכנסות של הטור הוא \( R=\infty \)); אנחנו בהחלט הולכים לפגוש את הטור הזה עוד מעט שוב.

בואו ננסה עכשיו לטפל בשאלת ההתכנסות באופן כללי יותר: ניקח את הטור הכללי \( \sum_{n=0}^{\infty}a_{n}x^{n} \) וננסה להשתמש עליו במבחן המנה, כלומר נסתכל על

\( \lim_{n\to\infty}\frac{a_{n+1}x^{n+1}}{a_{n}x^{n}}=\lim_{n\to\infty}\frac{a_{n+1}}{a_{n}}x=x\cdot\lim_{n\to\infty}\frac{a_{n+1}}{a_{n}} \)

בינתיים זה נראה פשוט! ה-\( x \) יצא החוצה ואנחנו נשארים עם המנה \( \frac{a_{n+1}}{a_{n}} \) ואם היא קיימת, אז… אז בעצם אי אפשר לומר שום דבר כי מבחן המנה מניח שהטור שלנו חיובי אבל בשום מקום לא אמרתי שה-\( a_{n} \)-ים או ה-\( x \) חיוביים. האופן שבו מתגברים על הבעיה הזו היא להשתמש בערך מוחלט על אברי הטור, ולעבור לנתח טור אחר, את הטור \( \sum_{n=0}^{\infty}\left|a_{n}x^{n}\right| \) שהוא באמת טור חיובי. באופן כללי, לשים ערך מוחלט על אברי טור יכול להיות “בעייתי” במובן זה שהטור המקורי מתכנס אבל אחרי ששמים עליו ערכים מוחלטים הוא מתבדר - הדוגמא הקלאסית היא הטור \( \sum_{n=0}^{\infty}\frac{\left(-1\right)^{n+1}}{n} \) שמתכנס אל \( \ln2 \) אבל הרי \( \sum_{n=0}^{\infty}\left|\frac{\left(-1\right)^{n+1}}{n}\right|=\sum_{n=0}^{\infty}\frac{1}{n} \) לא מתכנס. אנחנו נראה שבטורי חזקות הבעיה הזו לא תהיה קיימת.

בואו נתחיל להיכנס יותר במסודר לתיאוריה שנצטרך כדי לנסח את הטענות המלאות על רדיוסי התכנסות.

תזכורת זריזה מחדו"א בסיסי

בואו שוב נשכח לרגע מטורי חזקות ונחזור לחומר בסיסי של טורי מספרים. מכיוון שהעניין העיקרי שלי בטורי חזקות בהמשך יהיה בהקשר של מספרים מרוכבים, בואו נניח מעכשיו שכל המספרים שאני מדבר עליהם הם מספרים מרוכבים כלליים ולא רק מספרים ממשיים. אני צריך לציין את ההנחה הזו במפורש כי כמעט לא נשים לב לזה; רק צריך לזכור שעבור מספרים מרוכבים קיימת פונקציית ערך מוחלט שמרחיבה את הפונקציה הזו שמוגדרת על הממשיים, והיא מקיימת את אותן תכונות כמו אי שוויון המשולש.

אנחנו אומרים שהטור \( \sum_{n=0}^{\infty}a_{n} \) מתכנס בהחלט אם הטור \( \sum_{n=0}^{\infty}\left|a_{n}\right| \) מתכנס. כפי שכבר ראינו עם הדוגמא של הטור ההרמוני, התכנסות של טור לא גוררת התכנסות בהחלט שלו, אבל ההפך כן נכון וזו אחת מהסיבות למה התכנסות בהחלט היא מושג מועיל. בואו נוכיח שאם \( \sum_{n=0}^{\infty}\left|a_{n}\right| \) מתכנס אז גם \( \sum_{n=0}^{\infty}a_{n} \) מתכנס.

אנחנו רוצים להראות ש-\( S_{n}=\sum_{k=0}^{n}a_{k} \) היא סדרה מתכנסת. לצורך כך מספיק להראות שהיא סדרת קושי, כלומר שלכל \( \varepsilon>0 \) קיים \( N \) כך שאם \( n\ge m>N \) אז \( \left|S_{n}-S_{m}\right|<\varepsilon \). אז בואו נחשב חסם על ההפרש הזה, תוך שאנחנו משתמשים באי שוויון המשולש:

\( \left|S_{n}-S_{m}\right|=\left|\sum_{k=m+1}^{n}a_{k}\right|\le\sum_{k=m+1}^{n}\left|a_{k}\right|\le\sum_{k=0}^{n}\left|a_{k}\right| \)

עכשיו, מה זה \( \sum_{k=0}^{n}\left|a_{k}\right| \)? זה בדיוק סכום חלקי של הטור שמתכנס בהחלט. כלומר, עבור ה-\( \varepsilon \) הקונקרטי שלנו קיים \( N \) כך שלכל \( n>N \) מתקיים \( \sum_{k=0}^{n}\left|a_{k}\right|<\varepsilon \). זה בדיוק ה-\( N \) שאנחנו רוצים, מה שמסיים את ההוכחה. פשוט מאוד!

דבר שני שצריך לזכור נקרא מבחן ההשוואה לטורים חיוביים. הרעיון פשוט: אם לכל \( n \) מתקיים \( 0\le a_{n}\le b_{n} \) והטור \( \sum_{n=0}^{\infty}b_{n} \) מתכנס, כך גם \( \sum_{n=0}^{\infty}a_{n} \). הרעיון פה הוא לסמן את סדרות הסכומים החלקיים המתאימות לטורים הללו ב-\( T_{n} \) ו-\( S_{n} \) ואז מ-\( a_{n}\le b_{n} \) מקבלים ש-\( S_{n}\le T_{n} \), ומכך ש-\( 0\le a_{n} \) מקבלים ששתי הסדרות הללו הן מונוטוניות עולות. מכיוון ש-\( T_{n}\to L \) והיא סדרה מונוטונית עולה, אז \( S_{n}\le T_{n}\le L \), ועכשיו משתמשים במשפט מחדו”א בסיסי לפיו סדרה מונוטונית עולה וחסומה היא מתכנסת (ההוכחה של זה נובעת ישירות מהתכונות הבסיסיות של המספרים הממשיים, שמהן נובע החדו”א).

משני אלו נובעת מסקנה פשוטה: אם יש לנו טור \( \sum_{n=0}^{\infty}a_{n} \) שהאיברים שלו יכולים להיות מספרים מרוכבים כלליים, ומתקיים שהחל ממקום מסוים \( N \), לכל \( n\ge N \) מתקיים \( \left|a_{n}\right|<b_{n} \) כאשר \( \sum_{n=N}^{\infty}b_{n} \) טור מתכנס, אז גם \( \sum_{n=0}^{\infty}a_{n} \) מתכנס. כדי לראות את זה, ראשית נפצל את \( \sum_{n=0}^{\infty}a_{n} \) לשני טורים: \( \sum_{n=0}^{\infty}a_{n}=\sum_{k=0}^{N-1}a_{k}+\sum_{n=N}^{\infty}a_{n} \). הטור שהוא המחובר השמאלי הוא סופי, ולכן בוודאי מתכנס; נשארה רק שאלת ההתכנסות של הטור הימני. כפי שכבר ראינו, מספיק שהטור יתכנס בהחלט, כלומר מספיק להראות ש-\( \sum_{n=N}^{\infty}\left|a_{n}\right| \) מתכנס, וזה נובע מייד ממשפט ההשוואה עם \( \sum_{n=N}^{\infty}b_{n} \).

המשפט המרכזי שלנו: על קיום רדיוס ההתכנסות ואיך לחשב אותו

עכשיו בואו נחזיר לתמונה את רדיוס ההתכנסות. ניקח טור חזקות כללי \( \sum_{n=0}^{\infty}a_{n}x^{n} \) (כאן ה-\( a_{n} \)-ים יכולים להיות מרוכבים כללים וגם ב-\( x \) אפשר להציב מרוכבים כלשהם; לרוב יותר מקובל להשתמש ב-\( z \) כדי לתאר משתנה כזה אבל נוותר על זה הפעם). הנה טיפה אינטואיציה: אם קיים הגבול \( \lim_{n\to\infty}\left|\frac{a_{n+1}}{a_{n}}\right|=L \) אז אפשר להשתמש בשילוב של הדברים שראינו כדי להשתכנע ש-\( \sum_{n=0}^{\infty}a_{n}x^{n} \) מתכנס: מספיק לראות ש-\( \sum_{n=0}^{\infty}\left|a_{n}x^{n}\right| \) מתכנס, ובשביל זה אפשר לנסות את מבחן המנה, כלומר לבדוק את גבול הסדרה

\( \frac{\left|a_{n+1}x^{n+1}\right|}{\left|a_{n}x^{n}\right|}=\left|x\right|\frac{\left|a_{n+1}\right|}{\left|a_{n}\right|}=\left|x\right|\left|\frac{a_{n+1}}{a_{n}}\right|\to\left|x\right|L \)

כדי להבטיח התכנסות צריך שיתקיים \( \left|x\right|L<1 \), כלומר \( \left|x\right|<\frac{1}{L} \). לכן \( R=\frac{1}{L} \) הוא מועמד טוב להיות רדיוס ההתכנסות שלנו.

הבעיה בגישה הזו היא שאני נזקק להנחה שהגבול \( \lim_{n\to\infty}\left|\frac{a_{n+1}}{a_{n}}\right| \) קיים. הוא לא תמיד קיים. זה נכון שאם הוא קיים הוא באמת יהיה שווה לרדיוס ההתכנסות וזו דרך טובה לחשב אותו, וגם נוכיח שזה עובד בהמשך - אבל אנחנו רוצים הגדרה לרדיוס ההתכנסות שתעבוד תמיד. לצורך כך נכניס לתמונה שני דברים: את מבחן השורש, ואת מושג ה-\( \lim\sup \) של סדרות, שהוא דרך לעשות הגיון בשגעון של סדרות שלאו דווקא מתכנסות.

מה זה \( \lim\sup \)? קודם כל בואו ניזכר מה זה \( \text{sup} \), סופרמום: סופרמום של קבוצת מספרים הוא המספר הקטן ביותר שגדול או שווה לכל אברי הקבוצה; קצת כמו המקסימום שלה, אבל עובד גם לקבוצות אינסופיות שאינן להן מקסימום. למשל הסופרמום של \( \left\{ 0,\frac{1}{2},\frac{2}{3},\frac{3}{4},\ldots\right\} \) יהיה 1. אם קבוצה של מספרים ממשיים היא חסומה, אז הסופרמום שלה תמיד קיים; זו אחת מהתכונות הבסיסיות של המספרים הממשיים. אם לעומת זאת הקבוצה לא חסומה אומרים שהסופרמום שלה הוא \( \infty \), כך שאפשר להניח שהסופרמום במובן המוכלל הזה תמיד קיים לכל קבוצה של ממשיים. ה”תמיד קיים” הזה הוא מה שנותן ל-\( \lim\sup \) יתרון על גבול “רגיל” ומבטיח שהוא יהיה קיים תמיד. ההגדרה הפורמלית היא:

\( \lim\sup\left\{ a_{0},a_{1},a_{2},\ldots\right\} =\lim_{n\to\infty}\sup\left\{ a_{n},a_{n+1},a_{n+2},\ldots\right\} \)

כלומר - אנחנו לוקחים את הסדרה שלנו, מורידים ממנה את ה”זנב” ומסתכלים מה קורה ממקום \( n \) והלאה. יש לנו קבוצה של איברים, אז יש לה סופרמום, ולכן לכל \( n \) אנחנו מקבלים מספר, ואז אפשר לשאול לאן סדרת המספרים הזו מתכנסת. והנה הקאץ’: זו סדרה יורדת של מספרים. כי ככל ש-\( n \) גדול יותר, כך יש בקבוצה \( \left\{ a_{n},a_{n+1},a_{n+2},\ldots\right\} \) פחות איברים ולכן הסופרמום שלה לא יכול להפוך פתאום לגדול יותר; ובמספרים הממשיים, כל סדרה יורדת של מספרים מתכנסת (אולי ל-\( -\infty \)).

הנה דוגמא פשוטה לאופן שבו זה עובד: אם ניקח את הסדרה \( 0,1,0,1,0,1,\ldots \) לא יהיה לסדרה הזו גבול כי היא “מזפזפת” בין איברים שונים, אבל ה-\( \lim\sup \) שלה יהיה פשוט 1 (והמושג המקביל, \( \lim\inf \), יהיה 0). עכשיו בואו נשתמש בזה עם המשפט המרכזי והמפוצץ שלנו:

בהינתן טור חזקות כלשהו \( \sum_{n=0}^{\infty}a_{n}x^{n} \), נגדיר את המספר \( R \) על ידי

\( \frac{1}{R}=\lim\sup\sqrt[n]{\left|a_{n}\right|} \)

אז \( R \) הוא רדיוס ההתכנסות של \( \sum_{n=0}^{\infty}a_{n}x^{n} \), כלומר

אם \( \left|x\right|<R \) אז הטור \( \sum_{n=0}^{\infty}a_{n}x^{n} \) מתכנס, ואפילו מתכנס בהחלט.
אם \( \left|x\right|>R \) אז הטור \( \sum_{n=0}^{\infty}a_{n}x^{n} \) מתבדר.
\( R \) הוא המספר היחיד שמקיים את שתי התכונות הללו יחד.
בונוס: לכל \( 0<r<R \), הטור \( \sum_{n=0}^{\infty}a_{n}x^{n} \) מתכנס במידה שווה בקבוצה \( \left\{ x\ |\ \left|x\right|<r\right\} \)

ההתכנסות במידה שווה הזו היא תכונה משמחת במיוחד, כי כזכור - אנחנו צריכים אותה בשביל דברים כמו שימור של רציפות ושל אינטגרלים. אבל באופן כללי המשפט הזה די משמח בגלל המבנה המאוד מסודר שהוא נותן לנו לטורי חזקות. בואו נוכיח אותו.

ראשית, בואו נוודא ש-\( R \) באמת קיים: \( \left|a_{n}\right| \) הוא מספר אי שלילי, לכן \( \sqrt[n]{\left|a_{n}\right|} \) תמיד קיים, לכן \( \lim\sup\sqrt[n]{\left|a_{n}\right|} \) תמיד קיים. מכיוון שזו סדרה של מספרים אי שליליים, ה-\( \lim\sup \) גם גדול או שווה לאפס, ובפרט הוא לא \( -\infty \). אבל הוא יכול לקבל שני ערכים “בעייתיים”: או 0 או \( \infty \). הרי אין פתרון למשוואה \( \frac{1}{R}=0 \) או \( \frac{1}{R}=\infty \) בחשבון רגיל; אבל זו אחת מהסיטואציות שבהן משתלם להגדיר \( \frac{1}{\infty}=0 \) ו-\( \frac{1}{0}=\infty \), במובן המאוד צר לפיו אם \( \lim\sup\sqrt[n]{\left|a_{n}\right|}=0 \) אז אומרים ש-\( R=\infty \) ואם \( \lim\sup\sqrt[n]{\left|a_{n}\right|}=\infty \) אז אומרים ש-\( R=0 \). המשמעות של \( R=\infty \) היא שהטור מתכנס תמיד ואילו המשמעות של \( R=0 \) היא שהטור מתבדר תמיד.

בואו ניקח עכשיו \( x \) כך ש-\( \left|x\right|<R \) ונוכיח ש-\( \sum_{n=0}^{\infty}a_{n}x^{n} \) מתכנס בהחלט, כלומר ש-\( \sum_{n=0}^{\infty}\left|a_{n}x^{n}\right| \) מתכנס. כדי לעשות את זה נשתמש במבחן השוואה: נראה שקיים מספר \( 0<\beta<1 \) כך ש-\( \left|a_{n}x^{n}\right|<\beta^{n} \) החל ממקום מסוים. בגלל ש-\( 0<\beta<1 \) אז הטור \( \sum_{n=0}^{\infty}\beta^{n} \) הוא טור הנדסי מתכנס ואפשר להשתמש עליו במבחן ההשוואה. רק נשאר למצוא את ה-\( \beta \) הזה.

אם כן, מכיוון ש-\( \left|x\right|<R \) נובע שקיים \( r \) כך ש-\( \left|x\right|<r<R \) (התכונה הזו נקראת הצפיפות של הממשיים). זה אומר ש-\( \frac{1}{R}<\frac{1}{r} \) (זה נכון גם במקרה של \( R=\infty \)) ומכיוון ש-\( \lim\sup\sqrt[n]{\left|a_{n}\right|}=\frac{1}{R}<\frac{1}{r} \) זה אומר שקיים \( N \) שהחל ממנו, לכל \( n>N \) מתקיים \( \sqrt[n]{\left|a_{n}\right|}<\frac{1}{r} \). זה לא טיעון פשוט כמו שהוא אולי נראה במבט ראשון אז בואו נדבר עליו.

ראשית, הנה טענה כללית על סדרות: אם \( \lim_{n\to\infty}c_{n}=A \) וגם \( A<B \) אז החל ממקום מסויים, \( c_{n}<B \). ההוכחה של זה היא טכניקה סטנדרטית בעבודה עם סדרות: קחו \( \varepsilon=\frac{B-A}{2} \), ואז החל ממקום מסוים \( \left|c_{n}-A\right|<\varepsilon \) ומכאן נובע \( c_{n}<A+\varepsilon=\frac{B+A}{2}<\frac{2B}{2}=B \). אינטואיטיבית, מרגע ש-\( c_{n} \) קרובה ממש ל-\( A \) היא כבר לא יכולה להיות קרובה ממש גם ל-\( B \) ובטח שלא לעבור אותו.

אבל מי היא \( c_{n} \) במקרה שלנו? כזכור, \( c_{n}=\sup\left\{ \sqrt[k]{\left|a_{k}\right|}\right\} _{k>n} \). זה אומר שה-\( c_{n} \)-ים הם לא האיברים שמעניינים אותו בפני עצמם, אבל למרבה השמחה, הם חסם שלהם: אם \( c_{n}<\frac{1}{r} \) אז בוודאי ש-\( \sqrt[n]{\left|a_{n}\right|}\le c_{n}<\frac{1}{r} \) וזה מה שרצינו לקבל. עכשיו נעלה את שני האגפים בחזקת \( n \) ונקבל \( \left|a_{n}\right|<\frac{1}{r^{n}} \), ולכן נקבל

\( \left|a_{n}x^{n}\right|=\left|a_{n}\right|\left|x\right|^{n}<\left(\frac{\left|x\right|}{r}\right)^{n} \)

כלומר, נבחר \( \beta=\frac{\left|x\right|}{r} \) וזה המספר שחיפשנו. מכיוון ש-\( \left|x\right|<r \) נקבל שאכן \( \beta<1 \), כמבוקש.

זה החלק של ההתכנסות, אבל מה עם הבונוס של ההתכנסות במ”ש? בשביל זה נשתמש במבחן ה-M של ויירשטראס. כזכור, הרעיון בו הוא לחסום את טור הפונקציות שרוצים להוכיח שמתכנס במ”ש על ידי טור מתכנס של מספרים חיוביים. אני אעשה את זה באופן די דומה למה שעשיתי לפני רגע: הפעם אנחנו מתחילים עם \( 0<r<R \) ספציפי וצריכים לחסום את כל ה-\( \left|a_{n}x^{n}\right| \)-ים עבור \( \left|x\right|<r \). אז מה שנעשה הוא לקחת \( s \) כך ש-\( r<s<R \) ולנקוט באותה טכניקה של קודם כדי לחסום את \( \left|a_{n}x^{n}\right| \) על ידי \( \left(\frac{\left|x\right|}{s}\right)^{n} \). מכיוון ש-\( \left|x\right|<r<s \) שוב קיבלנו ש-\( \sum\left(\frac{\left|x\right|}{s}\right)^{n} \) הוא טור הנדסי מתכנס, וסיימנו.

מה עם התבדרות? ובכן, על פניו ברור מה צריך לעשות - נחסום את הטור מלמטה על ידי טור הנדסי מתבדר, ולכן נקבל שהטור עצמו מתבדר. עם זאת, תהיה פה נקודה עדינה שצריך להיזהר לא לפספס ותאלץ אותנו להשתמש בטיעון קצת שונה. הנה מה שקורה אם אני מנסה ללכת עם מה שנראה מתבקש: אם \( \left|x\right|>R \) אז ניקח \( \left|x\right|>r>R \) ועכשיו \( \frac{1}{r}<\frac{1}{R} \). עכשיו אני רוצה להגיע למצב שבו אני אומר “אוקיי, \( \left|a_{n}x^{n}\right|>\left(\frac{\left|x\right|}{r}\right)^{n}>1 \) ולכן אפשר לבצע השוואה עם הטור המתבדר \( \sum\left(\frac{\left|x\right|}{r}\right)^{n} \) שמתבדר כי \( \left|x\right|>r \) ולכן \( \frac{\left|x\right|}{r}>1 \)”. אבל כדי להגיע אליו אני צריך שיתקיים \( \left|a_{n}\right|>\frac{1}{r^{n}} \) וזה… לא מובן מאליו.

בואו נחזור רגע אחורה. כשהתקיים \( \frac{1}{R}<\frac{1}{r} \) זה היה קל - הסתכלנו על סדרת ה-\( c_{n}=\sup\left\{ \sqrt[k]{\left|a_{k}\right|}\right\} _{k>n} \) ואמרנו שהחל ממקום מסויים היא קרובה מספיק ל-\( \frac{1}{R} \) כך שמובטח לנו \( c_{n}<\frac{1}{r} \), ואז השתמשנו בכך ש-\( \sqrt[n]{\left|a_{n}\right|}\le c_{n} \). עכשיו אנחנו רוצים לעשות משהו שהוא סוג של ההפך: אפשר למצוא מקום \( N \) שהחל ממנו, לכל \( n>N \) מתקיים \( c_{n}>\frac{1}{r} \) - שוב, פשוט בגלל קרבה מספיק גדולה אל \( \frac{1}{R} \). אלא שעכשיו אי אפשר להסיק מזה \( \sqrt[n]{\left|a_{n}\right|}>\frac{1}{r} \) כי לא נכון ש-\( \sqrt[n]{\left|a_{n}\right|}\ge c_{n} \). אז מה כן נכון?

שימו לב שקודם כל מה שהשתמנו בו היה \( \sqrt[n]{\left|a_{n}\right|}\le c_{n} \), כלומר ש-\( c_{n} \) הוא חסם מלמעלה של הסדרה. לא השתמשנו בכך שהוא סופרמום - שהוא החסם מלמעלה הקטן ביותר. באופן כללי, אם \( A=\sup X \) זה אומר שלכל \( \varepsilon>0 \) קיים \( x\in X \) כך ש-\( x \) קרוב אל \( A \) עד כדי \( \varepsilon \). אז מה שאני יכול לעשות, אם מובטח לי \( c_{n}>\frac{1}{r} \), הוא להגיד שיש איבר \( \sqrt[k]{\left|a_{k}\right|} \) כלשהו עם \( k\ge n \) שקרוב מספיק אל \( c_{n} \) ולכן מקיים \( \frac{1}{r}<\sqrt[k]{\left|a_{k}\right|} \). מכיוון שאני יכול לעשות את זה לכל \( n>N \), אני מקבל שיש אינסוף איברים \( \sqrt[k]{\left|a_{k}\right|} \) כאלו (זה לא יכול להיות כל פעם אותו איבר לכל ערך של \( n \) כי מתישהו נקבל \( n>k \) ואז האיבר שיתאים לו יהיה חדש).

אז אם לסכם, הצלחתי להראות שמתקיים \( \left|a_{n}\right|>\frac{1}{r^{n}} \) עבור אינסוף ערכים שונים של \( n \), אבל לא “לכל \( n>N \) עבור \( N \) מסוים”. זה לא מאפשר לי להשתמש במבחן השוואה, אבל כאן אני לא צריך את זה כי הטור \( \sum\left(\frac{\left|x\right|}{r}\right)^{n} \) לא סתם מתבדר - האיבר הכללי שלו שואף לאינסוף ובפרט לא מתכנס לאפס (להבדיל מהטור \( \sum\frac{1}{n} \) שמתבדר למרות שהאיבר הכללי שלו שואף לאפס).

כזכור, התחלנו עם \( x \) שמקיים \( \left|x\right|>r \), כלומר \( \frac{\left|x\right|}{r}>1 \), ולכן \( \left(\frac{\left|x\right|}{r}\right)^{n}>1 \), ולכן עבור אינסוף ערכים של \( n \)

\( \left|a_{n}x^{n}\right|=\left|a_{n}\right|\left|x\right|^{n}>\frac{\left|x\right|^{n}}{r^{n}}=\left(\frac{\left|x\right|}{r}\right)^{n}>1 \)

וזה מספיק טוב, כי זה מראה שהאיבר הכללי של הטור \( \sum a_{n}x^{n} \) לא שואף לאפס, מה שמסיים את ההוכחה שהטור מתבדר.

מה לגבי היחידות של \( R \)? ובכן, ראינו שמתקיים

אם \( \left|x\right|<R \) אז הטור \( \sum_{n=0}^{\infty}a_{n}x^{n} \) מתכנס.
אם \( \left|x\right|>R \) אז הטור \( \sum_{n=0}^{\infty}a_{n}x^{n} \) מתבדר.

בואו נניח שזה קורה עבור שני ערכים \( R_{1},R_{2} \) ונראה מה אפשר לומר עליהם. במקרה הזה שימו לב ששניהם חייבים להיות ממשיים (או \( \infty \)) אחרת אין משמעות להשוואה כמו \( \left|x\right|<R \) (אין יחס סדר טבעי על המספרים המרוכבים כי כל יחס סדר שננסה להגדיר “לא ישחק יפה” עם פעולות החשבון). אם אפשר להשוות אותם בפרט אפשר להשוות אותם זה לזה. נניח ש-\( R_{1}<R_{2} \) וניקח \( x \) כך ש-\( R_{1}<\left|x\right|<R_{2} \). אז מכיוון ש-\( \left|x\right|<R_{2} \) הטור \( \sum_{n=0}^{\infty}a_{n}x^{n} \) מתכנס, אבל בגלל ש-\( R_{1}<\left|x\right| \) אז אותו טור מתבדר - מן הסתם זה לא יכול לקרות, ולכן \( R_{1}=R_{2} \). זה מסיים את המשפט הזה: הראינו שלטור חזקות יש רדיוס התכנסות, וגם מצאנו סוג של דרך לחשב אותו.

מה קורה עם מבחן המנה?

לפני ההוכחה הארוכה הזו, הצעתי את האפשרות הזו: להסתכל על הגבול \( \lim_{n\to\infty}\left|\frac{a_{n+1}}{a_{n}}\right|=L \) אם הוא קיים, ולהגדיר \( R=\frac{1}{L} \). אפשר גם לעשות את זה פשוט יותר: להגדיר \( R=\lim_{n\to\infty}\left|\frac{a_{n}}{a_{n+1}}\right| \) אם הגבול הזה קיים. אני טוען שאם הגבול קיים, אז הוא באמת שווה לרדיוס ההתכנסות. בואו נוכיח את זה.

בזכות טענת היחידות שראינו קודם, מה שאנחנו צריכים להוכיח הוא את שני הדברים הבאים:

אם \( \left|x\right|<R \) אז הטור \( \sum_{n=0}^{\infty}a_{n}x^{n} \) מתכנס.
אם \( \left|x\right|>R \) אז הטור \( \sum_{n=0}^{\infty}a_{n}x^{n} \) מתבדר.

נתחיל מהמקרה \( \left|x\right|<R \). כרגיל, נתחיל בלקחת \( r \) כך ש-\( \left|x\right|<r<R \). עכשיו, כדי להוכיח ש-\( \sum_{n=0}^{\infty}a_{n}x^{n} \) מתכנס, אני אמצא קבוע \( B \) כך שמתקיים

\( \sum_{n=N}^{\infty}\left|a_{n}x^{n}\right|\le\sum_{n=N}^{\infty}B\left(\frac{\left|x\right|}{r}\right)^{n} \)

החל ממקום מסוים \( N \), וזה יסיים את ההוכחה כי הטור הימני הוא טור הנדסי מתכנס (הוא מתכנס כי \( \left|x\right|<r \)) ולכן אפשר להשתמש במבחן ההשוואה.

כדי למצוא את \( B \) אני אשתמש בכך ש-\( \lim_{n\to\infty}\left|\frac{a_{n}}{a_{n+1}}\right|=R \) ולכן אפשר לקחת \( N \) גדול דיו כך ש-\( \left|\frac{a_{n}}{a_{n+1}}\right|>r \) לכל \( n\ge N \). עכשיו אני אגדיר \( B=\left|a_{N}\right|r^{N} \), ועכשיו בואו נראה שלכל \( n\ge N \) מתקיים \( \left|a_{n}\right|r^{n}\le B \).

ראשית, מכיוון ש-\( \left|\frac{a_{n}}{a_{n+1}}\right|>r \) לכל \( n\ge N \) אז בפרט \( r\cdot\left|a_{n+1}\right|<\left|a_{n}\right| \) לכל \( n\ge N \), וזה טוב לי כי זה מאפשר לי לעשות טיעון אינדוקטיבי. ראשית:

\( \left|a_{N+1}\right|r^{N+1}=r\left|a_{N+1}\right|r^{N}<\left|a_{N}\right|r^{N}=B \)

שנית:

\( \left|a_{N+2}\right|r^{N+2}=r\left|a_{N+2}\right|r^{N+1}<\left|a_{N+1}\right|r^{N+1}<B \)

וכן הלאה; אני מקבל ש-\( \left|a_{n}\right|r^{n}\le B \) לכל \( n\ge N \), כלומר \( \left|a_{n}\right|\le B\cdot\frac{1}{r^{n}} \) ולכן \( \left|a_{n}x^{n}\right|\le B\left(\frac{\left|x\right|}{r}\right)^{n} \) והשגנו את מה שרצינו.

עכשיו נניח ש-\( \left|x\right|>R \) ונוכיח שהטור מתבדר עם טיעון מאוד דומה, אפילו נשתמש באותו \( B \). מי שיהיה שונה הפעם הוא \( r \), מה שסוג של יהפוך את הטיעון שהשתמשנו בו קודם. אנחנו בוחרים \( r \) כך ש-\( R<r<\left|x\right| \) ולוקחים \( N \) גדול דיו כך ש-\( \left|\frac{a_{n}}{a_{n+1}}\right|<r \) לכל \( b\ge N \). ההיפוך של אי השוויון הפעם משמעותו ש-\( \left|a_{n}\right|<r\cdot\left|a_{n+1}\right| \) ולכן הטיעון האינדוקטיבי של קודם מוכיח הפעם ש-\( \left|a_{n}\right|r^{n}\ge B=\left|a_{N}\right|r^{N} \) ולכן נקבל את החסם

\( \left|a_{n}x^{n}\right|\ge B\left(\frac{\left|x\right|}{r}\right)^{n} \)

מה שחוסם את \( \sum_{n=N}^{\infty}\left|a_{n}x^{n}\right| \) מלמטה על ידי טור הנדסי מתבדר, ומסיים את ההוכחה גם במקרה הזה.

שתי הערות מרוכבות לסיום

לפני שאני מסיים את הפוסט הזה, הנה שתי נקודות על מה בעצם ההיקף של מה שעשינו פה.

ראשית, כמו שאמרתי קודם, כל מה שהולך בפוסט הזה תקף לא רק במספרים ממשיים אלא גם במספרים מרוכבים - למעשה, במספרים מרוכבים העיסוק בטורי חזקות הרבה יותר דומיננטי (ואני מקווה להראות את זה בפוסטים הבאים). שווה להסתכל על ההוכחות שראינו ולבדוק האם משהו “נשבר” בגלל השימוש במרוכבים. מה שאפשר לשים לב אליו הוא שרוב הזמן אנחנו מפעילים את הערך המוחלט על האיברים שלנו (מתעסקים ב-\( \left|x\right| \) וב-\( \left|a_{n}\right| \)), מה שמעביר אותנו לטיעונים שעוסקים במספרים חיוביים, שהתורה של טורים עבורם היא פשוטה למדי. מה שאני רוצה לנסות לשכנע אתכם עכשיו הוא שהמרוכבים הם לא סתם טרמפיסטים שמצטרפים לתורה היפה של טורי חזקות במספרים ממשיים, אלא ממש ההקשר ה”נכון” שבו צריך לראות אותם. ובשביל זה יש לי דוגמא שאני מאוד אוהב לשלוף - הטור \( 1-x^{2}+x^{4}-x^{6}+\ldots \).

ראשית, תזכורת קלה: ראינו שעבור הטור ההנדסי \( \sum_{n=0}^{\infty}t^{n} \), כאשר \( \left|t\right|<1 \) מתקיים \( \sum_{n=0}^{\infty}t^{n}=\frac{1}{1-t} \). עברתי להשתמש באות \( t \) כי עכשיו אני הולך להציב בה דברים: אני אציב \( t=-x^{2} \), ואקבל את השוויון

\( \sum_{n=0}^{\infty}\left(-x^{2}\right)^{n}=\sum_{n=0}^{\infty}\left(-1\right)^{n}x^{2n}=\frac{1}{1+x^{2}} \)

השוויון הזה נכון כאשר \( \left|t\right|<1 \), כלומר כאשר \( \left|-x^{2}\right|<1 \), כלומר כאשר \( \left|x\right|<1 \) - בדיוק כמו קודם. אפשר לחשב במפורש את רדיוס ההתכנסות של הטור: סדרת המקדמים שלו היא \( 1,0,-1,0,1,0,-1,0,\ldots \) ולכן \( \lim\sup\sqrt[n]{\left|a_{n}\right|}=1 \) ורדיוס ההתכנסות הוא אכן 1 והכל טוב ויפה. אבל למה, בעצם?

כי בואו נסתכל רגע על הפונקציה \( \frac{1}{1+x^{2}} \), שאמרנו שהטור שווה לה בתחומי רדיוס ההתכנסות. אם אנחנו עובדים במספרים ממשיים, אז \( x \) יכול להתקרב אל רדיוס ההתכנסות בשתי דרכים: או להתקרב ל-\( 1 \), או להתקרב אל \( -1 \). בשני המקרים הללו, \( x^{2} \) יתקרב אל \( 1 \) ולכן הערך של הפונקציה יתקרב ל-\( \frac{1}{2} \) בצורה רציפה, והכל נראה בסדר גמור בלי שום בעיה. אז למה הטיעון הזה מפסיק לעבוד ב-\( \left|x\right|=1 \)?

כשאנחנו מסתכלים על פונקציה כמו \( \frac{1}{1-x} \) שהגיעה מהטור ההנדסי המקורי, הבעיה ברורה לגמרי - כש-\( x \) ישאף ל-1, הפונקציה “תתפוצץ”. אבל ב-\( \frac{1}{1+x^{2}} \) אין שום פיצוץ דומה. עבור מי שמכיר רק מספרים ממשיים, זו אנומליה. זה לא “פרדוקס” או “סתירה במתמטיקה” כי ראינו את כל ההוכחות והן עובדות טוב - אבל יש פה תחושה שחסר משהו. פיצוץ. איפה הפיצוץ?

התשובה, כמובן, היא שהפיצוץ מגיע במספרים מרוכבים. אם אני מציב \( x=i \), אז \( \frac{1}{1+x^{2}} \) יתפוצץ. מכיוון ש-\( \left|x\right|=\left|i\right|=1 \) במקרה הזה, הפיצוץ באמת מתרחש ברדיוס ההתכנסות; פשוט אין לי שום דרך לראות אותו אם אני מגביל את העולם שלי למספרים ממשיים. זו המחשה שאני מאוד אוהב לכך שהמספרים המרוכבים “נמצאים שם” בין אם נאמין בהם ובין אם לא, והשאלה היא רק אם נצמצם את המתמטיקה שלנו בצורה מלאכותית כדי שתתעלם מקיומם, או לא (אני לא מכיר אף אחד שבאמת מתעלם מקיום מרוכבים כיום).

הנקודה השניה, ההגדרה של טור חזקות שהשתמשתי בה היא קצת מוגבלת. בואו נסתכל על הטור \( \sum_{n=0}^{\infty}a_{n}x^{n} \). אם אני מציב \( x=0 \), הטור הזה תמיד מתכנס, פשוט כי הערך היחיד שלו שאולי שונה מאפס הוא \( a_{0} \). כלומר 0 היא נקודה “מיוחדת”. כשאנחנו מדברים על רדיוס התכנסות, אנחנו מדברים על מספר \( R \) כך שהטור מתכנס בכך הנקודות \( \left|x\right|<R \), כלומר, אם אני אקח את העצה שנתתי קודם ואסתכל על המספרים המרוכבים \( \mathbb{C} \), על כל הנקודות בעיגול הפתוח ברדיוס \( R \) סביב \( 0 \) (עיגול פתוח פירושו שלא לוקחים את השפה שלו אלא רק את מה ש”בפנים”). מכאן השם “רדיוס התכנסות” מגיע, כמובן. אבל למה הכל חייב להיות סביב 0? אי אפשר להסתכל על טורים שמתכנסים בעיגול סביב נקודה אחרת? ובכן, אפשר.

ההגדרה הכללית יותר של טור חזקות שנהוג להשתמש בה היא טור מהצורה \( \sum_{n=0}^{\infty}a_{n}\left(x-a\right)^{n} \) כאשר על הנקודה \( a \) אומרים שפיתחנו את הטור סביבה. כמו במקרה הקודם של \( a=0 \), כך כאן - הטור תמיד יתכנס כאשר \( x=a \), וקיים רדיוס התכנסות \( R \) כך שהטור מתכנס בכל הנקודות בעיגול הפתוח \( \left|x-a\right|<R \). כל ההוכחות שראינו קודם מספיקות כדי להוכיח את זה, כי בהינתן הטור \( \sum_{n=0}^{\infty}a_{n}\left(x-a\right)^{n} \) תמיד ניתן לבצע את החלפת המשתנים \( y=x-a \), להוכיח הכל על הטור \( \sum_{n=0}^{\infty}a_{n}y^{n} \), ואז לחזור אל \( x \). רדיוס ההתכנסות עצמו הוא תכונה של סדרת המקדמים \( a_{n} \), לא של הנקודה שסביבה הטור מפותח.

כאן מסתיים הפוסט הזה, אבל אפשר בצדק לתהות למה להשקיע כל כך הרבה בטורי חזקות - האם הם באמת שימושיים? ובכן, אני מקווה לתת לזה תשובה חלקית בפוסט הבא.

מה כל הסיפור הזה עם הערך של פאי בתנ”ך?

2024-03-14T00:00:00+00:00

מבוא

אחד מהכוכבים הגדולים של המתמטיקה הוא המספר הקבוע פאי, \( \pi \), שמוגדר בתור היחס הקבוע בין היקף של מעגל לקוטר שלו. זה מספר ששווה בערך ל-\( 3.14159 \), אבל אני אומר “בערך” כי \( \pi \) הוא מה שנקרא “מספר אי רציונלי” - מספר שאם ננסה לכתוב בבסיס עשרוני נזדקק לאינסוף ספרות, בלי מחזוריות כלשהי. זה אומר שכשעובדים עם פאי משתמשים בקירוב שלו, וזה יוצר שני סוגים מעניינים של קירובים - ראשית, קירובים שהם מספיק טובים כדי לעבוד איתם בפועל, ושנית - קירובים שהם ממש טובים בשלל מובנים שונים ומשונים.

אי שם בעבר הרחוק, עוד לפני שהתחלתי ללמוד מתמטיקה בצורה מסודרת, נתקלתי ב-\( \pi \) בתוך ויכוח שכבר אז נראה לי תמוה במיוחד, בין אנטי-דתיים שמנסים לשכנע את העולם שהתנ”ך כולו הוא שטות אחת גדולה, והמתנגדים להם שמנסים לשכנע שבתנ”ך יש גאונות שמיימית ממש. כל המהומה הזו התרכזה סביב פסוק אחד בספר מלכים, שאם קוראים אותו כפשוטו נראה שהוא אומר ש-\( \pi=3 \), אבל יש קונץ מרהיב שאם משתמשים בו אפשר לטעון שהפסוק מקודד קירוב ממש טוב של פאי, את הקירוב \( \frac{333}{106}=3.14151\ldots \) שמדויק בחמש הספרות הראשונות שלו.

מאחורי הויכוח הבאמת מיותר הזה מסתתרים שני עולמות מעניינים באמת. עולם אחד הוא העולם המתמטי של קירובים לפאי ובאופן כללי קירובים לדברים, שאני הולך לנצל את הפוסט הזה כדי לתת טעימה קטנה ממנו; העולם השני הוא העולם ההלכתי שכבר דן בנושא הפסוק הזה מכל זווית אפשרית בערך ואני בהחלט לא הולך להיכנס לעובי הקורה של כל מה שהולך שם כי עבורי, שמגיע מגישה מתמטית ולא דתית, רוב העיסוק בנושא נראה כמו נסיון לענות על שאלה שאין צורך לשאול בכלל. אבל אני אנסה להבהיר מה השאלה וקצת מהרעיון הכללי של הפתרונות.

המטרה של הפוסט הזה היא לא להתנגח באף אחד (טוב, אולי חוץ מאלו שחושבים שה-\( \pi=3 \) הוא תירוץ לומר שהתנ”ך הוא שטות) אלא לראות דברים מעניינים, ובאופן די משמח הסיפור הזה נותן לנו תירוץ לראות כאלו.

בואו נתחיל להיכנס לפרטים.

חלק ראשון - מה בכלל הבעיה

מקור כל המהומה הוא פסוק כ”ג בספר מלכים א’, פרק ז’. זה פרק לא מרתק במיוחד (עבורי) שמדבר על בניית בית המקדש הראשון בידי שלמה ונכנס לפרטים טכניים למדי. אחד מהדברים שנבנו במקדש הוא מאגר מים מנחושת שנקרא “הים” והוא מתואר כך:

ויעש את הים מוצק עשר באמה משפתו עד שפתו עגל סביב וחמש באמה קומתו וקוה [וקו] שלשים באמה יסב אתו סביב

הים הוא “עגול סביב”, כלומר בקריאה הפשוטה של הפסוק אנחנו חושבים עליו בתור עיגול. המרחק “משפתו עד שפתו” הוא 10 (10 אמה, אבל כשהמדידות יהיו באמות לא אטרח לציין את זה אלא אם תהיה לי סיבה טובה) - כאן הכוונה היא ככל הנראה לקוטר, שהוא קו בעיגול שמתחיל בשפה אחת, עובר דרך מרכז העיגול ומגיע לשפה בצד השני. זה הקו הארוך ביותר בעיגול שעובר משפה אל שפה (אם לא חייבים לעבור דרך המרכז, מקבלים קווים קצרים יותר)

הגובה של הים הוא 5, אבל זה לא מעניין אותנו כל כך אלא ההמשך - ה”קו” (שנכתב בתור “קוה”) שסובב את העיגול - כלומר, החלק החיצוני שלו, מה שנקרא ההיקף של העיגול הוא באורך 30.

עכשיו, מה אמרנו על \( \pi \)? זה היחס בין היקף מעגל לקוטר. מה שמקבלים כשמחלקים אחד בשני. במקרה שלנו ההיקף הוא 30 והקוטר הוא 10 ולכן \( \pi=3 \) עד כאן הכל טוב, אבל הנה הצרות מתחילות, כי העניין הוא זה: בגאומטריה אוקלידית (שהיא הגאומטריה שלנו ביומיום), כל מעגל שנצייר יהיה בעל בדיוק אותו יחס בין ההיקף לקוטר שלו - זה מספר קבוע. הוא לא תלוי בעיגול ספציפי זה או אחר. ובכולם הוא יוצא משהו שהוא לא 3 אלא כאמור בערך \( 3.14159 \). לפעמים אנחנו נוהגים לכתוב \( \pi=3.14159\ldots \) עם שלוש נקודות כדי להגיד “וכאן הספרות עדיין לא נגמרות”.

אם כן, שוד ושבר, קיבלנו שהפסוק בתנ”ך לא מדויק מבחינה מתמטית! זו הנקודה שעליה שונאי התנ”ך עורכים את החגיגות שלהם, ואני חייב להודות שלא היה לי אז ועדיין אין לי היום שמץ של מושג מה הם רוצים, פשוט כי מבחינתי אין שום סיבה שהתנ”ך כן יהיה מדויק בנקודה הזו. אני חושב שבמובן מסוים חלק נכבד מהעיסוק המתמטי הוא בדיוק במתן אפשרות לנו לא להיות מדויקים כי אנחנו יודעים ש”עמוק בפנים” הכל כן בסדר ואנחנו מבינים דברים עד הסוף, אבל כדי שאפשר יהיה לעשות דברים בחיי היום יום אי אפשר להסתרבל עד אין קץ עם דיוק מוחלט, אז מזהים איך אפשר לוותר על הדיוק בלי שיגרם מכך נזק. השימושיות של המתמטיקה בתחומים כמו פיזיקה, למשל, מתבססת בדיוק על היכולת הזו.

אם, נאמר, הקוטר של העיגול אצל שלמה היה 10 ואנחנו רוצים להיות “מדויקים” אז ההיקף היה צריך להיות \( 31.4159\ldots \). אז מה התנ”ך היה צריך לעשות? לומר “וקוה שלשים ואחד ועשירית אמה”? בשביל מה זה טוב, בעצם? יודעים מה, אני מנחש שהגובה של הים אצל שלמה היה בכלל 4.96 אמה והסופר המקראי עיגל את זה ל-5. ובכלל, איך ידעו מה ההיקף? צריך למדוד. האם מכשירי המדידה היו מדויקים? אולי המודד עצמו בחר לתת קירוב?

אפשר כמובן לומר שזו לא סתם איזו באר אקראית שמישהו בנה איפה שהוא. זה בית המקדש של שלמה, הכל פה היה מחושב ומדוקדק עד הפיפס האחרון. עוד טיעון שקראתי הוא שמכיוון שכותב ספר מלכים היה (על פי המסורת, לא על פי הידע ההיסטורי שלנו) הנביא ירמיהו, הוא מחוייב לרמת דיוק גבוהה. כך במאמר של ניסן יואלי שדווקא מגיע מהגישה הפרו-דתית:

הנביא הוא נביא אמת אין אצלו “בערך”. נביא שלא דייק במשהו בנבואתו הוא נביא שקר ועונשו מיתה.

או…קיי… על זה אומרים אצלנו, That escalated quickly. עכשיו תראו, במסגרת התחקיר שלי לפוסט הזה נתקלתי גם במאמרים מנקודת מבט דתית שפחות מתרגשים מהסיפור הזה. זה באמת ויכוח פנים דתי שמשתמש בטיעונים דתיים שלא רלוונטיים עבורי. אבל מה שנחמד הוא שהתחושה שחייבים לתת הסבר מניבה רעיונות יצירתיים, למשל השערות שונות ומשונות על הצורה המדויקת של הים. הנה מאמר יפה של דוד אימבר שנכנס לפרטים ויש בו ציורים. במאמר הזה גם אפשר לראות שבעצם העניין פה הוא לא רק הפסוק שהבאתי, אלא גם מערכת אילוצים נוספת שצצה בעקבות פסוק כ”ו בהמשך הפרק:

ועביו טפח ושפתו כמעשה שפת כוס פרח שושן אלפים בת יכיל

כלומר יש לנו כאן גם מידה לעובי של הים, וגם את הקיבולת שלו. העובי הוא “טפח” והקיבולת היא “אלפים בת”. להבנתי הדלה, “אלפים בת” מתורגם אל 450 אמה מעוקבת, ואילו “טפח” בהקשר הספציפי הזה מתורגם אל שישית (או שמא חמישית?) אמה. חז”ל עסקו בזה במסכת עירובין יד ב, אבל כפי שאפשר להבין זה לא סיים את הסיפור בצורה חד משמעית. עכשיו, למרות שאני אישית בא מגישת “מי שזה לא יהיה שכתב את זה פשוט לא חש צורך להיות יותר מדויק מזה”, ההסברים שמתארים צורות אפשריות של הים הם די נחמדים בעיני. רק צריך לזכור, כמובן, שלא משנה כמה ההסבר יהיה טוב, המספרים אף פעם לא יהיו מדויקים כי זה פשוט בלתי אפשרי להיות מדויק כשפאי מעורב בנושא אבל את כל הגדלים כותבים עם מספרים טבעיים. אז אפשר לומר “אם הנביא אומר \( \pi=3 \) צריך להרוג אותו אבל אם הוא אומר \( \pi=3.14159 \) הכל טוב”, אבל אני לא כל כך מבין את ההבדל של חיים ומוות בין שני הקירובים.

העניין הוא שמעבר לכל הדיון ההלכתי יש עוד משהו, שאני קורא לו “קוריוז” או “תעלול” ואחרים יקראו לו “רמז”.

חלק שני, שבו קירוב טוב צץ באופן די מפתיע

את מה שאני אתאר עכשיו ראיתי שמייחסים בעיקר לגאון מוילנא (הגר”א) שחי במאה ה-18 ובנוסף להשכלה התורנית שלו היה גם בעל השכלה מדעית רחבה. אבל מצד שני, ראיתי גם טענות שהגר”א מעולם לא כתב את הדבר הזה והאזכור הראשון שלו הוא כנראה במאמר של הרב מתתיהו מונק מ-1962 (“שלוש בעיות הנדסיות בתנ”ך ובתלמוד”, סיני, נא. תשכ”ב). מי שזה לא יהיה שגילה את זה, אני רוצה להצדיע לו - זה באמת קוריוז חמוד ביותר ואני תוהה איך הוא שם לב אליו.

הנה הטיעון כפי שנתקלתי בו אי-אז. הבה ונחזור לפסוק מספר מלכים:

ויעש את הים מוצק עשר באמה משפתו עד שפתו עגל סביב וחמש באמה קומתו וקוה [וקו] שלשים באמה יסב אתו סביב

מה זה ה”קו” שמופיע בסוגריים? זה מה שנקרא בהקשר של התנ”ך “קרי וכתיב” שהוא חלק מהמסורה של התנ”ך. ה”כתיב” הוא ה”קוה” שמופיע בטקסט ואילו ה”קרי” הוא ה”קו” - זו הדרך שבה נהוג לקרוא את המילה (כמו כן, בדברי הימים ב’ פרק ד’ פסוק ב’ מופיע אותו הפסוק ממלכים עם הכתיב “קו”).

עכשיו, מה הערך הגימטרי של הקרי והכתיב? כלומר, כאשר נותנים ערך מספרי לאותיות על פי שיטת הספירה המקובלת בספרות עבריות? ק’ הוא 100, ו’ הוא 6 וה’ הוא 5, כך ש”קוה” שווה 111 ואילו “קו” שווה 106. והנה התעלול: בואו ניקח את הערך \( 3 \) להיקף חלקי הקוטר שאפשר להסיק מיידית מהפסוק, נכפול אותו ב-111, נחלק אותו ב-106 ונקבל

\( 3\cdot\frac{111}{106}=\frac{333}{106}=3.14151\ldots \)

וזה קירוב טוב מאוד של \( \pi \)! אבל למעשה, זה לא סתם קירוב “טוב”, זה קירוב פנטסטי של \( \pi \), כזה שאפשר לתת הצדקה מתמטית לכמה שהוא טוב. מבחינה מתמטית זה כנראה החלק הכי מעניין (עבורי) בפוסט הזה, אז בואו נסביר אותו עד הסוף (מה שכנראה גם יסייע לנו להבין שיש קירוב הרבה יותר טוב שממש קרוב אליו).

ראשית, בואו נבהיר למה בכלל צריך “לקרב” את פאי, במחיר של קצת לחזור על דברים שאמרתי קודם: מספר כמו \( \frac{333}{106} \) נקרא שבר. הוא מורכב משני מספרים שלמים שמחלקים אותם אחד בשני - זה שלמעלה נקרא המונה (333 אצלנו) וזה שלמטה נקרא המכנה (106 אצלנו). אנחנו כמובן מכירים שברים כבר מגיל צעיר למדי ורגילים לעשות איתם דברים גם בחיי היומיום. במתמטית נפוצה אנחנו קוראים להם מספרים רציונליים (כאן ה”רציו” מסמל יחס, ratio, לא “הגיון”) וזה שם קצת פחות נפוץ במציאות. מה שקצת פחות ברור בחיי היומיום הוא שלא כל המספרים הם כאלו. ואני לא מתכוון במובן של “42 הוא לא שבר” (הוא כן! למשל הוא \( \frac{42}{1} \) או \( \frac{84}{2} \) וכדומה) אלא במובן זה שיש מספרים שאי אפשר לכתוב בתור שבר. הדוגמא המפורסמת ביותר היא \( \sqrt{2} \), והצגתי הוכחה לזה כאן, אבל גם \( \pi \) הוא כזה: פשוט לא קיימים שני מספרים שלמים \( a,b \) כך ש-\( \pi=\frac{a}{b} \). לכן כל נסיון לתאר את \( \pi \) עם שבר יהיה רק קירוב, ולכן מעניין מה הקירוב הטוב ביותר עם שבר שקיים עבור פאי.

אלא שכאן הסיפור מסתבך - אפשר למצוא קירובים טובים כרצוננו. אם אני ארשה למכנה של השבר של המכנה לגדול ולגדול אני אוכל לקבל סדרה של קירובים שהולכת ומשתפרת, כך ש”השגיאה” (הערך המוחלט של ההפרש בין הקירוב ובין \( \pi \)) תקטן עוד ועוד (טכנית: לכל \( \varepsilon>0 \) יהיה קירוב שעבורו השגיאה תהיה קטנה מ-\( \varepsilon \)). הנה דוגמא לסדרה אפשרית אחת כזו: \( \frac{3}{1},\frac{31}{10},\frac{314}{100},\frac{3141}{1000},\ldots \) וכן הלאה. זו בעצם כתיבה בתור שבר של המספרים \( 3,3.1,3.14,3.141 \), כלומר בכל פעם אני מוסיף עוד ספרה אחרי הנקודה העשרונית ולכן הדיוק שלי משתפר.

העניין הוא שהקירובים הללו הם לא טובים במיוחד. בואו נסתכל למשל על הקירוב \( \frac{314}{100} \). ה”שגיאה” של הקירוב הזה היא \( \left|3.14151\ldots-3.14\right|=0.00151\ldots \), נראה לא רע! אבל עכשיו בואו נסתכל על קירוב אחר, \( \frac{22}{7}=3.1428\ldots \). אם נחשב, נקבל \( \left|\pi-\frac{22}{7}\right|=0.00126\ldots \) וזה קירוב טוב יותר מה-\( 0.00151\ldots \) שנותן \( \frac{314}{100} \). העניין הוא ש-\( \frac{22}{7} \) אמור לכאורה להיות קירוב “גס” הרבה יותר, כי מה קורה כאן? ב-\( \frac{22}{7} \) אנחנו לוקחים חלקים בגודל \( \frac{1}{7} \) ומחברים אותם זה לזה עד שאנחנו קרובים אל \( \pi \). לעומת זאת ב-\( \frac{314}{100} \) אנחנו לוקחים חלקים מגודל \( \frac{1}{100} \) ומחברים אותם זה לזה. \( \frac{1}{100} \) הוא מספר הרבה יותר קטן מ-\( \frac{1}{7} \); אפשר היה לצפות שקירוב שמתבצע בעזרת חלקים קטנים יותר יהיה מדויק יותר, אבל הנה, זה לא בהכרח המצב.

איך אפשר למצוא קירובים טובים יחסית בקלות? ובכן, זה קל אם יש לנו מחשב וקירוב מאוד טוב של פאי, למשל \( 3.1415926535897932 \). הנה שיטה פשוטה ממש לעשות את זה: לכל \( b\ge1 \) טבעי, אני רוצה למצוא את \( a \) שעבורו \( \frac{a}{b} \) הוא הקירוב הכי טוב ל-\( \pi \) מבין כל הקירובים עם מכנה \( b \). אני פשוט אבדוק ערכים שונים של \( a \), אחשב את \( \left|\frac{a}{b}-\pi\right| \) (באמצעות הקירוב של \( \pi \) שיש לי) ואקח מהם את הכי טוב. החוכמה היא לא לבדוק יותר מדי ערכים של \( a \), אז אפשר לעשות את הדבר הבא: להתחיל מ-\( a=3b \), כלומר כך ש-\( \frac{a}{b}=3 \) נותן לנו קירוב סביר של \( \pi \) מלמטה. עכשיו נתחיל להגדיל את \( a \) ב-1 בכל פעם, עד שבסוף נגיע לשלב שבו \( \frac{a}{b} \) הוא לראשונה גדול יותר מ-\( \pi \). זה אומר ש-\( \frac{a-1}{b} \) היה הקירוב הכי טוב של \( \pi \) מלמטה, ו-\( \frac{a}{b} \) הוא הקירוב הכי טוב של \( \pi \) מלמעלה שנוכל להשיג עם מכנה \( b \). נבדוק מי משניהם יותר טוב (כלומר, מקטין יותר את \( \left|\frac{a}{b}-\pi\right| \)) וניקח אותו. למשל, עבור \( b=7 \) אנחנו מתחילים מ-\( a=21 \) ועבורו מקבלים את הקירוב מלמטה \( \frac{21}{7}=3 \). הערך הבא בתור, \( \frac{22}{7}=3.1428571428\ldots \) כבר גדול יותר מ-\( \pi \), אבל זהה ל-\( \pi \) בשלוש הספרות הראשונות ולכן קירוב טוב יותר מ-\( \frac{21}{7} \), כך שקיבלנו את \( \frac{22}{7} \) בתור הקירוב הכי טוב עם מכנה \( 7 \).

אם ננסה את אותו תעלול עם \( b=8 \) צפויה לנו אכזבה. אנחנו נתחיל מ-\( \frac{24}{8}=3 \), נעלה אל \( \frac{25}{8}=3.125 \) ומשם נגיע אל \( \frac{26}{8}=3.25 \) - אלו הקירובים מלמעלה ומלמטה, ושניהם פחות טובים מ-\( \frac{22}{7} \). לכן אם אני שואל את השאלה “מה הקירוב הכי טוב ל-\( \pi \) מהצורה \( \frac{a}{b} \) כאשר \( b\le8 \)?” התשובה תהיה \( \frac{22}{7} \). בצורה הזו אני יכול להגדיר סדרה של קירובים ל-\( \pi \) שהם הכי טובים שאפשר עם מכנה שקטן או שווה למכנה שלהם. אני אקבל את הסדרה הבאה:

\( \frac{3}{1},\frac{13}{4},\frac{16}{5},\frac{19}{6},\frac{22}{7},\frac{179}{57},\frac{201}{64},\frac{223}{71},\frac{245}{78},\frac{267}{85},\frac{289}{92},\frac{311}{99},\frac{333}{106},\frac{355}{113},\frac{52163}{16604},\ldots \)

הופה, רגע, מה הולך פה? שימו לב לקפיצה האסטרונומית בין \( \frac{355}{113} \) אל \( \frac{52163}{16604} \). הקפיצה הזו מראה לנו ש-\( \frac{355}{113}=3.1415929\ldots \) הוא קירוב מדהים לחלוטין, כזה שלוקח המון, המון, המון זמן אחריו למצוא קירוב טוב ממנו. הקירוב שהגיע ממש לפניו, \( \frac{333}{106}=3.1415094\ldots \) גם הוא קירוב טוב, אבל לא באותה רמה. ב-\( \frac{355}{113} \) יש דיוק של 7 ספרות (\( 3.141592 \)) וב-\( \frac{333}{106} \) יש “רק” דיוק של 5 ספרות (\( 3.1415 \)). עדיין, אני רוצה להגן על \( \frac{333}{106} \) ולטעון שגם הוא קירוב די מיוחד, ולצורך כך אני אתאר את הדבר הכי מוזר שנשמע עליו בפוסט הזה - ובהתאם, הדבר שאני הכי אוהב פה: הייצוג של \( \pi \) בתור שבר משולב. נקדיש לזה חלק נפרד לטובת אלו שרוצים פשוט לדלג.

חלק שלישי, שבו שברים משולבים הם מגניבים

בואו נחזור לרגע לאופן שבו אני מציג את \( \pi \) בדרך כלל: \( \pi=3.141\ldots \). מה שיש לנו כאן הוא ייצוג של \( \pi \) באמצעות סדרה של ספרות שבעצם מגדירה לנו סדרה של קירובים שהולכים ומתקרבים אל \( \pi \): הסדרה \( 3,3.1,3.14 \) וכן הלאה. כל קירוב כזה בעצם מתקבל באמצעות חישוב פשוט שמשתמש בספרות: למשל, \( 3.14 \) הוא בעצם \( 3\cdot10^{0}+1\cdot10^{-1}+4\cdot10^{-2} \). כל זה טבעי ופשוט לנו (אני מקווה) אבל חשוב לי להציג את זה ככה כי אני הולך עכשיו להציג עוד שיטה שבה מייצגים את \( \pi \) באמצעות סדרה של ספרות שבעצם מגדירה לנו סדרה של קירובים שהולכים ומתקרבים אל \( \pi \) שמתקבלים באמצעות חישוב פשוט, אבל הדרך הזו תהיה מוזרה למדי למי שמעולם לא ראה אותה.

הסיבה שבגללה הדרך הזו מעניינת היא כי כל הקירובים שהיא נותנת יהיו טובים ביותר. מה זה אומר? כזכור, ראינו את סדרת הקירובים הטובים הבאה של \( \pi \):

אף אחד מהקירובים שמתקבל מהפיתוח העשרוני\( \pi=3.141\ldots \) לא נמנה על הסדרה הזו, חוץ מה-3 בהתחלה (בניסוח אחר: אין בסדרה הזו אף קירוב חוץ מ-3 שבו המכנה הוא חזקה של 10). לעומת זאת, בשיטה שאציג עכשיו מובטח לנו שכל קירוב שמתקבל שייך לסדרה הזו - אבל לא כולם יופיעו בה; אנחנו נראה שהקריטריון שמבטיח שקירוב יופיע בסדרה הוא שהקירוב הזה הוא “אקסטרה משובח” (אבל כן יכולים להופיע בסדרה הזו קירובים מעולים שהם קצת פחות טובים).

ובכן, זה נראה ככה:

\( \pi=3+\frac{1}{7+\frac{1}{15+\frac{1}{1+\ddots}}} \)

מה הולך פה? יש ביטוי מהצורה \( 3 \) ועוד שבר שהמונה שלו הוא 1 אבל המכנה שלו מסובך: גם המכנה הוא מהצורה “משהו ועוד 1 חלקי משהו מסובך” וכך זה ממשיך עוד ועוד עד לנצח. בגלל שקשה לכתוב את זה ככה, לרוב מסתפקים בלכתוב את סדרת הספרות שמופיעות בתוך המפלצת הזו, לא כולל ה-1-ים שבמונה. כלומר כותבים משהו כמו

\( \left[3;7,15,1,\ldots\right] \)

איפה פה סדרת הקירובים שהבטחתי? ובכן, אפשר לקחת את הסדרה של ה”הספרות” ופשוט לעצור אותה אחרי מספר צעדים סופי ולחשב מה מקבלים על פי כללי החשבון הרגילים של שברים. בואו נעשה את זה.

ראשית, אם לוקחים רק את 3, מקבלים רק את 3, שזה אחלה קירוב אבל לא כזה מעניין. מה קורה אם לוקחים את 3 ואת 7? מקבלים את הביטוי

\( 3+\frac{1}{7}=\frac{21+1}{7}=\frac{22}{7} \)

הופה! קיבלנו את \( \frac{22}{7} \) שכבר ראינו לא מעט בפוסט הזה. עכשיו שאנחנו בשוונג, בואו נעשה עוד אחד:

\( 3+\frac{1}{7+\frac{1}{15}}=3+\frac{1}{\frac{106}{15}}=3+\frac{15}{106}=\frac{333}{106} \)

הופה, תראו את מה קיבלנו עכשיו! את הקירוב מהתנ”ך! זו הסיבה שבגללה אמרתי שגם הקירוב הזה הוא די מיוחד. ואם קיבלתי אותו, קל לנחש מה הדבר הבא שנקבל - את \( \frac{355}{113} \) המהולל. אבל בואו נבצע את החישוב הפורמלי בכל זאת:

\( 3+\frac{1}{7+\frac{1}{15+\frac{1}{1}}}=3+\frac{1}{7+\frac{1}{16}}=3+\frac{1}{\frac{113}{16}}=3+\frac{16}{113}=\frac{355}{113} \)

לי אישית כל זה מרגיש כמו קסם גדול יותר ממה שקורה בתנ”ך, אבל אין כאן מקריות - שברים משולבים יכולים לשמש אותנו לתיאור כל מספר ממשי ולכל אחד מהם יתקיים אותו עיקרון - השברים המשולבים יתנו את סדרת הקירובים האופטימלית עבורו. יש לי פוסטים בנושא אז לא אכנס לעובי הקורה של ההסברים למה זה עובד. אבל כן מעניין איך בעצם מחשבים את הייצוג בעזרת שבר משולב של משהו כמו \( \pi \) ומה המשמעות המדויקת של זה שהוא נותן קירובים “טובים”. ביתר החלק אני אסביר את זה; מי שרוצים להמשיך לדבר על פאי בתנ”ך וזהו יכולים לקפוץ לחלק הבא.

אז ראשית, איך מוצאים שבר משולב עבור \( \pi \)? נתחיל מלומר שאנחנו לא יודעים את השבר המשולב במובן זה שאין לנו נוסחה כללית עבור המספרים שמופיעים בו - בדיוק כמו שקורה עם ספרות של \( \pi \) בייצוג עשרוני, מה שיש לנו הוא פשוט חישוב שהניב מספר גדול מאוד של ספרות. כלומר, בשורה התחתונה מה שידוע לנו הוא תמיד רק קירוב טוב מאוד של \( \pi \). השיטות שיש לנו למציאה של קירוב כזה של \( \pi \) מתבססות לרוב על ייצוג שלו בתור טור אינסופי, ואני לא אכנס כאן לאופן שבו מוצאים ייצוגים כאלו (אבל לגמרי הגיע הזמן לכתוב פוסטים בנושא) אלא פשוט אציג את אחד מהייצוגים השימושיים:

\( \pi=\sum_{k=0}^{\infty}\frac{2^{k+1}k!^{2}}{\left(2k+1\right)!} \)

בעזרת טור כזה אפשר לחשב קירוב מצוין של פאי, ואז להשתמש על הקירוב הזה בשיטה הכללית למציאת שבר משולב של מספר כלשהו \( x \). התוצאה תהיה שבר משולב שהספרות הראשונות בו מתאימות לשבר המשולב של פאי.

הרעיון הוא כזה: ראשית מגדירים \( x_{0}=x \). עכשיו, אנחנו רוצים למצוא ייצוג מהצורה \( x=a_{0}+\frac{1}{a_{1}+\frac{1}{a_{2}+\ddots}} \). כלומר, הצעד הראשון שלנו הוא להפריד את \( x \) למספר שלם (ה-\( a_{0} \)) ועוד איזה חלק שהוא קטן מ-1 (כל היתר). אז מגדירים \( a_{0}=\left[x_{0}\right] \), כלומר \( a_{0} \) הוא החלק השלם של \( x_{0} \) - המספר הטבעי הגדול ביותר שקטן או שווה ל-\( x_{0} \) (במקרה של \( \pi \) מקבלים \( a_{0}=3 \)). נגדיר \( b_{0}=x_{0}-a_{0} \), ועכשיו אפשר לכתוב \( b_{0}=\frac{1}{x_{1}} \) כאשר \( x_{1} \) הוא המספר ה”חדש” שאנחנו רוצים למצוא ייצוג שלו כשבר משולב. אז נחזור על התהליך - נגדיר \( a_{1}=\left[x_{1}\right] \) ו-\( b_{1}=x_{1}-a_{1} \) ו-\( b_{1}=\frac{1}{x_{2}} \) וכן הלאה. כלומר, אנחנו עושים שלוש פעולות שונות:

מחשבים ערך שלם של מספר.
מקבלים את החלק השברי של המספר על ידי חיסור הערך השלם שלו ממנו.
מקבלים את המספר הבא בתור על ידי היפוך של המספר שקיבלנו (כלומר, מחשבים את 1 חלקי המספר הזה).

שלב ההיפוך הוא החלק הבעייתי: אם מראש אנחנו עובדים עם קירוב, נאמר של \( \pi \), אז בשלב ההיפוך גם נקבל רק קירוב - אבל מספר ספרות הדיוק שלנו יקטן. זה פוסט שלם לדבר על כמה ספרות דיוק עדיין מובטחות לנו, והאמת העצובה היא שאני פשוט לא מכיר את הנושא מספיק טוב אז אדלג מעליו לגמרי כאן - אבל זו הטכניקה.

בפועל, קל מאוד לתכנת דבר כזה. הנה קוד פייתון שמבצע את החישובים הרלוונטיים:

def compute_pi(n):
    x, y, z = 2, 1, 1
    value = (x*y)/z
    for k in range(1,n+1):
        x *= 2
        y *= (k*k)
        z *= (2*k)*(2*k+1)
        value += (x*y)/z
    return value

def compute_continued_fraction(x, n):
    values = []
    for _ in range(n):
        a = int(x)
        values.append(a)
        b = x - a
        x = 1/b
    return values

להריץ אותו עם compute_continued_fraction(compute_pi(14), 4) נותן מיידית את השבר המשולב שראינו (פחות מ-14 יתן שבר משולב לא נכון כי פאי לא חושב ברמת הדיוק הנדרשת), אז אין כאן אתגר גדול במיוחד מבחינה חישובית.

עכשיו אני רוצה לצטט בלי הוכחה שתי תוצאות תיאורטיות על שברים משולבים ואיכות הקירובים שהם נותנים. נניח ש-\( x \) הוא מספר אי רציונלי כלשהו ו-\( \frac{p}{q} \) הוא שבר שמתקבל מהפיתוח של \( x \) לשבר משולב (כלומר, \( \frac{p}{q} \) מתקבל מכך שקוטעים את הפיתוח של \( x \) אחרי מספר מקומות סופי ומחשבים את התוצאה, כמו שעשינו קודם), אז לכל מספר רציונלי \( \frac{a}{b} \) שעבורו \( 1\le b\le q \) מתקיים

\( \left|x-\frac{p}{q}\right|\le\left|x-\frac{a}{b}\right| \)

כלומר, \( \frac{p}{q} \) הוא הקירוב הטוב ביותר ל-\( x \) מבין כל המספרים הרציונליים עם מכנה שהוא קטן או שווה ל-\( q \). יותר מכך, אנחנו יודעים לחסום את גודל השגיאה של הקירוב והוא הולך להיות מאוד טוב. כדי לקבל תחושה של ה”מאוד טוב” הזה, בואו קודם נראה מה קורה באופן כללי: אם \( \frac{a}{b} \) הוא הקירוב הטוב ביותר ל-\( x \) מבין כל הקירובים עם מכנה \( b \) בדיוק, אז תמיד מתקיים ש-

\( \left|x-\frac{a}{b}\right|<\frac{1}{2b} \)

(אני לא אוכיח את זה אבל זה תרגיל מצוין לחשוב למה זה קורה, זה באמת לא קשה אבל זה עושה סדר במחשבה).

לעומת זאת, אם \( \frac{a}{b} \) הוא קירוב שמתקבל משבר משולב, אז אפשר להוכיח (זה הרבה יותר קשה) שמתקיים

\( \left|x-\frac{a}{b}\right|<\frac{1}{b^{2}} \)

שימו לב להבדל העצום בין המקרים. למשל, בואו ניקח את הקירוב התנ”כי המשודרג של פאי, \( \frac{333}{106} \) ונשווה אותו אל הקירוב הטוב ביותר עם מכנה 105, \( \frac{330}{105}=3.142857\ldots \). אם נחשב את גודל השגיאה, נקבל

\( \left|\pi-\frac{330}{105}\right|=0.001264489267\ldots \)

\( \left|\pi-\frac{333}{106}\right|=0.000083219628\ldots \)

רואים איפה יש יותר אפסים אחרי הנקודה? במקרה הראשון, החסם של \( \frac{1}{2b} \) מבטיח לנו רק שגיאה שקטנה מ-

\( 0.004761904762\ldots \)

והיא אכן לא הרבה יותר קטנה ממנה; במקרה השני, החסם המשופר של \( \frac{1}{b^{2}} \) מבטיח לנו שגיאה שקטנה מ-

\( 0.000088999644\ldots \)

אפשר לחשוב על זה ככה - זה שיש לנו \( b^{2} \) במקום \( 2b \) במכנה מכפיל את מספר האפסים ברצף אחרי הנקודה שנראה בשגיאה, כלומר מכפיל את מספר ספרות הדיוק שנקבל.

לסיום, הנה המשפט האהוב עלי בהקשר הזה: אם יש לנו קירוב ממש טוב, מובטח שהוא יופיע מתוך השבר המשולב. אני אישית אוהב את המשפט הזה במיוחד בגלל שהוא צץ באופן מפתיע באלגוריתם של שור בחישוב קוונטי; האלגוריתם של שור מחפש מספר רציונלי מאוד ספציפי שהוא צריך לקבל במדויק, והוא מוצא אותו על ידי כך שהוא מוצא מספר אחר שהמספר הרציונלי שמחפשים הוא קירוב טוב מאוד שלו ואז מחפש את המספר שלו בפיתוח של המספר ההוא לשברים חלקיים.

פורמלית, אם \( \frac{a}{b} \) מקיים

\( \left|x-\frac{a}{b}\right|<\frac{1}{2b^{2}} \)

אז מובטח ש-\( \frac{a}{b} \) יופיע בסדרת השברים המשולבים. שימו לב שזה לא משפט של “אם ורק אם” כי בהחלט יכולים להופיע בסדרת השברים המשולבים גם קירובים “ממש טובים אבל פחות”, אלו שמקיימים את החסם הפחות הדוק \( \left|x-\frac{a}{b}\right|<\frac{1}{b^{2}} \). למעשה, ראינו אחד מהם - את \( \frac{333}{106} \) שעבורו מתקיים

\( \left|\pi-\frac{333}{106}\right|=0.0000832\ldots>0.0000444\ldots=\frac{1}{2\cdot106^{2}} \)

זה שונה מאשר \( \frac{22}{7} \) ו-\( \frac{355}{113} \) שמקיימים גם את החסם ההדוק יותר ולכן מובטח לנו שיופיעו:

\( \left|\pi-\frac{22}{7}\right|=0.00126\ldots<0.0102=\frac{1}{2\cdot7^{2}} \)

\( \left|\pi-\frac{355}{113}\right|=0.000000266\ldots<0.000039157\ldots=\frac{1}{2\cdot113^{2}} \)

זה מסיים את החלק המתמטי המגניב ואפשר לחזור אל שאלת מה שהולך בתנ”ך.

חלק רביעי, שבו הסיפור הזה מזכיר לי בעיקר סיפורים אחרים

למי שלא עקבו אחרי החלק המתמטי אני אסכם את מה שראינו בו: ראינו ש-\( \frac{333}{106} \) הוא קירוב מצוין של \( \pi \) עם כמה תכונות שהופכות אותו באמת למיוחד, אבל מצד שני - הוא גם קירוב משמעותית פחות מיוחד מאשר \( \frac{355}{113} \) הקרוב אליו מאוד אבל הטוב ממנו בהרבה. מכיוון שאנחנו בפוסט על קוריוז מתמטי שווה להזכיר קוריוז מתמטי נפלא אחר שקשור ל-\( \frac{355}{113} \) - ניסוי “המחט של בופון” שביצע לזאריני. זה ניסוי שאפשר לבצע בפועל עם השלכת סיכה על מחברת ובדיקה אם הסיכה נפלה על קו מסוים או לא, ואיכשהו הניסוי הזה הצליח לחשב את פאי בצורה מדויקת עד להדהים. הטריק היה שעורך הניסוי הכיר את הקירוב של \( \frac{355}{113} \) והינדס את הניסוי כך שיגיע בדיוק אל הקירוב הזה. איך מהנדסים ניסוי כזה? הסברתי את זה בפוסט הרלוונטי, אבל הרעיון הוא שאחרי כל כך-וכך השלכות יש “סיכוי” לקבל בדיוק את הקירוב הזה, ואם עוצרים את הניסוי כשהקירוב הזה התקבל התוצאה של הניסוי תהיה מדויקת להדהים בזמן שכל השלכה של סיכה אחת נוספת תקלקל לגמרי את הקירוב המופלא - ולזאריני הכיר את הקירוב והינדס את הניסוי בדיוק כך כדי שזה יקרה.

האם כאן קרה משהו דומה? כלומר, האם מי שכתב את ספר מלכים הינדס את התיקון הזה כדי לרמוז על הערך \( \frac{333}{106} \) או שמדובר על צירוף מקרים?

ובכן, לדעתי זה צירוף מקרים יפה ומרהיב כדרכם של צירופי מקרים מרהיבים, כי על צירופי המקרים הלא מרהיבים אף אחד לא מדבר ואנחנו בכלל לא שמים לב אליהם. החשיבה שלי על הקוריוז הזה היא חילונית במהותה, ואני רואה בהנחה שזה לא צירוף מקרים אלא משהו מכוון שני דברים שנראים לי כמו אנכרוניזם היסטורי:

אין לנו אינדיקציה היסטורית אחרת להיכרות עם קירוב טוב כל כך של פאי באותה תקופה.
אין לנו אינדיקציה היסטורית אחרת לקיום הגימטריה היהודית באותה תקופה.

על 2 אין לי הרבה מה להרחיב כאן - השאלה האם בתנ”ך הוצפנו מסרים בעזרת גימטריה היא רחבה הרבה יותר מהדיון הנוכחי, ולהבנתי השורה התחתונה שלו היא “זה ייתכן אבל אין לנו ראיות ישירות לכך” - כל הפרשנויות הגימטריות לדברים מהתנ”ך הוצעו בדיעבד.

בנוגע ל-1, לעומת זאת, בהחלט אפשר לדבר על שאלה מעניינת בהיסטוריה של המתמטיקה - אילו ערכים של פאי היו מוכרים בעת העתיקה? יש לנו שני מקורות מרכזיים למתמטיקה עתיקה - לוחות החרס הבבליים, והפפירוסים המצריים. אצל הבבלים ברוב המקורות \( \pi=3 \) ותו לא (כלומר - \( \pi \) לא מופיע באופן ישיר, אבל זה הערך שלו שאפשר להסיק) אבל בלוח חרס אחד שנתגלה ליד Susa ומתוארך לתקופה שבין המאות ה-19 וה-17 לפני הספירה אפשר להסיק מהכתוב את הערך \( \pi=\frac{25}{8}=3.125 \) שהוא קירוב לא רע אבל רחוק מאוד באיכותו מ-\( \frac{22}{7} \) וצריך שוב להדגיש שזה לא מספר שמופיע בלוח במפורש אלא אפשר להסיק אותו על ידי חישוב ממה שכן מופיע בלוח, שהוא היחס בין ההיקף של משושה להיקף המעגל החוסם אותו. הנה פוסט (לא שלי) בעניין.

עבור מצרים העתיקה, קירוב של פאי מופיע באחד מהאוצרות המתמטיים היקרים ביותר שיש לנו מהתקופה הזו - פפירוס רינד, שמתוארך לסביבות 1650 לפני הספירה. בעיה 41 בפפירוס עוסקת בחישוב נפח של אסם תבואה, וגם שם \( \pi \) לא מופיע בצורה מפורשת אבל אפשר להסיק מהטקסט את הקירוב \( \pi=\left(\frac{4}{3}\right)^{4}=256/81=3.16049\ldots \) שגם הוא לא קירוב מבריק במיוחד אבל מצד שני לא רע לזמנו. בשני המקורות, גם המצרי וגם הבבלי, הערך של \( \pi \) לא מוחבא בצורה ערמומית כמו בספר מלכים, שבו על פניו אין בכלל חישוב שצריך לעשות; אצלם יש חישוב ויש מספרים מדויקים שנכתבים במפורש, אבל פשוט החישוב לא עוסק ב-\( \pi \) אלא במושגים שקשורים ל-\( \pi \) ומהם ערכו של \( \pi \) מתקבל. בהקשר הזה כדאי לזכור ש-\( \pi \) עצמו הוא קבוע חצי-שרירותי, במובן זה שהיינו יכולים למשל לדבר לא על היחס בין היקף המעגל לקוטרו אלא על היחס בין היקף המעגל לרדיוסו, מה שהיה נותן לנו את הקבוע \( 2\pi=6.28318\ldots \) שבימינו אוהבים לסמן בתור \( \tau \) ואפילו לטעון שהוא קבוע יותר טוב מ-\( \pi \) (זה דיון אחר שאני מעדיף לא להיכנס אליו אף פעם אבל בטח אכתוב עליו פוסט יום אחד). בהקשר של ספר מלכים ההגדרה של “היקף חלקי הקוטר” היא הטבעית יותר כי גם ההיקף וגם הקוטר מופיעים במפורש בפסוק, אז קשה להתלונן למה הפסוק לכאורה מצפין את \( \frac{333}{106} \) ולא את \( \frac{666}{106} \) (למי שקופצים למראה ה-666 - לא, לא מצאתי בחזון יוחנן י”ג משהו עם גימטריה של 106 או 212, לא בתרגום לעברית וגם לא במקור היווני עם הגימטריה היוונית שדומה להפליא לזו שלנו).

המדידה המפורשת הראשונה של \( \pi \) שנתנה קירוב טוב היא זו של ארכימדס, בסביבות 240 לפני הספירה: הוא השתמש בשיטה מבריקה לגמרי כדי לקבל את הקירוב \( \frac{22}{7}\le\pi\le\frac{223}{71} \). שני המספרים שמופיעים בקירוב הם טובים למדי: את \( \frac{22}{7} \) ראינו בתור הקירוב האיכותי הראשון שהשבר המשולב של \( \pi \) נותן, ואת \( \frac{223}{71} \) ראינו כחלק מסדרת “הקירובים הכי טובים עבור המכנה שלהם או קטן ממנו”. שניהם פחות טובים מ-\( \frac{333}{106} \).

הקירוב הגדול הבא של פאי הגיע עם המתמטיקאי הסיני דזו צ’ונג-ג’ה בן המאה החמישית לספירה. ראשית, הוא מצא ש-\( \pi \) נמצא בין \( 3.1415926 \) ובין \( 3.1415927 \), ושנית הוא מצא את הקירוב \( \pi\approx\frac{355}{113}=3.1415929\ldots \) שאם נשים לב, הוא קצת פחות טוב מהקירובים העשרוניים הללו כי הספרה האחרונה שציינתי בו, 9, שגויה (ב-\( \pi \) הספרה הזו היא 6, מה שתואם את הקירוב של ה”ראשית”). זה החיסרון של \( \frac{355}{113} \) אבל על היתרונות שלו כבר דיברתי, ובפרט על כך שזה קירוב מאוד קומפקטי, עם מכנה בן שלוש ספרות בלבד, שמניב רמת דיוק גבוהה בהרבה מאותן שלוש ספרות - טוב הרבה יותר מ-\( \frac{333}{106} \). כלומר, זו הנקודה בהיסטוריה שבה אפשר לעצור ולהגיד שקירוב ברמה של הרמיזה בתנ”ך כבר הפך לנחלת הכלל. אלא שזה קרה במאה החמישית לספירה, בערך אלף שנים אחרי שספר מלכים נכתב, (בין אם מניחים שכתב אותו ירמיהו או מניחים שהוא נכתב בידי אנשים אחרים בגלות בבל). למעשה, לא ברור לי איפה ומתי התגלה \( \frac{333}{106} \) בתור קירוב לפאי (התורה של שברים משולבים שייכת למאה ה-18 ואני משער שבשלב הזה הקירוב כבר התגלה בדרך אחרת, אבל לא התעמקתי בזה).

לנוכח כל אלו, ההנחה הסבירה היא שבזמן כתיבת ספר מלכים, אי שם במאות החמישית-שישית-שביעית לפני הספירה, הקירוב \( \frac{333}{106} \) לפאי לא היה ידוע. אז אנחנו צריכים לבחור בין שתי אפשרויות: או שלסופר המקראי היה ידע פלאי ממש (בין אם הגיע אליו מהשמיים ובין אם חישב אותו בעצמו) והוא הצפין אותו בתורה בדרך כה מחוכמת שחז”ל פשוט פספסו ונראה שהראשון ששם לב אליה היה רב עם השכלה מתמטית מהמאה ה-20, או שמדובר על צירוף מקרים. לי אישית זה מזכיר סיפור אחר, שאני מאוד אוהב אישית: הסיפור של לוח החרס הבבלי פלימפטון 322. יש לי פוסט מפורט עליו אז לא אכנס להכל, אבל הנה הרעיון הכללי:

פלימפטון 322 הוא לוח חרס בבלי מסביבות המאה ה-18 לפני הספירה, שכתוב בתור טבלה שהאיברים המרכזיים שלה הם זוגות של מספרים ששייכים לשלשות פיתגוריות שונות ומשונות (מספיק זוג מספרים כדי להסיק את המספר השלישי בשלשה). מבחינה מתמטית מדובר על תגלית מרגשת מאוד, כי השיטה הראשונה לייצור שלשות פיתגוריות באופן סדרתי מתוארת אצל אוקלידס, כמעט 1,500 שנים אחר כך. כלומר - הלוח מרמז על רמה מתמטית מופלאה ממש שהייתה לבבלים ביחס לכל העולם מאות שנים אחריהם.

העניין הוא שהסיפור כנראה לא כזה פשוט, ואפשר לתת פרשנויות אחרות לאותם ערכים מספריים בלוח שיסבירו איך המספרים הללו נוצרו גם בלי להכיר שום שיטה לייצור שלשות פיתגוריות, פשוט כחלק מתהליך של יצירה של תרגילי אימון לפתרון משוואה ריבועית - תרגילים שידוע שהיו נפוצים אצל הבבלים. יש מאמרים מפורטים שעוסקים בגישה הזו, עם כניסה משמעותית לפרטים של הלוח ואף חשוב מכך - של לוחות אחרים בני אותה התקופה. כשקוראים על הנושא רואים כמה קל, כשמתעסקים בהיסטוריה של המתמטיקה, לייחס כוונות וידע לטקסטים מתמטיים ישנים גם אם לא היה בהם שום תוכן כזה, פשוט כי אנחנו כבר בעלי הידע הזה וחושבים על הכוונות הללו. קל לנו יותר לראות לוח עם שלשות פיתגוריות ולומר “אה-הא! מטרת הלוח הייתה להכיל שלשות פיתגוריות, ובגלל שאנחנו מכירים נוסחה לייצור שלהן אז הן בוודאי נוצרו באמצעות הנוסחה, וזה מה שמראה שהבבלים ידעו את הנוסחה!” גם אם יתר המציאות לא מסכימה עם זה.

גם כאן - אפשר לראות את התיקון הפלאי ולהגיד “אה-הא! מטרת התיקון הייתה להצפין את \( \frac{333}{106} \) בטקסט באמצעות גימטריה!” - בכך אנחנו לוקחים מושגים מודרניים יותר ומחילים אותם על הטקסט: גם מניחים שהטקסט בכלל רצה “לתקן” את הקירוב ה”שגוי” של פאי (ולהחליף אותו בקירוב אחר שגם הוא “שגוי” אבל פחות), וגם שהוא רצה לעשות את זה בדרך המאוד עקיפה שלו. כמובן, אפשר להגיד (ואומרים) “זה בסדר גמור, לא מעט מהתנ”ך הוא ככה” מה שלוקח אותנו לדיון כללי יותר על התנ”ך שאני לא רוצה לנהל פה; אבל אני אישית לא רואה צורך לנקוט בגישה הזו.

חלק חמישי ואחרון, ובו השאלה האם היה אפשר לעשות משהו טוב יותר? (כנראה שלא)

זה מסיים לומר את הדברים המעניינים שאני יודע לומר על הנושא הזה, אבל לפני שאני מסיים את הפוסט אני רוצה לדבר טיפה על השאלה המתבקשת: האם אפשר היה להצפין בתנ”ך את \( \frac{355}{113} \) במקום \( \frac{333}{106} \)? קשה לי לראות דרך לעשות את זה שלא תרגיש לנו מאולצת יותר, מטעם חשבוני די פשוט: \( 333=111\times3 \). זה אומר שאפשר להציג את הקירוב \( \frac{333}{106} \) בתור \( \frac{111}{106}\times3 \), ולכן כל מה שאנחנו צריכים הוא מילה עם ערך גימטרי 106 שאפשר להוסיף לה אות אחת ולקבל 111, מה שעבד עם “קו/קוה”. לעומת זאת ב-\( \frac{355}{113} \) אין לנו יכולת לבצע את הטריק הזה כי \( 355=5\times71 \) לא מתחלק ב-3, ולכן אם אנחנו מחפשים שני מספרים שלמים \( a,b \) כך ש-\( \frac{a}{b}\times3=\frac{355}{113} \) לא קשה לראות שהמספרים הקטנים ביותר שיתנו לנו דבר כזה הם \( a=355,b=339 \) שההפרש ביניהם הוא 16, ואין לנו דרך לעבור ממילה שערכה 339 למילה שערכה 355 על ידי שינוי של אות בודדת, כך שמלכתחילה כל מה שנעשה ירגיש מאולץ יותר.

עדיין, לפעמים יש שינוי בשתי אותיות; למשל במלכים א’ י”ב ל”ג יש לנו את “מלבד/מלבו” שבו מסירים אות ומוסיפים אות; כדי לקבל הפרש 16 על ידי פעולה כזו, אנחנו חייבים להסיר ד’ ולהוסיף כ’ (אין שתי אותיות אחרות שההפרש של הערך הגימטרי שלהן הוא 16). זה נותן לנו למשל את הזוג “שדלה/שכלה” שקופץ מגימטריה של 339 אל 355. האם זה משהו שהסופר המקראי הכל יכול היה יכול להשתמש בו בפסוק שמדבר על ים הנחושת? לא נראה לי. מצד שני, קשה לשחק את המשחק הזה עד הסוף בלי להבין מה בדיוק החופש שכן היה לסופר המקראי הכל יכול לעשות. אם היו דורשים ממנו להצפין את \( \frac{355}{113} \) במקום את \( \frac{333}{106} \) כי אסור שיהיה אצלו “בערך”, ואם ישתמש בקירוב גרוע כמו \( \frac{333}{106} \) אז הוא נביא שקר ועונשו מיתה - במקרה כזה אני חושד שהוא היה מוצא דרך טובה להשחיל את \( \frac{355}{113} \) פנימה.

מעבר לבדיחות האלו, אני חייב להודות שצירוף המקרים כאן הוא באמת מאוד יפה: המילה “קו/קוה” שעומדת במרכז הסיפור היא המילה בפסוק שמתארת את ההיקף, כלומר קשורה ישירות לעניין והכתיב הכפול “קו”/”קוה” הוא לא משהו ייחודי לפסוק הזה; ה”קוה” מופיע למשל גם בירמיהו ל”א ל”ח ובזכריה א’ ט”ז, כלומר אין בו משהו שרירותי. למרות שמדגדג לי לבדוק אם אני מצליח למצוא את \( \frac{355}{113} \) בכל מני מקומות, לא סביר שיימצא משהו כל כך יפה. אני יכול לקחת סיפורים אקראיים מפרויקט בן יהודה, להריץ עליהם סקריפט ולמצוא באותו משפט מילה של 355 ומילה של 113 (כן, נו, באמת עשיתי את זה בשביל הקטע), אבל מה זה יגיד?

כמובן, אפשר ללכת לכיוונים חופשיים עוד יותר. אם הסופר המקראי בסך הכל רוצה להצפין מספר בטקסט יש עוד דרכים לעשות את זה שלא חייבות לענות לתבנית של 1-2-3 שלמעלה. הנה אחת שמבוססת על קוריוז חמוד בפני עצמו של \( \frac{355}{113} \): בנוסף לכל מעלותיו של הקירוב הזה, כשהוא מוצג בבסיס 10 קל מאוד לזכור אותו כי אם קוראים את הספרות מלמעלה-למעלה ומשמאל-לימין מקבלים \( 113355 \). באותיות זה “אאגגהה” שהוא נטול כל משמעות, אבל זו מילה קצרה וקומפקטית שאפשר היה להכניס לפסוק!

אז מה השורה התחתונה שלי לכל הסיפור הזה? ובכן “שברים משולבים זה מגניב”. אני חושד שהמסר הזה לא הועבר מספיק כאן.

סדרות וטורים של פונקציות

2024-02-24T00:00:00+00:00

מבוא

חור גדול שנותר עד היום בבלוג הוא אותו חלק של החשבון הדיפרנציאלי והאינטגרלי שמתעסק בטורים של פונקציות. לא רק שזה נושא מגניב בפני עצמו, אלא גם שהמחסור בו הוא המכשול הגדול ביותר בדרך שלי לסגירת עוד חור גדול בבלוג - אנליזה מרוכבת. אז בואו נסגור את החור הזה סוף סוף.

אני אניח פה שאנחנו מכירים את מושגי הבסיס הרלוונטיים בחדו”א, כי יש לי כבר פוסטים עליהם: על המושגים של גבול של פונקציה ופונקציות רציפות; על גבולות של סדרות; ועל טורים אינסופיים של מספרים. אבל אין סיבה עקרונית לא להזכיר את המושגים הללו בקיצור גם כאן, כי נשתמש בהם כל הזמן.

אנחנו בחדו”א עובדים מעל \( \mathbb{R} \), כלומר מתעסקים בסדרות שהאיברים שלהן הם מספרים ממשיים ופונקציות שמקבלות ממשיים ומחזירות ממשיים. על הממשיים מוגדר לנו מושג של מרחק בעזרת פונקציית הערך המוחלט: המרחק בין \( a \) ל-\( b \) הוא \( \left|a-b\right| \). הרעיון הכללי מאחורי גבול, המושג שעליו החדו”א המודרני נבנה, הוא שהאובייקט שלנו (סדרה או פונקציה) “מתקרב” אל ערך אחד ספציפי - הגבול - במובן זה שהמרחק ביניהם נהיה “קטן כרצוננו” אם מתמקדים בחלק של האובייקט שלנו שעליו אומרים שהוא שואף אל הגבול. בואו נראה איך זה בא לידי ביטוי בסדרות של מספרים ובפונקציות:

אומרים שהסדרה האינסופית \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) שואפת לגבול \( L \) ומסמנים את זה \( \lim_{n\to\infty}a_{n}=L \) (או סתם \( a_{n}\to L \)) אם לכל \( \varepsilon>0 \) קיים \( N \) טבעי כך שלכל \( n>N \) מתקיים \( \left|a_{n}-L\right|<\varepsilon \)
אומרים שהפונקציה \( f\left(x\right):\mathbb{R\to\mathbb{R}} \) שואפת לגבול \( L \) כאשר \( x \) שואף לנקודה \( x_{0} \) ומסמנים את זה \( \lim_{x\to x_{0}}f\left(x\right)=L \) אם לכל \( \varepsilon>0 \) קיים \( \delta>0 \) כך שאם \( 0<\left|x-x_{0}\right|<\delta \) אז \( \left|f\left(x\right)-L\right|<\varepsilon \)

זו לא הגדרה קלה לעיכול ולכן אני ממליץ על הפוסטים שקישרתי אליהם (או המקורות הרבים האחרים שמסבירים את הנושא טוב ממני!) אם היא לא יושבת טוב כרגע. אני רוצה שננצל את ההזדמנות לכך ששתי הההגדרות יושבות זו לצד זו כדי לראות את הדמיון הרב ביניהן: בהגדרה הראשונה אנחנו מסתכלים על החלק של הסדרה שהוא “כל מה שגדול מ-\( N \)” ובהגדרה השניה אנחנו מסתכלים על החלק של הפונקציה שהוא “כל הפלטים של הפונקציה על סביבה בגודל \( \delta \) של \( x_{0} \) שלא כוללת את הקצוות או את \( x_{0} \) עצמה” ובשני המקרים אנחנו דורשים שכל מה שנמצא באותו איזור שאנחנו מסתכלים עליו יהיה קרוב ל-\( L \) עד כדי ה-\( \varepsilon \) השרירותי שהתחלנו ממנו.

ההגדרה של רציפות של פונקציה היא נקודתית - כלומר אומרים שפונקציה היא רציפה בנקודה ספציפית. כדי ש-\( f \) תהיה רציפה ב-\( x_{0} \) היא צריכה לקיים \( f\left(x_{0}\right)=\lim_{x\to x_{0}}f\left(x\right) \), כלומר שהפונקציה “תקיים את ההבטחה” של הגבול. אפשר גם להגדיר את זה ישירות: קיים \( L \) כך שלכל \( \varepsilon>0 \) קיים \( \delta>0 \) כך שאם \( \left|x-x_{0}\right|<\delta \) אז \( \left|f\left(x\right)-L\right|<\varepsilon \) (שימו לב שבעורמה רבה הסרתי את הדרישה המקילה \( 0<\left|x-x_{0}\right| \) ובכך אני מכריח את השוויון \( f\left(x_{0}\right)=L \) להתקיים).

לבסוף, ההגדרה של סכום של טור אינסופי של מספרים בעצם נבנית מעל ההגדרה של גבול של סדרה. הרעיון הוא כזה: יש לנו סדרה \( a_{0},a_{1},a_{2},\ldots \) ואנחנו רוצים לחבר את האיברים שלה - להסתכל על \( \sum_{n=0}^{\infty}a_{n} \) ולמצוא מספר שמתאים לאינטואיציה שלנו לגבי הסכום של אותם אינסוף מספרים. יש כמה גישות לנושא הזה - אין הגדרה אחת שהיא פשוט “ההגדרה הנכונה” אבל זו השימושית והנפוצה ביותר במתמטיקה משתמשת במשהו שנקרא סכומים חלקיים ומגדירה את סכום הטור בתור הגבול של הסכומים החלקיים הללו. פורמלית, אני מגדיר \( S_{n}=\sum_{k=0}^{n}a_{k} \) ואז אומר ש-\( \sum_{n=0}^{\infty}a_{n}=S \) אם \( \lim_{n\to\infty}S_{n}=S \).

אם קיים גבול לסדרת הסכומים החלקיים אומרים שהטור \( \sum_{n=0}^{\infty}a_{n} \) מתכנס ואחרת אומרים שהוא מתבדר. יש גם מושג של “התכנסות לאינסוף” אבל נעזוב את זה; תחשבו על זה בתור אחד מסוגי ההתבדרות. סוג אחר של התבדרות הוא של הטור \( 1-1+1-1+1-\ldots \) שהסכומים החלקיים שלו “מזפזפים” בין 0 ו-1; על פי ההגדרה שלנו אין לטור הזה סכום (על פי הגדרה אחרת, כללית יותר, שלוקחת את הגבול של הממוצע של סדרת הסכומים החלקיים, דווקא יש גבול והוא \( \frac{1}{2} \)).

בואו נראה שאנחנו מבינים מספיק מה הולך פה כדי להוכיח משהו! טענה בסיסית אבל מועילה מאוד - שאם \( \sum_{n=0}^{\infty}a_{n} \) מתכנס אז האיבר הכללי של הטור שואף לאפס, כלומר \( \lim_{n\to\infty}a_{n}=0 \) (שימו לב - זו לא סדרת הסכומים החלקיים!)

איך מוכיחים טענה כזו? כלל האצבע שלי לכל מי שנתקעים בהוכחות בחדו”א - קודם כל תתחילו מ”יהא \( \varepsilon>0 \)”. זה בדרך כלל עובד. ה-\( \varepsilon \) מציב בפנינו “אתגר” - הוא אומר לנו - עכשיו בואו תמצאו \( N \) כלשהו כך שאם \( n>N \) אז \( \left|a_{n}-0\right|<\varepsilon \), דהיינו פשוט \( \left|a_{n}\right|<\varepsilon \).

הרעיון הוא פשוט. מה נתון לנו? ש-\( \sum_{n=0}^{\infty}a_{n} \) מתכנס, כלומר קיים \( L \) כך ש-\( \lim_{n\to\infty}S_{n}=L \). אם הנתון שלנו הוא על הסכומים החלקיים \( S_{n} \) ואנחנו רוצים לומר משהו על האיברים \( a_{n} \), מה הקשר ביניהם? הוא פשוט: \( a_{n}=S_{n}-S_{n-1} \). לכן אפשר לנקוט בתעלול הבא, שהוא מאוד נפוצות בהוכחות חדו”א: מכך ש-\( S_{n} \) מתכנסת אל \( L \) נובע שקיים \( N^{\prime} \) כך שאם \( n>N^{\prime} \) אז \( \left|S_{n}-L\right|<\frac{\varepsilon}{2} \) (כלומר - באנו אל הטענה ש-\( S_{n} \) מתכנסת אל \( L \) ונתנו לה “אתגר” משלנו, עם \( \frac{\varepsilon}{2} \); היא ענתה לנו עם התשובה \( N^{\prime} \)). עכשיו נגדיר \( N=N^{\prime}+1 \). מה יצא לנו מזה? ניקח \( n>N \); זה אומר ש-\( n>N^{\prime} \) ובנוסף לכך גם \( n-1>N^{\prime} \), ולכן אנחנו מקבלים גם \( \left|S_{n}-L\right|<\frac{\varepsilon}{2} \) וגם \( \left|S_{n-1}-L\right|<\frac{\varepsilon}{2} \). וכעת הנה הקסם:

\( \left|a_{n}\right|=\left|S_{n}-S_{n-1}\right|=\left|\left(S_{n}-L\right)-\left(S_{n-1}-L\right)\right|\le \)

\( \le\left|S_{n}-L\right|+\left|S_{n-1}-L\right|<\frac{\varepsilon}{2}+\frac{\varepsilon}{2}=\varepsilon \)

עמדנו ביעד המקורי שלנו! שימו לב לטריקים שעשינו בהתחלה - הוספנו וחיסרנו \( L \) לביטוי שבתוך הערך המוחלט, והשתמשנו באי-שוויון המשולש כדי לפרק את הביטוי המסובך שבתוך הערך המוחלט לשני ביטויים שונים בערכים מוחלטים שתואמים בדיוק את מה שהיה נתון לנו. כאמור, הכל די סטנדרטי בחדו”א ואני אניח שאנחנו בסדר עם זה כי אני הולך לעשות את זה גם בהמשך.

סדרות של פונקציות

דיברנו על סדרות, ודיברנו על פונקציות. למה שלא נשלב את שני אלו? במקום לדבר על סדרה \( a_{0},a_{1},a_{2},\ldots \) של מספרים (איברים של \( \mathbb{R} \)) אפשר לדבר על סדרה \( f_{0}\left(x\right),f_{1}\left(x\right),f_{2}\left(x\right),\ldots \) של פונקציות, \( f_{n}\left(x\right):D\to\mathbb{R} \) שהתחום שלהן הוא תת-קבוצה כלשהי \( D\subseteq\mathbb{R} \) והטווח שלהן הוא \( \mathbb{R} \). עכשיו, אם יש לנו סדרה של פונקציות, אפשר לדבר על התכנסות שלה. עכשיו, כמו שסדרה של מספרים מתכנסת למספר, סדרה של פונקציות תתכנס לפונקציה \( f:D\to\mathbb{R} \).

אם ננסה לקחת את ההגדרה הרגילה של גבול של סדרה ולהשתמש בה פה, נקבל משהו כזה: נאמר שהסדרה \( \left\{ f_{n}\right\} _{n=0}^{\infty} \) מתכנסת אל \( f \) אם לכל \( \varepsilon>0 \) קיים \( N \) כך שלכל \( n>N \) מתקיים \( \left|f-f_{n}\right|<\varepsilon \). נשמע הגיוני? ובכן, זה אכן הגיוני אבל יש כאן משהו שלא הוגדר עד הסוף - ואם הולכים איתו עד הסוף מקבלים בעצם שלוש גישות שונות להגדרת גבול שכזה.

מה שלא ברור עד הסוף הוא מה הכוונה שלי בביטוי \( \left|f-f_{n}\right|<\varepsilon \). הרי הסימן \( \left|\cdot\right| \) (שני קווים אנכיים עם משהו בפנים) בא לתאר ערך מוחלט, שהוא משהו שמוגדר על מספרים, לא על פונקציות. קונספטואלית מה שאני רוצה פה הוא לדבר על המרחק בין \( f \) ובין \( f_{n} \) - כלומר להכניס לתמונה פונקצית מרחק חדשה, שונה מהערך המוחלט של מספרים ממשיים. יש תורה שלמה שעוסקת בדברים הללו; מה שבדרך כלל עושים הוא להגדיר נורמה, שהיא פונקציה שלוקחת איבר ומחזירה הערכה ל”גודל” שלו, ואז מגדירים מרחק על ידי הנורמה של ההפרש: \( \|f_{n}-f\| \). יש כל מני דרכים להגדיר נורמות של פונקציות וזה מוביל אותנו לתחום מרתק שנקרא אנליזה פונקציונלית ואני בשום פנים ואופן לא הולך לומר על כל זה שום דבר הפעם. זו פשוט לא ההגדרה שבה נתעסק.

הגישה האחרת שבה אפשר לנקוט היא להמשיך להשתמש בערך המוחלט “הרגיל”, על ידי כך שאנחנו משווים את הערכים ש-\( f_{n},f \) מחזירות. אלא שכאן אנחנו מתפצלים לשתי הגדרות שונות בהתאם לדקות הניסוח שלנו, ואני אציג את שתי ההגדרות בבת אחת כדי שיהיה קל לראות את הדקות הזו:

נאמר ש-\( f_{n} \) מתכנסת ("נקודתית") אל \( f \) אם לכל \( x\in D \), לכל \( \varepsilon>0 \) קיים \( N \) כך שאם \( n>N \) אז \( \left|f_{n}\left(x\right)-f\left(x\right)\right|<\varepsilon \)
נאמר ש-\( f_{n} \) מתכנסת במידה שווה (במ"ש) אל \( f \) אם לכל \( \varepsilon>0 \) קיים \( N \) כך שאם \( n>N \) אז \( \left|f_{n}\left(x\right)-f\left(x\right)\right|<\varepsilon \) לכל \( x\in D \)

מה ההבדל בין ההגדרות? המיקום של ה”לכל \( x \)”. צריך לחשוב על זה ככה: במקרה הראשון, כשנותנים לנו את האתגר של \( \varepsilon \) ואנחנו צריכים למצוא \( N \) עבורו, ה-\( N \) הזה צריך לעבוד רק עבור הערכים של הפונקציות ב-\( x \). זה בעצם אומר שלכל \( x\in D \), צריך להתקיים \( f\left(x\right)=\lim_{n\to\infty}f_{n}\left(x\right) \) כאשר כאן מה שיש לנו בגבול הוא סדרה של מספרים - הערכים שמקבלים כשמציבים את \( x \) בכל הפונקציות \( f_{n} \). לעומת זאת, במקרה השני באתגר של ה-\( \varepsilon \) אנחנו צריכים למצוא \( N \) שעובד עבור כל הערכים האפשריים של \( x \) בו זמנית. זה אתגר יותר גדול, ובאמת יש סיטואציות של סדרת פונקציות שמתכנסת אבל לא מתכנסת במידה שווה. בואו נראה דוגמא כזו - למרבה השמחה יש אחת פשוטה מאוד.

התחום שלנו יהיה \( D=\left[0,1\right] \) וסדרת הפונקציות תהיה \( f_{n}\left(x\right)=x^{n} \). עכשיו, אנחנו יודעים מחדו”א בסיסי שאם \( 0\le x<1 \) אז \( x^{n}\to0 \), אבל כמובן ש-\( 1^{n}\to1 \). כלומר, אם נגדיר \( f\left(x\right)=\lim_{n\to\infty}f_{n}\left(x\right) \) נקבל את הפונקציה

\( f\left(x\right)=\begin{cases} 0 & x\ne1\\ 1 & x=1 \end{cases} \)

האם \( f_{n} \) מתכנסת במידה שווה אל \( f \)? הנה טיעון טכני שמראה מה הבעיה, עם מספרים מהונדסים של מישהו שכבר יודע מה הוא מנסה להשיג וכל הכיף הרגיל של חדו”א: כדי להראות שאין התכנסות במ”ש אני אקח למשל \( \varepsilon=\frac{1}{e} \). ועכשיו נסתכל על \( N \) כלשהו ונראה שאפילו אם \( n>N \) אז עדיין לא לכל \( x\in D \) יתקיים \( \left|f_{n}\left(x\right)-f\left(x\right)\right|<\frac{1}{e} \). איך נראה את זה? אם \( x<1 \) אז \( \left|f_{n}\left(x\right)-f\left(x\right)\right|=\left|x^{n}-0\right|=\left|x^{n}\right|=x^{n} \). עכשיו, אין לנו שליטה על \( n \) אבל את \( x \) אנחנו יכולים להגדיל כרצוננו אל \( 1 \) עד שנעבור את \( \frac{1}{e} \). הנה האופן שבו אפשר למצוא \( x \) מתאים שכזה - בעזרת לוגריתמים. אני אחפש \( x \) שמקיים \( x^{n}=\frac{1}{e} \), כלומר \( \ln\left(x^{n}\right)=\ln\left(e^{-1}\right) \), כלומר \( n\ln x=-1\ln e=-1 \), כלומר \( \ln x=-\frac{1}{n} \). למרבה השמחה אני יודע ש-\( \ln x \) היא פונקציה מונוטונית עולה שמקיימת \( \lim_{x\to0}\ln x=-\infty \) ו-\( \ln1=0 \) ולכן קיים \( x\in D \) כך ש-\( \ln x=-\frac{1}{n} \), וה-\( x \) הזה שובר את הטענה על התכנסות במ”ש.

איך התכנסות במ"ש משמרת רציפות

הטיעון למעלה היה טכני למדי, אבל מה שנחמד הוא שאני לא באמת צריך אותו כי אפשר לראות ש-\( f_{n} \) לא מתכנסת במ”ש בקלות מתוך טענה כללית יותר ושימושית מאוד, שגם עוזרת לנו להבין מה הטעם בהגדרה הזו של התכנסות במ”ש. הטענה היא שאם כל \( f_{n} \) היא פונקציה רציפה ו-\( f_{n}\to f \) וההתכנסות היא במ”ש, אז גם \( f \) רציפה. זו דוגמא לסוג הטענות שמעניינות אותנו בכללי - אנחנו רוצים לומר משהו חכם על \( f \) אבל זה קשה לנו, אז אנחנו מוצאים סדרה פשוטה יחסית שמתכנסת אל \( f \) ועל האיברים שלה קל לנו יותר לומר משהו חכם, ואז מקווים ממש חזק שהמשהו החכם הזה יעבור מהסדרה אל \( f \) עצמה. במקרה שבו המשהו החכם הוא “רציפות” וההתכנסות היא במ”ש, זה גם עובד.

עבור הדוגמא שנתתי למעלה, \( f_{n}\left(x\right)=x^{n} \) היא בוודאי פונקציה רציפה, אבל \( f\left(x\right) \) שאליה הסדרה מתכנסת היא לא רציפה - היא 0 בכל מקום חוץ מ-\( x=1 \) ושם היא קופצת אל \( 1 \) - זו נקודת אי רציפות. לכן פשוט לא ייתכן שההתכנסות תהיה במ”ש; הרבה יותר פשוט מאשר להתחיל לערב בתמונה לוגריתמים וכדומה. בפועל? אנחנו מטאטאים את הסיבוך מתחת לשטיח עם הסתמכות על היכולת שלי לומר בקלילות ש-\( x^{n} \) “היא בוודאי פונקציה רציפה” - אם ננסה להוכיח את זה במפורש שוב נצטרך עבודה טכנית - אבל זה כל היופי, לבנות על הידע הטכני שכבר יש לנו ועל משפטים אבסטרקטיים כדי לקבל תוצאות טכניות חדשות בלי מאמץ טכני נוסף.

בואו נוכיח את הטענה: נתון לי ש-\( \left\{ f_{n}\right\} _{n=0}^{\infty} \) היא סדרה של פונקציות רציפות וש-\( f_{n}\to f \) בהתכנסות במ”ש, ואני צריך להוכיח ש-\( f \) רציפה. איך מוכיחים שמשהו הוא רציף? מתחילים כרגיל עם “יהא \( \varepsilon>0 \)” יחד עם נקודה ספציפית \( x_{0}\in D \). האתגר שלנו הוא למצוא \( \delta \) כך שלכל \( x\in D \) המקיים \( \left|x-x_{0}\right|<\delta \) מתקיים \( \left|f\left(x\right)-f\left(x_{0}\right)\right|<\varepsilon \). הנה האסטרטגיה שלנו: אנחנו נמצא פונקציה \( f_{n} \) שקרובה מספיק אל \( f \), ואז נשתמש בכך שהיא רציפה כדי לחסום את המרחק בין \( f_{n}\left(x\right),f_{n}\left(x_{0}\right) \) ונבנה על כך שהמרחקים של \( f_{n} \) בנקודות הללו מהנקודות המקבילות אצל \( f \) הם קטנים. כלומר, אנחנו צריכים ששלושה דברים יהיו קטנים:

\( \left|f_{n}\left(x\right)-f_{n}\left(x_{0}\right)\right| \)
\( \left|f_{n}\left(x\right)-f\left(x\right)\right| \)
\( \left|f_{n}\left(x_{0}\right)-f\left(x_{0}\right)\right| \)

מכיוון שיש לנו שלושה דברים שכפי שנראה בסוף איכשהו הכל יתבטא בסכום שלהם, שווה לנו לעבוד עם \( \frac{\varepsilon}{3} \). פורמלית, ניעזר בכך שההתכנסות \( f_{n}\to f \) היא במידה שווה, ונמצא \( N \) כך שלכל \( n>N \) ולכל \( x\in D \) מתקיים \( \left|f_{n}\left(x\right)-f\left(x\right)\right|<\frac{\varepsilon}{3} \). שימו לב שזה קריטי שזה יתקיים לכל \( x \) כי כרגע אין לנו בכלל ערך קונקרטי אחד של \( x \) שאנחנו רוצים לטפל בו - אנחנו נרצה לטפל בכל \( x \) שיהיה קרוב אל \( x_{0} \) עד כדי \( \delta \) (וה-\( \delta \) אפילו לא ידוע בשלב הזה). כלומר, בלי התכנסות במ”ש אין לי אפילו מאיפה להתחיל.

יופי, אז יש לנו \( n \) שעבורו \( \left|f_{n}\left(x\right)-f\left(x\right)\right|<\frac{\varepsilon}{3} \) לכל \( x\in D \). עכשיו נשתמש בכך ש-\( f_{n} \) רציפה בכל \( D \) ובפרט ב-\( x_{0}\in D \) כדי למצוא \( \delta \) בעל התכונה שאם \( \left|x-x_{0}\right|<\delta \) אז \( \left|f_{n}\left(x\right)-f_{n}\left(x_{0}\right)\right|<\frac{\varepsilon}{3} \). כלומר - השתמשנו בתכונת הרציפות תוך שה”אתגר” שאנחנו מציבים הוא עם \( \frac{\varepsilon}{3} \) (זו נקודה מבלבלת: כשאנחנו מוכיחים שרציפות מתקיימת, אנחנו מקבלים את האתגר ומחפשים \( \delta \) מתאים; כשאנחנו משתמשים ברציפות אנחנו נותנים את האתגר ומקבלים \( \delta \) מתאים).

עכשיו, יהא \( x\in D \) כלשהו שעבורו באמת מתקיים \( \left|x-x_{0}\right|<\delta \). אנחנו צריכים להוכיח \( \left|f\left(x\right)-f\left(x_{0}\right)\right|<\varepsilon \) ואת זה נעשה על ידי טכניקה סטנדרטית של חיבור/חיסור אותו איבר ואז פירוק הערך המוחלט לסכום של ערכים מוחלטים תוך שימוש באי-שוויון המשולש: טכניקות סטנדרטיות בחדו”א שלכל הפחות אני כבר מכיר מספיק טוב כדי ליהנות מהם ואני מקווה שזה המצב לא רק אצלי:

\( \left|f\left(x\right)-f\left(x_{0}\right)\right|=\left|f\left(x\right)-\left(f_{n}\left(x\right)-f_{n}\left(x\right)\right)-\left(f_{n}\left(x_{0}\right)-f_{n}\left(x_{0}\right)\right)-f\left(x_{0}\right)\right| \)

\( =\left|\left(f\left(x\right)-f_{n}\left(x\right)\right)+\left(f_{n}\left(x\right)-f_{n}\left(x_{0}\right)\right)+\left(f_{n}\left(x_{0}\right)-f\left(x_{0}\right)\right)\right| \)

\( \le\left|f\left(x\right)-f_{n}\left(x\right)\right|+\left|f_{n}\left(x\right)-f_{n}\left(x_{0}\right)\right|+\left|f_{n}\left(x_{0}\right)-f\left(x_{0}\right)\right| \)

\( \le\frac{\varepsilon}{3}+\frac{\varepsilon}{3}+\frac{\varepsilon}{3}=\varepsilon \)

מה שמסיים את ההוכחה הזו.

עד כמה התכנסות במ"ש משמרת אינטגרלים ונגזרות?

שני המושגים המרכזיים שהחדו”א עוסק בהם הם אינטגרלים (ספציפית, אינטגרל רימן) ונגזרות. על שניהם יש לי פוסטים כך שלא אגדיר אותם במפורש כאן אלא אשתמש רק במה שאני צריך. השאלה הבסיסית שלנו היא זו: נניח ש-\( f_{n}\to f \), האם זה אומר ש-\( \int_{a}^{b}f_{n}\to\int_{a}^{b}f \) עבור \( \left[a,b\right]\subseteq D \)? והאם זה אומר ש-\( f_{n}^{\prime}\to f^{\prime} \)? התשובה היא שהתכנסות במ”ש מבטיחה את המשפט לגבי האינטגרל, אבל לגבי הנגזרות… זה מסובך קצת יותר. אז בואו נתחיל עם האינטגרל.

ובכן, אני מניח ש-\( f_{n}\to f \) במ”ש ואני רוצה להוכיח \( \int_{a}^{b}f_{n}\to\int_{a}^{b}f \). איך מתחילים הוכחה כזו? האם הולכים להגדרת אינטגרל רימן, נאמר בעזרת הזוועה שנקראת “סכומי דארבו” ומתחילים לפרק את \( \left[a,b\right] \) לכל מני תת-חלוקות? לא… אנחנו בחדו”א, חבר’ה! מתחילים הכל כולל הכל קודם כל ב”יהי \( \varepsilon>0 \)” ואז כבר רואים איך להתקדם מזה! מה שאנחנו רוצים הוא להראות \( \int_{a}^{b}f_{n}\to\int_{a}^{b}f \), וזו התכנסות של סדרת מספרים; כלומר, לכל \( \varepsilon>0 \) אני צריך למצוא \( N \) כך שאם \( n>N \) אז \( \left|\int_{a}^{b}f\left(x\right)dx-\int_{a}^{b}f_{n}\left(x\right)dx\right|<\varepsilon \). בשביל להראות את זה אנחנו לא צריכים להיכנס לסכומי דארבו אבל כן צריכים כמה תכונות סטנדרטיות של אינטגרלים:

לינאריות של אינטגרל: \( \int_{a}^{b}f\left(x\right)dx+\int_{a}^{b}g\left(x\right)dx=\int_{a}^{b}\left[f\left(x\right)+g\left(x\right)\right]dx \)
אי שוויון המשולש האינטגרלי: \( \left|\int_{a}^{b}f\left(x\right)dx\right|\le\int_{a}^{b}\left|f\left(x\right)\right|dx \)
מונוטוניות של אינטגרל: אם \( f\left(x\right)\le g\left(x\right) \) ב-\( \left[a,b\right] \) אז \( \int_{a}^{b}f\left(x\right)dx\le\int_{a}^{b}g\left(x\right)dx \)
אינטגרל של קבוע: \( \int_{a}^{b}Adx=\left(b-a\right)\cdot A \)

יחד עם אלו, קל להתקדם: מכיוון ש-\( f_{n}\to f \) במ”ש, אז עבור \( \frac{\varepsilon}{b-a}>0 \) נמצא \( N \) כך שלכל \( n>N \) מתקיים \( \left|f_{n}\left(x\right)-f\left(x\right)\right|<\frac{\varepsilon}{b-a} \) לכל \( x\in D \) ובפרט לכל \( a\le x\le b \) (למה דווקא \( \frac{\varepsilon}{b-a} \)? אני מניח שאנחנו רגילים בשלב הזה לכך שאפשר קודם לנסות עבור \( \varepsilon^{\prime} \) כללי, לראות מה הערך שיוצא לנו טוב ואז לתקן רטרואקטיבית). עכשיו, בעזרת התכונות שציטטתי:

\( \left|\int_{a}^{b}f\left(x\right)dx-\int_{a}^{b}f_{n}\left(x\right)dx\right|=\left|\int_{a}^{b}\left[f\left(x\right)-f_{n}\left(x\right)\right]dx\right|\le \)

\( \le\int_{a}^{b}\left|f\left(x\right)-f_{n}\left(x\right)\right|dx\le\int_{a}^{b}\frac{\varepsilon}{b-a}=\left(b-a\right)\frac{\varepsilon}{b-a}=\varepsilon \)

מה שמסיים את ההוכחה עבור אינטגרלים (ליתר דיוק, עבור מה שנקרא “אינטגרל רימן”; אני לא אדבר על סוגים אחרים בפוסט הזה).

בואו נעבור לנגזרות. מה שהיינו רוצים שיקרה הוא שאם \( f_{n}\to f \) מתכנסת במ”ש, אז \( f_{n}^{\prime}\to f^{\prime} \) (התכנסות נקודתית). הבעיה היא שזה לא קורה. אני אתן דוגמא עוד מעט. זה קצת מתסכל, כי הרי יש לנו משפט דומה על אינטגרלים ונגזרת היא סוג של ההפך מאינטגרל, כפי שהמשפט היסודי של החדו“א מראה לנו, אבל זה בעצם העניין - מכיון שנגזרת היא “ההפך מאינטגרל”, אז כדי שהתוצאה החדשה תתאים למה שראינו על אינטגרלים צריך לא שהסדרה \( f_{n}\to f \) תתכנס במ”ש אלא שהסדרה \( f_{n}^{\prime}\to f^{\prime} \) תתכנס במ”ש.

בואו נחדד מה המשפט שאנחנו כן יודעים להוכיח: נניח ש-\( \left\{ f_{n}\right\} _{n=0}^{\infty} \) היא סדרת פונקציות גזירות על \( \left[a,b\right] \), ונניח גם שהנגזרות שלהם \( f_{n}^{\prime} \) הן אינטגרביליות על \( \left[a,b\right] \), ובנוסף לכך נניח ש-\( f_{n}\to f \) בהתכנסות נקודתית (לא צריך התכנסות במ”ש). עכשיו, בואו נניח ש-\( f_{n}^{\prime}\to g \) עבור \( g \) רציפה כלשהי בהתכנסות שהיא כן במ"ש, אז מה שאני יכול לומר הוא ש-\( f \) גזירה ו-\( f^{\prime}\left(x\right)=g \). אלו תנאים מסובכים למדי, אבל כשהם מתקיימים, המשפט הזה יכול להיות שימושי מאוד (כי בהחלט ייתכן שקל לנו לגזור את \( f_{n} \) ולהראות בקלות שהנגזרות מתכנסות במ”ש למשהו רציף, אפילו אם קשה לנו לגזור את \( f \) עצמה).

ההוכחה עצמה מאוד קלה, בהינתן אוסף התנאים שנתתי. ראשית, בואו נזכיר חלק ממה שהמשפט היסודי של החדו”א אומר: אם \( g\left(x\right) \) רציפה בקטע \( \left[a,b\right] \) אז הפונקציה \( G\left(x\right)=\int_{a}^{x}g\left(t\right)dt \) גזירה ומקיימת \( G^{\prime}\left(x\right)=g\left(x\right) \) בכל הקטע. אצלנו נתון ש-\( g \) אכן רציפה (בדיוק כדי שנוכל להשתמש בטענה הזו), אז מה שאנחנו רוצים להראות הוא ש-\( f\left(x\right) \) הוא \( G \) הזו עד כדי קבוע, כלומר \( f\left(x\right)=G\left(x\right)+C \). בואו נעשה את זה.

מכיוון ש-\( f_{n}^{\prime}\to g \) בהתכנסות במ”ש בתחום \( D=\left[a,b\right] \) אפשר לקחת \( x\in D \) שרירותי ולהשתמש במשפט על האינטגרל כדי להראות

\( \int_{a}^{x}f_{n}^{\prime}\left(t\right)dt\to\int_{a}^{x}g\left(t\right)dt \)

עכשיו, מה זה האינטגרל \( \int_{a}^{x}f_{n}^{\prime}\left(t\right)dt \)? כאן אנחנו משתמשים בנוסחת ניוטון-לייבניץ, שגם היא מסקנה מהמשפט היסודי: מכיוון ש-\( f_{n} \) היא פונקציה קדומה של \( f_{n}^{\prime} \) אז \( \int_{a}^{x}f_{n}^{\prime}\left(t\right)dt=f_{n}\left(x\right)-f_{n}\left(a\right) \) כלומר, אפשר גם לכתוב כך:

\( \int_{a}^{x}g\left(t\right)dt=\lim_{n\to\infty}\int_{a}^{x}f_{n}^{\prime}\left(t\right)dt \)

\( =\lim_{n\to\infty}\left(f_{n}\left(x\right)-f_{n}\left(a\right)\right)=f\left(x\right)-f\left(a\right) \)

כשבשורה האחרונה השתמשנו בהתכנסות הנקודתית של \( f_{n} \) אל \( f \).

אם כן, קיבלנו ש-\( G\left(x\right)=\int_{a}^{x}g\left(t\right)dt=f\left(x\right)-f\left(a\right) \) וזה בדיוק מה שרצינו: \( f\left(x\right)=G\left(x\right)+C \) כאשר \( C=f\left(a\right) \). זה מסיים את ההוכחה הזו, ומה שנשאר לנו לעשות הוא לראות דוגמא לכך שלא היינו יכולים ללכת על המשפט הפשוט יותר שהראיתי בהתחלה.

דרך פשוטה אחת ליצור דוגמא נגדית היא לקחת פונקציות “משוגעות”, כאלו שמשתנות בקצב מאוד מהיר ולכן הנגזרת שלהן בעייתית, אבל לכפול אותן בגורם “מרגיע” שיגרום לכך שהגודל שלהן שואף לאפס - זה נותן לנו סדרה שכל איבר בה הוא משוגע, אבל השגעונות הללו נעלמים כשעוברים לגבול.

סדרה אחת לדוגמא היא \( f_{n}\left(x\right)=\frac{1}{n}\sin\left(n^{2}x\right) \). כאן ה-\( \frac{1}{n} \) הוא הגורם המרגיע, אבל בתוך הסינוס יש לנו \( n^{2} \) ש”משגע” את הסינוס וגורם לכך שככל ש-\( n \) גדול יותר, הסינוס קופץ בין \( -1 \) ל-\( 1 \) בקצב גבוה יותר. העניין פה הוא שתמיד מתקיים \( \left|\sin\left(n^{2}x\right)\right|\le1 \) ולכן כש-\( n \) שואף לאינסוף \( f_{n}\left(x\right) \) שואפת לאפס במידה שווה: עבור \( \varepsilon>0 \) ניקח \( N=\frac{1}{\varepsilon} \) ונקבל שעבור \( n>N \) (ולכן \( \frac{1}{n}<\frac{1}{N} \)) לכל \( x \) מתקיים

\( \left|f_{n}\left(x\right)\right|=\frac{1}{n}\left|\sin\left(n^{2}x\right)\right|\le\frac{1}{n}<\frac{1}{N}=\varepsilon \)

מה שאומר ש-\( f_{n}\to0 \) ולכן אנחנו מצפים שיתקיים \( f_{n}^{\prime}\to0^{\prime}=0 \).

מה קורה בפועל? כשאני גוזר פונקציה בסדרה אני מקבל \( f_{n}^{\prime}\left(x\right)=\frac{1}{n}\cos\left(n^{2}x\right)\cdot n^{2}=n\cos\left(n^{2}x\right) \), ואם אני מציב \( x=0 \) אני מקבל \( f_{n}^{\prime}\left(0\right)=n \), כלומר \( f_{n}^{\prime}\left(0\right)\to\infty \) ובוודאי שהגבול הוא לא 0, כך שסדרת הנגזרות לא מתכנסת לנגזרת של גבול הסדרה המקורית. זה מסיים את הדוגמא הנגדית הזו.

טורים של פונקציות

כל מה שעשינו עד עכשיו התייחס לסדרות של פונקציות אבל כבר ראינו במקרה של סדרות של מספרים שהמעבר לטורים הוא כמעט מיידי. אם יש לנו סדרה של פונקציות \( u_{0}\left(x\right),u_{1}\left(x\right),u_{2}\left(x\right),\ldots \) אנחנו יכולים להגדיר פונקציות “סכום” \( f_{n}\left(x\right)=\sum_{k=0}^{n}u_{k}\left(x\right) \) ואז להגדיר את סכום הטור האינסופי של ה-\( u_{n} \)-ים בתור \( \sum_{n=0}^{\infty}u_{n}\left(x\right)=\lim_{n\to\infty}f_{n}\left(x\right) \). הדברים שראינו עבור סדרות של פונקציות עוברים אוטומטית בלי כמעט שום בעיה: יש לנו מושג של התכנסות במידה שווה של טור, שאומר שסדרת הסכומים החלקיים מתכנסת במידה שווה. אם טור של פונקציות רציפות מתכנס במידה שווה, אז הוא מתכנס לפונקציה רציפה (כי אם כל ה-\( u_{n} \)–ים רציפים אז גם כל \( f_{n} \) היא רציפה כי סכום סופי של פונקציות רציפות הוא פונקציה רציפה, ומכאן נשתמש בתוצאה על גבול של סדרות שכבר ראינו), והוא מקיים \( \int_{a}^{b}\sum_{n=0}^{\infty}u_{n}\left(x\right)=\sum_{n=0}^{\infty}\int_{a}^{b}u_{n}\left(x\right) \), כלומר אפשר “להחליף את סדר הסכום האינסופי והאינטגרל” - הכללה של תכונת הלינאריות של אינטגרל שעובדת עבור סכומים סופיים.

בנוסף יש לנו תוצאה דומה עבור נגזרות, שכפי שראינו דורשת תנאים קצת שונים: אם \( \sum_{n=0}^{\infty}u_{n} \) מתכנס נקודתית אל \( f \) ולכל \( u_{n} \) יש נגזרת אינטגרבילית \( u_{n}^{\prime} \) וטור הנגזרות \( \sum_{n=0}^{\infty}u_{n}^{\prime} \) מתכנס במ”ש, אז \( f^{\prime}=\sum_{n=0}^{\infty}u_{n}^{\prime} \), או בכתיב אחר - \( \left(\sum_{n=0}^{\infty}u_{n}\right)^{\prime}=\sum_{n=0}^{\infty}u_{n}^{\prime} \), כלומר אפשר להחליף את סדר הסכום האינסופי והנגזרת - הכללה של תכונת הלינאריות של נגזרת שעובדת עבור סכומים סופיים.

הנה דוגמא לאופן שבו משתמשים בזה. בפוסט שלי על בעיית איסוף הקופונים צץ באופן טבעי כחלק מהפתרון שלנו הסכום \( \sum_{n=0}^{\infty}nx^{n-1} \) שרצינו לחשב. מה שדי קופץ לעין כאן הוא שהאיבר הכללי של הסכום נראה כמו נגזרת: \( \left(x^{n}\right)^{\prime}=nx^{n-1} \). אז אני משתמש ב-\( \left(\sum_{n=0}^{\infty}u_{n}\right)^{\prime}=\sum_{n=0}^{\infty}u_{n}^{\prime} \) כדי “להוציא את הנגזרת החוצה”:

\( \sum_{n=0}^{\infty}nx^{n-1}=\sum_{n=0}^{\infty}\left(x^{n}\right)^{\prime}=\left(\sum_{n=0}^{\infty}x^{n}\right)^{\prime} \)

זה טוב, בגלל שיש לי את הנוסחה \( \sum_{n=0}^{\infty}x^{n}=\frac{1}{1-x} \) ואת הביטוי הזה קל לגזור: \( \left(\frac{1}{1-x}\right)^{\prime}=\frac{1}{\left(1-x\right)^{2}} \), מה שנותן לנו את התוצאה \( \sum_{n=0}^{\infty}nx^{n-1}=\frac{1}{\left(1-x\right)^{2}} \). אבל זה, כמובן, רק בתנאי שהתנאים של המשפט שלי מתקיימים: רק בתנאי שהטור \( \sum_{n=0}^{\infty}nx^{n-1} \) מתכנס, ושהטור \( \sum_{n=0}^{\infty}x^{n} \) מתכנס במ”ש. עכשיו, ברור שאם נציב \( x=1 \) ב-\( \sum_{n=0}^{\infty}x^{n} \) נקבל את הטור \( \sum_{n=0}^{\infty}1 \) שלא מתכנס בכלל, אז אני צריך מלכתחילה להגביל את עצמי לתחום \( \left|x\right|<1 \) - אבל גם בתחום הזה, איך אני יודע שהטורים מתכנסים?

ספציפית עבור שני הטורים שאני מדבר עליהם כאן יש תורה שלמה ומרתקת שמתעסקת בהתכנסות שלהם שאגיע אליה בפוסט הבא, אבל עוד לפני שנגיע לתיאוריה של טורים ספציפיים יש משפט מועיל במיוחד שצריך להזכיר פה: מבחן ה-M של ויירשטראס.

הרעיון במבחן ה-M הוא פשוט: בואו נמיר את שאלת ההתכנסות במ”ש של טור פונקציות שהיא מסובכת, בשאלת התכנסות של טור מספרים שגם היא מסובכת אבל פחות.

המשפט אומר כך: נניח שיש לנו את טור הפונקציות \( \sum_{n=0}^{\infty}u_{n} \) ויש סדרה \( \left\{ M_{n}\right\} _{n=0}^{\infty} \)של מספרים אי שליליים כך ש-\( \left|u_{n}\left(x\right)\right|\le M_{n} \) לכל \( x\in D \) (כשכזכור \( D \) הוא התחום שעליו כל ה-\( u_{n} \) מוגדרות) ואם בנוסף לזה מתקיים שהטור \( \sum_{n=0}^{\infty}M_{n} \) מתכנס (התכנסות רגילה של טורי מספרים) אז \( \sum_{n=0}^{\infty}u_{n} \) מתכנס במ”ש ב-\( D \).

איך מוכיחים את זה? ראשית צריך להראות ש-\( \sum_{n=0}^{\infty}u_{n} \) בכלל מתכנס אל משהו. ניקח \( x\in D \) כלשהו ונסתכל על טור המספרים \( \sum_{n=0}^{\infty}\left|u_{n}\left(x\right)\right| \). עכשיו נשלוף שני דברים מהתורה של סכומים אינסופיים של מספרים:

מבחן ההשוואה: אם \( 0\le a_{n}\le b_{n} \) לכל \( n \) והטור \( \sum_{n=0}^{\infty}b_{n} \) מתכנס, אז הטור \( \sum_{n=0}^{\infty}a_{n} \) מתכנס.
אם \( \sum_{n=0}^{\infty}\left|a_{n}\right| \) מתכנס אז \( \sum_{n=0}^{\infty}a_{n} \) מתכנס (התכנסות בהחלט של טור גוררת התכנסות שלו).

אצלנו \( 0\le\left|u_{n}\left(x\right)\right|\le M_{n} \) בשילוב עם ההתכנסות של \( \sum_{n=0}^{\infty}M_{n} \) ומבחן ההשוואה מראים שהטור \( \sum_{n=0}^{\infty}\left|u_{n}\left(x\right)\right| \) מתכנס (עבור \( x\in D \) ספציפי), ולכן \( \sum_{n=0}^{\infty}u_{n}\left(x\right) \) גם מתכנס. זה מאפשר לנו להגדיר פונקציה \( f\left(x\right)=\sum_{n=0}^{\infty}u_{n}\left(x\right) \) לכל \( x\in D \), ורק נשאר להראות ש-\( \sum_{n=0}^{\infty}u_{n} \) מתכנס במ”ש אל \( f \); כלומר, שאם נגדיר \( f_{n}\left(x\right)=\sum_{k=0}^{n}u_{k}\left(x\right) \) אז סדרת הפונקציות \( f_{n} \) מתכנסת במ”ש אל \( f \).

נוכיח את זה בצורה הרגילה: נאמר “יהא \( \varepsilon>0 \)” ועכשיו נרצה למצוא \( N \) כך שאם \( n>N \) אז \( \left|f\left(x\right)-f_{n}\left(x\right)\right|<\varepsilon \) לכל \( x\in D \). זה דורש חישוב די ישיר:

\( \left|f\left(x\right)-f_{n}\left(x\right)\right|=\left|\sum_{n=0}^{\infty}u_{n}\left(x\right)-\sum_{k=0}^{n}u_{k}\left(x\right)\right|= \)

\( =\left|\sum_{k=n+1}^{\infty}u_{k}\left(x\right)\right|\le\sum_{k=n+1}^{\infty}\left|u_{k}\left(x\right)\right|\le\sum_{k=n+1}^{\infty}M_{k} \)

עכשיו, מכיוון ש-\( \sum_{n=0}^{\infty}M_{n} \) מתכנס, הזנב של הטור שואף לאפס (כי אם סכום הטור הוא \( L \), הזנב הוא הסדרה \( L-S_{n} \) ומכיוון ש-\( S_{n}\to L \) הסדרה הזו שואפת לאפס), כלומר לכל \( \varepsilon>0 \) קיים \( N \) כך שאם \( n>N \) אז \( \left|\sum_{k=n+1}^{\infty}M_{k}\right|\le\varepsilon \), מה שמסיים את ההוכחה (כי ה-\( M_{k} \)-ים הם אי שליליים ולכן \( \left|\sum_{k=n+1}^{\infty}M_{k}\right|=\sum_{k=n+1}^{\infty}M_{k} \)).

אם כן, אלו התוצאות הכלליות שבדרך כלל מציגים בתחילת הדיון על הנושאים הללו. בפוסט הבא אני אקפוץ אל סוג ספציפי של טורי פונקציות, שגם מתנהגים יפה יותר מאשר במקרה הכללי, והם גם שימושיים בצורה יוצאת מן הכלל - טורי חזקות.