Jekyll2024-03-14T06:26:55+00:00http://gadial.net/feed.xmlלא מדויקבלוג על מתמטיקה ומדעי המחשבמה כל הסיפור הזה עם הערך של פאי בתנ”ך?2024-03-14T00:00:00+00:002024-03-14T00:00:00+00:00http://gadial.net/2024/03/14/pi_in_the_bible<h2>מבוא</h2>
<p>אחד מהכוכבים הגדולים של המתמטיקה הוא המספר הקבוע פאי, <span>\( \pi \)</span>, שמוגדר בתור היחס הקבוע בין היקף של מעגל לקוטר שלו. זה מספר ששווה בערך ל-<span>\( 3.14159 \)</span>, אבל אני אומר “בערך” כי <span>\( \pi \)</span> הוא מה שנקרא “מספר אי רציונלי” - מספר שאם ננסה לכתוב בבסיס עשרוני נזדקק לאינסוף ספרות, בלי מחזוריות כלשהי. זה אומר שכשעובדים עם פאי משתמשים <strong>בקירוב</strong> שלו, וזה יוצר שני סוגים מעניינים של קירובים - ראשית, קירובים שהם מספיק טובים כדי לעבוד איתם בפועל, ושנית - קירובים שהם <strong>ממש טובים</strong> בשלל מובנים שונים ומשונים.</p>
<p>אי שם בעבר הרחוק, עוד לפני שהתחלתי ללמוד מתמטיקה בצורה מסודרת, נתקלתי ב-<span>\( \pi \)</span> בתוך ויכוח שכבר אז נראה לי תמוה במיוחד, בין אנטי-דתיים שמנסים לשכנע את העולם שהתנ”ך כולו הוא שטות אחת גדולה, והמתנגדים להם שמנסים לשכנע שבתנ”ך יש גאונות שמיימית ממש. כל המהומה הזו התרכזה סביב פסוק אחד בספר מלכים, שאם קוראים אותו כפשוטו נראה שהוא אומר ש-<span>\( \pi=3 \)</span>, אבל יש קונץ מרהיב שאם משתמשים בו אפשר לטעון שהפסוק מקודד קירוב <strong>ממש טוב</strong> של פאי, את הקירוב <span>\( \frac{333}{106}=3.14151\ldots \)</span> שמדויק בחמש הספרות הראשונות שלו.</p>
<p>מאחורי הויכוח הבאמת מיותר הזה מסתתרים שני עולמות מעניינים באמת. עולם אחד הוא העולם המתמטי של קירובים לפאי ובאופן כללי קירובים לדברים, שאני הולך לנצל את הפוסט הזה כדי לתת טעימה קטנה ממנו; העולם השני הוא העולם ההלכתי שכבר דן בנושא הפסוק הזה מכל זווית אפשרית בערך ואני בהחלט לא הולך להיכנס לעובי הקורה של כל מה שהולך שם כי עבורי, שמגיע מגישה מתמטית ולא דתית, רוב העיסוק בנושא נראה כמו נסיון לענות על שאלה שאין צורך לשאול בכלל. אבל אני אנסה להבהיר מה השאלה וקצת מהרעיון הכללי של הפתרונות.</p>
<p>המטרה של הפוסט הזה היא לא להתנגח באף אחד (טוב, אולי חוץ מאלו שחושבים שה-<span>\( \pi=3 \)</span> הוא תירוץ לומר שהתנ”ך הוא שטות) אלא <strong>לראות דברים מעניינים</strong>, ובאופן די משמח הסיפור הזה נותן לנו תירוץ לראות כאלו.</p>
<p>בואו נתחיל להיכנס לפרטים.</p>
<h2>חלק ראשון - מה בכלל הבעיה</h2>
<p>מקור כל המהומה הוא פסוק כ”ג בספר מלכים א’, פרק ז’. זה פרק לא מרתק במיוחד (עבורי) שמדבר על בניית בית המקדש הראשון בידי שלמה ונכנס לפרטים טכניים למדי. אחד מהדברים שנבנו במקדש הוא מאגר מים מנחושת שנקרא “הים” והוא מתואר כך:</p>
<blockquote>
<p>ויעש את הים מוצק עשר באמה משפתו עד שפתו עגל סביב וחמש באמה קומתו וקוה [וקו] שלשים באמה יסב אתו סביב</p>
</blockquote>
<p>הים הוא “עגול סביב”, כלומר בקריאה הפשוטה של הפסוק אנחנו חושבים עליו בתור עיגול. המרחק “משפתו עד שפתו” הוא 10 (10 אמה, אבל כשהמדידות יהיו באמות לא אטרח לציין את זה אלא אם תהיה לי סיבה טובה) - כאן הכוונה היא ככל הנראה <strong>לקוטר</strong>, שהוא קו בעיגול שמתחיל בשפה אחת, <strong>עובר דרך מרכז העיגול</strong> ומגיע לשפה בצד השני. זה הקו הארוך ביותר בעיגול שעובר משפה אל שפה (אם לא חייבים לעבור דרך המרכז, מקבלים קווים קצרים יותר)</p>
<p><img src="/assets/img/2024/pi_in_bible.png" alt="" /></p>
<p>הגובה של הים הוא 5, אבל זה לא מעניין אותנו כל כך אלא ההמשך - ה”קו” (שנכתב בתור “קוה”) שסובב את העיגול - כלומר, החלק החיצוני שלו, מה שנקרא <strong>ההיקף</strong> של העיגול הוא באורך 30.</p>
<p>עכשיו, מה אמרנו על <span>\( \pi \)</span>? זה היחס בין <strong>היקף</strong> מעגל ל<strong>קוטר</strong>. מה שמקבלים כשמחלקים אחד בשני. במקרה שלנו ההיקף הוא 30 והקוטר הוא 10 ולכן <span>\( \pi=3 \)</span> עד כאן הכל טוב, אבל הנה הצרות מתחילות, כי העניין הוא זה: בגאומטריה אוקלידית (שהיא הגאומטריה שלנו ביומיום), <strong>כל</strong> מעגל שנצייר יהיה בעל בדיוק אותו יחס בין ההיקף לקוטר שלו - זה מספר <strong>קבוע</strong>. הוא לא תלוי בעיגול ספציפי זה או אחר. ובכולם הוא יוצא משהו שהוא לא 3 אלא כאמור בערך <span>\( 3.14159 \)</span>. לפעמים אנחנו נוהגים לכתוב <span>\( \pi=3.14159\ldots \)</span> עם שלוש נקודות כדי להגיד “וכאן הספרות עדיין לא נגמרות”.</p>
<p>אם כן, שוד ושבר, קיבלנו שהפסוק בתנ”ך <strong>לא מדויק</strong> מבחינה מתמטית! זו הנקודה שעליה שונאי התנ”ך עורכים את החגיגות שלהם, ואני חייב להודות שלא היה לי אז ועדיין אין לי היום שמץ של מושג מה הם רוצים, פשוט כי מבחינתי אין שום סיבה שהתנ”ך <strong>כן יהיה מדויק</strong> בנקודה הזו. אני חושב שבמובן מסוים חלק נכבד מהעיסוק המתמטי הוא בדיוק במתן אפשרות לנו <strong>לא להיות מדויקים</strong> כי אנחנו יודעים ש”עמוק בפנים” הכל כן בסדר ואנחנו מבינים דברים עד הסוף, אבל כדי שאפשר יהיה לעשות דברים בחיי היום יום אי אפשר להסתרבל עד אין קץ עם דיוק מוחלט, אז מזהים איך אפשר לוותר על הדיוק בלי שיגרם מכך נזק. השימושיות של המתמטיקה בתחומים כמו פיזיקה, למשל, מתבססת בדיוק על היכולת הזו.</p>
<p>אם, נאמר, הקוטר של העיגול אצל שלמה היה 10 ואנחנו רוצים להיות “מדויקים” אז ההיקף היה צריך להיות <span>\( 31.4159\ldots \)</span>. אז מה התנ”ך היה צריך לעשות? לומר “וקוה שלשים ואחד ועשירית אמה”? בשביל מה זה טוב, בעצם? יודעים מה, אני מנחש שהגובה של הים אצל שלמה היה בכלל 4.96 אמה והסופר המקראי עיגל את זה ל-5. ובכלל, איך ידעו מה ההיקף? צריך למדוד. האם מכשירי המדידה היו מדויקים? אולי המודד עצמו בחר לתת קירוב?</p>
<p>אפשר כמובן לומר שזו לא סתם איזו באר אקראית שמישהו בנה איפה שהוא. זה <strong>בית המקדש של שלמה</strong>, הכל פה היה מחושב ומדוקדק עד הפיפס האחרון. עוד טיעון שקראתי הוא שמכיוון שכותב ספר מלכים היה (על פי המסורת, לא על פי הידע ההיסטורי שלנו) הנביא ירמיהו, הוא מחוייב לרמת דיוק גבוהה. כך <a href="https://daf-yomi.com/Data/UploadedFiles/DY_Item/21454-sFile.doc">במאמר של ניסן יואלי</a> שדווקא מגיע מהגישה הפרו-דתית:</p>
<blockquote>
<p>הנביא הוא נביא אמת אין אצלו “בערך”. נביא שלא דייק במשהו בנבואתו הוא נביא שקר ועונשו מיתה.</p>
</blockquote>
<p>או…קיי… על זה אומרים אצלנו, That escalated quickly. עכשיו תראו, במסגרת התחקיר שלי לפוסט הזה נתקלתי גם במאמרים מנקודת מבט דתית שפחות מתרגשים מהסיפור הזה. זה באמת ויכוח פנים דתי שמשתמש בטיעונים דתיים שלא רלוונטיים עבורי. אבל מה שנחמד הוא שהתחושה שחייבים לתת הסבר מניבה רעיונות יצירתיים, למשל השערות שונות ומשונות על הצורה המדויקת של הים. הנה <a href="https://daf-yomi.com/Data/UploadedFiles/DY_Item/21447-sFile.pdf">מאמר יפה של דוד אימבר</a> שנכנס לפרטים ויש בו ציורים. במאמר הזה גם אפשר לראות שבעצם העניין פה הוא לא רק הפסוק שהבאתי, אלא גם מערכת אילוצים נוספת שצצה בעקבות פסוק כ”ו בהמשך הפרק:</p>
<blockquote>
<p>ועביו טפח ושפתו כמעשה שפת כוס פרח שושן אלפים בת יכיל</p>
</blockquote>
<p>כלומר יש לנו כאן גם מידה לעובי של הים, וגם את הקיבולת שלו. העובי הוא “טפח” והקיבולת היא “אלפים בת”. להבנתי הדלה, “אלפים בת” מתורגם אל 450 אמה מעוקבת, ואילו “טפח” בהקשר הספציפי הזה מתורגם אל שישית (או שמא חמישית?) אמה. חז”ל עסקו בזה במסכת עירובין יד ב, אבל כפי שאפשר להבין זה לא סיים את הסיפור בצורה חד משמעית. עכשיו, למרות שאני אישית בא מגישת “מי שזה לא יהיה שכתב את זה פשוט לא חש צורך להיות יותר מדויק מזה”, ההסברים שמתארים צורות אפשריות של הים הם די נחמדים בעיני. רק צריך לזכור, כמובן, שלא משנה כמה ההסבר יהיה טוב, המספרים אף פעם לא יהיו <strong>מדויקים</strong> כי זה פשוט בלתי אפשרי להיות מדויק כשפאי מעורב בנושא אבל את כל הגדלים כותבים עם מספרים טבעיים. אז אפשר לומר “אם הנביא אומר <span>\( \pi=3 \)</span> צריך להרוג אותו אבל אם הוא אומר <span>\( \pi=3.14159 \)</span> הכל טוב”, אבל אני לא כל כך מבין את ההבדל של חיים ומוות בין שני הקירובים.</p>
<p>העניין הוא ש<strong>מעבר לכל הדיון ההלכתי</strong> יש עוד משהו, שאני קורא לו “קוריוז” או “תעלול” ואחרים יקראו לו “רמז”.</p>
<h2>חלק שני, שבו קירוב טוב צץ באופן די מפתיע</h2>
<p>את מה שאני אתאר עכשיו ראיתי שמייחסים בעיקר לגאון מוילנא (הגר”א) שחי במאה ה-18 ובנוסף להשכלה התורנית שלו היה גם בעל השכלה מדעית רחבה. אבל מצד שני, ראיתי גם טענות שהגר”א מעולם לא כתב את הדבר הזה והאזכור הראשון שלו הוא כנראה במאמר של הרב מתתיהו מונק מ-1962 (“שלוש בעיות הנדסיות בתנ”ך ובתלמוד”, סיני, נא. תשכ”ב). מי שזה לא יהיה שגילה את זה, אני רוצה להצדיע לו - זה באמת קוריוז חמוד ביותר ואני תוהה איך הוא שם לב אליו.</p>
<p>הנה הטיעון כפי שנתקלתי בו אי-אז. הבה ונחזור לפסוק מספר מלכים:</p>
<blockquote>
<p>ויעש את הים מוצק עשר באמה משפתו עד שפתו עגל סביב וחמש באמה קומתו וקוה [וקו] שלשים באמה יסב אתו סביב</p>
</blockquote>
<p>מה זה ה”קו” שמופיע בסוגריים? זה מה שנקרא בהקשר של התנ”ך “קרי וכתיב” שהוא חלק מהמסורה של התנ”ך. ה”כתיב” הוא ה”קוה” שמופיע בטקסט ואילו ה”קרי” הוא ה”קו” - זו הדרך שבה נהוג לקרוא את המילה (כמו כן, בדברי הימים ב’ פרק ד’ פסוק ב’ מופיע אותו הפסוק ממלכים עם הכתיב “קו”).</p>
<p>עכשיו, מה הערך הגימטרי של הקרי והכתיב? כלומר, כאשר נותנים ערך מספרי לאותיות על פי שיטת הספירה המקובלת בספרות עבריות? ק’ הוא 100, ו’ הוא 6 וה’ הוא 5, כך ש”קוה” שווה 111 ואילו “קו” שווה 106. והנה התעלול: בואו ניקח את הערך <span>\( 3 \)</span> להיקף חלקי הקוטר שאפשר להסיק מיידית מהפסוק, נכפול אותו ב-111, נחלק אותו ב-106 ונקבל</p>
<p><span>\( 3\cdot\frac{111}{106}=\frac{333}{106}=3.14151\ldots \)</span></p>
<p>וזה קירוב טוב מאוד של <span>\( \pi \)</span>! אבל למעשה, זה לא סתם קירוב “טוב”, זה קירוב <strong>פנטסטי</strong> של <span>\( \pi \)</span>, כזה שאפשר לתת הצדקה מתמטית לכמה שהוא טוב. מבחינה מתמטית זה כנראה החלק הכי מעניין (עבורי) בפוסט הזה, אז בואו נסביר אותו עד הסוף (מה שכנראה גם יסייע לנו להבין שיש קירוב <strong>הרבה יותר</strong> טוב שממש קרוב אליו).</p>
<p>ראשית, בואו נבהיר למה בכלל צריך “לקרב” את פאי, במחיר של קצת לחזור על דברים שאמרתי קודם: מספר כמו <span>\( \frac{333}{106} \)</span> נקרא <strong>שבר</strong>. הוא מורכב משני מספרים שלמים שמחלקים אותם אחד בשני - זה שלמעלה נקרא <strong>המונה</strong> (333 אצלנו) וזה שלמטה נקרא <strong>המכנה</strong> (106 אצלנו). אנחנו כמובן מכירים שברים כבר מגיל צעיר למדי ורגילים לעשות איתם דברים גם בחיי היומיום. במתמטית נפוצה אנחנו קוראים להם <strong>מספרים רציונליים</strong> (כאן ה”רציו” מסמל יחס, ratio, לא “הגיון”) וזה שם קצת פחות נפוץ במציאות. מה שקצת פחות ברור בחיי היומיום הוא <strong>שלא כל המספרים הם כאלו</strong>. ואני לא מתכוון במובן של “42 הוא לא שבר” (הוא כן! למשל הוא <span>\( \frac{42}{1} \)</span> או <span>\( \frac{84}{2} \)</span> וכדומה) אלא במובן זה שיש מספרים שאי אפשר לכתוב בתור שבר. הדוגמא המפורסמת ביותר היא <span>\( \sqrt{2} \)</span>, והצגתי הוכחה לזה <a href="https://gadial.net/2007/06/11/irrational_numbers/">כאן</a>, אבל גם <span>\( \pi \)</span> הוא כזה: פשוט <strong>לא קיימים</strong> שני מספרים שלמים <span>\( a,b \)</span> כך ש-<span>\( \pi=\frac{a}{b} \)</span>. לכן כל נסיון לתאר את <span>\( \pi \)</span> עם שבר יהיה רק <strong>קירוב</strong>, ולכן מעניין מה הקירוב <strong>הטוב ביותר</strong> עם שבר שקיים עבור פאי.</p>
<p>אלא שכאן הסיפור מסתבך - אפשר למצוא קירובים <strong>טובים כרצוננו</strong>. אם אני ארשה למכנה של השבר של המכנה לגדול ולגדול אני אוכל לקבל סדרה של קירובים שהולכת ומשתפרת, כך ש”השגיאה” (הערך המוחלט של ההפרש בין הקירוב ובין <span>\( \pi \)</span>) תקטן עוד ועוד (טכנית: לכל <span>\( \varepsilon>0 \)</span> יהיה קירוב שעבורו השגיאה תהיה קטנה מ-<span>\( \varepsilon \)</span>). הנה דוגמא לסדרה אפשרית אחת כזו: <span>\( \frac{3}{1},\frac{31}{10},\frac{314}{100},\frac{3141}{1000},\ldots \)</span> וכן הלאה. זו בעצם כתיבה בתור שבר של המספרים <span>\( 3,3.1,3.14,3.141 \)</span>, כלומר בכל פעם אני מוסיף עוד ספרה אחרי הנקודה העשרונית ולכן הדיוק שלי משתפר.</p>
<p>העניין הוא שהקירובים הללו הם <strong>לא טובים במיוחד</strong>. בואו נסתכל למשל על הקירוב <span>\( \frac{314}{100} \)</span>. ה”שגיאה” של הקירוב הזה היא <span>\( \left|3.14151\ldots-3.14\right|=0.00151\ldots \)</span>, נראה לא רע! אבל עכשיו בואו נסתכל על קירוב אחר, <span>\( \frac{22}{7}=3.1428\ldots \)</span>. אם נחשב, נקבל <span>\( \left|\pi-\frac{22}{7}\right|=0.00126\ldots \)</span> וזה קירוב טוב <strong>יותר</strong> מה-<span>\( 0.00151\ldots \)</span> שנותן <span>\( \frac{314}{100} \)</span>. העניין הוא ש-<span>\( \frac{22}{7} \)</span> אמור לכאורה להיות קירוב “גס” הרבה יותר, כי מה קורה כאן? ב-<span>\( \frac{22}{7} \)</span> אנחנו לוקחים חלקים בגודל <span>\( \frac{1}{7} \)</span> ומחברים אותם זה לזה עד שאנחנו קרובים אל <span>\( \pi \)</span>. לעומת זאת ב-<span>\( \frac{314}{100} \)</span> אנחנו לוקחים חלקים מגודל <span>\( \frac{1}{100} \)</span> ומחברים אותם זה לזה. <span>\( \frac{1}{100} \)</span> הוא מספר הרבה יותר קטן מ-<span>\( \frac{1}{7} \)</span>; אפשר היה לצפות שקירוב שמתבצע בעזרת חלקים קטנים יותר יהיה מדויק יותר, אבל הנה, זה לא בהכרח המצב.</p>
<p>איך אפשר למצוא קירובים טובים יחסית בקלות? ובכן, זה קל אם יש לנו מחשב וקירוב <strong>מאוד טוב</strong> של פאי, למשל <span>\( 3.1415926535897932 \)</span>. הנה שיטה פשוטה ממש לעשות את זה: לכל <span>\( b\ge1 \)</span> טבעי, אני רוצה למצוא את <span>\( a \)</span> שעבורו <span>\( \frac{a}{b} \)</span> הוא הקירוב הכי טוב ל-<span>\( \pi \)</span> מבין כל הקירובים עם מכנה <span>\( b \)</span>. אני פשוט אבדוק ערכים שונים של <span>\( a \)</span>, אחשב את <span>\( \left|\frac{a}{b}-\pi\right| \)</span> (באמצעות הקירוב של <span>\( \pi \)</span> שיש לי) ואקח מהם את הכי טוב. החוכמה היא לא לבדוק יותר מדי ערכים של <span>\( a \)</span>, אז אפשר לעשות את הדבר הבא: להתחיל מ-<span>\( a=3b \)</span>, כלומר כך ש-<span>\( \frac{a}{b}=3 \)</span> נותן לנו קירוב סביר של <span>\( \pi \)</span> מלמטה. עכשיו נתחיל להגדיל את <span>\( a \)</span> ב-1 בכל פעם, עד שבסוף נגיע לשלב שבו <span>\( \frac{a}{b} \)</span> הוא לראשונה <strong>גדול יותר</strong> מ-<span>\( \pi \)</span>. זה אומר ש-<span>\( \frac{a-1}{b} \)</span> היה הקירוב הכי טוב של <span>\( \pi \)</span> מלמטה, ו-<span>\( \frac{a}{b} \)</span> הוא הקירוב הכי טוב של <span>\( \pi \)</span> מלמעלה שנוכל להשיג עם מכנה <span>\( b \)</span>. נבדוק מי משניהם יותר טוב (כלומר, מקטין יותר את <span>\( \left|\frac{a}{b}-\pi\right| \)</span>) וניקח אותו. למשל, עבור <span>\( b=7 \)</span> אנחנו מתחילים מ-<span>\( a=21 \)</span> ועבורו מקבלים את הקירוב מלמטה <span>\( \frac{21}{7}=3 \)</span>. הערך הבא בתור, <span>\( \frac{22}{7}=3.1428571428\ldots \)</span> כבר גדול יותר מ-<span>\( \pi \)</span>, אבל זהה ל-<span>\( \pi \)</span> בשלוש הספרות הראשונות ולכן קירוב טוב יותר מ-<span>\( \frac{21}{7} \)</span>, כך שקיבלנו את <span>\( \frac{22}{7} \)</span> בתור הקירוב הכי טוב עם מכנה <span>\( 7 \)</span>.</p>
<p>אם ננסה את אותו תעלול עם <span>\( b=8 \)</span> צפויה לנו אכזבה. אנחנו נתחיל מ-<span>\( \frac{24}{8}=3 \)</span>, נעלה אל <span>\( \frac{25}{8}=3.125 \)</span> ומשם נגיע אל <span>\( \frac{26}{8}=3.25 \)</span> - אלו הקירובים מלמעלה ומלמטה, ושניהם פחות טובים מ-<span>\( \frac{22}{7} \)</span>. לכן אם אני שואל את השאלה “מה הקירוב הכי טוב ל-<span>\( \pi \)</span> מהצורה <span>\( \frac{a}{b} \)</span> כאשר <span>\( b\le8 \)</span>?” התשובה תהיה <span>\( \frac{22}{7} \)</span>. בצורה הזו אני יכול להגדיר סדרה של קירובים ל-<span>\( \pi \)</span> שהם הכי טובים שאפשר עם מכנה שקטן או שווה למכנה שלהם. אני אקבל את הסדרה הבאה:</p>
<p><span>\( \frac{3}{1},\frac{13}{4},\frac{16}{5},\frac{19}{6},\frac{22}{7},\frac{179}{57},\frac{201}{64},\frac{223}{71},\frac{245}{78},\frac{267}{85},\frac{289}{92},\frac{311}{99},\frac{333}{106},\frac{355}{113},\frac{52163}{16604},\ldots \)</span></p>
<p>הופה, רגע, מה הולך פה? שימו לב לקפיצה האסטרונומית בין <span>\( \frac{355}{113} \)</span> אל <span>\( \frac{52163}{16604} \)</span>. הקפיצה הזו מראה לנו ש-<span>\( \frac{355}{113}=3.1415929\ldots \)</span> הוא קירוב <strong>מדהים לחלוטין</strong>, כזה שלוקח המון, המון, המון זמן אחריו למצוא קירוב טוב ממנו. הקירוב שהגיע ממש לפניו, <span>\( \frac{333}{106}=3.1415094\ldots \)</span> גם הוא קירוב טוב, אבל לא באותה רמה. ב-<span>\( \frac{355}{113} \)</span> יש דיוק של 7 ספרות (<span>\( 3.141592 \)</span>) וב-<span>\( \frac{333}{106} \)</span> יש “רק” דיוק של 5 ספרות (<span>\( 3.1415 \)</span>). עדיין, אני רוצה להגן על <span>\( \frac{333}{106} \)</span> ולטעון שגם הוא קירוב די מיוחד, ולצורך כך אני אתאר את הדבר הכי מוזר שנשמע עליו בפוסט הזה - ובהתאם, הדבר שאני הכי אוהב פה: הייצוג של <span>\( \pi \)</span> בתור <strong>שבר משולב</strong>. נקדיש לזה חלק נפרד לטובת אלו שרוצים פשוט לדלג.</p>
<h2>חלק שלישי, שבו שברים משולבים הם מגניבים</h2>
<p>בואו נחזור לרגע לאופן שבו אני מציג את <span>\( \pi \)</span> בדרך כלל: <span>\( \pi=3.141\ldots \)</span>. מה שיש לנו כאן הוא ייצוג של <span>\( \pi \)</span> באמצעות סדרה של ספרות שבעצם מגדירה לנו סדרה של <strong>קירובים</strong> שהולכים ומתקרבים אל <span>\( \pi \)</span>: הסדרה <span>\( 3,3.1,3.14 \)</span> וכן הלאה. כל קירוב כזה בעצם מתקבל באמצעות <strong>חישוב</strong> פשוט שמשתמש בספרות: למשל, <span>\( 3.14 \)</span> הוא בעצם <span>\( 3\cdot10^{0}+1\cdot10^{-1}+4\cdot10^{-2} \)</span>. כל זה טבעי ופשוט לנו (אני מקווה) אבל חשוב לי להציג את זה ככה כי אני הולך עכשיו להציג עוד שיטה שבה מייצגים את <span>\( \pi \)</span> באמצעות סדרה של ספרות שבעצם מגדירה לנו סדרה של קירובים שהולכים ומתקרבים אל <span>\( \pi \)</span> שמתקבלים באמצעות חישוב פשוט, אבל הדרך הזו תהיה מוזרה למדי למי שמעולם לא ראה אותה.</p>
<p>הסיבה שבגללה הדרך הזו מעניינת היא כי כל הקירובים שהיא נותנת יהיו <strong>טובים ביותר</strong>. מה זה אומר? כזכור, ראינו את סדרת הקירובים הטובים הבאה של <span>\( \pi \)</span>:</p>
<p><span>\( \frac{3}{1},\frac{13}{4},\frac{16}{5},\frac{19}{6},\frac{22}{7},\frac{179}{57},\frac{201}{64},\frac{223}{71},\frac{245}{78},\frac{267}{85},\frac{289}{92},\frac{311}{99},\frac{333}{106},\frac{355}{113},\frac{52163}{16604},\ldots \)</span></p>
<p>אף אחד מהקירובים שמתקבל מהפיתוח העשרוני<span>\( \pi=3.141\ldots \)</span> לא נמנה על הסדרה הזו, חוץ מה-3 בהתחלה (בניסוח אחר: אין בסדרה הזו אף קירוב חוץ מ-3 שבו המכנה הוא חזקה של 10). לעומת זאת, בשיטה שאציג עכשיו <strong>מובטח</strong> לנו שכל קירוב שמתקבל שייך לסדרה הזו - אבל לא כולם יופיעו בה; אנחנו נראה שהקריטריון שמבטיח שקירוב יופיע בסדרה הוא שהקירוב הזה הוא “אקסטרה משובח” (אבל כן יכולים להופיע בסדרה הזו קירובים מעולים שהם קצת פחות טובים).</p>
<p>ובכן, זה נראה ככה:</p>
<p><span>\( \pi=3+\frac{1}{7+\frac{1}{15+\frac{1}{1+\ddots}}} \)</span></p>
<p>מה הולך פה? יש ביטוי מהצורה <span>\( 3 \)</span> ועוד שבר שהמונה שלו הוא 1 אבל המכנה שלו מסובך: גם המכנה הוא מהצורה “משהו ועוד 1 חלקי משהו מסובך” וכך זה ממשיך עוד ועוד עד לנצח. בגלל שקשה לכתוב את זה ככה, לרוב מסתפקים בלכתוב את סדרת הספרות שמופיעות בתוך המפלצת הזו, לא כולל ה-1-ים שבמונה. כלומר כותבים משהו כמו</p>
<p><span>\( \left[3;7,15,1,\ldots\right] \)</span></p>
<p>איפה פה סדרת הקירובים שהבטחתי? ובכן, אפשר לקחת את הסדרה של ה”הספרות” ופשוט לעצור אותה אחרי מספר צעדים סופי ולחשב מה מקבלים על פי כללי החשבון הרגילים של שברים. בואו נעשה את זה.</p>
<p>ראשית, אם לוקחים רק את 3, מקבלים רק את 3, שזה אחלה קירוב אבל לא כזה מעניין. מה קורה אם לוקחים את 3 ואת 7? מקבלים את הביטוי</p>
<p><span>\( 3+\frac{1}{7}=\frac{21+1}{7}=\frac{22}{7} \)</span></p>
<p>הופה! קיבלנו את <span>\( \frac{22}{7} \)</span> שכבר ראינו לא מעט בפוסט הזה. עכשיו שאנחנו בשוונג, בואו נעשה עוד אחד:</p>
<p><span>\( 3+\frac{1}{7+\frac{1}{15}}=3+\frac{1}{\frac{106}{15}}=3+\frac{15}{106}=\frac{333}{106} \)</span></p>
<p>הופה, תראו את מה קיבלנו עכשיו! את הקירוב מהתנ”ך! זו הסיבה שבגללה אמרתי שגם הקירוב הזה הוא די מיוחד. ואם קיבלתי אותו, קל לנחש מה הדבר הבא שנקבל - את <span>\( \frac{355}{113} \)</span> המהולל. אבל בואו נבצע את החישוב הפורמלי בכל זאת:</p>
<p><span>\( 3+\frac{1}{7+\frac{1}{15+\frac{1}{1}}}=3+\frac{1}{7+\frac{1}{16}}=3+\frac{1}{\frac{113}{16}}=3+\frac{16}{113}=\frac{355}{113} \)</span></p>
<p>לי אישית כל זה מרגיש כמו קסם גדול יותר ממה שקורה בתנ”ך, אבל אין כאן מקריות - שברים משולבים יכולים לשמש אותנו לתיאור <strong>כל מספר ממשי</strong> ולכל אחד מהם יתקיים אותו עיקרון - השברים המשולבים יתנו את סדרת הקירובים האופטימלית עבורו. <a href="https://gadial.net/2010/05/29/continued_fractions_1/">יש לי פוסטים בנושא</a> אז לא אכנס לעובי הקורה של ההסברים למה זה עובד. אבל כן מעניין איך בעצם מחשבים את הייצוג בעזרת שבר משולב של משהו כמו <span>\( \pi \)</span> ומה המשמעות המדויקת של זה שהוא נותן קירובים “טובים”. ביתר החלק אני אסביר את זה; מי שרוצים להמשיך לדבר על פאי בתנ”ך וזהו יכולים לקפוץ לחלק הבא.</p>
<p>אז ראשית, איך מוצאים שבר משולב עבור <span>\( \pi \)</span>? נתחיל מלומר שאנחנו לא יודעים את השבר המשולב במובן זה שאין לנו נוסחה כללית עבור המספרים שמופיעים בו - בדיוק כמו שקורה עם ספרות של <span>\( \pi \)</span> בייצוג עשרוני, מה שיש לנו הוא פשוט חישוב שהניב מספר גדול מאוד של ספרות. כלומר, בשורה התחתונה מה שידוע לנו הוא תמיד רק <strong>קירוב</strong> טוב מאוד של <span>\( \pi \)</span>. השיטות שיש לנו למציאה של קירוב כזה של <span>\( \pi \)</span> מתבססות לרוב על ייצוג שלו בתור <strong>טור אינסופי</strong>, ואני לא אכנס כאן לאופן שבו מוצאים ייצוגים כאלו (אבל לגמרי הגיע הזמן לכתוב פוסטים בנושא) אלא פשוט אציג את אחד מהייצוגים השימושיים:</p>
<p><span>\( \pi=\sum_{k=0}^{\infty}\frac{2^{k+1}k!^{2}}{\left(2k+1\right)!} \)</span></p>
<p>בעזרת טור כזה אפשר לחשב קירוב מצוין של פאי, ואז להשתמש על הקירוב הזה בשיטה הכללית למציאת שבר משולב של מספר כלשהו <span>\( x \)</span>. התוצאה תהיה שבר משולב שהספרות הראשונות בו מתאימות לשבר המשולב של פאי.</p>
<p>הרעיון הוא כזה: ראשית מגדירים <span>\( x_{0}=x \)</span>. עכשיו, אנחנו רוצים למצוא ייצוג מהצורה <span>\( x=a_{0}+\frac{1}{a_{1}+\frac{1}{a_{2}+\ddots}} \)</span>. כלומר, הצעד הראשון שלנו הוא להפריד את <span>\( x \)</span> למספר שלם (ה-<span>\( a_{0} \)</span>) ועוד איזה חלק שהוא קטן מ-1 (כל היתר). אז מגדירים <span>\( a_{0}=\left[x_{0}\right] \)</span>, כלומר <span>\( a_{0} \)</span> הוא <strong>החלק השלם</strong> של <span>\( x_{0} \)</span> - המספר הטבעי הגדול ביותר שקטן או שווה ל-<span>\( x_{0} \)</span> (במקרה של <span>\( \pi \)</span> מקבלים <span>\( a_{0}=3 \)</span>). נגדיר <span>\( b_{0}=x_{0}-a_{0} \)</span>, ועכשיו אפשר לכתוב <span>\( b_{0}=\frac{1}{x_{1}} \)</span> כאשר <span>\( x_{1} \)</span> הוא המספר ה”חדש” שאנחנו רוצים למצוא ייצוג שלו כשבר משולב. אז נחזור על התהליך - נגדיר <span>\( a_{1}=\left[x_{1}\right] \)</span> ו-<span>\( b_{1}=x_{1}-a_{1} \)</span> ו-<span>\( b_{1}=\frac{1}{x_{2}} \)</span> וכן הלאה. כלומר, אנחנו עושים שלוש פעולות שונות:</p>
<ul> <li>מחשבים <strong>ערך שלם</strong> של מספר.</li>
<li>מקבלים את החלק השברי של המספר על ידי <strong>חיסור</strong> הערך השלם שלו ממנו.</li>
<li>מקבלים את המספר הבא בתור על ידי <strong>היפוך</strong> של המספר שקיבלנו (כלומר, מחשבים את 1 חלקי המספר הזה).</li>
</ul>
<p>שלב ההיפוך הוא החלק הבעייתי: אם מראש אנחנו עובדים עם קירוב, נאמר של <span>\( \pi \)</span>, אז בשלב ההיפוך גם נקבל רק קירוב - אבל מספר ספרות הדיוק שלנו יקטן. זה פוסט שלם לדבר על כמה ספרות דיוק עדיין מובטחות לנו, והאמת העצובה היא שאני פשוט לא מכיר את הנושא מספיק טוב אז אדלג מעליו לגמרי כאן - אבל זו הטכניקה.</p>
<p>בפועל, קל מאוד לתכנת דבר כזה. הנה קוד פייתון שמבצע את החישובים הרלוונטיים:</p>
<div class="code-block">
<figure class="highlight"><pre><code class="language-python" data-lang="python"><span class="k">def</span> <span class="nf">compute_pi</span><span class="p">(</span><span class="n">n</span><span class="p">):</span>
<span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">,</span> <span class="n">z</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span>
<span class="n">value</span> <span class="o">=</span> <span class="p">(</span><span class="n">x</span><span class="o">*</span><span class="n">y</span><span class="p">)</span><span class="o">/</span><span class="n">z</span>
<span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span><span class="n">n</span><span class="o">+</span><span class="mi">1</span><span class="p">):</span>
<span class="n">x</span> <span class="o">*=</span> <span class="mi">2</span>
<span class="n">y</span> <span class="o">*=</span> <span class="p">(</span><span class="n">k</span><span class="o">*</span><span class="n">k</span><span class="p">)</span>
<span class="n">z</span> <span class="o">*=</span> <span class="p">(</span><span class="mi">2</span><span class="o">*</span><span class="n">k</span><span class="p">)</span><span class="o">*</span><span class="p">(</span><span class="mi">2</span><span class="o">*</span><span class="n">k</span><span class="o">+</span><span class="mi">1</span><span class="p">)</span>
<span class="n">value</span> <span class="o">+=</span> <span class="p">(</span><span class="n">x</span><span class="o">*</span><span class="n">y</span><span class="p">)</span><span class="o">/</span><span class="n">z</span>
<span class="k">return</span> <span class="n">value</span>
<span class="k">def</span> <span class="nf">compute_continued_fraction</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">n</span><span class="p">):</span>
<span class="n">values</span> <span class="o">=</span> <span class="p">[]</span>
<span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">n</span><span class="p">):</span>
<span class="n">a</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
<span class="n">values</span><span class="p">.</span><span class="n">append</span><span class="p">(</span><span class="n">a</span><span class="p">)</span>
<span class="n">b</span> <span class="o">=</span> <span class="n">x</span> <span class="o">-</span> <span class="n">a</span>
<span class="n">x</span> <span class="o">=</span> <span class="mi">1</span><span class="o">/</span><span class="n">b</span>
<span class="k">return</span> <span class="n">values</span></code></pre></figure>
</div>
<p>להריץ אותו עם compute_continued_fraction(compute_pi(14), 4) נותן מיידית את השבר המשולב שראינו (פחות מ-14 יתן שבר משולב לא נכון כי פאי לא חושב ברמת הדיוק הנדרשת), אז אין כאן אתגר גדול במיוחד מבחינה חישובית.</p>
<p>עכשיו אני רוצה לצטט בלי הוכחה שתי תוצאות תיאורטיות על שברים משולבים ואיכות הקירובים שהם נותנים. נניח ש-<span>\( x \)</span> הוא מספר אי רציונלי כלשהו ו-<span>\( \frac{p}{q} \)</span> הוא שבר שמתקבל מהפיתוח של <span>\( x \)</span> לשבר משולב (כלומר, <span>\( \frac{p}{q} \)</span> מתקבל מכך שקוטעים את הפיתוח של <span>\( x \)</span> אחרי מספר מקומות סופי ומחשבים את התוצאה, כמו שעשינו קודם), אז <strong>לכל</strong> מספר רציונלי <span>\( \frac{a}{b} \)</span> שעבורו <span>\( 1\le b\le q \)</span> מתקיים</p>
<p><span>\( \left|x-\frac{p}{q}\right|\le\left|x-\frac{a}{b}\right| \)</span></p>
<p>כלומר, <span>\( \frac{p}{q} \)</span> הוא הקירוב הטוב ביותר ל-<span>\( x \)</span> מבין כל המספרים הרציונליים עם מכנה שהוא קטן או שווה ל-<span>\( q \)</span>. יותר מכך, אנחנו יודעים לחסום את גודל השגיאה של הקירוב והוא הולך להיות מאוד טוב. כדי לקבל תחושה של ה”מאוד טוב” הזה, בואו קודם נראה מה קורה באופן כללי: אם <span>\( \frac{a}{b} \)</span> הוא הקירוב הטוב ביותר ל-<span>\( x \)</span> מבין כל הקירובים עם מכנה <span>\( b \)</span> בדיוק, אז תמיד מתקיים ש-</p>
<p><span>\( \left|x-\frac{a}{b}\right|<\frac{1}{2b} \)</span></p>
<p>(אני לא אוכיח את זה אבל זה תרגיל <strong>מצוין</strong> לחשוב למה זה קורה, זה באמת לא קשה אבל זה עושה סדר במחשבה).</p>
<p>לעומת זאת, אם <span>\( \frac{a}{b} \)</span> הוא קירוב שמתקבל משבר משולב, אז אפשר להוכיח (זה הרבה יותר קשה) שמתקיים</p>
<p><span>\( \left|x-\frac{a}{b}\right|<\frac{1}{b^{2}} \)</span></p>
<p>שימו לב להבדל העצום בין המקרים. למשל, בואו ניקח את הקירוב התנ”כי המשודרג של פאי, <span>\( \frac{333}{106} \)</span> ונשווה אותו אל הקירוב הטוב ביותר עם מכנה 105, <span>\( \frac{330}{105}=3.142857\ldots \)</span>. אם נחשב את גודל השגיאה, נקבל</p>
<p><span>\( \left|\pi-\frac{330}{105}\right|=0.001264489267\ldots \)</span></p>
<p><span>\( \left|\pi-\frac{333}{106}\right|=0.000083219628\ldots \)</span></p>
<p>רואים איפה יש יותר אפסים אחרי הנקודה? במקרה הראשון, החסם של <span>\( \frac{1}{2b} \)</span> מבטיח לנו רק שגיאה שקטנה מ-</p>
<p><span>\( 0.004761904762\ldots \)</span></p>
<p>והיא אכן לא הרבה יותר קטנה ממנה; במקרה השני, החסם המשופר של <span>\( \frac{1}{b^{2}} \)</span> מבטיח לנו שגיאה שקטנה מ-</p>
<p><span>\( 0.000088999644\ldots \)</span></p>
<p>אפשר לחשוב על זה ככה - זה שיש לנו <span>\( b^{2} \)</span> במקום <span>\( 2b \)</span> במכנה <strong>מכפיל</strong> את מספר האפסים ברצף אחרי הנקודה שנראה בשגיאה, כלומר מכפיל את מספר ספרות הדיוק שנקבל.</p>
<p>לסיום, הנה המשפט האהוב עלי בהקשר הזה: <strong>אם יש לנו קירוב ממש טוב, מובטח שהוא יופיע מתוך השבר המשולב</strong>. אני אישית אוהב את המשפט הזה במיוחד בגלל שהוא צץ באופן מפתיע <a href="https://gadial.net/2014/08/24/shor_algorithm/">באלגוריתם של שור</a> בחישוב קוונטי; האלגוריתם של שור מחפש מספר רציונלי מאוד ספציפי שהוא צריך לקבל במדויק, והוא מוצא אותו על ידי כך שהוא מוצא מספר אחר שהמספר הרציונלי שמחפשים הוא <strong>קירוב טוב מאוד</strong> שלו ואז מחפש את המספר שלו בפיתוח של המספר ההוא לשברים חלקיים.</p>
<p>פורמלית, אם <span>\( \frac{a}{b} \)</span> מקיים</p>
<p><span>\( \left|x-\frac{a}{b}\right|<\frac{1}{2b^{2}} \)</span></p>
<p>אז מובטח ש-<span>\( \frac{a}{b} \)</span> יופיע בסדרת השברים המשולבים. שימו לב שזה לא משפט של “אם ורק אם” כי בהחלט יכולים להופיע בסדרת השברים המשולבים גם קירובים “ממש טובים אבל פחות”, אלו שמקיימים את החסם הפחות הדוק <span>\( \left|x-\frac{a}{b}\right|<\frac{1}{b^{2}} \)</span>. למעשה, ראינו אחד מהם - את <span>\( \frac{333}{106} \)</span> שעבורו מתקיים</p>
<p><span>\( \left|\pi-\frac{333}{106}\right|=0.0000832\ldots>0.0000444\ldots=\frac{1}{2\cdot106^{2}} \)</span></p>
<p>זה שונה מאשר <span>\( \frac{22}{7} \)</span> ו-<span>\( \frac{355}{113} \)</span> שמקיימים גם את החסם ההדוק יותר ולכן מובטח לנו שיופיעו:</p>
<p><span>\( \left|\pi-\frac{22}{7}\right|=0.00126\ldots<0.0102=\frac{1}{2\cdot7^{2}} \)</span></p>
<p><span>\( \left|\pi-\frac{355}{113}\right|=0.000000266\ldots<0.000039157\ldots=\frac{1}{2\cdot113^{2}} \)</span></p>
<p>זה מסיים את החלק המתמטי המגניב ואפשר לחזור אל שאלת מה שהולך בתנ”ך.</p>
<h2>חלק רביעי, שבו הסיפור הזה מזכיר לי בעיקר סיפורים אחרים</h2>
<p>למי שלא עקבו אחרי החלק המתמטי אני אסכם את מה שראינו בו: ראינו ש-<span>\( \frac{333}{106} \)</span> הוא <strong>קירוב מצוין</strong> של <span>\( \pi \)</span> עם כמה תכונות שהופכות אותו באמת למיוחד, אבל מצד שני - הוא גם קירוב משמעותית <strong>פחות מיוחד</strong> מאשר <span>\( \frac{355}{113} \)</span> הקרוב אליו מאוד אבל הטוב ממנו בהרבה. מכיוון שאנחנו בפוסט על קוריוז מתמטי שווה להזכיר קוריוז מתמטי נפלא אחר שקשור ל-<span>\( \frac{355}{113} \)</span> - ניסוי “<a href="https://gadial.net/2014/03/14/buffon_needle/">המחט של בופון</a>” שביצע לזאריני. זה ניסוי שאפשר לבצע בפועל עם השלכת סיכה על מחברת ובדיקה אם הסיכה נפלה על קו מסוים או לא, ואיכשהו הניסוי הזה הצליח לחשב את פאי בצורה מדויקת עד להדהים. הטריק היה שעורך הניסוי <strong>הכיר</strong> את הקירוב של <span>\( \frac{355}{113} \)</span> <strong>והינדס את הניסוי</strong> כך שיגיע בדיוק אל הקירוב הזה. איך מהנדסים ניסוי כזה? הסברתי את זה בפוסט הרלוונטי, אבל הרעיון הוא שאחרי כל כך-וכך השלכות יש “סיכוי” לקבל בדיוק את הקירוב הזה, ואם עוצרים את הניסוי כשהקירוב הזה התקבל התוצאה של הניסוי תהיה מדויקת להדהים בזמן שכל השלכה של סיכה אחת נוספת תקלקל לגמרי את הקירוב המופלא - ולזאריני הכיר את הקירוב והינדס את הניסוי בדיוק כך כדי שזה יקרה.</p>
<p>האם כאן קרה משהו דומה? כלומר, האם מי שכתב את ספר מלכים הינדס את התיקון הזה כדי לרמוז על הערך <span>\( \frac{333}{106} \)</span> או שמדובר על צירוף מקרים?</p>
<p>ובכן, לדעתי זה צירוף מקרים יפה ומרהיב כדרכם של צירופי מקרים מרהיבים, כי על צירופי המקרים הלא מרהיבים אף אחד לא מדבר ואנחנו בכלל לא שמים לב אליהם. החשיבה שלי על הקוריוז הזה היא חילונית במהותה, ואני רואה בהנחה שזה לא צירוף מקרים אלא משהו מכוון שני דברים שנראים לי כמו אנכרוניזם היסטורי:</p>
<ol> <li>אין לנו אינדיקציה היסטורית אחרת להיכרות עם קירוב טוב כל כך של פאי באותה תקופה.</li>
<li>אין לנו אינדיקציה היסטורית אחרת לקיום הגימטריה היהודית באותה תקופה.</li>
</ol>
<p>על 2 אין לי הרבה מה להרחיב כאן - השאלה האם בתנ”ך הוצפנו מסרים בעזרת גימטריה היא רחבה הרבה יותר מהדיון הנוכחי, ולהבנתי השורה התחתונה שלו היא “זה ייתכן אבל אין לנו ראיות ישירות לכך” - כל הפרשנויות הגימטריות לדברים מהתנ”ך הוצעו בדיעבד.</p>
<p>בנוגע ל-1, לעומת זאת, בהחלט אפשר לדבר על שאלה מעניינת בהיסטוריה של המתמטיקה - אילו ערכים של פאי היו מוכרים בעת העתיקה? יש לנו שני מקורות מרכזיים למתמטיקה עתיקה - לוחות החרס הבבליים, והפפירוסים המצריים. אצל הבבלים ברוב המקורות <span>\( \pi=3 \)</span> ותו לא (כלומר - <span>\( \pi \)</span> לא מופיע באופן ישיר, אבל זה הערך שלו שאפשר להסיק) אבל בלוח חרס אחד שנתגלה ליד Susa ומתוארך לתקופה שבין המאות ה-19 וה-17 לפני הספירה אפשר להסיק מהכתוב את הערך <span>\( \pi=\frac{25}{8}=3.125 \)</span> שהוא קירוב לא רע אבל רחוק מאוד באיכותו מ-<span>\( \frac{22}{7} \)</span> וצריך שוב להדגיש שזה לא מספר שמופיע בלוח במפורש אלא אפשר להסיק אותו על ידי חישוב ממה שכן מופיע בלוח, שהוא היחס בין ההיקף של משושה להיקף המעגל החוסם אותו. <a href="https://numberwarrior.wordpress.com/2008/12/03/on-the-ancient-babylonian-value-for-pi/">הנה פוסט (לא שלי) בעניין</a>.</p>
<p>עבור מצרים העתיקה, קירוב של פאי מופיע באחד מהאוצרות המתמטיים היקרים ביותר שיש לנו מהתקופה הזו - פפירוס רינד, שמתוארך לסביבות 1650 לפני הספירה. בעיה 41 בפפירוס עוסקת בחישוב נפח של אסם תבואה, וגם שם <span>\( \pi \)</span> לא מופיע בצורה מפורשת אבל אפשר להסיק מהטקסט את הקירוב <span>\( \pi=\left(\frac{4}{3}\right)^{4}=256/81=3.16049\ldots \)</span> שגם הוא לא קירוב מבריק במיוחד אבל מצד שני לא רע לזמנו. בשני המקורות, גם המצרי וגם הבבלי, הערך של <span>\( \pi \)</span> לא מוחבא בצורה ערמומית כמו בספר מלכים, שבו על פניו אין בכלל חישוב שצריך לעשות; אצלם יש חישוב ויש מספרים מדויקים שנכתבים במפורש, אבל פשוט החישוב לא עוסק ב-<span>\( \pi \)</span> אלא במושגים שקשורים ל-<span>\( \pi \)</span> ומהם ערכו של <span>\( \pi \)</span> מתקבל. בהקשר הזה כדאי לזכור ש-<span>\( \pi \)</span> עצמו הוא קבוע חצי-שרירותי, במובן זה שהיינו יכולים למשל לדבר לא על היחס בין היקף המעגל <strong>לקוטרו</strong> אלא על היחס בין היקף המעגל <strong>לרדיוסו</strong>, מה שהיה נותן לנו את הקבוע <span>\( 2\pi=6.28318\ldots \)</span> שבימינו אוהבים לסמן בתור <span>\( \tau \)</span> ואפילו לטעון שהוא קבוע יותר טוב מ-<span>\( \pi \)</span> (זה דיון אחר שאני מעדיף לא להיכנס אליו אף פעם אבל בטח אכתוב עליו פוסט יום אחד). בהקשר של ספר מלכים ההגדרה של “היקף חלקי הקוטר” היא הטבעית יותר כי גם ההיקף וגם הקוטר מופיעים במפורש בפסוק, אז קשה להתלונן למה הפסוק לכאורה מצפין את <span>\( \frac{333}{106} \)</span> ולא את <span>\( \frac{666}{106} \)</span> (למי שקופצים למראה ה-666 - לא, לא מצאתי בחזון יוחנן י”ג משהו עם גימטריה של 106 או 212, לא בתרגום לעברית וגם לא במקור היווני עם הגימטריה היוונית שדומה להפליא לזו שלנו).</p>
<p>המדידה המפורשת הראשונה של <span>\( \pi \)</span> שנתנה קירוב טוב היא זו של ארכימדס, בסביבות 240 לפני הספירה: הוא השתמש בשיטה מבריקה לגמרי כדי לקבל את הקירוב <span>\( \frac{22}{7}\le\pi\le\frac{223}{71} \)</span>. שני המספרים שמופיעים בקירוב הם טובים למדי: את <span>\( \frac{22}{7} \)</span> ראינו בתור הקירוב האיכותי הראשון שהשבר המשולב של <span>\( \pi \)</span> נותן, ואת <span>\( \frac{223}{71} \)</span> ראינו כחלק מסדרת “הקירובים הכי טובים עבור המכנה שלהם או קטן ממנו”. שניהם פחות טובים מ-<span>\( \frac{333}{106} \)</span>.</p>
<p>הקירוב הגדול הבא של פאי הגיע עם המתמטיקאי הסיני דזו צ’ונג-ג’ה בן המאה החמישית לספירה. ראשית, הוא מצא ש-<span>\( \pi \)</span> נמצא בין <span>\( 3.1415926 \)</span> ובין <span>\( 3.1415927 \)</span>, ושנית הוא מצא את הקירוב <span>\( \pi\approx\frac{355}{113}=3.1415929\ldots \)</span> שאם נשים לב, הוא קצת <strong>פחות</strong> טוב מהקירובים העשרוניים הללו כי הספרה האחרונה שציינתי בו, 9, שגויה (ב-<span>\( \pi \)</span> הספרה הזו היא 6, מה שתואם את הקירוב של ה”ראשית”). זה החיסרון של <span>\( \frac{355}{113} \)</span> אבל על היתרונות שלו כבר דיברתי, ובפרט על כך שזה קירוב מאוד קומפקטי, עם מכנה בן שלוש ספרות בלבד, שמניב רמת דיוק גבוהה בהרבה מאותן שלוש ספרות - טוב הרבה יותר מ-<span>\( \frac{333}{106} \)</span>. כלומר, זו הנקודה בהיסטוריה שבה אפשר לעצור ולהגיד שקירוב ברמה של הרמיזה בתנ”ך כבר הפך לנחלת הכלל. אלא שזה קרה במאה החמישית לספירה, בערך אלף שנים אחרי שספר מלכים נכתב, (בין אם מניחים שכתב אותו ירמיהו או מניחים שהוא נכתב בידי אנשים אחרים בגלות בבל). למעשה, לא ברור לי איפה ומתי התגלה <span>\( \frac{333}{106} \)</span> בתור קירוב לפאי (התורה של שברים משולבים שייכת למאה ה-18 ואני משער שבשלב הזה הקירוב כבר התגלה בדרך אחרת, אבל לא התעמקתי בזה).</p>
<p>לנוכח כל אלו, ההנחה הסבירה היא שבזמן כתיבת ספר מלכים, אי שם במאות החמישית-שישית-שביעית לפני הספירה, הקירוב <span>\( \frac{333}{106} \)</span> לפאי לא היה ידוע. אז אנחנו צריכים לבחור בין שתי אפשרויות: או שלסופר המקראי היה ידע פלאי ממש (בין אם הגיע אליו מהשמיים ובין אם חישב אותו בעצמו) והוא הצפין אותו בתורה בדרך כה מחוכמת שחז”ל פשוט פספסו ונראה שהראשון ששם לב אליה היה רב עם השכלה מתמטית מהמאה ה-20, או שמדובר על צירוף מקרים. לי אישית זה מזכיר סיפור אחר, שאני מאוד אוהב אישית: הסיפור של לוח החרס הבבלי פלימפטון 322. <a href="https://gadial.net/2017/08/29/plimpton_322/">יש לי פוסט מפורט עליו</a> אז לא אכנס להכל, אבל הנה הרעיון הכללי:</p>
<p>פלימפטון 322 הוא לוח חרס בבלי מסביבות המאה ה-18 לפני הספירה, שכתוב בתור טבלה שהאיברים המרכזיים שלה הם זוגות של מספרים ששייכים לשלשות פיתגוריות שונות ומשונות (מספיק זוג מספרים כדי להסיק את המספר השלישי בשלשה). מבחינה מתמטית מדובר על תגלית מרגשת מאוד, כי השיטה הראשונה לייצור שלשות פיתגוריות באופן סדרתי מתוארת אצל אוקלידס, כמעט 1,500 שנים אחר כך. כלומר - הלוח מרמז על רמה מתמטית מופלאה ממש שהייתה לבבלים ביחס לכל העולם מאות שנים אחריהם.</p>
<p>העניין הוא שהסיפור כנראה לא כזה פשוט, ואפשר לתת פרשנויות אחרות לאותם ערכים מספריים בלוח שיסבירו איך המספרים הללו נוצרו גם בלי להכיר שום שיטה לייצור שלשות פיתגוריות, פשוט כחלק מתהליך של יצירה של תרגילי אימון לפתרון משוואה ריבועית - תרגילים שידוע שהיו נפוצים אצל הבבלים. יש מאמרים מפורטים שעוסקים בגישה הזו, עם כניסה משמעותית לפרטים של הלוח ואף חשוב מכך - של לוחות אחרים בני אותה התקופה. כשקוראים על הנושא רואים כמה קל, כשמתעסקים בהיסטוריה של המתמטיקה, לייחס כוונות וידע לטקסטים מתמטיים ישנים גם אם לא היה בהם שום תוכן כזה, פשוט כי <strong>אנחנו</strong> כבר בעלי הידע הזה וחושבים על הכוונות הללו. קל לנו יותר לראות לוח עם שלשות פיתגוריות ולומר “אה-הא! מטרת הלוח הייתה להכיל שלשות פיתגוריות, ובגלל שאנחנו מכירים נוסחה לייצור שלהן אז הן בוודאי נוצרו באמצעות הנוסחה, וזה מה שמראה שהבבלים ידעו את הנוסחה!” גם אם יתר המציאות לא מסכימה עם זה.</p>
<p>גם כאן - אפשר לראות את התיקון הפלאי ולהגיד “אה-הא! מטרת התיקון הייתה להצפין את <span>\( \frac{333}{106} \)</span> בטקסט באמצעות גימטריה!” - בכך אנחנו לוקחים מושגים מודרניים יותר ומחילים אותם על הטקסט: גם מניחים שהטקסט בכלל רצה “לתקן” את הקירוב ה”שגוי” של פאי (ולהחליף אותו בקירוב אחר שגם הוא “שגוי” אבל פחות), וגם שהוא רצה לעשות את זה בדרך המאוד עקיפה שלו. כמובן, אפשר להגיד (ואומרים) “זה בסדר גמור, לא מעט מהתנ”ך הוא ככה” מה שלוקח אותנו לדיון כללי יותר על התנ”ך שאני לא רוצה לנהל פה; אבל אני אישית לא רואה צורך לנקוט בגישה הזו.</p>
<h2>חלק חמישי ואחרון, ובו השאלה האם היה אפשר לעשות משהו טוב יותר? (כנראה שלא)</h2>
<p>זה מסיים לומר את הדברים המעניינים שאני יודע לומר על הנושא הזה, אבל לפני שאני מסיים את הפוסט אני רוצה לדבר טיפה על השאלה המתבקשת: האם אפשר היה להצפין בתנ”ך את <span>\( \frac{355}{113} \)</span> במקום <span>\( \frac{333}{106} \)</span>? קשה לי לראות דרך לעשות את זה שלא תרגיש לנו מאולצת יותר, מטעם חשבוני די פשוט: <span>\( 333=111\times3 \)</span>. זה אומר שאפשר להציג את הקירוב <span>\( \frac{333}{106} \)</span> בתור <span>\( \frac{111}{106}\times3 \)</span>, ולכן כל מה שאנחנו צריכים הוא מילה עם ערך גימטרי 106 שאפשר להוסיף לה אות אחת ולקבל 111, מה שעבד עם “קו/קוה”. לעומת זאת ב-<span>\( \frac{355}{113} \)</span> אין לנו יכולת לבצע את הטריק הזה כי <span>\( 355=5\times71 \)</span> לא מתחלק ב-3, ולכן אם אנחנו מחפשים שני מספרים שלמים <span>\( a,b \)</span> כך ש-<span>\( \frac{a}{b}\times3=\frac{355}{113} \)</span> לא קשה לראות שהמספרים הקטנים ביותר שיתנו לנו דבר כזה הם <span>\( a=355,b=339 \)</span> שההפרש ביניהם הוא 16, ואין לנו דרך לעבור ממילה שערכה 339 למילה שערכה 355 על ידי שינוי של אות בודדת, כך שמלכתחילה כל מה שנעשה ירגיש מאולץ יותר.</p>
<p>עדיין, לפעמים יש שינוי בשתי אותיות; למשל במלכים א’ י”ב ל”ג יש לנו את “מלבד/מלבו” שבו מסירים אות ומוסיפים אות; כדי לקבל הפרש 16 על ידי פעולה כזו, אנחנו חייבים להסיר ד’ ולהוסיף כ’ (אין שתי אותיות אחרות שההפרש של הערך הגימטרי שלהן הוא 16). זה נותן לנו למשל את הזוג “שדלה/שכלה” שקופץ מגימטריה של 339 אל 355. האם זה משהו שהסופר המקראי הכל יכול היה יכול להשתמש בו בפסוק שמדבר על ים הנחושת? לא נראה לי. מצד שני, קשה לשחק את המשחק הזה עד הסוף בלי להבין מה בדיוק החופש ש<strong>כן</strong> היה לסופר המקראי הכל יכול לעשות. אם היו דורשים ממנו להצפין את <span>\( \frac{355}{113} \)</span> במקום את <span>\( \frac{333}{106} \)</span> כי אסור שיהיה אצלו “בערך”, ואם ישתמש בקירוב גרוע כמו <span>\( \frac{333}{106} \)</span> אז הוא נביא שקר ועונשו מיתה - במקרה כזה אני חושד שהוא היה מוצא דרך טובה להשחיל את <span>\( \frac{355}{113} \)</span> פנימה.</p>
<p>מעבר לבדיחות האלו, אני חייב להודות שצירוף המקרים כאן הוא באמת מאוד יפה: המילה “קו/קוה” שעומדת במרכז הסיפור היא המילה בפסוק שמתארת את ההיקף, כלומר קשורה ישירות לעניין והכתיב הכפול “קו”/”קוה” הוא לא משהו ייחודי לפסוק הזה; ה”קוה” מופיע למשל גם בירמיהו ל”א ל”ח ובזכריה א’ ט”ז, כלומר אין בו משהו שרירותי. למרות שמדגדג לי לבדוק אם אני מצליח למצוא את <span>\( \frac{355}{113} \)</span> בכל מני מקומות, לא סביר שיימצא משהו <strong>כל כך</strong> יפה. אני יכול לקחת סיפורים אקראיים מפרויקט בן יהודה, להריץ עליהם סקריפט ולמצוא באותו משפט מילה של 355 ומילה של 113 (כן, נו, באמת עשיתי את זה בשביל הקטע), אבל מה זה יגיד?</p>
<p>כמובן, אפשר ללכת לכיוונים חופשיים עוד יותר. אם הסופר המקראי בסך הכל רוצה להצפין מספר בטקסט יש עוד דרכים לעשות את זה שלא חייבות לענות לתבנית של 1-2-3 שלמעלה. הנה אחת שמבוססת על קוריוז חמוד בפני עצמו של <span>\( \frac{355}{113} \)</span>: בנוסף לכל מעלותיו של הקירוב הזה, כשהוא מוצג בבסיס 10 קל מאוד לזכור אותו כי אם קוראים את הספרות מלמעלה-למעלה ומשמאל-לימין מקבלים <span>\( 113355 \)</span>. באותיות זה “אאגגהה” שהוא נטול כל משמעות, אבל זו מילה קצרה וקומפקטית שאפשר היה להכניס לפסוק!</p>
<p>אז מה השורה התחתונה שלי לכל הסיפור הזה? ובכן “שברים משולבים זה מגניב”. אני חושד שהמסר הזה לא הועבר מספיק כאן.</p>מבואסדרות וטורים של פונקציות2024-02-24T00:00:00+00:002024-02-24T00:00:00+00:00http://gadial.net/2024/02/24/sequences_and_series_of_functions<h2>מבוא</h2>
<p>חור גדול שנותר עד היום בבלוג הוא אותו חלק של החשבון הדיפרנציאלי והאינטגרלי שמתעסק <strong>בטורים של פונקציות</strong>. לא רק שזה נושא מגניב בפני עצמו, אלא גם שהמחסור בו הוא המכשול הגדול ביותר בדרך שלי לסגירת עוד חור גדול בבלוג - <strong>אנליזה מרוכבת</strong>. אז בואו נסגור את החור הזה סוף סוף.</p>
<p>אני אניח פה שאנחנו מכירים את מושגי הבסיס הרלוונטיים בחדו”א, כי יש לי כבר פוסטים עליהם: <a href="https://gadial.net/2010/10/26/limit_of_functions_and_continuity/">על המושגים של גבול של פונקציה ופונקציות רציפות</a>; על <a href="https://gadial.net/2010/10/03/limit_of_sequence/">גבולות של סדרות</a>; <a href="https://gadial.net/2008/06/17/infinite_series/">ועל טורים אינסופיים של מספרים</a>. אבל אין סיבה עקרונית לא להזכיר את המושגים הללו בקיצור גם כאן, כי נשתמש בהם כל הזמן.</p>
<p>אנחנו בחדו”א עובדים מעל <span>\( \mathbb{R} \)</span>, כלומר מתעסקים בסדרות שהאיברים שלהן הם מספרים ממשיים ופונקציות שמקבלות ממשיים ומחזירות ממשיים. על הממשיים מוגדר לנו מושג של <strong>מרחק</strong> בעזרת פונקציית הערך המוחלט: המרחק בין <span>\( a \)</span> ל-<span>\( b \)</span> הוא <span>\( \left|a-b\right| \)</span>. הרעיון הכללי מאחורי <strong>גבול</strong>, המושג שעליו החדו”א המודרני נבנה, הוא שהאובייקט שלנו (סדרה או פונקציה) “מתקרב” אל ערך אחד ספציפי - הגבול - במובן זה שהמרחק ביניהם נהיה “קטן כרצוננו” אם מתמקדים בחלק של האובייקט שלנו שעליו אומרים שהוא שואף אל הגבול. בואו נראה איך זה בא לידי ביטוי בסדרות של מספרים ובפונקציות:</p>
<ul> <li>אומרים שהסדרה האינסופית <span>\( \left\{ a_{n}\right\} _{n=0}^{\infty} \)</span> <strong>שואפת</strong> לגבול <span>\( L \)</span> ומסמנים את זה <span>\( \lim_{n\to\infty}a_{n}=L \)</span> (או סתם <span>\( a_{n}\to L \)</span>) אם <strong>לכל</strong> <span>\( \varepsilon>0 \)</span> <strong>קיים</strong> <span>\( N \)</span> טבעי כך שלכל <span>\( n>N \)</span> מתקיים <span>\( \left|a_{n}-L\right|<\varepsilon \)</span></li>
<li>אומרים שהפונקציה <span>\( f\left(x\right):\mathbb{R\to\mathbb{R}} \)</span> <strong>שואפת לגבול</strong> <span>\( L \)</span> כאשר <span>\( x \)</span> <strong>שואף</strong> לנקודה <span>\( x_{0} \)</span> ומסמנים את זה <span>\( \lim_{x\to x_{0}}f\left(x\right)=L \)</span> אם <strong>לכל</strong> <span>\( \varepsilon>0 \)</span> <strong>קיים</strong> <span>\( \delta>0 \)</span> כך שאם <span>\( 0<\left|x-x_{0}\right|<\delta \)</span> אז <span>\( \left|f\left(x\right)-L\right|<\varepsilon \)</span></li>
</ul>
<p>זו לא הגדרה קלה לעיכול ולכן אני ממליץ על הפוסטים שקישרתי אליהם (או המקורות הרבים האחרים שמסבירים את הנושא טוב ממני!) אם היא לא יושבת טוב כרגע. אני רוצה שננצל את ההזדמנות לכך ששתי הההגדרות יושבות זו לצד זו כדי לראות את הדמיון הרב ביניהן: בהגדרה הראשונה אנחנו מסתכלים על החלק של הסדרה שהוא “כל מה שגדול מ-<span>\( N \)</span>” ובהגדרה השניה אנחנו מסתכלים על החלק של הפונקציה שהוא “כל הפלטים של הפונקציה על סביבה בגודל <span>\( \delta \)</span> של <span>\( x_{0} \)</span> שלא כוללת את הקצוות או את <span>\( x_{0} \)</span> עצמה” ובשני המקרים אנחנו דורשים ש<strong>כל</strong> מה שנמצא באותו איזור שאנחנו מסתכלים עליו יהיה קרוב ל-<span>\( L \)</span> עד כדי ה-<span>\( \varepsilon \)</span> השרירותי שהתחלנו ממנו.</p>
<p>ההגדרה של <strong>רציפות</strong> של פונקציה היא נקודתית - כלומר אומרים שפונקציה היא רציפה בנקודה ספציפית. כדי ש-<span>\( f \)</span> תהיה רציפה ב-<span>\( x_{0} \)</span> היא צריכה לקיים <span>\( f\left(x_{0}\right)=\lim_{x\to x_{0}}f\left(x\right) \)</span>, כלומר שהפונקציה “תקיים את ההבטחה” של הגבול. אפשר גם להגדיר את זה ישירות: קיים <span>\( L \)</span> כך שלכל <span>\( \varepsilon>0 \)</span> קיים <span>\( \delta>0 \)</span> כך שאם <span>\( \left|x-x_{0}\right|<\delta \)</span> אז <span>\( \left|f\left(x\right)-L\right|<\varepsilon \)</span> (שימו לב שבעורמה רבה הסרתי את הדרישה המקילה <span>\( 0<\left|x-x_{0}\right| \)</span> ובכך אני מכריח את השוויון <span>\( f\left(x_{0}\right)=L \)</span> להתקיים).</p>
<p>לבסוף, ההגדרה של <strong>סכום של טור אינסופי</strong> של מספרים בעצם נבנית מעל ההגדרה של גבול של סדרה. הרעיון הוא כזה: יש לנו סדרה <span>\( a_{0},a_{1},a_{2},\ldots \)</span> ואנחנו רוצים לחבר את האיברים שלה - להסתכל על <span>\( \sum_{n=0}^{\infty}a_{n} \)</span> ולמצוא מספר שמתאים לאינטואיציה שלנו לגבי הסכום של אותם אינסוף מספרים. יש כמה גישות לנושא הזה - אין הגדרה אחת שהיא פשוט “ההגדרה הנכונה” אבל זו השימושית והנפוצה ביותר במתמטיקה משתמשת במשהו שנקרא <strong>סכומים חלקיים</strong> ומגדירה את סכום הטור בתור הגבול של הסכומים החלקיים הללו. פורמלית, אני מגדיר <span>\( S_{n}=\sum_{k=0}^{n}a_{k} \)</span> ואז אומר ש-<span>\( \sum_{n=0}^{\infty}a_{n}=S \)</span> אם <span>\( \lim_{n\to\infty}S_{n}=S \)</span>.</p>
<p>אם קיים גבול לסדרת הסכומים החלקיים אומרים שהטור <span>\( \sum_{n=0}^{\infty}a_{n} \)</span> <strong>מתכנס</strong> ואחרת אומרים שהוא <strong>מתבדר</strong>. יש גם מושג של “התכנסות לאינסוף” אבל נעזוב את זה; תחשבו על זה בתור אחד מסוגי ההתבדרות. סוג אחר של התבדרות הוא של הטור <span>\( 1-1+1-1+1-\ldots \)</span> שהסכומים החלקיים שלו “מזפזפים” בין 0 ו-1; על פי ההגדרה שלנו אין לטור הזה סכום (על פי הגדרה אחרת, כללית יותר, שלוקחת את הגבול של <strong>הממוצע</strong> של סדרת הסכומים החלקיים, דווקא יש גבול והוא <span>\( \frac{1}{2} \)</span>).</p>
<p>בואו נראה שאנחנו מבינים מספיק מה הולך פה כדי להוכיח משהו! טענה בסיסית אבל מועילה מאוד - שאם <span>\( \sum_{n=0}^{\infty}a_{n} \)</span> מתכנס אז האיבר הכללי של הטור שואף לאפס, כלומר <span>\( \lim_{n\to\infty}a_{n}=0 \)</span> (שימו לב - זו לא סדרת הסכומים החלקיים!)</p>
<p>איך מוכיחים טענה כזו? כלל האצבע שלי לכל מי שנתקעים בהוכחות בחדו”א - קודם כל תתחילו מ”יהא <span>\( \varepsilon>0 \)</span>”. זה בדרך כלל עובד. ה-<span>\( \varepsilon \)</span> מציב בפנינו “אתגר” - הוא אומר לנו - עכשיו בואו תמצאו <span>\( N \)</span> כלשהו כך שאם <span>\( n>N \)</span> אז <span>\( \left|a_{n}-0\right|<\varepsilon \)</span>, דהיינו פשוט <span>\( \left|a_{n}\right|<\varepsilon \)</span>.</p>
<p>הרעיון הוא פשוט. מה <strong>נתון</strong> לנו? ש-<span>\( \sum_{n=0}^{\infty}a_{n} \)</span> <strong>מתכנס</strong>, כלומר קיים <span>\( L \)</span> כך ש-<span>\( \lim_{n\to\infty}S_{n}=L \)</span>. אם הנתון שלנו הוא על הסכומים החלקיים <span>\( S_{n} \)</span> ואנחנו רוצים לומר משהו על האיברים <span>\( a_{n} \)</span>, מה הקשר ביניהם? הוא פשוט: <span>\( a_{n}=S_{n}-S_{n-1} \)</span>. לכן אפשר לנקוט בתעלול הבא, שהוא מאוד נפוצות בהוכחות חדו”א: מכך ש-<span>\( S_{n} \)</span> מתכנסת אל <span>\( L \)</span> נובע שקיים <span>\( N^{\prime} \)</span> כך שאם <span>\( n>N^{\prime} \)</span> אז <span>\( \left|S_{n}-L\right|<\frac{\varepsilon}{2} \)</span> (כלומר - באנו אל הטענה ש-<span>\( S_{n} \)</span> מתכנסת אל <span>\( L \)</span> ונתנו לה “אתגר” משלנו, עם <span>\( \frac{\varepsilon}{2} \)</span>; היא ענתה לנו עם התשובה <span>\( N^{\prime} \)</span>). עכשיו נגדיר <span>\( N=N^{\prime}+1 \)</span>. מה יצא לנו מזה? ניקח <span>\( n>N \)</span>; זה אומר ש-<span>\( n>N^{\prime} \)</span> <strong>ובנוסף לכך</strong> גם <span>\( n-1>N^{\prime} \)</span>, ולכן אנחנו מקבלים גם <span>\( \left|S_{n}-L\right|<\frac{\varepsilon}{2} \)</span> וגם <span>\( \left|S_{n-1}-L\right|<\frac{\varepsilon}{2} \)</span>. וכעת הנה הקסם:</p>
<p><span>\( \left|a_{n}\right|=\left|S_{n}-S_{n-1}\right|=\left|\left(S_{n}-L\right)-\left(S_{n-1}-L\right)\right|\le \)</span></p>
<p><span>\( \le\left|S_{n}-L\right|+\left|S_{n-1}-L\right|<\frac{\varepsilon}{2}+\frac{\varepsilon}{2}=\varepsilon \)</span></p>
<p>עמדנו ביעד המקורי שלנו! שימו לב לטריקים שעשינו בהתחלה - הוספנו וחיסרנו <span>\( L \)</span> לביטוי שבתוך הערך המוחלט, והשתמשנו באי-שוויון המשולש כדי לפרק את הביטוי המסובך שבתוך הערך המוחלט לשני ביטויים שונים בערכים מוחלטים שתואמים בדיוק את מה שהיה נתון לנו. כאמור, הכל די סטנדרטי בחדו”א ואני אניח שאנחנו בסדר עם זה כי אני הולך לעשות את זה גם בהמשך.</p>
<h2>סדרות של פונקציות</h2>
<p>דיברנו על סדרות, ודיברנו על פונקציות. למה שלא נשלב את שני אלו? במקום לדבר על סדרה <span>\( a_{0},a_{1},a_{2},\ldots \)</span> של <strong>מספרים</strong> (איברים של <span>\( \mathbb{R} \)</span>) אפשר לדבר על סדרה <span>\( f_{0}\left(x\right),f_{1}\left(x\right),f_{2}\left(x\right),\ldots \)</span> של <strong>פונקציות</strong>, <span>\( f_{n}\left(x\right):D\to\mathbb{R} \)</span> שהתחום שלהן הוא תת-קבוצה כלשהי <span>\( D\subseteq\mathbb{R} \)</span> והטווח שלהן הוא <span>\( \mathbb{R} \)</span>. עכשיו, אם יש לנו סדרה של פונקציות, אפשר לדבר על התכנסות שלה. עכשיו, כמו שסדרה של מספרים מתכנסת למספר, סדרה של פונקציות תתכנס לפונקציה <span>\( f:D\to\mathbb{R} \)</span>.</p>
<p>אם ננסה לקחת את ההגדרה הרגילה של גבול של סדרה ולהשתמש בה פה, נקבל משהו כזה: נאמר שהסדרה <span>\( \left\{ f_{n}\right\} _{n=0}^{\infty} \)</span> מתכנסת אל <span>\( f \)</span> אם לכל <span>\( \varepsilon>0 \)</span> קיים <span>\( N \)</span> כך שלכל <span>\( n>N \)</span> מתקיים <span>\( \left|f-f_{n}\right|<\varepsilon \)</span>. נשמע הגיוני? ובכן, זה אכן הגיוני אבל יש כאן משהו שלא הוגדר עד הסוף - ואם הולכים איתו עד הסוף מקבלים בעצם שלוש גישות שונות להגדרת גבול שכזה.</p>
<p>מה שלא ברור עד הסוף הוא מה הכוונה שלי בביטוי <span>\( \left|f-f_{n}\right|<\varepsilon \)</span>. הרי הסימן <span>\( \left|\cdot\right| \)</span> (שני קווים אנכיים עם משהו בפנים) בא לתאר <strong>ערך מוחלט</strong>, שהוא משהו שמוגדר על מספרים, לא על פונקציות. קונספטואלית מה שאני רוצה פה הוא לדבר על <strong>המרחק</strong> בין <span>\( f \)</span> ובין <span>\( f_{n} \)</span> - כלומר להכניס לתמונה פונקצית מרחק חדשה, שונה מהערך המוחלט של מספרים ממשיים. יש תורה שלמה שעוסקת בדברים הללו; מה שבדרך כלל עושים הוא להגדיר <strong>נורמה</strong>, שהיא פונקציה שלוקחת איבר ומחזירה הערכה ל”גודל” שלו, ואז מגדירים מרחק על ידי הנורמה של ההפרש: <span>\( \|f_{n}-f\| \)</span>. יש כל מני דרכים להגדיר נורמות של פונקציות וזה מוביל אותנו לתחום מרתק שנקרא <strong>אנליזה פונקציונלית</strong> ואני בשום פנים ואופן לא הולך לומר על כל זה שום דבר הפעם. זו פשוט לא ההגדרה שבה נתעסק.</p>
<p>הגישה האחרת שבה אפשר לנקוט היא להמשיך להשתמש בערך המוחלט “הרגיל”, על ידי כך שאנחנו משווים את הערכים ש-<span>\( f_{n},f \)</span> מחזירות. אלא שכאן אנחנו מתפצלים לשתי הגדרות שונות בהתאם לדקות הניסוח שלנו, ואני אציג את שתי ההגדרות בבת אחת כדי שיהיה קל לראות את הדקות הזו:</p>
<ul> <li>נאמר ש-<span>\( f_{n} \)</span> <strong>מתכנסת</strong> ("נקודתית") אל <span>\( f \)</span> אם לכל <span>\( x\in D \)</span>, לכל <span>\( \varepsilon>0 \)</span> קיים <span>\( N \)</span> כך שאם <span>\( n>N \)</span> אז <span>\( \left|f_{n}\left(x\right)-f\left(x\right)\right|<\varepsilon \)</span></li>
<li>נאמר ש-<span>\( f_{n} \)</span> <strong>מתכנסת במידה שווה</strong> (במ"ש) אל <span>\( f \)</span> אם לכל <span>\( \varepsilon>0 \)</span> קיים <span>\( N \)</span> כך שאם <span>\( n>N \)</span> אז <span>\( \left|f_{n}\left(x\right)-f\left(x\right)\right|<\varepsilon \)</span> לכל <span>\( x\in D \)</span></li>
</ul>
<p>מה ההבדל בין ההגדרות? המיקום של ה”לכל <span>\( x \)</span>”. צריך לחשוב על זה ככה: במקרה הראשון, כשנותנים לנו את האתגר של <span>\( \varepsilon \)</span> ואנחנו צריכים למצוא <span>\( N \)</span> עבורו, ה-<span>\( N \)</span> הזה צריך לעבוד רק עבור הערכים של הפונקציות ב-<span>\( x \)</span>. זה בעצם אומר שלכל <span>\( x\in D \)</span>, צריך להתקיים <span>\( f\left(x\right)=\lim_{n\to\infty}f_{n}\left(x\right) \)</span> כאשר כאן מה שיש לנו בגבול הוא סדרה של <strong>מספרים</strong> - הערכים שמקבלים כשמציבים את <span>\( x \)</span> בכל הפונקציות <span>\( f_{n} \)</span>. לעומת זאת, במקרה השני באתגר של ה-<span>\( \varepsilon \)</span> אנחנו צריכים למצוא <span>\( N \)</span> שעובד עבור <strong>כל הערכים האפשריים</strong> של <span>\( x \)</span> בו זמנית. זה אתגר יותר גדול, ובאמת יש סיטואציות של סדרת פונקציות שמתכנסת אבל לא מתכנסת במידה שווה. בואו נראה דוגמא כזו - למרבה השמחה יש אחת פשוטה מאוד.</p>
<p>התחום שלנו יהיה <span>\( D=\left[0,1\right] \)</span> וסדרת הפונקציות תהיה <span>\( f_{n}\left(x\right)=x^{n} \)</span>. עכשיו, אנחנו יודעים מחדו”א בסיסי שאם <span>\( 0\le x<1 \)</span> אז <span>\( x^{n}\to0 \)</span>, אבל כמובן ש-<span>\( 1^{n}\to1 \)</span>. כלומר, אם נגדיר <span>\( f\left(x\right)=\lim_{n\to\infty}f_{n}\left(x\right) \)</span> נקבל את הפונקציה</p>
<p><span>\( f\left(x\right)=\begin{cases} 0 & x\ne1\\ 1 & x=1 \end{cases} \)</span></p>
<p>האם <span>\( f_{n} \)</span> מתכנסת במידה שווה אל <span>\( f \)</span>? הנה טיעון טכני שמראה מה הבעיה, עם מספרים מהונדסים של מישהו שכבר יודע מה הוא מנסה להשיג וכל הכיף הרגיל של חדו”א: כדי להראות שאין התכנסות במ”ש אני אקח למשל <span>\( \varepsilon=\frac{1}{e} \)</span>. ועכשיו נסתכל על <span>\( N \)</span> כלשהו ונראה שאפילו אם <span>\( n>N \)</span> אז עדיין לא <strong>לכל</strong> <span>\( x\in D \)</span> יתקיים <span>\( \left|f_{n}\left(x\right)-f\left(x\right)\right|<\frac{1}{e} \)</span>. איך נראה את זה? אם <span>\( x<1 \)</span> אז <span>\( \left|f_{n}\left(x\right)-f\left(x\right)\right|=\left|x^{n}-0\right|=\left|x^{n}\right|=x^{n} \)</span>. עכשיו, אין לנו שליטה על <span>\( n \)</span> אבל את <span>\( x \)</span> אנחנו יכולים להגדיל כרצוננו אל <span>\( 1 \)</span> עד שנעבור את <span>\( \frac{1}{e} \)</span>. הנה האופן שבו אפשר למצוא <span>\( x \)</span> מתאים שכזה - בעזרת <strong>לוגריתמים</strong>. אני אחפש <span>\( x \)</span> שמקיים <span>\( x^{n}=\frac{1}{e} \)</span>, כלומר <span>\( \ln\left(x^{n}\right)=\ln\left(e^{-1}\right) \)</span>, כלומר <span>\( n\ln x=-1\ln e=-1 \)</span>, כלומר <span>\( \ln x=-\frac{1}{n} \)</span>. למרבה השמחה אני יודע ש-<span>\( \ln x \)</span> היא פונקציה מונוטונית עולה שמקיימת <span>\( \lim_{x\to0}\ln x=-\infty \)</span> ו-<span>\( \ln1=0 \)</span> ולכן קיים <span>\( x\in D \)</span> כך ש-<span>\( \ln x=-\frac{1}{n} \)</span>, וה-<span>\( x \)</span> הזה שובר את הטענה על התכנסות במ”ש.</p>
<h2>איך התכנסות במ"ש משמרת רציפות</h2>
<p>הטיעון למעלה היה טכני למדי, אבל מה שנחמד הוא שאני <strong>לא באמת צריך אותו</strong> כי אפשר לראות ש-<span>\( f_{n} \)</span> לא מתכנסת במ”ש בקלות מתוך טענה כללית יותר ושימושית מאוד, שגם עוזרת לנו להבין מה הטעם בהגדרה הזו של התכנסות במ”ש. הטענה היא שאם <strong>כל</strong> <span>\( f_{n} \)</span> היא פונקציה רציפה ו-<span>\( f_{n}\to f \)</span> וההתכנסות היא במ”ש, אז גם <span>\( f \)</span> רציפה. זו דוגמא לסוג הטענות שמעניינות אותנו בכללי - אנחנו רוצים לומר משהו חכם על <span>\( f \)</span> אבל זה קשה לנו, אז אנחנו מוצאים סדרה פשוטה יחסית שמתכנסת אל <span>\( f \)</span> ועל האיברים שלה קל לנו יותר לומר משהו חכם, ואז מקווים ממש חזק שהמשהו החכם הזה יעבור מהסדרה אל <span>\( f \)</span> עצמה. במקרה שבו המשהו החכם הוא “רציפות” וההתכנסות היא במ”ש, זה גם עובד.</p>
<p>עבור הדוגמא שנתתי למעלה, <span>\( f_{n}\left(x\right)=x^{n} \)</span> היא בוודאי פונקציה רציפה, אבל <span>\( f\left(x\right) \)</span> שאליה הסדרה מתכנסת היא לא רציפה - היא 0 בכל מקום חוץ מ-<span>\( x=1 \)</span> ושם היא קופצת אל <span>\( 1 \)</span> - זו נקודת אי רציפות. לכן פשוט לא ייתכן שההתכנסות תהיה במ”ש; הרבה יותר פשוט מאשר להתחיל לערב בתמונה לוגריתמים וכדומה. בפועל? אנחנו מטאטאים את הסיבוך מתחת לשטיח עם הסתמכות על היכולת שלי לומר בקלילות ש-<span>\( x^{n} \)</span> “היא בוודאי פונקציה רציפה” - אם ננסה להוכיח את <strong>זה</strong> במפורש שוב נצטרך עבודה טכנית - אבל זה כל היופי, לבנות על הידע הטכני שכבר יש לנו ועל משפטים אבסטרקטיים כדי לקבל תוצאות טכניות חדשות בלי מאמץ טכני נוסף.</p>
<p>בואו נוכיח את הטענה: נתון לי ש-<span>\( \left\{ f_{n}\right\} _{n=0}^{\infty} \)</span> היא סדרה של פונקציות רציפות וש-<span>\( f_{n}\to f \)</span> בהתכנסות במ”ש, ואני צריך להוכיח ש-<span>\( f \)</span> רציפה. איך מוכיחים שמשהו הוא רציף? מתחילים כרגיל עם “יהא <span>\( \varepsilon>0 \)</span>” יחד עם נקודה ספציפית <span>\( x_{0}\in D \)</span>. האתגר שלנו הוא למצוא <span>\( \delta \)</span> כך שלכל <span>\( x\in D \)</span> המקיים <span>\( \left|x-x_{0}\right|<\delta \)</span> מתקיים <span>\( \left|f\left(x\right)-f\left(x_{0}\right)\right|<\varepsilon \)</span>. הנה האסטרטגיה שלנו: אנחנו נמצא פונקציה <span>\( f_{n} \)</span> שקרובה מספיק אל <span>\( f \)</span>, ואז נשתמש בכך שהיא רציפה כדי לחסום את המרחק בין <span>\( f_{n}\left(x\right),f_{n}\left(x_{0}\right) \)</span> ונבנה על כך שהמרחקים של <span>\( f_{n} \)</span> בנקודות הללו מהנקודות המקבילות אצל <span>\( f \)</span> הם קטנים. כלומר, אנחנו צריכים ששלושה דברים יהיו קטנים:</p>
<ul> <li><span>\( \left|f_{n}\left(x\right)-f_{n}\left(x_{0}\right)\right| \)</span></li>
<li><span>\( \left|f_{n}\left(x\right)-f\left(x\right)\right| \)</span></li>
<li><span>\( \left|f_{n}\left(x_{0}\right)-f\left(x_{0}\right)\right| \)</span></li>
</ul>
<p>מכיוון שיש לנו שלושה דברים שכפי שנראה בסוף איכשהו הכל יתבטא בסכום שלהם, שווה לנו לעבוד עם <span>\( \frac{\varepsilon}{3} \)</span>. פורמלית, ניעזר בכך שההתכנסות <span>\( f_{n}\to f \)</span> היא במידה שווה, ונמצא <span>\( N \)</span> כך שלכל <span>\( n>N \)</span> <strong>ולכל</strong> <span>\( x\in D \)</span> מתקיים <span>\( \left|f_{n}\left(x\right)-f\left(x\right)\right|<\frac{\varepsilon}{3} \)</span>. שימו לב שזה קריטי שזה יתקיים <strong>לכל</strong> <span>\( x \)</span> כי כרגע אין לנו בכלל ערך קונקרטי אחד של <span>\( x \)</span> שאנחנו רוצים לטפל בו - אנחנו נרצה לטפל <strong>בכל</strong> <span>\( x \)</span> שיהיה קרוב אל <span>\( x_{0} \)</span> עד כדי <span>\( \delta \)</span> (וה-<span>\( \delta \)</span> אפילו לא ידוע בשלב הזה). כלומר, בלי התכנסות במ”ש אין לי אפילו מאיפה להתחיל.</p>
<p>יופי, אז יש לנו <span>\( n \)</span> שעבורו <span>\( \left|f_{n}\left(x\right)-f\left(x\right)\right|<\frac{\varepsilon}{3} \)</span> לכל <span>\( x\in D \)</span>. עכשיו נשתמש בכך ש-<span>\( f_{n} \)</span> רציפה בכל <span>\( D \)</span> ובפרט ב-<span>\( x_{0}\in D \)</span> כדי למצוא <span>\( \delta \)</span> בעל התכונה שאם <span>\( \left|x-x_{0}\right|<\delta \)</span> אז <span>\( \left|f_{n}\left(x\right)-f_{n}\left(x_{0}\right)\right|<\frac{\varepsilon}{3} \)</span>. כלומר - השתמשנו בתכונת הרציפות תוך שה”אתגר” ש<strong>אנחנו</strong> מציבים הוא עם <span>\( \frac{\varepsilon}{3} \)</span> (זו נקודה מבלבלת: כשאנחנו מוכיחים שרציפות מתקיימת, אנחנו <strong>מקבלים</strong> את האתגר <strong>ומחפשים</strong> <span>\( \delta \)</span> מתאים; כשאנחנו <strong>משתמשים</strong> ברציפות אנחנו <strong>נותנים</strong> את האתגר ו<strong>מקבלים</strong> <span>\( \delta \)</span> מתאים).</p>
<p>עכשיו, יהא <span>\( x\in D \)</span> כלשהו שעבורו באמת מתקיים <span>\( \left|x-x_{0}\right|<\delta \)</span>. אנחנו צריכים להוכיח <span>\( \left|f\left(x\right)-f\left(x_{0}\right)\right|<\varepsilon \)</span> ואת זה נעשה על ידי טכניקה סטנדרטית של חיבור/חיסור אותו איבר ואז פירוק הערך המוחלט לסכום של ערכים מוחלטים תוך שימוש באי-שוויון המשולש: טכניקות סטנדרטיות בחדו”א שלכל הפחות אני כבר מכיר מספיק טוב כדי ליהנות מהם ואני מקווה שזה המצב לא רק אצלי:</p>
<p><span>\( \left|f\left(x\right)-f\left(x_{0}\right)\right|=\left|f\left(x\right)-\left(f_{n}\left(x\right)-f_{n}\left(x\right)\right)-\left(f_{n}\left(x_{0}\right)-f_{n}\left(x_{0}\right)\right)-f\left(x_{0}\right)\right| \)</span></p>
<p><span>\( =\left|\left(f\left(x\right)-f_{n}\left(x\right)\right)+\left(f_{n}\left(x\right)-f_{n}\left(x_{0}\right)\right)+\left(f_{n}\left(x_{0}\right)-f\left(x_{0}\right)\right)\right| \)</span></p>
<p><span>\( \le\left|f\left(x\right)-f_{n}\left(x\right)\right|+\left|f_{n}\left(x\right)-f_{n}\left(x_{0}\right)\right|+\left|f_{n}\left(x_{0}\right)-f\left(x_{0}\right)\right| \)</span></p>
<p><span>\( \le\frac{\varepsilon}{3}+\frac{\varepsilon}{3}+\frac{\varepsilon}{3}=\varepsilon \)</span></p>
<p>מה שמסיים את ההוכחה הזו.</p>
<h2>עד כמה התכנסות במ"ש משמרת אינטגרלים ונגזרות?</h2>
<p>שני המושגים המרכזיים שהחדו”א עוסק בהם הם <a href="https://gadial.net/2010/11/27/integral/">אינטגרלים</a> (ספציפית, אינטגרל רימן) <a href="https://gadial.net/2010/11/21/derivative/">ונגזרות</a>. על שניהם יש לי פוסטים כך שלא אגדיר אותם במפורש כאן אלא אשתמש רק במה שאני צריך. השאלה הבסיסית שלנו היא זו: נניח ש-<span>\( f_{n}\to f \)</span>, האם זה אומר ש-<span>\( \int_{a}^{b}f_{n}\to\int_{a}^{b}f \)</span> עבור <span>\( \left[a,b\right]\subseteq D \)</span>? והאם זה אומר ש-<span>\( f_{n}^{\prime}\to f^{\prime} \)</span>? התשובה היא שהתכנסות במ”ש מבטיחה את המשפט לגבי האינטגרל, אבל לגבי הנגזרות… זה מסובך קצת יותר. אז בואו נתחיל עם האינטגרל.</p>
<p>ובכן, אני מניח ש-<span>\( f_{n}\to f \)</span> במ”ש ואני רוצה להוכיח <span>\( \int_{a}^{b}f_{n}\to\int_{a}^{b}f \)</span>. איך מתחילים הוכחה כזו? האם הולכים להגדרת אינטגרל רימן, נאמר בעזרת הזוועה שנקראת “סכומי דארבו” ומתחילים לפרק את <span>\( \left[a,b\right] \)</span> לכל מני תת-חלוקות? לא… אנחנו בחדו”א, חבר’ה! מתחילים הכל כולל הכל קודם כל ב”יהי <span>\( \varepsilon>0 \)</span>” ואז כבר רואים איך להתקדם מזה! מה שאנחנו רוצים הוא להראות <span>\( \int_{a}^{b}f_{n}\to\int_{a}^{b}f \)</span>, וזו התכנסות של סדרת מספרים; כלומר, לכל <span>\( \varepsilon>0 \)</span> אני צריך למצוא <span>\( N \)</span> כך שאם <span>\( n>N \)</span> אז <span>\( \left|\int_{a}^{b}f\left(x\right)dx-\int_{a}^{b}f_{n}\left(x\right)dx\right|<\varepsilon \)</span>. בשביל להראות את זה אנחנו לא צריכים להיכנס לסכומי דארבו אבל כן צריכים כמה תכונות סטנדרטיות של אינטגרלים:</p>
<ul> <li>לינאריות של אינטגרל: <span>\( \int_{a}^{b}f\left(x\right)dx+\int_{a}^{b}g\left(x\right)dx=\int_{a}^{b}\left[f\left(x\right)+g\left(x\right)\right]dx \)</span></li>
<li>אי שוויון המשולש האינטגרלי: <span>\( \left|\int_{a}^{b}f\left(x\right)dx\right|\le\int_{a}^{b}\left|f\left(x\right)\right|dx \)</span></li>
<li>מונוטוניות של אינטגרל: אם <span>\( f\left(x\right)\le g\left(x\right) \)</span> ב-<span>\( \left[a,b\right] \)</span> אז <span>\( \int_{a}^{b}f\left(x\right)dx\le\int_{a}^{b}g\left(x\right)dx \)</span></li>
<li>אינטגרל של קבוע: <span>\( \int_{a}^{b}Adx=\left(b-a\right)\cdot A \)</span></li>
</ul>
<p>יחד עם אלו, קל להתקדם: מכיוון ש-<span>\( f_{n}\to f \)</span> במ”ש, אז עבור <span>\( \frac{\varepsilon}{b-a}>0 \)</span> נמצא <span>\( N \)</span> כך שלכל <span>\( n>N \)</span> מתקיים <span>\( \left|f_{n}\left(x\right)-f\left(x\right)\right|<\frac{\varepsilon}{b-a} \)</span> לכל <span>\( x\in D \)</span> ובפרט לכל <span>\( a\le x\le b \)</span> (למה דווקא <span>\( \frac{\varepsilon}{b-a} \)</span>? אני מניח שאנחנו רגילים בשלב הזה לכך שאפשר קודם לנסות עבור <span>\( \varepsilon^{\prime} \)</span> כללי, לראות מה הערך שיוצא לנו טוב ואז לתקן רטרואקטיבית). עכשיו, בעזרת התכונות שציטטתי:</p>
<p><span>\( \left|\int_{a}^{b}f\left(x\right)dx-\int_{a}^{b}f_{n}\left(x\right)dx\right|=\left|\int_{a}^{b}\left[f\left(x\right)-f_{n}\left(x\right)\right]dx\right|\le \)</span></p>
<p><span>\( \le\int_{a}^{b}\left|f\left(x\right)-f_{n}\left(x\right)\right|dx\le\int_{a}^{b}\frac{\varepsilon}{b-a}=\left(b-a\right)\frac{\varepsilon}{b-a}=\varepsilon \)</span></p>
<p>מה שמסיים את ההוכחה עבור אינטגרלים (ליתר דיוק, עבור מה שנקרא “אינטגרל רימן”; אני לא אדבר על סוגים אחרים בפוסט הזה).</p>
<p>בואו נעבור לנגזרות. <strong>מה שהיינו רוצים שיקרה</strong> הוא שאם <span>\( f_{n}\to f \)</span> מתכנסת במ”ש, אז <span>\( f_{n}^{\prime}\to f^{\prime} \)</span> (התכנסות נקודתית). הבעיה היא שזה לא קורה. אני אתן דוגמא עוד מעט. זה קצת מתסכל, כי הרי יש לנו משפט דומה על אינטגרלים ונגזרת היא סוג של ההפך מאינטגרל, כפי <a href="https://gadial.net/2011/01/02/fundemental_theorem_of_calculus/">שהמשפט היסודי של החדו“א</a> מראה לנו, אבל זה בעצם העניין - מכיון שנגזרת היא “ההפך מאינטגרל”, אז כדי שהתוצאה החדשה תתאים למה שראינו על אינטגרלים צריך לא שהסדרה <span>\( f_{n}\to f \)</span> תתכנס במ”ש אלא שהסדרה <span>\( f_{n}^{\prime}\to f^{\prime} \)</span> תתכנס במ”ש.</p>
<p>בואו נחדד מה המשפט שאנחנו כן יודעים להוכיח: נניח ש-<span>\( \left\{ f_{n}\right\} _{n=0}^{\infty} \)</span> היא סדרת פונקציות גזירות על <span>\( \left[a,b\right] \)</span>, ונניח גם שהנגזרות שלהם <span>\( f_{n}^{\prime} \)</span> הן אינטגרביליות על <span>\( \left[a,b\right] \)</span>, ובנוסף לכך נניח ש-<span>\( f_{n}\to f \)</span> בהתכנסות <strong>נקודתית</strong> (לא צריך התכנסות במ”ש). עכשיו, בואו נניח ש-<span>\( f_{n}^{\prime}\to g \)</span> עבור <span>\( g \)</span> <strong>רציפה </strong>כלשהי בהתכנסות שהיא <strong>כן במ"ש</strong>, אז מה שאני יכול לומר הוא ש-<span>\( f \)</span> גזירה ו-<span>\( f^{\prime}\left(x\right)=g \)</span>. אלו תנאים מסובכים למדי, אבל כשהם מתקיימים, המשפט הזה יכול להיות שימושי מאוד (כי בהחלט ייתכן שקל לנו לגזור את <span>\( f_{n} \)</span> ולהראות בקלות שהנגזרות מתכנסות במ”ש למשהו רציף, אפילו אם קשה לנו לגזור את <span>\( f \)</span> עצמה).</p>
<p>ההוכחה עצמה מאוד קלה, בהינתן אוסף התנאים שנתתי. ראשית, בואו נזכיר חלק ממה שהמשפט היסודי של החדו”א אומר: אם <span>\( g\left(x\right) \)</span> <strong>רציפה</strong> בקטע <span>\( \left[a,b\right] \)</span> אז הפונקציה <span>\( G\left(x\right)=\int_{a}^{x}g\left(t\right)dt \)</span> גזירה ומקיימת <span>\( G^{\prime}\left(x\right)=g\left(x\right) \)</span> בכל הקטע. אצלנו נתון ש-<span>\( g \)</span> אכן רציפה (בדיוק כדי שנוכל להשתמש בטענה הזו), אז מה שאנחנו רוצים להראות הוא ש-<span>\( f\left(x\right) \)</span> הוא <span>\( G \)</span> הזו עד כדי קבוע, כלומר <span>\( f\left(x\right)=G\left(x\right)+C \)</span>. בואו נעשה את זה.</p>
<p>מכיוון ש-<span>\( f_{n}^{\prime}\to g \)</span> בהתכנסות במ”ש בתחום <span>\( D=\left[a,b\right] \)</span> אפשר לקחת <span>\( x\in D \)</span> שרירותי ולהשתמש במשפט על האינטגרל כדי להראות</p>
<p><span>\( \int_{a}^{x}f_{n}^{\prime}\left(t\right)dt\to\int_{a}^{x}g\left(t\right)dt \)</span></p>
<p>עכשיו, מה זה האינטגרל <span>\( \int_{a}^{x}f_{n}^{\prime}\left(t\right)dt \)</span>? כאן אנחנו משתמשים <strong>בנוסחת ניוטון-לייבניץ</strong>, שגם היא מסקנה מהמשפט היסודי: מכיוון ש-<span>\( f_{n} \)</span> היא פונקציה קדומה של <span>\( f_{n}^{\prime} \)</span> אז <span>\( \int_{a}^{x}f_{n}^{\prime}\left(t\right)dt=f_{n}\left(x\right)-f_{n}\left(a\right) \)</span> כלומר, אפשר גם לכתוב כך:</p>
<p><span>\( \int_{a}^{x}g\left(t\right)dt=\lim_{n\to\infty}\int_{a}^{x}f_{n}^{\prime}\left(t\right)dt \)</span></p>
<p><span>\( =\lim_{n\to\infty}\left(f_{n}\left(x\right)-f_{n}\left(a\right)\right)=f\left(x\right)-f\left(a\right) \)</span></p>
<p>כשבשורה האחרונה השתמשנו בהתכנסות <strong>הנקודתית</strong> של <span>\( f_{n} \)</span> אל <span>\( f \)</span>.</p>
<p>אם כן, קיבלנו ש-<span>\( G\left(x\right)=\int_{a}^{x}g\left(t\right)dt=f\left(x\right)-f\left(a\right) \)</span> וזה בדיוק מה שרצינו: <span>\( f\left(x\right)=G\left(x\right)+C \)</span> כאשר <span>\( C=f\left(a\right) \)</span>. זה מסיים את ההוכחה הזו, ומה שנשאר לנו לעשות הוא לראות דוגמא לכך שלא היינו יכולים ללכת על המשפט הפשוט יותר שהראיתי בהתחלה.</p>
<p>דרך פשוטה אחת ליצור דוגמא נגדית היא לקחת פונקציות “משוגעות”, כאלו שמשתנות בקצב מאוד מהיר ולכן הנגזרת שלהן בעייתית, אבל לכפול אותן בגורם “מרגיע” שיגרום לכך שהגודל שלהן שואף לאפס - זה נותן לנו סדרה שכל איבר בה הוא משוגע, אבל השגעונות הללו נעלמים כשעוברים לגבול.</p>
<p>סדרה אחת לדוגמא היא <span>\( f_{n}\left(x\right)=\frac{1}{n}\sin\left(n^{2}x\right) \)</span>. כאן ה-<span>\( \frac{1}{n} \)</span> הוא הגורם המרגיע, אבל בתוך הסינוס יש לנו <span>\( n^{2} \)</span> ש”משגע” את הסינוס וגורם לכך שככל ש-<span>\( n \)</span> גדול יותר, הסינוס קופץ בין <span>\( -1 \)</span> ל-<span>\( 1 \)</span> בקצב גבוה יותר. העניין פה הוא שתמיד מתקיים <span>\( \left|\sin\left(n^{2}x\right)\right|\le1 \)</span> ולכן כש-<span>\( n \)</span> שואף לאינסוף <span>\( f_{n}\left(x\right) \)</span> שואפת לאפס במידה שווה: עבור <span>\( \varepsilon>0 \)</span> ניקח <span>\( N=\frac{1}{\varepsilon} \)</span> ונקבל שעבור <span>\( n>N \)</span> (ולכן <span>\( \frac{1}{n}<\frac{1}{N} \)</span>) לכל <span>\( x \)</span> מתקיים</p>
<p><span>\( \left|f_{n}\left(x\right)\right|=\frac{1}{n}\left|\sin\left(n^{2}x\right)\right|\le\frac{1}{n}<\frac{1}{N}=\varepsilon \)</span></p>
<p>מה שאומר ש-<span>\( f_{n}\to0 \)</span> ולכן אנחנו מצפים שיתקיים <span>\( f_{n}^{\prime}\to0^{\prime}=0 \)</span>.</p>
<p>מה קורה בפועל? כשאני גוזר פונקציה בסדרה אני מקבל <span>\( f_{n}^{\prime}\left(x\right)=\frac{1}{n}\cos\left(n^{2}x\right)\cdot n^{2}=n\cos\left(n^{2}x\right) \)</span>, ואם אני מציב <span>\( x=0 \)</span> אני מקבל <span>\( f_{n}^{\prime}\left(0\right)=n \)</span>, כלומר <span>\( f_{n}^{\prime}\left(0\right)\to\infty \)</span> ובוודאי שהגבול הוא לא 0, כך שסדרת הנגזרות <strong>לא</strong> מתכנסת לנגזרת של גבול הסדרה המקורית. זה מסיים את הדוגמא הנגדית הזו.</p>
<h2>טורים של פונקציות</h2>
<p>כל מה שעשינו עד עכשיו התייחס <strong>לסדרות</strong> של פונקציות אבל כבר ראינו במקרה של סדרות של מספרים שהמעבר לטורים הוא כמעט מיידי. אם יש לנו סדרה של פונקציות <span>\( u_{0}\left(x\right),u_{1}\left(x\right),u_{2}\left(x\right),\ldots \)</span> אנחנו יכולים להגדיר פונקציות “סכום” <span>\( f_{n}\left(x\right)=\sum_{k=0}^{n}u_{k}\left(x\right) \)</span> ואז להגדיר את סכום הטור האינסופי של ה-<span>\( u_{n} \)</span>-ים בתור <span>\( \sum_{n=0}^{\infty}u_{n}\left(x\right)=\lim_{n\to\infty}f_{n}\left(x\right) \)</span>. הדברים שראינו עבור סדרות של פונקציות עוברים אוטומטית בלי כמעט שום בעיה: יש לנו מושג של <strong>התכנסות במידה שווה</strong> של טור, שאומר שסדרת הסכומים החלקיים מתכנסת במידה שווה. אם טור של פונקציות רציפות מתכנס במידה שווה, אז הוא מתכנס לפונקציה רציפה (כי אם כל ה-<span>\( u_{n} \)</span>–ים רציפים אז גם כל <span>\( f_{n} \)</span> היא רציפה כי סכום <strong>סופי</strong> של פונקציות רציפות הוא פונקציה רציפה, ומכאן נשתמש בתוצאה על גבול של סדרות שכבר ראינו), והוא מקיים <span>\( \int_{a}^{b}\sum_{n=0}^{\infty}u_{n}\left(x\right)=\sum_{n=0}^{\infty}\int_{a}^{b}u_{n}\left(x\right) \)</span>, כלומר אפשר “להחליף את סדר הסכום האינסופי והאינטגרל” - הכללה של תכונת הלינאריות של אינטגרל שעובדת עבור סכומים סופיים.</p>
<p>בנוסף יש לנו תוצאה דומה עבור נגזרות, שכפי שראינו דורשת תנאים קצת שונים: אם <span>\( \sum_{n=0}^{\infty}u_{n} \)</span> מתכנס נקודתית אל <span>\( f \)</span> ולכל <span>\( u_{n} \)</span> יש נגזרת אינטגרבילית <span>\( u_{n}^{\prime} \)</span> וטור הנגזרות <span>\( \sum_{n=0}^{\infty}u_{n}^{\prime} \)</span> מתכנס במ”ש, אז <span>\( f^{\prime}=\sum_{n=0}^{\infty}u_{n}^{\prime} \)</span>, או בכתיב אחר - <span>\( \left(\sum_{n=0}^{\infty}u_{n}\right)^{\prime}=\sum_{n=0}^{\infty}u_{n}^{\prime} \)</span>, כלומר אפשר להחליף את סדר הסכום האינסופי והנגזרת - הכללה של תכונת הלינאריות של נגזרת שעובדת עבור סכומים סופיים.</p>
<p>הנה דוגמא לאופן שבו משתמשים בזה. בפוסט שלי על <a href="https://gadial.net/2019/02/13/coupon_collector_problem/">בעיית איסוף הקופונים</a> צץ באופן טבעי כחלק מהפתרון שלנו הסכום <span>\( \sum_{n=0}^{\infty}nx^{n-1} \)</span> שרצינו לחשב. מה שדי קופץ לעין כאן הוא שהאיבר הכללי של הסכום נראה כמו נגזרת: <span>\( \left(x^{n}\right)^{\prime}=nx^{n-1} \)</span>. אז אני משתמש ב-<span>\( \left(\sum_{n=0}^{\infty}u_{n}\right)^{\prime}=\sum_{n=0}^{\infty}u_{n}^{\prime} \)</span> כדי “להוציא את הנגזרת החוצה”:</p>
<p><span>\( \sum_{n=0}^{\infty}nx^{n-1}=\sum_{n=0}^{\infty}\left(x^{n}\right)^{\prime}=\left(\sum_{n=0}^{\infty}x^{n}\right)^{\prime} \)</span></p>
<p>זה טוב, בגלל שיש לי את הנוסחה <span>\( \sum_{n=0}^{\infty}x^{n}=\frac{1}{1-x} \)</span> ואת הביטוי הזה קל לגזור: <span>\( \left(\frac{1}{1-x}\right)^{\prime}=\frac{1}{\left(1-x\right)^{2}} \)</span>, מה שנותן לנו את התוצאה <span>\( \sum_{n=0}^{\infty}nx^{n-1}=\frac{1}{\left(1-x\right)^{2}} \)</span>. אבל זה, כמובן, רק בתנאי שהתנאים של המשפט שלי מתקיימים: רק בתנאי שהטור <span>\( \sum_{n=0}^{\infty}nx^{n-1} \)</span> מתכנס, ושהטור <span>\( \sum_{n=0}^{\infty}x^{n} \)</span> מתכנס במ”ש. עכשיו, ברור שאם נציב <span>\( x=1 \)</span> ב-<span>\( \sum_{n=0}^{\infty}x^{n} \)</span> נקבל את הטור <span>\( \sum_{n=0}^{\infty}1 \)</span> שלא מתכנס בכלל, אז אני צריך מלכתחילה להגביל את עצמי לתחום <span>\( \left|x\right|<1 \)</span> - אבל גם בתחום הזה, איך אני יודע שהטורים מתכנסים?</p>
<p>ספציפית עבור שני הטורים שאני מדבר עליהם כאן יש תורה שלמה ומרתקת שמתעסקת בהתכנסות שלהם שאגיע אליה בפוסט הבא, אבל עוד לפני שנגיע לתיאוריה של טורים ספציפיים יש משפט מועיל במיוחד שצריך להזכיר פה: מבחן ה-M של ויירשטראס.</p>
<p>הרעיון במבחן ה-M הוא פשוט: בואו נמיר את שאלת ההתכנסות במ”ש של טור פונקציות שהיא מסובכת, בשאלת התכנסות של טור <strong>מספרים</strong> שגם היא מסובכת אבל פחות.</p>
<p>המשפט אומר כך: נניח שיש לנו את טור הפונקציות <span>\( \sum_{n=0}^{\infty}u_{n} \)</span> ויש סדרה <span>\( \left\{ M_{n}\right\} _{n=0}^{\infty} \)</span>של מספרים אי שליליים כך ש-<span>\( \left|u_{n}\left(x\right)\right|\le M_{n} \)</span> לכל <span>\( x\in D \)</span> (כשכזכור <span>\( D \)</span> הוא התחום שעליו כל ה-<span>\( u_{n} \)</span> מוגדרות) ואם בנוסף לזה מתקיים שהטור <span>\( \sum_{n=0}^{\infty}M_{n} \)</span> מתכנס (התכנסות רגילה של טורי מספרים) אז <span>\( \sum_{n=0}^{\infty}u_{n} \)</span> מתכנס במ”ש ב-<span>\( D \)</span>.</p>
<p>איך מוכיחים את זה? ראשית צריך להראות ש-<span>\( \sum_{n=0}^{\infty}u_{n} \)</span> בכלל מתכנס אל <strong>משהו</strong>. ניקח <span>\( x\in D \)</span> כלשהו ונסתכל על טור המספרים <span>\( \sum_{n=0}^{\infty}\left|u_{n}\left(x\right)\right| \)</span>. עכשיו נשלוף שני דברים מהתורה של סכומים אינסופיים של מספרים:</p>
<ul> <li>מבחן ההשוואה: אם <span>\( 0\le a_{n}\le b_{n} \)</span> לכל <span>\( n \)</span> והטור <span>\( \sum_{n=0}^{\infty}b_{n} \)</span> מתכנס, אז הטור <span>\( \sum_{n=0}^{\infty}a_{n} \)</span> מתכנס.</li>
<li>אם <span>\( \sum_{n=0}^{\infty}\left|a_{n}\right| \)</span> מתכנס אז <span>\( \sum_{n=0}^{\infty}a_{n} \)</span> מתכנס (<strong>התכנסות בהחלט</strong> של טור גוררת התכנסות שלו).</li>
</ul>
<p>אצלנו <span>\( 0\le\left|u_{n}\left(x\right)\right|\le M_{n} \)</span> בשילוב עם ההתכנסות של <span>\( \sum_{n=0}^{\infty}M_{n} \)</span> ומבחן ההשוואה מראים שהטור <span>\( \sum_{n=0}^{\infty}\left|u_{n}\left(x\right)\right| \)</span> מתכנס (עבור <span>\( x\in D \)</span> ספציפי), ולכן <span>\( \sum_{n=0}^{\infty}u_{n}\left(x\right) \)</span> גם מתכנס. זה מאפשר לנו להגדיר פונקציה <span>\( f\left(x\right)=\sum_{n=0}^{\infty}u_{n}\left(x\right) \)</span> לכל <span>\( x\in D \)</span>, ורק נשאר להראות ש-<span>\( \sum_{n=0}^{\infty}u_{n} \)</span> מתכנס במ”ש אל <span>\( f \)</span>; כלומר, שאם נגדיר <span>\( f_{n}\left(x\right)=\sum_{k=0}^{n}u_{k}\left(x\right) \)</span> אז סדרת הפונקציות <span>\( f_{n} \)</span> מתכנסת במ”ש אל <span>\( f \)</span>.</p>
<p>נוכיח את זה בצורה הרגילה: נאמר “יהא <span>\( \varepsilon>0 \)</span>” ועכשיו נרצה למצוא <span>\( N \)</span> כך שאם <span>\( n>N \)</span> אז <span>\( \left|f\left(x\right)-f_{n}\left(x\right)\right|<\varepsilon \)</span> לכל <span>\( x\in D \)</span>. זה דורש חישוב די ישיר:</p>
<p><span>\( \left|f\left(x\right)-f_{n}\left(x\right)\right|=\left|\sum_{n=0}^{\infty}u_{n}\left(x\right)-\sum_{k=0}^{n}u_{k}\left(x\right)\right|= \)</span></p>
<p><span>\( =\left|\sum_{k=n+1}^{\infty}u_{k}\left(x\right)\right|\le\sum_{k=n+1}^{\infty}\left|u_{k}\left(x\right)\right|\le\sum_{k=n+1}^{\infty}M_{k} \)</span></p>
<p>עכשיו, מכיוון ש-<span>\( \sum_{n=0}^{\infty}M_{n} \)</span> מתכנס, הזנב של הטור שואף לאפס (כי אם סכום הטור הוא <span>\( L \)</span>, הזנב הוא הסדרה <span>\( L-S_{n} \)</span> ומכיוון ש-<span>\( S_{n}\to L \)</span> הסדרה הזו שואפת לאפס), כלומר לכל <span>\( \varepsilon>0 \)</span> קיים <span>\( N \)</span> כך שאם <span>\( n>N \)</span> אז <span>\( \left|\sum_{k=n+1}^{\infty}M_{k}\right|\le\varepsilon \)</span>, מה שמסיים את ההוכחה (כי ה-<span>\( M_{k} \)</span>-ים הם אי שליליים ולכן <span>\( \left|\sum_{k=n+1}^{\infty}M_{k}\right|=\sum_{k=n+1}^{\infty}M_{k} \)</span>).</p>
<p>אם כן, אלו התוצאות הכלליות שבדרך כלל מציגים בתחילת הדיון על הנושאים הללו. בפוסט הבא אני אקפוץ אל סוג ספציפי של טורי פונקציות, שגם מתנהגים יפה יותר מאשר במקרה הכללי, והם גם שימושיים בצורה יוצאת מן הכלל - <strong>טורי חזקות</strong>.</p>מבואאז איך באמת פותרים משוואה ריבועית?2023-12-16T00:00:00+00:002023-12-16T00:00:00+00:00http://gadial.net/2023/12/16/quadratic_equations<h2>מבוא</h2>
<p>אחד הפוסטים הפופולריים ביותר בבלוג מבחינת מספר כניסות הוא הפוסט על “איך פותרים משוואה ריבועית?” שנמצא <a href="https://gadial.net/2008/01/26/solving_quadratic_equations/">כאן</a>, מן הסתם כי זו שאלה נפוצה שהרבה אנשים מחפשים. הפוסט ההוא נכתב לפני 15 שנים ושם דגש בעיקר על הבנה של שיטת הפתרון הכללית. אני רוצה עכשיו לעשות עוד סיבוב על הנושא הזה ולנקוט בגישה טיפה יותר פרקטית, למרות שגם לשיטה הכללית נגיע. התקווה שלי היא שהפוסט הזה יוכל להיות כזה שמגיעים אליו בלי לדעת כלום על משוואות ריבועיות, ויוצאים ממנו עם הבסיס של מה שצריך כדי להתמודד עם מה שזורקים עלינו בבית הספר בלי להיכנס לחרדות (אבל רק הבסיס! את התרגול המשמעותי שצריך לעשות אני לא עושה כאן).</p>
<p>אז נדבר על מה זה בכלל, מה הטריקים הפשוטים שעוזרים לנו לפתור את זה במקרים רבים ולמה הם עובדים, ובסוף - מה הדרך הכללית להתמודד עם זה ולמה היא נכונה. אבל נתחיל ממה זה בכלל.</p>
<p>מה זו משוואה? הנה דוגמא: <span>\( 2x+3=7 \)</span>. יש לנו כאן סימן שוויון <span>\( = \)</span>, והרעיון הוא שמה שנמצא בצד ימין שלו אמור להיות שווה למה שנמצא בצד שמאל שלו. בצד ימין יש פשוט מספר, <span>\( 7 \)</span>, אבל בצד שמאל כתוב משהו יותר מסובך שמערב את האות <span>\( x \)</span>. ה-<span>\( x \)</span> הזה נקרא <strong>משתנה</strong> והרעיון בו הוא שאנחנו יכולים להחליף אותו בכל מני ערכים (ולכן “משתנה” - הערכים ש-<span>\( x \)</span> מייצג יכולים להשתנות). אם נחליף את <span>\( x \)</span> ב-2 נקבל את המשוואה <span>\( 2\cdot2+3=7 \)</span>, ובאמת צד ימין שווה לצד שמאל; אבל אם נחליף את <span>\( x \)</span> ב-1 נקבל <span>\( 1\cdot2+3=7 \)</span> וזה משהו <strong>לא נכון</strong> כי <span>\( 5\ne7 \)</span>. לכן אנחנו אומרים ש-<span>\( 2 \)</span> הוא <strong>פתרון</strong> של המשוואה <span>\( 2x+3=7 \)</span> ואילו <span>\( 1 \)</span> הוא לא פתרון. וכשאני מדבר על “לפתור משוואה” אני מתכוון - למצוא את הפתרונות שלה; למצוא את הערכים שאפשר להציב ב-<span>\( x \)</span> ולקבל שני אגפים שבאמת שווים זה לזה.</p>
<p>בואו נראה דוגמא קצת יותר מסובכת למשוואה: <span>\( x^{2}+3=2x+11 \)</span>. כאן יש לנו את <span>\( x \)</span> בשני הצדדים (ה<strong>אגפים</strong>, כפי שאני בדרך כלל קורא להם) של המשוואה, ובאגף שמאל כתוב <span>\( x^{2} \)</span>, כלומר <span>\( x \)</span> בחזקת 2, כלומר <span>\( x \)</span> כפול עצמו. הנוכחות הזו של <span>\( x^{2} \)</span> בתוך המשוואה, אבל בלי שיהיו חזקות גבוהות יותר של <span>\( x \)</span> או ביטויים מסובכים יותר שמערבים את <span>\( x \)</span>, הופכת את המשוואה ל<strong>משוואה ממעלה שניה</strong>, שהיא נושא הפוסט. למה משווואת ממעלה שניה מעניינות כל כך? כי כמו רוב הדברים המעניינים במתמטיקה - מצד אחד הן מסוגלות לתאר דברים לא טריוויאליים והפתרון שלהן הוא לא לגמרי טריוויאלי, אבל מצד שני הן אחד מהדברים המועטים שאנחנו <strong>כן יודעים לפתור</strong> בצורה משביעת רצון (משוואות ממעלה שלישית ומעלה זה עולם מסובך בהרבה ולא אדבר עליו בכלל בפוסט).</p>
<p>אם בודקים, רואים ש-<span>\( x=4 \)</span> הוא פתרון של המשוואה: אם נחליף את <span>\( x \)</span> ב-4 (<strong>נציב</strong> 4 ב-<span>\( x \)</span>, כמו שאני הולך לומר מכאן ואילך) נראה שבשני אגפי המשוואה אני מקבל 19. לכן 4 הוא פתרון של המשוואה, אבל הוא לא הפתרון <strong>היחיד</strong> שלה: <span>\( x=-2 \)</span> גם הוא פתרון, כי אם נציב אותו במשוואה נקבל בשני האגפים <span>\( 7 \)</span>. באופן כללי, למשוואה ממעלה שניה יכולים להיות שני פתרונות, או פתרון אחד, או אפס פתרונות אבל בשום פנים ואופן לא שלושה פתרונות או יותר; אדבר על זה קצת יותר לעומק בהמשך (כי אני טיפה - ממש טיפה! - משקר פה).</p>
<p>עכשיו מגיעה השאלה המתבקשת - איך בעצם מצאתי את הפתרונות? מציאת הפתרונות הללו היא מה שאנחנו קוראים לו “לפתור משוואה ריבועית” ומה שאני רוצה להציג בפוסט. כבר מראש אני אגיד שיש דרך <strong>כללית</strong> לפתור משוואות ריבועיות, שפותרת <strong>כל</strong> משוואה כזו, באמצעות משהו שנקרא <strong>נוסחת השורשים</strong>. אני אדחה את ההצגה של השיטה הזו לסוף כי היא לא תמיד הדרך הכי נוחה לפתור משוואה כזו, וכי זה החלק הכי משעמם/מאיים/מפחיד/קשה לשינון בכל הסיפור.</p>
<h2>חלק ראשון, ובו פותרים משוואות קלות במיוחד ורואים את המבנה הכללי של משוואה ריבועית</h2>
<p>יש כמה מקרים שבהם קל יחסית לפתור משוואות ריבועיות. הנה אחד מהם: <span>\( x^{2}=100 \)</span>. איזה מספר, כשמעלים אותו בריבוע, מחזיר 100? ובכן, 10 כפי שאולי אנחנו זוכרים מלוח הכפל. אבל לא רק 10, אלא גם <span>\( -10 \)</span>, כי כשמכפילים את <span>\( -10 \)</span> בעצמו יש לנו מקרה של “מינוס כפול מינוס שווה פלוס” (<a href="https://gadial.net/2017/07/30/minus_minus/">יש לי פוסט</a> על למה הדבר הזה קורה).</p>
<p>זה היה קל יחסית, אבל מה עם <span>\( x^{2}=121 \)</span>? כאן הפתרון הוא <span>\( x=\pm11 \)</span> (ה-<span>\( \pm \)</span> הזה הוא דרך קומפקטית עבורי לכתוב את שני הפתרונות יחד), אבל מי בעצם יודע את זה? רק מי שיודע ש-<span>\( 11^{2}=121 \)</span>, וזה לא שיש לנו סיבה טובה לדעת את זה. אם נצטרך לפתור שאלה כזו ויהיה לנו מחשבון בהישג יד, מה שנעשה הוא להשתמש בכפתור שעליו מופיע הסימן <span>\( \sqrt{} \)</span> - לבצע את הפעולה של <strong>הוצאת שורש ריבועי</strong>. האם זה משהו שאפשר לעשות גם ידנית? התשובה היא כן, ויש לזה כמה שיטות (אני טיפה מדבר על זה <a href="https://gadial.net/2007/10/31/finding_square_roots/">כאן</a>), אבל בעיקרון - זה בהחלט משהו שאפשר להגיד “מחשב יודע לפתור” או אפילו לכתוב <span>\( x=\pm\sqrt{121} \)</span> וזהו. גם לא תמיד יש לנו דרך יותר טובה לכתוב את הפתרון: עבור המשוואה <span>\( x^{2}=2 \)</span> הפתרון הוא <span>\( \pm\sqrt{2}=\pm1.41421\ldots \)</span>, כאשר שלוש הנקודות אומרות “לא סיימנו לכתוב את הספרות כי יש אינסוף כאלו אבל נגמר לנו הכוח”. זה לא ייצוג טוב יותר מאשר <span>\( \sqrt{2} \)</span> עצמו. גם בפתרון הכללי של משוואות ממעלה שניה באמצעות נוסחת השורשים, הוצאת שורש היא שלב מרכזי בתהליך, וגם אז לפעמים יותר נוח לנו להשאיר את התוצאה בתור משהו עם סימן שורש מעליו ותו לא. למשל, אנחנו הולכים לראות בהמשך שפתרון של המשוואה <span>\( x^{2}=x+1 \)</span> הוא מספר <span>\( \varphi=\frac{1+\sqrt{5}}{2} \)</span>. זה מספר שמוצג באמצעות ביטוי שמערב את <span>\( \sqrt{5} \)</span> ועם זאת העובדה שהוא מתואר באמצעות שורש לא מנעה מהמספר הזה לזכות בכינוי “יחס הזהב” ולקבל ספרים ומאמרים משתפכים על כמה הוא המספר המדהים בתולדות המתמטיקה. אז בעיקרון, אם יש סימן שורש בפתרון זה לא סוף העולם, למרות שאם השורש הוא מספר שלם, כמו במקרה <span>\( \sqrt{121}=11 \)</span>, כן יותר נחמד בלעדיו.</p>
<p>הנה דוגמא אחרת למשוואה ריבועית שקל יחסית לפתור: <span>\( x^{2}=10x \)</span>. במקרה הזה, יש שתי אפשרויות: או ש-<span>\( x=0 \)</span> (קל לראות שהצבת <span>\( x=0 \)</span> תיתן אפס בשני האגפים ולכן זה פתרון של המשוואה) או ש-<span>\( x\ne0 \)</span>. אם <span>\( x\ne0 \)</span> אפשר לחלק בו ולקבל <span>\( x=10 \)</span>, כלומר אלו שני הפתרונות של המשוואה.</p>
<p>מה משותף לשני סוגי המשוואות ה”קלים” הללו? בואו נתאר משוואות ממעלה שניה בצורה גנרית, כללית, ואז נראה איך שני אלו הם מקרים פרטיים פשוטים יחסית.</p>
<p>מבנה כללי למשוואה ממעלה שניה הוא <span>\( ax^{2}+bx+c=0 \)</span>, כאשר <span>\( a,b,c \)</span>, שנקראים <strong>המקדמים</strong> של המשוואה, הם מספרים שכדי לתאר בצורה כללית אני כותב בצורת אותיות. אף משוואה ממעלה שניה שהצגתי בפוסט עד עכשיו לא נכתבה בצורה הזו, אבל קל מאוד <strong>להביא</strong> אותן לצורה הזו. למשל, הצגתי קודם את המשוואה <span>\( x^{2}+3=2x+11 \)</span>. אני יכול עכשיו לבצע מה שנקרא <strong>העברת אגפים</strong> כדי להביא אותה לצורה הכללית: אני אקבל <span>\( x^{2}-2x-8=0 \)</span>, כלומר במקרה הזה, <span>\( a=1,b=-2,c=-8 \)</span> (מה זו העברת אגפים? למשל, אני מחסר 11 משני אגפי המשוואה ואז ה-11 שבאגף ימין נעלם ובאגף שמאל צץ יש מאין <span>\( -11 \)</span>; אפשר לדמיין את זה כאילו לקחנו את ה-11 מאגף ימין, העברנו אותו לאגף שמאל ו”שילמנו” על כך בהיפוך הסימן שלו).</p>
<p>עבור המשוואה <span>\( x^{2}=121 \)</span> העברה לצורה הכללית נותנת <span>\( x^{2}-121=0 \)</span>, כלומר <span>\( a=1,b=0,c=121 \)</span>.</p>
<p>עבור המשוואה <span>\( x^{2}=10x \)</span> העברה לצורה הכללית נותנת <span>\( x^{2}-10x=0 \)</span>, כלומר <span>\( a=1,b=-10,c=0 \)</span>.</p>
<p>שתי הדוגמאות האחרונות מראות מה הופך את המקרים הללו לפשוטים יחסית: אחד מהמקדמים של המשוואה היה 0, או <span>\( b=0 \)</span> או <span>\( c=0 \)</span>. ומה אם <span>\( a=0 \)</span>? ובכן, זה המקרה הקל מכולם כי במקרה הזה התוצאה היא בכלל לא משוואה ריבועית; למשל, <span>\( 2x+3=7 \)</span> מתחילת הפוסט, כשמעבירים אותה לצורה הכללית, היא <span>\( 2x-4=0 \)</span> ואז <span>\( a=0,b=2,c=-2 \)</span> ובמקרה הזה הכי קל לפתור אותה. מכיוון שהפוסט הזה עוסק במשוואות ריבועיות, אני אניח מכאן ואילך ש-<span>\( a\ne0 \)</span> תמיד.</p>
<p>ראינו שמשוואה ריבועית נהיית “מעניינת” כשכל המקדמים שלה שונים מאפס. זה מביא אותנו לעוד משהו שכדאי לשים לב אליו - אם <span>\( a\ne0 \)</span>, ואמרנו שזה המקרה ה”מעניין” היחיד ממילא, אז תמיד אפשר לחלק בו ולקבל את המשוואה <span>\( x^{2}+\frac{b}{a}x+\frac{c}{a}=0 \)</span> - משוואה חדשה שבה המקדם של <span>\( x^{2} \)</span> הוא 1. לעתים קרובות קל יותר לפתור משוואה בכזו סיטואציה - הפתרונות שהראיתי לשני המקרים הפשוטים אכן הסתמכו על כך. אם אני מסתכל על המשוואה <span>\( 4x^{2}=400 \)</span> אז אי אפשר סתם להוציא שורש ל-400 וזו תהיה התשובה: אני צריך קודם שהמקדם של <span>\( x^{2} \)</span> יהיה 4, אז אני מחלק את שני האגפים ב-4, מקבל <span>\( x^{2}=100 \)</span> ומכאן אני כבר יודע לפתור. מה שכן, אם החלוקה במקדם של <span>\( x^{2} \)</span> יוצרת לנו <strong>שברים</strong> בתוך המשוואה, לעתים קרובות עדיף לוותר עליה כי חישובים בשברים הם עניין מעצבן יותר; בהמשך אני לא אניח ש-<span>\( a=1 \)</span> עבור המקרים היותר כלליים שבהם אטפל.</p>
<p>עניין אחר שכדאי להביא בחשבון הוא שלא תמיד כל כך פשוט להביא את המשוואה לצורה הכללית שלה. למשל, במשוואה <span>\( \frac{2}{x}+\frac{8}{x^{2}}=1 \)</span> שהפתרונות שלה הן <span>\( 4,-2 \)</span> נדרשת עבודה כדי להגיע לצורה הכללית, וכאן זה מקרה פשוט יחסית. אז גם אם אני הולך להראות איך פותרים משוואה בצורה כללית זה לא סוף הסיפור.</p>
<h2>חלק שני, ובו אנחנו לומדים טריק שימושי מאין כמותו לניחוש פתרונות של משוואות ריבועיות</h2>
<p>לא לכל משוואה ריבועית יש פתרון “נחמד”. ראינו את <span>\( x^{2}-x-1=0 \)</span> עם הפתרון <span>\( \frac{1+\sqrt{5}}{2} \)</span> - זה מספר שגם מערב שבר וגם מערב שורש, ובסטנדרט שלי זה “לא נחמד”. נחמד זה מספר שלם, כמו 42 או <span>\( -12 \)</span>. מה שעוד יותר נחמד הוא שאם למשוואה ריבועית יש פתרון “נחמד” אחד אז נובע מזה גם שאם יש עוד פתרון, גם הפתרון האחר הוא נחמד, וגם שיחסית קל למצוא את שניהם מתוך הצורה הכללית של המשוואה, בלי נוסחת שורשים כללית ובלי כלום.</p>
<p>בואו נדגים את זה עם המשוואה <span>\( x^{2}-2x-8=0 \)</span>: ראשית אני אתאר את הקסם שבו אני משתמש, ואז אני אסביר איך הוא עובד. הקסם הוא כזה: במשוואה מהצורה <span>\( ax^{2}+bx+c \)</span> קוראים ל-<span>\( a \)</span> “המקדם המוביל” ול-<span>\( c \)</span> “המקדם החופשי”. עכשיו, אם למשוואה יש שני פתרונות, אז <strong>המכפלה</strong> של אותם שני פתרונות תמיד שווה ל-<span>\( \frac{c}{a} \)</span>, התוצאה של חלוקת המקדם החופשי במקדם המוביל. במקרה של <span>\( x^{2}-2x-8=0 \)</span> המכפלה של שני הפתרונות חייבת לצאת <span>\( -8 \)</span>, מה שמאוד מקל עלי לנחש זוגות פוטנציאליים של פתרונות נחמדים: אני יודע ש-<span>\( 8=2\cdot4 \)</span> או <span>\( 8=1\cdot8 \)</span> ואלו שתי הדרכים היחידים להציג את 8 בתור מכפלה של שני מספרים שלמים חיוביים. כשאני מכניס את המינוסים לתמונה, אני מקבל בעצם ארבעה מקרים:</p>
<ul> <li><span>\( -8=2\cdot\left(-4\right) \)</span></li>
<li><span>\( -8=-2\cdot4 \)</span></li>
<li><span>\( -8=1\cdot\left(-8\right) \)</span></li>
<li><span>\( -8=\left(-1\right)\cdot8 \)</span></li>
</ul>
<p>אפשר לבדוק את כל המקרים הללו במפורש על ידי הצבה במשוואה ובדיקה מה יקיים אותה; זה כמובן טוב יותר מאשר מה שהיה לנו קודם, שבו לא הייתה לנו בכלל רשימה של פתרונות פוטנציאליים והיינו צריכים פשוט להציב דברים אקראית מכל הבא ליד. ועדיין, בפני עצמו זה לא קסם מספיק טוב. היופי הוא שאפשר לשלב את הקסם הזה בקסם נוסף: <strong>הסכום</strong> של שני הפתרונות חייב להיות <span>\( -\frac{b}{a} \)</span>, כלומר מינוס המקדם האמצעי חלקי המקדם המוביל. עבור <span>\( x^{2}-2x-8=0 \)</span> הסכום חייב להיות 2, וזה כבר ממש קל: ברור שזוגות שמערבים את <span>\( \pm1,\pm8 \)</span> בכלל לא רלוונטיים כי הסכומים שלהם לעולם לא יתנו 2. גם עבור <span>\( 2,-4 \)</span> הסכום לא יוצא מתאים: הוא יוצא מינוס 2 במקום 2. את כל זה אפשר לבדוק בזריזות בראש, ולהגיע למסקנה שאם יש זוג פתרונות “נחמדים” הם חייבים להיות <span>\( -2,4 \)</span> ואז אפשר להציב אותם במשוואה ולראות שזה עובד.</p>
<p>בואו נחזור שוב על תיאור הקסם, בצורה מפורשת, וגם ניתן לו את שמו האמיתי - <strong>נוסחאות וייטה</strong>. הקסם אומר שעבור המשוואה <span>\( ax^{2}+bx+c=0 \)</span>:</p>
<ul> <li><strong>מכפלת</strong> שני הפתרונות שווה ל-<span>\( \frac{c}{a} \)</span> (ואם יש פתרון יחיד, המכפלה שלו בעצמו שווה <span>\( \frac{c}{a} \)</span>).</li>
<li><strong>סכום</strong> שני הפתרונות שווה ל-<span>\( -\frac{b}{a} \)</span> (ואם יש פתרון יחיד, הסכום שלו עם עצמו שווה <span>\( -\frac{b}{a} \)</span>).</li>
</ul>
<p>בגלל שהחלוקה ב-<span>\( a \)</span> הזו קצת מעצבנת, המקרה הכי נוח לשימוש בנוסחאות הללו הוא כאשר <span>\( a=1 \)</span> (כמו פחות או יותר כל דוגמא שהראיתי). באופן כללי, בהינתן המשוואה <span>\( ax^{2}+bx+c=0 \)</span> עבור <span>\( a\ne0 \)</span> אפשר לחלק אותה ב-<span>\( a \)</span> ולקבל <span>\( x^{2}+\frac{b}{a}x+\frac{c}{a}=0 \)</span> ולכן מספיק להכיר את נוסחאות וייטה למקרה שבו <span>\( a=1 \)</span>, אבל אני בכל זאת אמשיך לעבוד עם הצורה הכללית יותר שלהן כדי שלא נגיע למצב (שאני כמעט תמיד נמצא בו, כולל בזמן כתיבת הפוסט הזה) של מין ערפל לא ברור לגבי מה קורה אם <span>\( a\ne1 \)</span>.</p>
<p>חשוב לציין, ותכף נראה זאת במפורש, שהנוסחאות הללו נכונות <strong>תמיד</strong>, לכל משוואה ריבועית בצורה הכללית שלה, בלי קשר לשאלה אם הפתרונות הם “נחמדים” או לא; העניין הוא שאם הפתרונות הם נחמדים, נוסחאות וייטה נותנות לנו דרך נוחה לנחש אותם. כדי לראות מקרה שבו הסיטואציה היא לא נחמדה בואו נחזור אל <span>\( x^{2}-x-1=0 \)</span> והפעם אני אכתוב במפורש את <strong>שני</strong> הפתרונות:</p>
<p><span>\( \frac{1+\sqrt{5}}{2} \)</span></p>
<p><span>\( \frac{1-\sqrt{5}}{2} \)</span></p>
<p>קל לראות שהסכום של שני הפתרונות הוא 1, ולכן הוא יוצא <span>\( -b \)</span> כמו שהוא נדרש. מה שקרה פה הוא ששני הפתרונות היו דומים מספיק זה לזה כדי שהסכום שלהם “יקזז” את החלק הלא נחמד שלהם (השורש, השבר) ונקבל תוצאה שהיא מספר נחמד. גם המכפלה יוצאת נחמדה: <span>\( \frac{1+\sqrt{5}}{2}\cdot\frac{1-\sqrt{5}}{2}=\frac{1-5}{4}=-1 \)</span>. זה לא מקרי שהפתרונות כל כך דומים זה לזה; אני אעיר כאן שסוג כזה של דמיון בין פתרונות נותן להם במתמטיקה קצת יותר מתקדמת את השם “פתרונות צמודים” ואפשר להראות שאם למשוואה יש מקדמים “נחמדים” אז אם הפתרונות שלה אינם “נחמדים” הם חייבים להיות צמודים, אבל אני לא אכנס לפרטים של זה. הנקודה היא ש<strong>בהחלט ייתכן</strong> שלמשוואה עם מקדמים שלמים יהיו פתרונות לא שלמים, ולכן למרות שהם עדיין מקיימים את נוסחאות וייטה קשה לומר שהן עוזרות לנו לנחש אותם (עדיין אפשר לנסות, אבל לדעתי בסיטואציה כזו כבר יותר קל להיעזר בנוסחת השורשים וחסל).</p>
<h2>חלק שלישי, שבו אנחנו מנסים להבין למה הטריק בעצם נכון</h2>
<p>הצגתי את הטריק בתור “קסם” כי זה משהו שנתתי בלי להסביר מאיפה הוא מגיע ולמה הוא נכון. זו גישה טובה כשרוצים להגיע מהר אל “איך משתמשים בזה”, אבל זה לא ערפל שכדאי להשאיר לטווח ארוך. בואו נבין בדיוק למה זה עובד ונקבל מושג קצת יותר טוב על מה הולך במשוואות ריבועיות בעצם.</p>
<p>ראשית, צריך להזכיר כלל בסיסי בחשבון: חוק הפילוג. הוא אומר ש-<span>\( a\left(b+c\right)=ab+ac \)</span>, כלומר אני יכול “לפתוח סוגריים” עם חיבור שמוכפלים באיזה <span>\( a \)</span> על ידי כך שאני כופל את ה-<span>\( a \)</span> בנפרד באיברים שבסוגריים ואז מחבר את הכל. עכשיו, נניח שבמקום <span>\( a \)</span> היה כתוב סכום, זה עדיין היה עובד באותה מידה, כלומר</p>
<p><span>\( \left(a+b\right)\left(c+d\right)=\left(a+b\right)c+\left(a+b\right)d \)</span></p>
<p>ואני יכול להשתמש שוב בחוק הפילוג עבור הסוגריים הנוספים שמופיעים כאן, ולקבל בסופו של דבר:</p>
<p><span>\( \left(a+b\right)\left(c+d\right)=ac+ad+bc+bd \)</span></p>
<p>כלומר, קיבלתי סכום של ארבע מכפלות, כשכל מכפלה מתקבלת על ידי “קחו איבר מהסוגריים השמאליים וכפלו אותו באיבר מהסוגריים הימניים”. בשביל מה כל זה היה טוב? ובכן, בואו נסתכל עכשיו על מכפלה דומה:</p>
<p><span>\( \left(x-p\right)\left(x-q\right)=xx-xq-px+pq=x^{2}-\left(p+q\right)x+pq \)</span></p>
<p>הביטוי שהגענו אליו מזכיר מאוד את הצורה הכללית של משוואה ממעלה שניה! אבל יותר מזה, שימו לב שאם אני מציב ב-<span>\( x \)</span> את <span>\( p \)</span> או את <span>\( q \)</span> אני מקבל 0, כי אם אני מציב את אחד מאלו ב-<span>\( \left(x-p\right)\left(x-q\right) \)</span> אני אקבל מכפלה של 0 במשהו, ומכפלה כזו תמיד יוצאת 0. כלומר, גם <span>\( p \)</span> וגם <span>\( q \)</span> הם פתרונות של המשוואה הריבועית</p>
<p><span>\( x^{2}-\left(p+q\right)x+pq=0 \)</span></p>
<p>עכשיו, מי המקדמים <span>\( a,b,c \)</span> במקרה הזה?</p>
<p><span>\( a=1 \)</span></p>
<p><span>\( b=-\left(p+q\right) \)</span></p>
<p><span>\( c=pq \)</span></p>
<p>ואלו בדיוק נוסחאות וייטה שראינו קודם: <span>\( \frac{c}{a} \)</span> הוא מכפלת שני הפתרונות, <span>\( b \)</span> הוא מינוס הסכום של שני הפתרונות. האם הוכחתי את הטענה שלי? ובכן, לא בדיוק. הראיתי ש<strong>אם</strong> אני בונה משוואה ריבועית על ידי המכפלה <span>\( \left(x-p\right)\left(x-q\right) \)</span>, <strong>אז</strong> נוסחאות וייטה מתקיימות עבורה. בפועל כל משוואה ריבועית שבה <span>\( a=1 \)</span> היא אכן מהצורה <span>\( \left(x-p\right)\left(x-q\right)=0 \)</span> הזו, אבל יותר מסובך להוכיח את זה. לכן אני אוכיח משהו צנוע יותר: שאם <span>\( ax^{2}+bx+c=0 \)</span> היא משוואה ריבועית, <strong>ואם</strong> מצאתי <span>\( p,q \)</span> כך ש-<span>\( pq=\frac{c}{a} \)</span> וגם <span>\( p+q=-\frac{b}{a} \)</span>, אז <span>\( p,q \)</span> הם פתרונות של המשוואה. את זה אני אעשה על ידי סוג של הליכה “בכיוון ההפוך” ממה שכבר ראינו. ראשית כל אני אציב במקום <span>\( b,c \)</span> במשוואה את הערכים שמתבססים על <span>\( p,q \)</span>, כלומר על בסיס</p>
<p><span>\( b=-a\left(p+q\right) \)</span></p>
<p><span>\( c=apq \)</span></p>
<p>ואני אקבל את המשוואה</p>
<p><span>\( ax^{2}-a\left(p+q\right)x+apq=0 \)</span></p>
<p>עכשיו אחלק ב-<span>\( a \)</span> ואפתח סוגריים:</p>
<p><span>\( x^{2}-px-qx+pq=0 \)</span></p>
<p>בשלב הזה אולי כבר אפשר לראות שקיבלתי את הביטוי <span>\( \left(x-p\right)\left(x-q\right)=0 \)</span>, אבל למקרה שקשה לראות את זה, הנה דרך מסודרת להגיע לשם. אני קודם כל מסתכל על שני האיברים הראשונים, <span>\( x^{2}-px \)</span> ואני מוציא <strong>גורם משותף</strong> לשניהם - במקרה הזה <span>\( x \)</span>. אני מקבל</p>
<p><span>\( x^{2}-px=x\left(x-p\right) \)</span></p>
<p>(הוצאת גורם משותף כזו היא בעצם הצעד ההפוך לזה שעושים בחוק הפילוג).</p>
<p>עכשיו, עם הביטוי <span>\( -qx+pq \)</span> שהוא מה שנשאר בסכום הגורם המשותף הוא <span>\( q \)</span>, אז אני מוציא אותו ומקבל</p>
<p><span>\( -qx+pq=-q\left(x-p\right) \)</span></p>
<p>שימו לב שיחד עם <span>\( q \)</span> גם הוצאתי החוצה <span>\( -1 \)</span> כדי שהמקדם של <span>\( x \)</span> בסוגריים יהיה חיובי ודווקא של <span>\( p \)</span> יהיה שלילי. למה זה טוב? כי ה-<span>\( x-p \)</span> הופיע גם קודם! בואו נראה מה קיבלנו:</p>
<p><span>\( x^{2}-px-qx+pq=x\left(x-p\right)-q\left(x-p\right) \)</span></p>
<p>קיבלנו עוד סכום שאפשר להוציא ממנו גורם משותף (<span>\( x-p \)</span>) עם חוג הפילוג ההפוך, ונקבל</p>
<p><span>\( x\left(x-p\right)-q\left(x-p\right)=\left(x-p\right)\left(x-q\right) \)</span></p>
<p>וזה מה שבאמת הבטחתי. עכשיו, כשרואים את הביטוי בצורה הזו, ברור ש-<span>\( p,q \)</span> הם פתרונות של המשוואה <span>\( ax^{2}+bx+c=0 \)</span> המקורית שממנה התחלנו.</p>
<p>למרבה הזוועה, את כל התהליך הכללי והגנרי הזה מכריחים לפעמים תלמידים בבית הספר לעשות שוב ושוב עבור מקרים קונקרטיים. בשביל מה בעצם? ובכן, בואו נדגים את זה על המשוואה <span>\( x^{2}-2x-8=0 \)</span> האהובה עלי שכזכור, כבר ראינו שהפתרונות שלה הם <span>\( 4,-2 \)</span>. הרעיון בשיטה הכללית שלי היה לפצל את האיבר האמצעי לסכום של שני איברים, וזה מה שאעשה גם כאן:</p>
<p><span>\( x^{2}-2x-8=0=x^{2}-\left(4-2\right)x-8=x^{2}-4x+2x-8 \)</span></p>
<p>עכשיו מסתכלים על הביטוי שקיבלתי בתור סכום של שני זוגות: <span>\( x^{2}-4x \)</span> ו-<span>\( 2x-8 \)</span>. בכל אחד מהם אנחנו מוציאים גורם משותף כמיטב יכולתנו, ומקבלים</p>
<p><span>\( x^{2}-4x+2x-8=x\left(x-4\right)+2\left(x-4\right) \)</span></p>
<p>וקסם! קיבלנו בשני הזוגות גורם משותף <span>\( x-4 \)</span> שאפשר להוציא ולקבל</p>
<p><span>\( x\left(x-4\right)+2\left(x-4\right)=\left(x-4\right)\left(x+2\right) \)</span></p>
<p>ובעצם סיימנו כאן: הצגנו את <span>\( x^{2}-2x-8 \)</span> בתור מכפלה <span>\( \left(x-4\right)\left(x+2\right) \)</span>. מהמכפלה הזו אפשר “לקרוא” ישירות את פתרונות המשוואה, רק צריך לזכור שהם מופיעים בתוך הסוגריים עם סימן <strong>מינוס</strong>, כלומר ה-<span>\( x-4 \)</span> מלמד אותנו על הפתרון <span>\( 4 \)</span> (לא על הפתרון <span>\( -4 \)</span>) וה-<span>\( x+2 \)</span>, שהוא בעצם <span>\( x-\left(-2\right) \)</span> בתחפושת, מלמד אותנו על הפתרון <span>\( -2 \)</span>.</p>
<h2>חלק רביעי, שבו אנו מגיעים אל נוסחת השורשים</h2>
<p>אם כן, ראינו איך מתמודדים עם משוואות קלות במיוחד (כאלו שבהן <span>\( b=0 \)</span> או <span>\( c=0 \)</span>) וראינו טריק שמאפשר לפתור בקלות יחסית משוואות עם פתרונות נחמדים על ידי ניחוש מושכל של הפתרונות הללו; אבל כשרוצים לפתור משוואה ריבועית באופן כללי, לפעמים צריך להשתמש בשיטה הכללית ביותר המוכרת: <strong>נוסחת השורשים</strong>. בואו נציג את הנוסחה הזו כבר עכשיו ואז נדבר על מה הולך בה. הנוסחה אומרת שהפתרונות של המשוואה <span>\( ax^{2}+bx+c=0 \)</span> נתונים על ידי</p>
<p><span>\( x_{1,2}=\frac{-b\pm\sqrt{b^{2}-4ac}}{2a} \)</span></p>
<p>כתבתי כרגע את הנוסחה הזו הישר מהראש שלי, בלי להיעזר בספרים ובלי כלום. האם זה בגלל שיש לי זיכרון פנומנלי? ממש לא, יש לי זיכרון די גרוע. האם זה בגלל שיש לי טריק פשוט שמאפשר לי לפתח את הנוסחה יש מאין בעזרת כוח שכלי? לא, אין לי שום טריק ושום כוח שכל. כתבתי את הנוסחה מהראש כי היא צרובה שם, עוד מימי בית הספר שלי, הרבה לפני שידעתי כמה מתמטיקה היא כיף. זה אחד מאותם דברים בודדים במתמטיקה שאני פשוט זוכר בעל פה וזהו, כי אין דרך אחרת. כמובן, <strong>יש דרך</strong> מסודרת להגיע אל הנוסחה הזו, זו לא סתם המצאה שנשלפה יש מאין, ואני הולך להראות את הדרך הזו כאן; אבל זה לא בדיוק עוזר לזכור אותה בעל פה.</p>
<p>בואו נשתמש בנוסחה כדי להתמודד עם משוואות שכבר ראינו כדי להיווכח שהיא עובדת, ואיך שהיא עובדת. נתחיל עם <span>\( x^{2}-2x-8=0 \)</span> האהובה, שבה <span>\( a=1,b=-2 \)</span> ו-<span>\( c=-8 \)</span>. במקרה הזה, הביטוי שהולך להופיע מתחת לסימן השורש הוא <span>\( b^{2}-4ac=4+32=36 \)</span>. זה מספר נחמד, במובן זה שיש לו שורש שלם: <span>\( \sqrt{36}=6 \)</span>. זה מה שמבטיח שנקבל פתרונות שלמים: <span>\( x_{1,2}=\frac{2\pm6}{2}=1\pm3 \)</span>, ואלו אכן שני הפתרונות שלנו: <span>\( 1+3=4 \)</span> ו-<span>\( 1-3=-2 \)</span>. יפה, הנוסחה עובדת!</p>
<p>אותו ביטוי שמתחת לשורש, <span>\( b^{2}-4ac \)</span>, נקרא <strong>הדיסקרימיננטה</strong> של המשוואה. נעזוב את השאלה מאיפה השם הזה הגיע ומה השימוש הכללי יותר שלו במתמטיקה ונתמקד בו בהקשר של המשוואה הזו: בגלל שהוצאת שורש היא פעולה מסוכנת משהו, הזהות של מה שנמצא בדיסקרימיננטה בעצם קובעת את גורל פתרונות המשוואה. אם הדיסקרימיננטה תהיה מספר טבעי נחמד עם שורש שלם, הפתרונות יהיו פשוטים; אם אין לו שורש שלם הפתרונות יהיו קצת פחות נחמדים; אם הדסיקרימיננטה היא 0 אז יהיה פתרון <strong>יחיד</strong> למשוואה; ואם הדיסקרימיננטה תהיה מספר <strong>שלילי</strong> אז לא יהיו פתרונות שהם מספרים ממשיים <strong>בכלל</strong>. תכף אתן דוגמאות לזה (ובסוף הפוסט יהיה בונוס שמראה את הסיפור המלא סביב זה שהוא, אה, מורכב יותר).</p>
<p>בתור דוגמא, בואו נסתכל על <span>\( x^{2}-x-1=0 \)</span> שכבר דיברתי עליה קודם בתור דוגמא למשוואה עם פתרון “לא נחמד”. מכיוון ש-<span>\( a=1,b=-1,c=-1 \)</span> אז הדיסקרימיננטה תהיה <span>\( b^{2}-4ac=1+4=5 \)</span> ולכן הפתרונות יהיו <span>\( x_{1,2}=\frac{1\pm\sqrt{5}}{2} \)</span> שכבר ראינו קודם.</p>
<p>בתור עוד דוגמא, בואו נסתכל על המקרה הפשוט של <span>\( x^{2}=100 \)</span>. אם רוצים להשתמש בנוסחת השורשים צריך להעביר את ה-100 הזה אגף, לקבל <span>\( x^{2}-100=0 \)</span>, ואז <span>\( a=1,b=0,c=-100 \)</span> ונוסחת השורשים נותנת <span>\( x_{1,2}=\frac{0\pm\sqrt{0^{2}+400}}{2}=\pm\frac{20}{2}=\pm10 \)</span>, שזה מצד אחד נכון לגמרי ומצד שני רק סיבכנו את עצמנו ובמקום פשוט להוציא שורש ל-100, הוצאנו שורש ל-400 וביצענו כל מני פעולות אלגבריות מיותרות. כלומר, <strong>לא תמיד צריך את נוסחת השורשים</strong>, אל תמהרו להשתמש בה סתם כי אפשר.</p>
<p>והנה עוד דוגמא: <span>\( x^{2}-10x+25=0 \)</span>. גם פה כנראה יותר קל לפתור עם וייטה (תנסו!) אבל בואו נראה מה קורה עם נוסחת השורשים. כאן הדיסקרימיננטה היא <span>\( b^{2}-4ac=100-4\cdot25=100-100=0 \)</span>, ולכן נקבל פתרון יחיד: <span>\( x_{1,2}=\frac{10\pm\sqrt{0}}{2}=5 \)</span>. הנוסחה עובדת! אם נכתוב את <span>\( x^{2}-10x+25 \)</span> בתור מכפלה של <span>\( x \)</span> פחות הפתרון, שימו לב שאנחנו צריכים לכתוב את אותו הפתרון <strong>פעמיים</strong>: <span>\( x^{2}-10x+25=\left(x-5\right)\left(x-5\right)=\left(x-5\right)^{2} \)</span>. על סיטואציה כזו אומרים ש-5 הוא פתרון <strong>מריבוי </strong><strong>2</strong> של המשוואה.</p>
<p>אם כן, אני מקווה שהכל טוב ויפה ואנחנו מבינים בערך איך הנוסחה עובדת ואפשר לעבור אל השאלה מאיפה היא צצה בכלל ולמה היא נכונה. בשביל זה שווה לחזור שוב אל המשוואה <span>\( x^{2}=100 \)</span>. זו הייתה משוואה קלה, כי כל מה שהיה צריך לעשות בה הוא להוציא שורש משני האגפים. היינו רוצים לעשות משהו דומה גם עבור <span>\( ax^{2}+bx+c=0 \)</span> - איכשהו להגיע למצב שבו באגף שמאל יש רק משהו בריבוע, ובאגף ימין יש משהו נטול איקס. כדי לעשות את זה נשתמש בטריק שנקרא <strong>השלמה לריבוע</strong>, וכדי להבין איך הטריק הזה עובד נסתכל לרגע על מה שמצאנו לפני רגע - <span>\( \left(x-5\right)^{2}=x^{2}-10x+25 \)</span>. הביטוי הזה הוא מקרה פרטי של נוסחה כללית: <span>\( \left(x+A\right)^{2}=x^{2}+2Ax+A^{2} \)</span> (אפשר לראות את זה פשוט על ידי פתיחת סוגריים על פי חוק הפילוג).</p>
<p>בואו נסתכל לרגע על הביטוי הפשוט יחסית <span>\( x^{2}+bx+c \)</span>. הייתי רוצה לכתוב אותו בתור <span>\( \left(x+A\right)^{2} \)</span>; במקרה כזה צריך להתקיים <span>\( bx=2Ax \)</span>, כלומר <span>\( A=\frac{b}{2} \)</span>, ומכיוון שצריך להתקיים <span>\( c=A^{2} \)</span> ינבע מכך ש-<span>\( c=\frac{b^{2}}{4} \)</span>. לרוע המזל, <span>\( b,c \)</span> יכולים להיות מספרים כלליים ואין שום התחייבות שיתקיים <span>\( c=\frac{b^{2}}{4} \)</span>, אבל אפשר להשתמש בטריק ידוע - <strong>לחבר ולחסר את אותו מספר</strong> לביטוי - זה לא משנה את הערך של הביטוי, אבל זה מאפשר לנו לפשט חלק ממנו במחיר של “זנב קטן” שיישאר אחרי הפישוט.</p>
<p>ובכן, הייתי רוצה לחבר ולחסר אל <span>\( c \)</span> מספר <span>\( B \)</span> כלשהו כך שיתקיים <span>\( c+B=\frac{b^{2}}{4} \)</span>, או במילים אחרות - אני רוצה לחבר ולחסר לביטוי המקורי את <span>\( \frac{b^{2}}{4}-c \)</span>. אז זה מה שאני אעשה:</p>
<p><span>\( x^{2}+bx+c=x^{2}+bx+c+\left(\frac{b^{2}}{4}-c\right)-\left(\frac{b^{2}}{4}-c\right)= \)</span></p>
<p><span>\( =x^{2}+bx+\frac{b^{2}}{4}-\left(\frac{b^{2}}{4}-c\right)=\left(x+\frac{b}{2}\right)^{2}-\left(\frac{b^{2}}{4}-c\right) \)</span></p>
<p>עכשיו, המשוואה המקורית שלי הייתה <span>\( x^{2}+bx+c=0 \)</span> והגעתי למצב שבו משוואה שקולה, עם אותם פתרונות, היא</p>
<p><span>\( \left(x+\frac{b}{2}\right)^{2}-\left(\frac{b^{2}}{4}-c\right)=0 \)</span></p>
<p>נעביר אגף ונקבל</p>
<p><span>\( \left(x+\frac{b}{2}\right)^{2}=\left(\frac{b^{2}}{4}-c\right) \)</span></p>
<p>זה כבר מתחיל להיראות דומה! אני אוציא שורש משני האגפים ואקבל</p>
<p><span>\( x+\frac{b}{2}=\sqrt{\frac{b^{2}}{4}-c} \)</span></p>
<p>עכשיו, בואו נפשט את הביטוי מימין. אפשר להעלות את <span>\( c \)</span> למכנה, ולקבל</p>
<p><span>\( \sqrt{\frac{b^{2}}{4}-c}=\sqrt{\frac{b^{2}-4c}{4}} \)</span></p>
<p>ואפשר לפצל את השורש לפעולה על המונה ועל המכנה ולקבל</p>
<p><span>\( \sqrt{\frac{b^{2}-4c}{4}}=\frac{\sqrt{b^{2}-4c}}{\sqrt{4}}=\frac{\sqrt{b^{2}-4c}}{2} \)</span></p>
<p>ועכשיו נותרנו עם</p>
<p><span>\( x+\frac{b}{2}=\frac{\sqrt{b^{2}-4c}}{2} \)</span></p>
<p>ואחרי העברת אגפים נקבל את</p>
<p><span>\( x=\frac{-b+\sqrt{b^{2}-4c}}{2} \)</span></p>
<p>זה דומה לנוסחת השורשים, אבל לא שכחנו משהו? ראשית, איפה ה-<span>\( \pm \)</span>? ובכן, השמטתי אותו בזדון כי צריך להסביר אותו קצת יותר בפירוט. כזכור, הגענו אל <span>\( \left(x+\frac{b}{2}\right)^{2}=\left(\frac{b^{2}}{4}-c\right) \)</span> ואז אמרתי שאני מוציא שורש משני האגפים ומקבל <span>\( x+\frac{b}{2}=\sqrt{\frac{b^{2}}{4}-c} \)</span>. אבל כשמוציאים שורש, צריך להיזהר. כשאני כותב <span>\( \sqrt{A} \)</span>, אני תמיד מתכוון לשורש <strong>החיובי</strong> של <span>\( A \)</span>. למשל, <span>\( \sqrt{25}=5 \)</span>, תמיד. זו המוסכמה. אבל אם אני יודע ש-<span>\( x^{2}=25 \)</span>, אז בהחלט ייתכן ש-<span>\( x=-5 \)</span>, ואני צריך לכסות את שני המקרים ולכן אני כותב <span>\( x=\pm\sqrt{25} \)</span> כשאני מוציא את השורש. לכן, הדבר הנכון עבורי לעשות היה לכתוב <span>\( x+\frac{b}{2}=\pm\sqrt{\frac{b^{2}}{4}-c} \)</span>, מה שהיה מוביל אותנו לבסוף אל הנוסחה</p>
<p><span>\( x=\frac{-b\pm\sqrt{b^{2}-4c}}{2} \)</span></p>
<p>טיפלנו בפלוס/מינוס, אבל איפה ה-<span>\( a \)</span>? כזכור, כדי לשמור את העניינים פשוטים אני פתרתי את המשוואה <span>\( x^{2}+bx+c=0 \)</span>, כלומר הנחתי ש-<span>\( a=1 \)</span>. כבר ראינו שאפשר להביא כל משוואה ריבועית למבנה הזה: אני לוקח את <span>\( ax^{2}+bx+c=0 \)</span> ומחלק את הכל ב-<span>\( a \)</span> ומקבל את המשוואה <span>\( x^{2}+\frac{b}{a}x+\frac{c}{a}=0 \)</span>. בואו ניקח את הערכים הללו ונציב בתוך הנוסחה שקיבלנו. כלומר, בכל מקום שבו כתוב <span>\( b \)</span> אני אכתוב במקומו <span>\( \frac{b}{a} \)</span>, ובכל מקום שכתוב <span>\( c \)</span> אני אכתוב במקומו <span>\( \frac{c}{a} \)</span>.</p>
<p>מה זה יעשה לדיסקרימיננטה? במקום <span>\( b^{2}-4c \)</span> אני הולך לקבל</p>
<p><span>\( \left(\frac{b}{a}\right)^{2}-4\frac{c}{a}=\frac{b^{2}}{a^{2}}-\frac{4c}{a}=\frac{b^{2}-4ac}{a^{2}} \)</span></p>
<p>וכשאני מוציא לדבר הזה שורש, אני יכול כמו קודם לפצל את השורש למונה ומכנה, ולקבל</p>
<p><span>\( \pm\sqrt{\frac{b^{2}-4ac}{a^{2}}}=\pm\frac{\sqrt{b^{2}-4ac}}{\sqrt{a^{2}}}=\pm\frac{\sqrt{b^{2}-4ac}}{a} \)</span></p>
<p>ולכן הנוסחה כולה, אחרי ההחלפה של <span>\( b,c \)</span> ב-<span>\( \frac{b}{a},\frac{c}{a} \)</span>, תהיה:</p>
<p><span>\( x=\frac{-\frac{b}{a}\pm\frac{\sqrt{b^{2}-4ac}}{a}}{2}=\frac{-b\pm\sqrt{b^{2}-4ac}}{2a} \)</span></p>
<p>וזה בדיוק מה שרצינו! להגיע אל הנוסחה דרש קצת אלגברה, אבל לא היה לי קשה לשחזר את כל התהליך בלי להציץ בספר, פשוט כי זכרתי את הטריק - <strong>השלמה לריבוע</strong>. אני מקווה שאחרי שרואים את התהליך, הנוסחה נראית קצת פחות מאיימת וקצת יותר קל לזכור אותה, אבל כפי שאמרתי - חוץ מלשנן אותה אני לא מכיר פתרונות קסם להיכרות איתה.</p>
<h2>בונוס: מה קורה כשהדיסקרימיננטה שלילית?</h2>
<p>הסיפור של משוואה ריבועית לא יהיה שלם בלי שאספר את מה שבבית הספר לרוב מעדיפים להחביא עד שלב מאוחר, כדי לא לסבך עוד יותר את מה שהוא ממילא לא נושא קל. אז כאן אני מספר את זה בתור בונוס, אבל לספר את זה צריך. קודם הצגתי את העניין כאילו למשוואה ריבועית יכולים להיות או שני פתרונות, או פתרון אחד או אפס פתרונות, ושזה תלוי בדיסקרימיננטה: אם היא חיובית אז יש שני פתרונות; אם היא 0 אז יש פתרון אחד; ואם היא שלילית אז אין פתרונות בכלל. אלא שבפועל זה לא באמת המצב: כשאני אומר “אין פתרונות בכלל” אני מתכוון “אין פתרונות שהם מספרים <strong>ממשיים</strong>”. העניין הוא שיש עוד מספרים בעולם.</p>
<p>בואו נסתכל על משוואה פשוטה במיוחד: <span>\( x^{2}+1=0 \)</span>. זו משוואה שבה <span>\( b=0 \)</span> אז אנחנו יודעים איך פותרים אותה - מעבירים אגף ומוציאים שורש. <span>\( x^{2}=-1 \)</span>, ולכן <span>\( x=\pm\sqrt{-1} \)</span>. אבל מה זה <span>\( \sqrt{-1} \)</span>? זה מספר שכשכופלים אותו בעצמו מקבלים <span>\( -1 \)</span>. מצד שני, מה אנחנו יודעים על מספרים? אם כופלים מספר חיובי במספר חיובי, מקבלים תוצאה חיובית; אם כופלים מספר שלילי במספר שלילי, מקבלים גם כן תוצאה חיובית. אז איך אפשר לקבל את <span>\( -1 \)</span> על ידי כפל של מספר בעצמו? אי אפשר. לא במסגרת המספרים הממשיים.</p>
<p>מה זה בכלל “מספר ממשי”? השתמשתי בשם הזה כמה פעמים אבל לא הגדרתי אותו. אם ראיתם פעם את “ציר המספרים”, תחשבו על מספרים ממשיים בתור כל המספרים שנמצאים עליו. מנקודת מבט אחרת, אלו כל המספרים שאפשר לכתוב בייצוג עשרוני, למשל <span>\( 3.1415\ldots \)</span> - מספרים שנכתבים על ידי רצף סופי של ספרות ואז אולי נקודה עשרונית ואז אולי עוד רצף של ספרות שגם יכול להיות אינסופי. ואז נשאלת השאלה - רגע, אלו לא <strong>כל</strong> המספרים? על מה אתה מדבר בעצם?</p>
<p>החל מהמאה ה-16 מתמטיקאים נתקלו יותר ויותר בסיטואציות שבהן עוזר לעבוד עם מספרים שכשמעלים אותם בריבוע מקבלים משהו שלילי; האינדיקציה הראשונה והחזקה לכך הייתה משוואות ממעלה <strong>שלישית</strong> שבהן יש נוסחה דומה לנוסחת השורשים עבור הפתרונות, פשוט מסובכת הרבה יותר - ושימוש בנוסחה הזו במקרים מסויימים <strong>מחייב</strong> להוציא שורש למספר שלילי, גם אם כל הפתרונות של המשוואה הם בסופו של דבר מספרים ממשיים נחמדים. זו דוגמא אחת, אבל יש רבות אחרות - למרות רתיעה ראשונית מהרעיון של הוצאת שורש למספר שלילי, המתמטיקאים נאלצו להכיר בכך שיש ליצורים הללו שימוש, והשימוש הזה נרחב, ושהשימוש הזה מאפשר לחשוף תבניות שמסתתרות “מתחת לפני השטח” ועוסקות במספרים ממשיים רגילים לכל דבר ועניין. במילים אחרות - שלא מדובר באיזו המצאה שרירותית ומלאכותית אלא בחלק מהמתמטיקה שאי אפשר סתם להתעלם ממנו. ואחרי ההכרה בכך, הגיע גם הפורמליזם; שיטות שבאו להראות איך אפשר “לבנות” בצורה מדויקת את המספרים המוזרים הללו מתוך המספרים הממשיים. היום המספרים המוזרים הללו הם חלק אינטגרלי מהמתמטיקה לכל דבר ועניין, אבל הם עדיין סוחבים איתם את השם הישן שרנה דקארט הפיל עליהם כשהם עוד נחשבו יצורים מפוקפקים משהו: <strong>מספרים דמיוניים</strong> (או <strong>מדומים</strong> כפי שאני בדרך כלל כותב).</p>
<p>המספר המדומה הבסיסי ביותר מסומן ב-<span>\( i \)</span>; זה מספר בעל התכונה <span>\( i^{2}=-1 \)</span>. כל מספר מדומה אחר ניתן לתיאור בתור “מספר ממשי כפול <span>\( i \)</span>”. למשל, <span>\( \sqrt{-4}=2i \)</span> או <span>\( \sqrt{-5}=i\sqrt{5} \)</span>. מאיפה בדיוק <span>\( i \)</span> הזה מגיע ואיך אפשר “לבנות” אותו - אני אחכה עם זה לסוף חלק הבונוס, קודם בואו נראה איך זה עוזר לנו עם פתרון משוואות.</p>
<p>ובכן, הפתרון של המשוואה <span>\( x^{2}+1=0 \)</span> הוא <span>\( i \)</span>. ליתר דיוק, <span>\( \pm i \)</span> (כי <span>\( \left(-i\right)^{2}=\left(-1\right)^{2}i^{2}=1\cdot\left(-1\right)=-1 \)</span>). מה עם משוואות יותר מתוחכמות? בואו נסתכל לדוגמא על <span>\( x^{2}-4x+13=0 \)</span>. במקרה הזה <span>\( a=1,b=-4,c=13 \)</span> ונוסחת השורשים תיתן לנו את הפתרונות</p>
<p><span>\( x_{1,2}=\frac{4\pm\sqrt{16-52}}{2}=\frac{4\pm\sqrt{-36}}{2}=\frac{4\pm6i}{2}=2\pm3i \)</span></p>
<p>וזהו, ככה פותרים כל משוואה ריבועית דומה. השלב היחיד שבאמת בעייתי הוא הוצאת השורש, וראינו שאם יש לנו מספרים מדומים אז הוצאת שורש של מספר שלילי מתנהגת בדיוק כמו הוצאת שורש של מספר חיובי, רק שמוסיפים <span>\( i \)</span> שם.</p>
<p>בואו נסתכל לרגע על המספר <span>\( 2+3i \)</span>. הוא מורכב מסכום של המספר הממשי <span>\( 2 \)</span> והמספר המדומה <span>\( 3i \)</span>; הוא לא ממשי, אבל הוא גם לא בדיוק מדומה (“מדומה” התייחס רק למספרים שכשמעלים אותם בריבוע מקבלים מינוס של מספר ממשי). השם שאנחנו נותנים למספרים כאלו הוא <strong>מרוכבים</strong> (ובאנגלית Complex Numbers). המרוכבים הם אוסף מעניין ביותר של מספרים, שמהרבה בחינות מתנהג “כמו הממשיים” (למשל, פעולות החיבור, החיסור הכפל והחילוק כולן מוגדרות ומתנהגות יפה על המרוכבים) אבל יש גם בחינות שבהן הם מתנהגים אחרת, לפעמים <strong>יפה יותר</strong> (התחום של חשבון דיפרנציאלי ואינטגרלי במספרים מרוכבים הוא דוגמא טובה מאוד לזה, אבל לא אכנס לכך כאן). התכונה היפה של המרוכבים שאני יכול עכשיו לנסח במדויק היא זו: <strong>לכל</strong> משוואה ממעלה שניה במספרים מרוכבים, יש <strong>בדיוק</strong> שני פתרונות מרוכבים, עד כדי ריבוי. ה”עד כדי ריבוי” פירושו שייתכן שיש רק פתרון אחד אבל כזה שבפירוק של המשוואה מופיע פעמיים, כמו שראינו בדוגמא של <span>\( x^{2}-10x+25=\left(x-5\right)\left(x-5\right) \)</span>, שבה הפתרון <span>\( x=5 \)</span> “הופיע פעמיים”. למעשה, זה אפילו יותר מכך - לכל משוואה ממעלה <span>\( n \)</span>, עבור כל <span>\( n\ge1 \)</span> טבעי, יש בדיוק <span>\( n \)</span> פתרונות, עד כדי ריבוי.</p>
<p>התכונה הזו של המרוכבים נקראת <strong>המשפט היסודי של האלגברה</strong>. זה שם קצת מפוצץ (וגם זוכה ללעג, כי ההוכחה של המשפט הזה לא יכולה להסתמך על אלגברה בלבד אלא דורשת עזרה מתחומים אחרים, למשל חשבון דיפרנציאלי ברמה כלשהי) ובהתחלה אולי לא ברור למה היא כל כך מלהיבה. הרעיון פה הוא שהטענה תקפה לכל משוואה <span>\( ax^{2}+bx+c=0 \)</span> <strong>גם אם המקדמים הם בעצמם מספרים מרוכבים</strong>. זה מגניב, כי היה אפשר לחשוש שהכנסנו מספרים מרוכבים לתמונה כדי לפתור משוואות <strong>עם מקדמים ממשיים</strong> אבל בכך רק יצרנו עוד המון משוואות חדשות שאין להן פתרון ונצטרך מספרים סופר-דופר-היפר מרוכבים בשבילן, אבל לא - המרוכבים הם סוף הסיפור מהבחינה הזו, ובדיוק בגלל זה אמרתי שהסיפור של משוואה ריבועית לא יהיה שלם בלעדיהם, כי הם בדיוק סוף הסיפור.</p>
<p>אבל הסיפור לא יהיה שלם בלי שאציג לפחות צל-צלו של הסבר מאיפה ה-<span>\( i \)</span> הזה בכלל מגיע ולמה אפשר להניח שהוא קיים. החלק העצוב הוא שאת הבניה הבאמת טובה לטעמי של המרוכבים אי אפשר להראות פה (כי זה שדה מנה של חוג הפולינומים <span>\( \mathbb{R}\left[x\right] \)</span> שמחולק באידאל המקסימלי <span>\( \left\langle x^{2}+1\right\rangle \)</span> וכפי שאפשר להבין יש כאן שלל מושגים מתמטיים שלא הצגתי וקשה להעריך כשהם מגיעים בשולי פוסט ארוך גם ככה) אבל אפשר די בקלות להראות בניה שכל מה שהיא דורשת הוא להאמין שהמספרים הממשיים קיימים.</p>
<p>הבניה פשוטה: אנחנו מסתכלים על אוסף <strong>הזוגות</strong> של מספרים ממשיים, <span>\( \left(a,b\right) \)</span>. על האוסף הזה אנחנו מגדירים פעולות חיבור וכפל: ראשית, חיבור מוגדר על ידי</p>
<p><span>\( \left(a,b\right)+\left(c,d\right)=\left(a+c,b+d\right) \)</span></p>
<p>כלומר, חיבור הוא “רכיב-רכיב”. מחברים את האיברים ברכיב הראשון, השמאלי, של הזוג; וכנ”ל עבור הרכיב הימני.</p>
<p>כפל, לעומת זאת, לא מוגדר כך בכלל. הוא מוגדר שונה לגמרי:</p>
<p><span>\( \left(a,b\right)\cdot\left(c,d\right)=\left(ac-bd,ad+bc\right) \)</span></p>
<p>זו נראית הגדרה שרירותית משהו (שמגיעה, כמובן, ממה שאנחנו יודעים על המספרים המרוכבים שאנחנו רוצים לבנות) אבל הנקודה היא ש<strong>אפשר</strong> להגדיר כפל בצורה כזו; כשאנחנו בונים אובייקט מתמטי חדש מותר לנו להגדיר עליו פעולות באיזו צורה שנרצה, השאלה היא אם אלו יהיו פעולות נחמדות ומועילות.</p>
<p>למרבה הפלא, מתברר שעם פעולות החיבור והכפל הללו מתקיימות התכונות שאנחנו רגילים אליהן מחיבור וכפל “רגילים”. אם אסמן זוגות כאלו של ממשיים ב-<span>\( z_{1},z_{2},z_{3} \)</span>, אז מתקיים</p>
<ul> <li>חוק החילוף: <span>\( z_{1}\cdot z_{2}=z_{2}\cdot z_{1} \)</span></li>
<li>חוק הקיבוץ: <span>\( z_{1}\cdot\left(z_{2}\cdot z_{3}\right)=\left(z_{1}\cdot z_{2}\right)\cdot z_{3} \)</span></li>
<li>חוק הפילוג: <span>\( z_{1}\left(z_{2}+z_{3}\right)=z_{1}\cdot z_{2}+z_{1}\cdot z_{3} \)</span></li>
</ul>
<p>אפשר גם לראות שאם <span>\( a,b \)</span> הם מספרים ממשיים, אז <span>\( \left(a,0\right) \)</span> ו-<span>\( \left(b,0\right) \)</span> מתנהגים ביחס לפעולות הכפל והחיבור כמו מספרים ממשיים רגילים: <span>\( \left(a,0\right)+\left(b,0\right)=\left(a+b,0\right) \)</span> ו-<span>\( \left(a,0\right)\cdot\left(b,0\right)=\left(ab,0\right) \)</span>. כלומר, אפשר לחשוב על הזוגות מהצורה <span>\( \left(a,0\right) \)</span> כאילו הם המספרים הממשיים - הבניה שלנו <strong>הכלילה</strong> את הממשיים.</p>
<p>ועכשיו, בואו נסתכל על המכפלה של <span>\( \left(0,1\right) \)</span> בעצמו. על פי חוק הכפל שראינו, מתקיים <span>\( \left(0,1\right)\cdot\left(0,1\right)=\left(-1,0\right) \)</span>, כלומר <span>\( z=\left(0,1\right) \)</span> מקיים <span>\( z^{2}=-1 \)</span> על פי הגישה שלנו שמזהה את <span>\( \left(-1,0\right) \)</span> עם <span>\( -1 \)</span> עצמו. אנחנו מסמנים <span>\( i=\left(0,1\right) \)</span>, ועכשיו נוקטים בקיצור נוסף, אחרון: במקום לכתוב <span>\( \left(a,b\right) \)</span> אנחנו כותבים <span>\( a+bi \)</span>, וקיבלנו את הייצוג הכללי למספרים מרוכבים שבו נהוג להשתמש.</p>
<p>אין לי ספק שהבניה הזו עשויה להשאיר טעם של “אתם המתמטיקאים עדיין מרמים, סתם בניתם משהו מלאכותי, זה לא חוקי בכלל” וכאמור - זו רק ההתחלה; אבל הבניה הזו מראה שלא סתם המצאנו מהראש את המספרים הללו בלי דרך להראות שאפשר לבנות אותם בפועל, ומכיוון שהם נותנים לנו את המשפט היסודי של האלגברה , זו דרך הולמת לסגור בה את הפוסט.</p>מבואחוקי החזקות2023-11-18T00:00:00+00:002023-11-18T00:00:00+00:00http://gadial.net/2023/11/18/power_laws<h2>מבוא</h2>
<p>אני רוצה לדבר בפוסט הזה על נושא בסיסי למדי שנלמד בבית הספר, ולמרות שהוא טכני למדי יש לו את היופי שלו והוא גם נחוץ בצורה בלתי רגילה למתמטיקה “אמיתית” כי זה אחד מאותם דברים שעושים פה ושם בלי כמעט לחשוב: <strong>חוקי החזקות</strong>. המטרה שלי היא שבסוף הפוסט הזה נוכל להסתכל על תרגילים מהצורה “פשטו את המפלצת הזו” ולפתור אותם בלי להיבהל, כשהמפלצות הן יצורים כמו אלו:</p>
<p><span>\( \left(\frac{a}{b}\right)^{4}\cdot\sqrt{\frac{b}{a}}\cdot\frac{a^{5}b\cdot b^{3}}{\left(ab\right)^{6}} \)</span>, <span>\( \frac{a^{4}a^{-2}\sqrt[7]{a^{3}}}{a^{3}\left(\sqrt{a}\right)^{5}} \)</span></p>
<p>אם זה נראה מפחיד עכשיו, מצוין! אני מקווה שבסוף הפוסט זה כבר לא יהיה מפחיד (אבל למען הסר ספק, זה <strong>לא</strong> מה שבדרך כלל נתקלים בו במתמטיקה אלא סתם מפלצות שהונדסו כדי לתת תרגיל אימון טוב).</p>
<p>בואו נתחיל מההתחלה - מה זו “חזקה” בכלל? אני מניח שאנחנו מכירים את ארבע פעולות החשבון הבסיסיות: <a href="https://gadial.net/2020/11/18/how_to_addition/">חיבור</a>, <a href="https://gadial.net/2020/11/28/how_to_subtraction/">חיסור</a> <a href="https://gadial.net/2020/12/19/how_to_multiplication/">כפל</a> ו<a href="https://gadial.net/2021/03/24/how_to_division/">חילוק</a>. אם מכירים אותן, קל יחסית להסביר מה זו חזקה: <strong>חזקה ביחס לכפל זה כמו כפל ביחס לחיבור</strong>. למה אני מתכוון? כשאני אומר <span>\( 3\times5 \)</span> (“שלוש כפול חמש”) אני מתכוון ל-<span>\( 3+3+3+3+3 \)</span>, כלומר לקחתי חמישה עותקים של 3 והפעלתי עליהם את פעולת החיבור שוב ושוב. עכשיו, בואו נניח שאני לוקח חמישה עותקים של 3 ומפעיל עליהם את פעולת <strong>הכפל</strong> שוב ושוב, כלומר מסתכל על הביטוי <span>\( 3\times3\times3\times3\times3 \)</span>, גם לדבר הזה משתלם לי לתת שם וסימן מקוצר: אני קורא לזה “שלוש בחזקת חמש” וכותב <span>\( 3^{5} \)</span> - מספר גדול כלשהו שמעליו למעלה נכתב מספר אחר יותר בקטן. המספר הגדול שלמטה נקרא <strong>בסיס</strong> החזקה והמספר הקטן שלמעלה נקרא <strong>מעריך</strong> החזקה.</p>
<p>בואו נראה את זה באופן כללי: <span>\( a^{n} \)</span> בא לתאר את “לוקחים <span>\( n \)</span> עותקים של <span>\( a \)</span> וכופלים אותם בעצמם”. כאן בסיס החזקה הוא <span>\( a \)</span> ומעריך החזקה הוא <span>\( n \)</span>. שימו לב שכדי שתהיה משמעות להגדרה המילולית הזו, <span>\( n \)</span> צריך להיות <strong>מספר טבעי</strong>. לא ממש ברור מה זה אומר לקחת <span>\( -3 \)</span> עותקים של <span>\( a \)</span>, או <span>\( \frac{2}{3} \)</span> עותקים של <span>\( a \)</span> וכדומה. אפילו לא ברור מה <span>\( a^{0} \)</span> אמור להיות, אז אנחנו מניחים ש-<span>\( n \)</span> הוא מספר טבעי <strong>חיובי</strong>. זה לא אומר שאנחנו לא הולכים להגדיר חזקות שהן לא מספרים טבעיים חיוביים, אלא שנגיע להגדרה ה”מתבקשת” של חזקות כאלו בעזרת שיקולים אחרים. ספציפית, אנחנו הולכים לראות שחזקות כפי שכבר הגדרתי אותן מקיימות <strong>כללים</strong> מסוימים, ואחר כך נרחיב את ההגדרה של חזקה למעריכים שליליים/שבריים וכדומה בצורה ש<strong>שומרת על הכללים שכבר גילינו</strong>. ליתר דיוק - אנחנו נראה שאם אנחנו רוצים לשמור על הכללים הללו, פשוט אין לנו ברירה אלא ללכת על הגדרה מורחבת מאוד ספציפית.</p>
<p>קדימה לעבודה.</p>
<h2>חוקי חזקות בסיסיים</h2>
<p>בדוגמא שהתחלתי ממנה, היה לנו את <span>\( 3^{5}=3\times3\times3\times3\times3 \)</span>. בואו נסתכל על עוד שתי דוגמאות, פשוטות יותר:</p>
<p><span>\( 3^{2}=3\times3 \)</span></p>
<p><span>\( 3^{3}=3\times3\times3 \)</span></p>
<p>עכשיו בואו נעשה תעלול: <strong>נכפול</strong> את שתי החזקות הללו של 3:</p>
<p><span>\( 3^{2}\times3^{3}=\left(3\times3\right)\times\left(3\times3\times3\right)=3\times3\times3\times3\times3=3^{5} \)</span></p>
<p>מה למדנו מזה? שני דברים חשובים. ראשית, שאם אני אראה עוד פעם אחת את הסימן <span>\( \times \)</span> אצא מדעתי ולכן מעכשיו אשתמש בסימן נקודה קטנטן כדי לתאר כפל, למשל <span>\( 3^{2}\cdot3^{3} \)</span> במקום <span>\( 3^{2}\times3^{3} \)</span>. שנית, ראינו שהתקיים <span>\( 3^{2}\cdot3^{3}=3^{5} \)</span>, או במילים אחרות <span>\( 3^{2}\cdot3^{3}=3^{2+3} \)</span>. שימו לב לסימן החיבור במעריך. אני טוען שהאפקט הזה מתקיים גם באופן כללי, וזה יהיה כלל החזקות הראשון שלנו:</p>
<ul> <li><span>\( a^{n}\cdot a^{k}=a^{n+k} \)</span></li>
</ul>
<p>כלומר, כפל של שתי חזקות <strong>עם אותו בסיס</strong> נותן לנו חזקה <strong>עם הבסיס הזה</strong> ועם מעריך שהוא <strong>סכום</strong> המעריכים של החזקות שכפלנו. כפל ברמת החזקה הופך להיות חיבור ברמת המעריך.</p>
<p>למה זה נכון באופן כללי? ובכן, <span>\( a^{n}\cdot a^{k} \)</span> זה “קחו <span>\( n \)</span> עותקים של <span>\( a \)</span> וכפלו אותם אחד בשני, וקחו <span>\( k \)</span> עותקים של <span>\( a \)</span> וכפלו אותם אחד בשני ואז כפלו את הכל יחד”. בגלל שכפל הוא פעולה נחמדה שלא אכפת לה באיזה סדר היא מופעלת, התיאור למעלה הוא אותו הדבר כמו “קחו <span>\( n+k \)</span> עותקים של <span>\( a \)</span> וכפלו אותם אחד בשני”.</p>
<p>אפשר כמובן לטעון, ובצדק, שמה שעשיתי פה הוא נפנוף ידיים פרוע ובכלל לא הוכחה. <strong>זו בדיוק המטרה שלי</strong>. לנפנף בידיים עוזר יותר טוב לקבל אינטואיציה לגבי השאלה <strong>למה</strong> זה נכון. הוכחה פורמלית, נאמר באמצעות מערכת <strong>אקסיומות פיאנו</strong> היא אמנם משהו שלא קשה מדי לעשות אבל לא יעזור לנו כאן בכלל ולכן אני מוותר עליו לגמרי. וככה זה יהיה גם בהמשך. יש סיבה למה קראתי לבלוג “לא מדויק”.</p>
<p>עכשיו, בואו נראה מה <strong>ההשלכות</strong> של הכלל הזה, כי הן לא מעטות. ראשית, בואו ניקח את המשוואה <span>\( a^{n}\cdot a^{k}=a^{n+k} \)</span> <strong>ונחלק</strong> את שני האגפים ב-<span>\( a^{k} \)</span>. כדי שאוכל לעשות את זה אני צריך להניח ש-<span>\( a^{k}\ne0 \)</span> (כי חלוקה באפס היא פעולה לא מוגדרת שיכולה “לשבש” את המשוואה). כשכופלים משהו בעצמו, אם הוא שונה מאפס לא נוכל לקבל ככה אפס, כלומר אם <span>\( a^{k}=0 \)</span> זה אומר ש-<span>\( a=0 \)</span> בעצמו, לכן בשביל לבצע את החלוקה אני צריך להניח רק ש-<span>\( a\ne0 \)</span> והתוצאה שאקבל תהיה נכונה לכל חזקה אחרת עם בסיס שאינו אפס. אחרי החלוקה אני אקבל</p>
<p><span>\( a^{n}=\frac{a^{n+k}}{a^{k}} \)</span></p>
<p>בואו ננקוט כעת בטריק: אני אסמן <span>\( m=n+k \)</span>. בביטוי הזה שמגדיר את <span>\( m \)</span> אני אעביר את <span>\( k \)</span> אגף ואקבל <span>\( n=m-k \)</span>, ואז אני אציב את שתי המשוואות הללו במקום <span>\( n+k \)</span> ו-<span>\( n \)</span> במשוואה שכתבתי קודם. אני אקבל:</p>
<p><span>\( a^{m-k}=\frac{a^{m}}{a^{k}} \)</span></p>
<p>קיבלתי משהו שנראה כמו חוק כללי: אם <strong>חיבור</strong> של מעריכים התאים למכפלה של החזקות, אז <strong>חיסור</strong> של מעריכים מתאים ל<strong>חילוק</strong> של החזקות. זה עוד אחד מהחוקים, למרות שאני עוד רגע אראה דרך אחרת להסתכל עליו שלטעמי היא נוחה יותר.</p>
<p>שימו לב שבגלל שהגדרתי <span>\( m=n+k \)</span> ובגלל שגם <span>\( n \)</span> וגם <span>\( k \)</span> הם שניהם מספרים טבעיים חיוביים, אז <span>\( m \)</span> גדול יותר מ-<span>\( k \)</span>. אני לא יכול להשתמש במשוואה <span>\( a^{m-k}=\frac{a^{m}}{a^{k}} \)</span> שקיבלתי כדי <strong>להוכיח</strong> תכונה כלשהי של חזקות שאינן מספרים טבעיים חיוביים, אבל אני יכול להשתמש במשוואה הזו בתור הבסיס <strong>להגדרה</strong> כללית יותר. נניח שאני <strong>רוצה</strong> שהמשוואה הזו תתקיים גם במקרים נוספים, מה חייב לקרות?</p>
<p>ראשית, מה קורה אם <span>\( m=k \)</span>? במקרה הזה אנחנו <strong>רוצים</strong> שעדיין יתקיים <span>\( a^{m-k}=\frac{a^{m}}{a^{k}} \)</span>. אם נציב <span>\( k \)</span> במקום <span>\( m \)</span> בשני האגפים, נקבל מצד אחד <span>\( a^{m-k}=a^{0} \)</span> ומצד שני נקבל <span>\( \frac{a^{k}}{a^{k}}=1 \)</span>. משני אלו אנחנו מגיעים למסקנה</p>
<ul> <li><span>\( a^{0}=1 \)</span> (לכל <span>\( a\ne0 \)</span>)</li>
</ul>
<p>זו מסקנה כל כך מעניינת וכל כך שנויה במחלוקת בפוטנציה שהקדשתי <a href="https://gadial.net/2018/01/01/zero_power_equals_one/">פוסט שלם</a> לנסיון לתת לה הצדקות. בפוסט הזה גם התייחסתי לשאלה מה <strong>כן</strong> קורה כאשר <span>\( a=0 \)</span>: במקרה הזה עדיין יש נימוקים <strong>מצויינים</strong> למה כדאי להגדיר <span>\( 0^{0}=1 \)</span>, אבל גם יש נימוקים <strong>מצויינים</strong> למה זו לא הגדרה רצויה - הכל תלוי בהקשר המתמטי שבו אנחנו עובדים. אני אסתפק בלהשאיר את זה לא מוגדר (אבל באופן כללי בחיי היומיום אני במחנה <span>\( 0^{0}=1 \)</span>).</p>
<p>עכשיו, כשיש לנו את החוק עם 0, אפשר לעשות משהו נוסף: נסתכל שוב על <span>\( a^{m-k}=\frac{a^{m}}{a^{k}} \)</span> ונציב <span>\( m=0 \)</span>. נקבל</p>
<ul> <li><span>\( a^{-k}=\frac{1}{a^{k}} \)</span></li>
</ul>
<p>זה נותן לנו את ההגדרה של חזקות שליליות: לוקחים את החזקה החיובית המתאימה, ומחלקים בה את 1. למשל, <span>\( 3^{-5}=\frac{1}{3^{5}} \)</span>. קשה להפריז בחשיבות של החוק הזה מהטעם הפשוט שהרבה יותר <strong>קל לכתוב</strong> <span>\( 3^{-5} \)</span> מאשר לכתוב <span>\( \frac{1}{3^{5}} \)</span> כל פעם, אז זה ממש עוזר לפשט כתיב של ביטויים.</p>
<h2>עוד חוקי חזקות, קצת יותר טריקיים</h2>
<p>ראינו איך עובדת פעולת ה<strong>כפל</strong> בין שתי חזקות בעלות אותו בסיס. אבל מה אם אנחנו מנסים להפעיל פעולת <strong>חזקה</strong> על חזקה קיימת? למשל, מהו <span>\( \left(3^{2}\right)^{5} \)</span>? כאן שוב כדאי לחזור להגדרות הבסיס: <span>\( 3^{2}=3\cdot3 \)</span> ולכן</p>
<p><span>\( \left(3^{2}\right)^{5}=\left(3\cdot3\right)\cdot\left(3\cdot3\right)\cdot\left(3\cdot3\right)\cdot\left(3\cdot3\right)\cdot\left(3\cdot3\right)=3^{10} \)</span></p>
<p>למה קיבלנו <span>\( 3^{10} \)</span>? כי כשסופרים כמה 3-ים יש לנו בסך בביטוי הזה , אנחנו רואים שיש לנו 5 איברים שכל אחד מהם מורכב ממכפלה של 2 מופעים של שלוש. אז המספר הכולל של 3-ים שווה למספר המופעים (5) של החזקה של 3 <strong>כפול</strong> מספר הפעמים ש-3 מופיע באותה חזקה (2). זה מוביל אותנו לחוק הכללי:</p>
<ul> <li><span>\( \left(a^{n}\right)^{k}=a^{n\cdot k} \)</span></li>
</ul>
<p>כמו שכפל של חזקות “הורד בדרגה” לדרגת חיבור כשהסתכלנו על המעריכים, כך גם פה - העלאה בחזקה של חזקה “מורדת בדרגה” לדרגת כפל כשאנחנו מסתכלים על המעריכים.</p>
<p>תכונה נחמדה ושימושית מאוד שנובעת מייד מהדבר הזה היא שאפשר “להחליף סדר” של חזקות, במובן הבא: <span>\( \left(a^{n}\right)^{k}=\left(a^{k}\right)^{n} \)</span> (כי שניהם שווים אל <span>\( a^{n\cdot k} \)</span> ששווה ל-<span>\( a^{k\cdot n} \)</span> - העובדה שאפשר להחליף סדר בכפל “מפעפעת” אל החזקות כאן). מה שאני רוצה להדגיש הוא ש<strong>אי אפשר</strong> להחליף סדר של חזקות במובן של להחליף את הסדר בין הבסיס והמעריך, כלומר באופן כללי <span>\( a^{b}\ne b^{a} \)</span>. למשל, <span>\( 2^{5}=32 \)</span> אבל <span>\( 5^{2}=25 \)</span>. אמנם, לפעמים זה כן עובד, למשל <span>\( 2^{4}=4^{2}=16 \)</span> אבל רק במספרים קטנים מאוד מסוימים.</p>
<p>עוד תכונה מועילה שאני רוצה להראות היא מה שקורה כשכופלים חזקות שבהן הבסיס <strong>שונה</strong>. באופן כללי אין יותר מדי מה לעשות עם זה, אבל אם החזקה <strong>זהה</strong> כן יש מה לעשות. הנה דוגמא פשוטה: נניח שאנחנו מסתכלים על <span>\( 3^{2}\cdot4^{2} \)</span>. מה זה הביטוי הזה? זה <span>\( \left(3\cdot3\right)\cdot\left(4\cdot4\right) \)</span>. כלומר פעמיים 3 שמוכפלים זה בזה וכל זה מוכפל בפעמיים 4 שמוכפלים זה בזה. עכשיו, בגלל שאפשר להחליף סדר בכפל איך שנוח לנו, אפשר לצוות כל 3 עם 4, ולקבל <span>\( \left(3\cdot4\right)\cdot\left(3\cdot4\right) \)</span> - זו אותה מכפלה בדיוק רק עם סדר שונה של האיברים, ומכיוון שיש בה את הגוש <span>\( 3\cdot4 \)</span> שמוכפל בעצמו פעמיים, אנחנו מקבלים פה <span>\( \left(3\cdot4\right)^{2} \)</span>. זה מוביל אותנו לחוק הכללי:</p>
<ul> <li><span>\( a^{n}\cdot b^{n}=\left(ab\right)^{n} \)</span></li>
</ul>
<p>החוק הזה יהיה מאוד שימושי גם במקרה שבו אנחנו רוצים <strong>לחלק</strong> שתי חזקות ולא לכפול אותן. הנקודה הרלוונטית כאן היא ש”לחלק ב-<span>\( b \)</span>” זה אותו דבר בדיוק כמו “לכפול ב-<span>\( \frac{1}{b} \)</span>” (או בסימון שכבר ראינו, לכפול ב-<span>\( b^{-1} \)</span>) ולכן <span>\( \frac{a^{n}}{b^{n}}=a^{n}\cdot b^{-n}=a^{n}\cdot\left(b^{-1}\right)^{n}=\left(ab^{-1}\right)^{n} \)</span>, ואפשר לכתוב את זה יפה כך:</p>
<ul> <li><span>\( \frac{a^{n}}{b^{n}}=\left(\frac{a}{b}\right)^{n} \)</span></li>
</ul>
<p>זה אותו חוק בדיוק כמו מה שכבר כתבתי, אבל זה עוזר לראות אותו כך במפורש גם במקרה של חילוק.</p>
<p>בעזרת החוקים שכבר ראינו, אפשר להשתמש בחוק הזה באופן חלקי גם בסיטואציות שבהן דברים לא מסתדרים כל כך יפה. למשל, בואו נסתכל על <span>\( 3^{5}\cdot5^{4} \)</span>. אנחנו לא יכולים להשתמש בחוק כמות שהוא כי המעריכים של 3 ושל 5 שונים, אבל אפשר להתחיל לדפוק על הביטוי הזה עם פטיש עד שיצא מתאים לצורה שאנחנו רוצים: <span>\( 3^{5}=3^{1+4}=3^{1}\cdot3^{4} \)</span> על פי חוק החזקות הראשון שראינו, ולכן <span>\( 3^{5}\cdot5^{4}=3\cdot3^{4}\cdot5^{4}=3\left(3\cdot5\right)^{4} \)</span>.</p>
<p>עוד דוגמא ל”דפיקה בפטיש” כזו משתמשת בחוק החזקה-של-חזקה שראינו. אם יש לנו את <span>\( 3^{6}\cdot5^{3} \)</span> אפשר להשתמש בתעלול הבא: <span>\( 6=2\cdot3 \)</span> ולכן <span>\( 3^{6}=\left(3^{2}\right)^{3}=9^{3} \)</span> ולכן <span>\( 3^{6}\cdot5^{3}=9^{3}\cdot5^{3}=\left(9\cdot5\right)^{3}=45^{3} \)</span>.</p>
<p>אפשר וצריך לשאול בשביל מה בכלל צריכים את כל התעלולים הללו, והתשובה היא <strong>מתמטיקאים הם עצלנים</strong>. הרבה פעמים במתמטיקה אנחנו נמצאים בסיטואציה שבה אנחנו מנסים להבין תכונה של אובייקט כלשהי ומצליחים לנסח את התשובה הזו בצורה די נאיבית בתור ביטוי מסובך, וזה מעצבן כי אנחנו רוצים ביטוי <strong>פשוט</strong> שמתאים לתשובה. אז אם אנחנו מסוגלים לפשט את הביטוי עם מניפולציות כאלו, יאללה בואו נלך על זה. עכשיו, עם חוק כמו <span>\( a^{n}\cdot b^{n}=\left(ab\right)^{n} \)</span>, מה בעצם נחשב “פשוט יותר”, אגף ימין או שמאל? התשובה היא שאף אחד מהם. זה תמיד תלוי בביטוי הכללי שאנחנו עובדים איתו שהוא לרוב יותר גדול ומסובך, וכשבאים לפשט ביטוי כזה גם המעבר מימין לשמאל וגם המעבר משמאל לימין יכולים להיות מועילים. נראה דוגמאות לזה כשאטפל ב”מפלצות” בסוף הפוסט.</p>
<h2>השורשים נכנסים לסיפור</h2>
<p>עד עכשיו הראיתי איך מגדירים חזקות שהן מספר שלם כלשהו - טבעי חיובי, אפס, ומספר שלילי. אבל מה עם דברים יותר מתוחכמים, למשל <span>\( a^{\frac{1}{2}} \)</span>? האם אפשר להגדיר גם דבר כזה? התשובה היא כן, וזה מתקשר ליצור מתמטי אחר שנקרא <strong>שורש</strong>.</p>
<p>עבור <span>\( 4 \)</span> <strong>השורש הריבועי </strong>שלו שמסומן <span>\( \sqrt{4} \)</span>, הוא 2, כי <span>\( 2^{2}=4 \)</span>. עבור <span>\( 9 \)</span>, <span>\( \sqrt{9}=3 \)</span> כי <span>\( 3^{2}=9 \)</span>. באופן דומה בגלל ש-<span>\( 5^{2}=25 \)</span> אז <span>\( \sqrt{25}=5 \)</span> וכן הלאה. באופן כללי - <strong>השורש הריבועי</strong> של <span>\( a \)</span> הוא מספר <span>\( b \)</span> כך ש-<span>\( b^{2}=a \)</span>. זה מושג שנראה תמים במבט ראשון אבל למרבה הצער יש לו כמה סיבוכים.</p>
<p>ראשית, יש את הקטע הזה שמספר שלילי כפול מספר שלילי יוצא מספר חיובי (דיברתי על זה <a href="https://gadial.net/2017/07/30/minus_minus/">כאן בבלוג</a>). למשל, <span>\( \left(-2\right)\cdot\left(-2\right)=4 \)</span>. אז למה שלא נגיד ש-<span>\( \sqrt{4}=-2 \)</span>? בתיאוריה היינו יכולים לעשות דבר כזה, אבל אנחנו רוצים שכשאנחנו כותבים <span>\( \sqrt{a} \)</span> זה יהיה ביטוי חד משמעי (מה שמכונה במתמטיקה “מוגדר היטב”) ולכן המוסכמה השרירותית שלנו היא ש-<span>\( \sqrt{a} \)</span> תמיד מייצג את השורש הריבועי <strong>האי שלילי</strong> של המספר (תמיד קיים רק שורש ריבועי אי שלילי יחיד ולכן זה אכן מוגדר היטב).</p>
<p>שנית, אם כפל של שני מספרים חיוביים תמיד יוצא חיובי, וכפל של שני מספרים <strong>שליליים</strong> תמיד יוצא חיובי, האם בכלל ייתכן שיהיה <span>\( b \)</span> כלשהו כך ש-<span>\( b^{2}=-1 \)</span>? האם <span>\( \sqrt{-1} \)</span> זה ביטוי בעל משמעות? ובכן, התשובה הקצרה היא <strong>לא</strong> והתשובה הארוכה יותר היא <strong>כן</strong>. קיים סוג מיוחד של מספרים שנקרא <strong>מספרים מרוכבים</strong> שבהם יש גם שורשים למשהו כמו <span>\( -1 \)</span>, אבל המתמטיקה של המספרים הללו מסובכת יותר ממה שאנחנו מדברים עליו בפוסט הזה (בפרט, מושגים כמו “חיוביים”/”שליליים” כבר לא ממש תקפים לגביהם) ובהתאם גם כללי החזקות שלהם מסובכים יותר, ולכן אני <strong>לא אדבר עליהם בכלל</strong> בפוסט הזה. המחיר הוא שאת כללי החזקות שאציג עוד מעט אני יכול לנסח רק למקרה שבו הבסיס <span>\( a>0 \)</span>.</p>
<p>לבסוף, בעיה שלישית שאני רוצה לדבר עליה היא המספר <span>\( \sqrt{2} \)</span>. מי זה? מה זה? אין מספר <strong>טבעי</strong> שכשמעלים אותו בריבוע מקבלים 2, אז זה לא מספר טבעי. אם נבקש ממחשבון לומר לנו מה המספר הזה, הוא יגיד משהו כמו <span>\( 1.41421356 \)</span>, אבל אם נחשב ידנית ונעלה את המספר הזה בריבוע נקבל <span>\( 1.9999999932878738 \)</span> (אל תעשו את זה במחשבון! אולי המחשבון לא מסוגל להציג מספר בכזו רמת דיוק ואז תקבלו משהו שונה!). הבעיה פה היא שהמחשבון מציג רק מספר סופי של ספרות של <span>\( \sqrt{2} \)</span> אבל צריך <strong>אינסוף ספרות</strong> כדי לתאר את <span>\( \sqrt{2} \)</span> בייצוג עשרוני - זה מה שמכונה מספר <strong>אי רציונלי</strong> (באופן שקול זה אומר שאי אפשר לכתוב את <span>\( \sqrt{2} \)</span> בתור שבר, כלומר אין <span>\( a,b \)</span> שלמים כך ש-<span>\( \sqrt{2}=\frac{a}{b} \)</span>; יש לי הוכחה לטענה הזו <a href="https://gadial.net/2007/06/11/irrational_numbers/">כאן</a>). אפשר להעלות את השאלה איך אנחנו יודעים שמספרים אי רציונליים כאלו קיימים בכלל (אם כי לדעתי השאלה הזו לא מטרידה את רוב התלמידים; התחושה היא שאם אפשר לכתוב ייצוג עשרוני עבור משהו, הוא קיים) והאמת שזה סיפור מעניין בפני עצמו אבל הוא יסופר בפעם אחרת (<a href="https://gadial.net/2007/06/13/real_numbers_cantor_construction/">כבר סיפרתי אותו</a> בראשית ימי הבלוג אבל אולי כדאי לספר אותו שוב).</p>
<p>כל המהומה עד כה עסקה במה שנקא <strong>שורש ריבועי</strong>, אבל אפשר לדבר על שורשים בצורה כללית יותר: <span>\( \sqrt[n]{a} \)</span>, עבור <span>\( a>0 \)</span> ו-<span>\( n \)</span> טבעי חיובי, הוא המספר החיובי היחיד <span>\( b \)</span> שמקיים <span>\( b^{n}=a \)</span>. שימו לב שאני משתמש פה באותן הגבלות שבהן השתמשתי עבור שורש ריבועי, למרות שלפעמים אולי אפשר קצת להקל (למשל, אפשר לומר ש-<span>\( \sqrt[3]{-1}=-1 \)</span> כי <span>\( \left(-1\right)^{3}=-1 \)</span>) פשוט כי כדי שחוקי החזקות שאציג “יתנהגו יפה” אני חייב גם במקרה הזה לשמור על אותן מגבלות.</p>
<p>עכשיו כשאנחנו יודעים מה אלו שורשים אפשר להתקדם אל חוקי החזקות עצמם.</p>
<h2>חוקי חזקות של שורשים</h2>
<p>בואו נתחיל עם דוגמא פשוטה. מה זה <span>\( 4^{\frac{1}{2}} \)</span>? ובכן, אני עדיין לא יודע, אבל <strong>בואו נניח</strong> שחוקי החזקות שראינו מתקיימים גם כשהחזקה היא שבר. אני יודע שבאופן כללי, <span>\( \left(a^{n}\right)^{k}=a^{n\cdot k} \)</span> ולכן אם אני אקח את <span>\( 4^{\frac{1}{2}} \)</span> ואעלה אותו בריבוע, אני אקבל:</p>
<p><span>\( \left(4^{\frac{1}{2}}\right)^{2}=4^{\frac{1}{2}\cdot2}=4^{1}=4 \)</span></p>
<p>כלומר, <span>\( 4 \)</span> בחזקת חצי הוא מספר שכשמעלים <strong>אותו</strong> בריבוע מקבלים 4. מי זה המספר הזה? כמובן, 2, ובסימון אחר שזה עתה ראינו: <span>\( \sqrt{4} \)</span>.</p>
<p>כך מתקיים גם באופן כללי: <span>\( \left(a^{\frac{1}{2}}\right)^{2}=a \)</span> ולכן <span>\( a^{\frac{1}{2}}=\sqrt{a} \)</span>. זו ההגדרה שאנחנו <strong>נדחפים</strong> אליה אם אנחנו רוצים להשתמש בחזקות שהן שבר, ושחוקי החזקות הקיימים יעבדו גם במקרה הזה (וכרגיל - צריך גם להוכיח שזה באמת עובד, ואני אתחמק מזה באלגנטיות כאן).</p>
<p>טוב ויפה, אבל שבר כללי הוא מספר מהצורה <span>\( \frac{k}{n} \)</span> כאשר <span>\( k,n \)</span> הם שלמים, ובינתיים טיפלתי רק ב-<span>\( \frac{1}{2} \)</span>. למרבה השמחה, אין כאן כמעט שום רמת סיבוך נוספת, הכל מתאים למה שכבר ראינו. ראשית, <span>\( \left(a^{\frac{1}{n}}\right)^{n}=a \)</span> ולכן <span>\( a^{\frac{1}{n}}=\sqrt[n]{a} \)</span>; ושנית, על פי חוקי החזקות שכבר ראינו,</p>
<ul> <li><span>\( a^{\frac{k}{n}}=a^{\frac{1}{n}\cdot k}=\left(a^{k}\right)^{\frac{1}{n}}=\sqrt[n]{a^{k}} \)</span></li>
</ul>
<p>זה מטפל לנו בהגדרה של חזקה לכל מקרה של שבר <strong>חיובי</strong>. מה עם שבר שלילי, כלומר סיטואציה מהצורה <span>\( a^{-\frac{k}{n}} \)</span> כאשר <span>\( k,n \)</span> טבעיים חיוביים? ובכן, אותו דבר שקרה עם מינוסים קודם: <span>\( a^{-1}=\frac{1}{a} \)</span>, ולכן</p>
<p><span>\( a^{-\frac{k}{n}}=\left(a^{\frac{k}{n}}\right)^{-1}=\left(\sqrt[n]{a^{k}}\right)^{-1}=\frac{1}{\sqrt[n]{a^{k}}} \)</span></p>
<p>עכשיו, כשחושבים על שורשים בתור חזקות, ולכן בתור משהו שמקיים את כללי החזקות הרגילים, אפשר לנסח את החוקים הללו גם בסימון של שורשים. למשל:</p>
<ul> <li><span>\( \sqrt{a}\cdot\sqrt{b}=\sqrt{ab} \)</span></li>
<li><span>\( \frac{\sqrt{a}}{\sqrt{b}}=\sqrt{\frac{a}{b}} \)</span></li>
</ul>
<p>אין כאן משהו שלא ראינו קודם; פשוט טוב לראות את זה גם בצורה הזו.</p>
<h2>זמן לטפל במפלצות!</h2>
<p>עכשיו שיש לנו את חוקי החזקות, בואו נתאמן עליהם קצת, כדי להתרגל. אני אתן כמה תרגילים של פישוט מפלצות, ושווה מאוד לנסות לעשות את התרגילים הללו עצמאית, גם אם נתקעים - תרגול הוא הדרך הטובה ביותר (ויש שיאמרו, היחידה) לא סתם <strong>להכיר</strong> דברים במתמטיקה אלא גם <strong>להבין</strong> אותם. לפני שנתחיל, הנה ריכוז חוקי החזקות שנזדקק להם (אני מניח, כזכור, ש-<span>\( a>0 \)</span> וש-<span>\( n,k \)</span> הם מספרים טבעיים חיוביים):</p>
<ul> <li><span>\( a^{n}\cdot a^{k}=a^{n+k} \)</span></li>
<li><span>\( a^{n-k}=\frac{a^{n}}{a^{k}} \)</span></li>
<li><span>\( \left(a^{n}\right)^{k}=\left(a^{k}\right)^{n}=a^{n\cdot k} \)</span></li>
<li><span>\( a^{n}\cdot b^{n}=\left(ab\right)^{n} \)</span></li>
<li><span>\( \frac{a^{n}}{b^{n}}=\left(\frac{a}{b}\right)^{n} \)</span></li>
<li><span>\( a^{\frac{k}{n}}=\sqrt[n]{a^{k}} \)</span></li>
<li><span>\( a^{0}=1 \)</span></li>
<li><span>\( a^{-n}=\frac{1}{a^{n}} \)</span></li>
</ul>
<p>נעבור אל המפלצת הראשונה שלנו! הביטוי</p>
<p><span>\( \frac{a^{4}a^{-2}\sqrt[7]{a^{3}}}{a^{3}\left(\sqrt{a}\right)^{5}} \)</span></p>
<p>במבט ראשון, דבר מזוויע לחלוטין. במבט שני, לפשט את זה הוא בסך הכל תרגיל חשבון ברמת כיתה ד’, כי כל מה שיש לנו פה הן חזקות עם הבסיס <span>\( a \)</span> וכולן מוכפלות אחת בשניה (גם חלוקה היא כזכור סוג של כפל). יש כמה דרכי קיצור שאני יכול לנקוט בהן אבל לא אשתמש בהן אלא אפתור את התרגיל “לפי הספר”. ראשית כל, ניפטר מסימני השורש על ידי שימוש בכלל <span>\( a^{\frac{k}{n}}=\sqrt[n]{a^{k}} \)</span> (ובמכנה של המפלצת גם בכלל <span>\( \left(a^{n}\right)^{k}=a^{nk} \)</span>) ונקבל</p>
<p><span>\( \frac{a^{4}a^{-2}\sqrt[7]{a^{3}}}{a^{3}\left(\sqrt{a}\right)^{5}}=\frac{a^{4}a^{-2}a^{\frac{3}{7}}}{a^{3}a^{\frac{5}{2}}} \)</span></p>
<p>עכשיו אפשר להפוך גם את מה שבמונה וגם את מה שבמכנה לתרגיל חיבור של המעריכים בעזרת הכלל <span>\( a^{n}\cdot a^{k}=a^{n+k} \)</span>:</p>
<p><span>\( \frac{a^{4}a^{-2}a^{\frac{3}{7}}}{a^{3}a^{\frac{5}{2}}}=\frac{a^{4-2+\frac{3}{7}}}{a^{3+\frac{5}{2}}} \)</span></p>
<p>ועכשיו אפשר להשתמש בכלל <span>\( a^{n-k}=\frac{a^{n}}{a^{k}} \)</span> כדי להיפטר מסימן השבר ולכתוב את הכל ביחד:</p>
<p><span>\( \frac{a^{4-2+\frac{3}{7}}}{a^{3+\frac{5}{2}}}=a^{4-2+\frac{3}{7}-\left(3+\frac{5}{2}\right)} \)</span></p>
<p>עכשיו לא נשאר לנו כלום מלבד התרגיל של כיתה ד’ המובטח, <span>\( 4-2+\frac{3}{7}-\left(3+\frac{5}{2}\right)=\frac{6-35-14}{14}=-\frac{43}{14} \)</span>, לכן הפתרון לתרגיל כולו הוא <span>\( a^{-\frac{43}{14}}=\frac{1}{\sqrt[14]{a^{43}}} \)</span>. זה כמובן לא מספר נחמד בשום צורה, אבל הוא לא מפלצת כמו <span>\( \frac{a^{4}a^{-2}\sqrt[7]{a^{3}}}{a^{3}\left(\sqrt{a}\right)^{5}} \)</span>; העלמנו הרבה מידע עודף מיותר.</p>
<p>בואו נטפל עכשיו במפלצת שניה, שבה יופיע גם נעלם <span>\( a \)</span> וגם נעלם <span>\( b \)</span> ואיכשהו נצטרך לטפל בשניהם ביחד:</p>
<p><span>\( \left(\frac{a}{b}\right)^{4}\cdot\sqrt{\frac{b}{a}}\cdot\frac{a^{5}b\cdot b^{3}}{\left(ab\right)^{6}} \)</span></p>
<p>כאן הקושי הראשוני מגיע מכך שיש לנו פעולת חזקה על כמה איברים בבת אחת. בואו ניזכר בכללים שמפשטים את זה:</p>
<ul> <li><span>\( a^{n}\cdot b^{n}=\left(ab\right)^{n} \)</span></li>
<li><span>\( \frac{a^{n}}{b^{n}}=\left(\frac{a}{b}\right)^{n} \)</span></li>
</ul>
<p>הכלל השני גם נותן לנו <span>\( \sqrt{\frac{b}{a}}=\frac{\sqrt{b}}{\sqrt{a}}=\frac{b^{\frac{1}{2}}}{a^{\frac{1}{2}}} \)</span>. לכן אנחנו מקבלים מהמפלצת:</p>
<p><span>\( \left(\frac{a}{b}\right)^{4}\cdot\sqrt{\frac{b}{a}}\cdot\frac{a^{5}b\cdot b^{3}}{\left(ab\right)^{6}}=\frac{a^{4}}{b^{4}}\cdot\frac{b^{\frac{1}{2}}}{a^{\frac{1}{2}}}\cdot\frac{a^{5}b\cdot b^{3}}{a^{6}b^{6}} \)</span></p>
<p>זה עדיין לא ביטוי פשוט כל כך - חלק מהבעיה היא ש-<span>\( a,b \)</span> מעורבבים ביחד. בואו נזכור שכשיש לנו רק פעולות כפל אפשר להזיז את המוכפלים איך שמתחשק (כאן יש לנו גם פעולת חילוק, אבל עדיין אפשר להזיז דברים חופשים גם בתוך המונה וגם בתוך המכנה, כשכל מה שיש שם הוא פעולות כפל):</p>
<p><span>\( \frac{a^{4}}{b^{4}}\cdot\frac{b^{\frac{1}{2}}}{a^{\frac{1}{2}}}\cdot\frac{a^{5}b\cdot b^{3}}{a^{6}b^{6}}=\frac{a^{4}a^{5}}{a^{\frac{1}{2}}a^{6}}\cdot\frac{b^{\frac{1}{2}}b\cdot b^{3}}{b^{4}b^{6}} \)</span></p>
<p>ועכשיו זה דומה למה שכבר ראינו: על בסיס הכלל <span>\( a^{n}\cdot a^{k}=a^{n+k} \)</span> את החזקות שבמונה מחברים זו לזו; את החזקות שבמכנה מחברים זו לזו; ומחסרים מהחזקות שבמונה את החזקות שבמכנה, על בסיס הכלל <span>\( a^{n-k}=\frac{a^{n}}{a^{k}} \)</span>. מקבלים:</p>
<p><span>\( \frac{a^{4}a^{5}}{a^{\frac{1}{2}}a^{6}}\cdot\frac{b^{\frac{1}{2}}b\cdot b^{3}}{b^{4}b^{6}}=a^{9-\frac{13}{2}}\cdot b^{\frac{9}{2}-10}=a^{\frac{5}{2}}\cdot b^{-\frac{11}{2}} \)</span></p>
<p>ואם רוצים לכתוב את זה טיפה יותר נחמד, אפשר:</p>
<p><span>\( a^{\frac{5}{2}}\cdot b^{-\frac{11}{2}}=\frac{a^{\frac{5}{2}}}{b^{\frac{11}{2}}}=\sqrt{\frac{a^{5}}{b^{11}}} \)</span></p>
<p>זה מסיים גם עם המפלצת הזו.</p>
<p>והנה מפלצת חמודה לסיום:</p>
<p><span>\( \frac{49^{20}25^{42}}{35^{40}125^{14}} \)</span></p>
<p>זו אמנם מפלצת קטנה יותר, אבל במבט ראשון לא ברור מה אפשר לעשות כאן בכלל. במקום <span>\( a,b \)</span> הנחמדים מקודם יש מספרים שלא קשורים אחד לשני… האמנם?! המספרים דווקא כן קשורים אחד לשני וכפי שתכף נראה, יש לנו פה את <span>\( a,b \)</span> “בתחפושת”.</p>
<p>הרעיון הוא שכשיש לנו מספרים, אפשר <strong>לפרק אותם לגורמים</strong>: להציג אותם בתור מכפלה של מספרים פשוטים, שנקראים <strong>ראשוניים</strong>, שאותם ספציפית אי אפשר לפרק יותר כי הם מתחלקים רק בעצמם וב-1. היתרון בפירוק לגורמים (והתרגיל הזה ממחיש את זה היטב) הוא שמספרים שנראים “לא קשורים” זה לזה עשויים להתגלות כקשורים מאוד כשמסתכלים על הפירוק שלהם לראשוניים. כמובן שיש לשיטה הזו גם מגבלות - פירוק לגורמים לרוב לא מועיל כל כך כדי לפשט פעולות חיבור/חיסור, אבל זה עוד כלי שצריך להיות לנו בראש כשאנחנו באים להתמודד עם בעיות פישוט.</p>
<p>ובכן, בואו נציג כל אחד מהמספרים הללו בתור מכפלה של ראשוניים (איך אני מוצא את המכפלה הזו? חוץ מלנסות לחלק במספרים קטנים אני לא מכיר שיטה טובה שאפשר לעשות ידנית; פירוק לגורמים זו בעיה קשה, אבל כאן המספרים פשוטים מספיק כדי שזה יעבוד):</p>
<p><span>\( 49=7^{2} \)</span></p>
<p><span>\( 25=5^{2} \)</span></p>
<p><span>\( 35=5\cdot7 \)</span></p>
<p><span>\( 125=5^{3} \)</span></p>
<p>אפשר לחשוב על זה כאילו אנחנו בתרגיל עם <span>\( a,b \)</span> כאשר <span>\( a=7,b=5 \)</span>, אבל אני פשוט אפתור ישירות בלי להכניס <span>\( a,b \)</span> לעניין:</p>
<p><span>\( \frac{49^{20}25^{42}}{35^{40}125^{14}}=\frac{\left(7^{2}\right)^{20}\left(5^{2}\right)^{42}}{\left(5\cdot7\right)^{40}\left(5^{3}\right)^{14}} \)</span></p>
<p>הכלל <span>\( \left(a^{n}\right)^{k}=a^{n\cdot k} \)</span> הולך להיות מאוד שימושי כעת, וגם <span>\( a^{n}\cdot b^{n}=\left(ab\right)^{n} \)</span> מופיע כאן, בטיפול ב-<span>\( 35=5\cdot7 \)</span>:</p>
<p><span>\( \frac{\left(7^{2}\right)^{20}\left(5^{2}\right)^{42}}{\left(5\cdot7\right)^{40}\left(5^{3}\right)^{14}}=\frac{7^{40}5^{84}}{5^{40}7^{40}5^{42}}=\frac{7^{40}}{7^{40}}\cdot\frac{5^{84}}{5^{82}}=5^{2}=25 \)</span></p>
<p>וסיימנו! אפשר היה לנסות לקבל את אותה תוצאה פשוט על ידי הזנת <span>\( \frac{49^{20}25^{42}}{35^{40}125^{14}} \)</span> למחשבון, אבל מחשבון לא היה מצליח להתמודד עם המספרים הגדולים שמתקבלים כ”תוצאת ביניים” בחישוב ישיר (כן אפשר להתמודד איתם אם עובדים במחשב, למשל עם שפת תכנות כמו פייתון, אבל עדיין יותר קל פשוט לפשט בצורה שהראיתי).</p>
<p>לסיום, אני רוצה לחזור על מילת האזהרה שנתתי מוקדם יותר בפוסט: כל החישובים והכללים הללו? זו לא בדיוק מתמטיקה, ובטח לא מה שאני מתלהב ממנו כשאני מדבר על מתמטיקה; אבל כשרוצים לטפס על הר כדי לראות את הנוף הכרחי גם לדעת להשתמש ביתדות טיפוס ולהתקדם בצורה איטית וזהירה - והטכניקה של חוקי החזקות היא כלי עבודה בסיסי בטיפוס ההרים המתמטי שלנו.</p>מבואבעקבות השערת הרצף, חלק י’: מוכיחים את העקביות של השערת הרצף2023-07-31T00:00:00+00:002023-07-31T00:00:00+00:00http://gadial.net/2023/07/31/continuum_hypothesis_forcing_proving_ch_consistant<h2>פרק המבוא שבו אנחנו חוזרים בפעם ה-<span>\( \omega \)</span> על כל מה שקרה עד כה</h2>
<p>בשעה טובה ומוצלחת הגענו אל הישורת האחרונה של סדרת הפוסטים על השערת הרצף. כל עבודת ההכנה הסתיימה, וכעת אפשר לגשת לעיקר - ההוכחות שהשערת הרצף מתיישבת עם ZFC, וההוכחה ששלילת השערת הרצף מתיישבת עם ZFC. שתי אלו ביחד מראות שהשערת הרצף בלתי תלויה ב-ZFC.</p>
<p>התוצאה הקלה יותר היא ההוכחה שהשערת הרצף מתיישבת עם ZFC. היא הוכחה על ידי קורט גדל ב-1940 בעזרת משהו שנקרא “היקום הניתן לבניה” ומסומן ב-L. זה נושא מעניין בפני עצמו, אבל בסדרת הפוסטים הזו אני לא נכנס אליו, מכיוון שיש לנו כאן סיטואציה של “שניים במחיר אחד”. ב-1963 פול כהן הוכיח ששלילת השערת הרצף מתיישבת עם ZFC; לשם כך הוא פיתח את טכניקת הכפייה שאותה הצגנו בפירוט בפוסטים הקודמים. הטכניקה הזו חזקה וכללית למדי, הרבה מעבר לשימוש המקורי שלה, ושימוש פשוט למדי שלה הוא כדי להוכיח בדרך שונה את מה שקורט גדל הוכיח ב-1940. זה מה שנעשה בפוסט הזה.</p>
<p>לפני שנצלול אל הבניה עצמה, בואו נזכיר את הרקע הרלוונטי ככל הניתן כך שגם מי שהתייאשו מהפוסטים הקודמים יוכלו להצטרף מחדש כאן (אני הייתי מתייאש מהם ומדלג לכאן; למעשה, זה מה שעשיתי כשלמדתי לראשונה את אי-תלות השערת הרצף, ורק כתיבת הפוסטים הכריחה אותי להיכנס לפרטים).</p>
<p>השערת הרצף, בניסוח שאנחנו רוצים להתבסס עליו כאן, היא הטענה <span>\( \mathcal{P}\left(\mathbb{N}\right)\cong\aleph_{1} \)</span>. כלומר, שיש התאמה חח”ע ועל בין קבוצת כל תתי-הקבוצות של המספרים הטבעיים ובין <span>\( \aleph_{1} \)</span> - הסודר הקטן ביותר שאינו שווה עוצמה ל-<span>\( \omega=\left\{ 0,1,2,\ldots\right\} \)</span>. כדי להראות שהשערת הרצף <strong>מתיישבת</strong> עם ZFC צריך להראות שקיים יקום מתמטי כלשהו שבו א) כל ZFC מתקיימת ב) השערת הרצף מתקיימת.</p>
<p>ובכן, בנינו “יקום מתמטי זעיר” <span>\( \mathcal{M} \)</span> שהיה קבוצה בת מניה וטרנזיטיבית שמקיימת את כל ZFC (ליתר דיוק, מקיימת כל אקסיומה ב-ZFC שנזדקק לה). מה שהיינו שמחים אם היה קורה הוא ש-<span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}}\cong\aleph_{1}^{\mathcal{M}} \)</span>. אבל רגע אחד, מה זה <span>\( \aleph_{1}^{\mathcal{M}} \)</span>? ובכן, זה אומר “הסודר הקטן ביותר ב-<span>\( \mathcal{M} \)</span> שאינו שווה עוצמה ל-<span>\( \omega=\left\{ 0,1,2,\ldots\right\} \)</span>”. יש כאן נקודה עדינה שקריטי להבין בשלב הזה: <strong>כל</strong> האיברים של <span>\( \mathcal{M} \)</span> הם קבוצות בנות מניה; זה נובע מייד מכך ש-<span>\( \mathcal{M} \)</span> היא בת מניה וטרנזיטיבית (כלומר אם <span>\( x\in\mathcal{M} \)</span> אז <span>\( x\subseteq\mathcal{M} \)</span>). לכן אני קורא ל-<span>\( \mathcal{M} \)</span> יקום “זעיר”. לכן, גם <span>\( \aleph_{1}^{\mathcal{M}} \)</span> הולך להיות קבוצה בת מניה, בדיוק כמו <span>\( \omega \)</span>. אם שניהם קבוצות בנות מניה, אז ממש על פי הגדרה זה אומר שיש פונקציה <span>\( f:\omega\to\aleph_{1}^{\mathcal{M}} \)</span> שהיא חח”ע ועל. העניין הוא שהפונקציה הזו <strong>לא</strong> שייכת ל-<span>\( \mathcal{M} \)</span>. ה”זעירות” של <span>\( \mathcal{M} \)</span> מתבטאת גם בכך שחסרים בו איברים שאולי נראה לנו ש”אמורים להיות שם”.</p>
<p>אפשר, וצריך, לשאול שאלות כמו “רגע, אז למה <span>\( \omega \)</span> בכלל שייך ל-<span>\( \mathcal{M} \)</span>? ומנין לנו שבכלל קיים סודר שאינו שווה עוצמה ל-<span>\( \omega \)</span> בתוך <span>\( \mathcal{M} \)</span>?” ואלו שאלות מצוינות עם התשובה הסופר-מצוינות שאפשר <strong>להוכיח</strong> את הקיום של <span>\( \omega \)</span> ושל סודר שאינו שווה עוצמה ל-<span>\( \omega \)</span> ב-<span>\( \mathcal{M} \)</span>, כי קיימת הוכחה כללית לקיום של הדברים הללו בהתבסס על אקסיומות ZFC, ואמרנו ש-<span>\( \mathcal{M} \)</span> מקיימת את ZFC. זה קסם, ללא ספק; וזה הקסם הראשון שביצענו בסדרת הפוסטים הזו.</p>
<p>להבדיל מ-<span>\( \aleph_{1}^{\mathcal{M}} \)</span> שהוא יצור שונה מ-<span>\( \aleph_{1} \)</span> “הרגיל” (מה שזה לא אומר), <span>\( \omega^{\mathcal{M}} \)</span> הוא בדיוק, אבל בדיוק, <span>\( \omega \)</span>. כלומר, הקבוצה <span>\( \left\{ 0,1,2,\ldots\right\} \)</span> כאשר <span>\( 0=\emptyset \)</span> ו-<span>\( 1=\left\{ 0\right\} \)</span> ו-<span>\( 2=\left\{ 0,1\right\} \)</span> וכן הלאה. גם כל המספרים הטבעיים ב-<span>\( \mathcal{M} \)</span> הם המספרים הטבעיים “הרגילים” - על זה אמרנו שאלו מושגים <strong>אבסולוטיים</strong> - הם אותו הדבר בכל מודל של ZFC. לכן, האיברים של <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> הם עדיין תת-קבוצות של מספרים טבעיים ולא משהו מוזר יותר; ו-<span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> היא אוסף כל תתי הקבוצות של טבעיים ששייכות ל-<span>\( \mathcal{M} \)</span> (וכאמור, יש רק מספר בן מניה של קבוצות כאלו).</p>
<p>אם כן, מה שאולי חסר לנו ב-<span>\( \mathcal{M} \)</span> הוא פונקציה <span>\( f:\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}}\to\aleph_{1}^{\mathcal{M}} \)</span> שהיא חח”ע ועל. אנחנו יודעים ש”ביקום המתמטי האמיתי” קיימת פונקציה כזו, כי הרי שתי הקבוצות הן בנות מניה; הבעיה היא רק ש-<span>\( f \)</span> הזו אולי לא שייכת ל-<span>\( \mathcal{M} \)</span> בעצמה. אבל גם אם היא לא שייכת, רסיסים שלה בהכרח כן שייכים ל-<span>\( \mathcal{M} \)</span> - רסיסים שהם פשוטים מספיק כדי שהם יהיו <strong>חייבים</strong> להיות שם. ומהרסיסים הללו נבנה את <span>\( f \)</span> מחדש.</p>
<p>בואו ננסה לבנות את <span>\( f \)</span> מהרסיסים, ניכשל, נבין למה נכשלנו, ואז נלמד מכך איך לתקן את הבניה כך שתצליח.</p>
<h2>הפרק שבו אנו מנסים לבצע כפייה עם פונקציות סופיות ונכשלים באופן לא סופי</h2>
<p>הנה לנו רעיון איך לבנות פונקציה <span>\( f:\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}}\to\aleph_{1}^{\mathcal{M}} \)</span> חח”ע ועל: נגדיר, בעזרת אקסיומת ההפרדה, קבוצה <span>\( P\subseteq\mathcal{M} \)</span> שאבריה הם <strong>כל</strong> הפונקציות <span>\( g:A\to B \)</span> שהן חח”ע ועל, כך ש-<span>\( A\subseteq\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> היא קבוצה <strong>סופית</strong> וגם <span>\( B\subseteq\aleph_{1}^{\mathcal{M}} \)</span> היא קבוצה <strong>סופית</strong>. כמובן, הפונקציות ב-<span>\( P \)</span> יכולות להיות שונות מאוד זו מזו ולא להסכים זו עם זו, ולכן אם אנחנו רוצים לבנות מהמהומה הזו פונקציה <span>\( f \)</span> אנחנו צריכים לבחור איכשהו חתיכה מ-<span>\( P \)</span> שמתנהגת יפה. בשביל זה יש לנו את המושג של <strong>אידאל גנרי</strong> <span>\( G\subseteq P \)</span>, שכבר הוכחנו את קיומו בעבר. אידאל גנרי כזה יקיים את התכונות הנחמדות הבאות:</p>
<ul> <li>אם <span>\( g_{1},g_{2}\in G \)</span> אז יש להן הרחבה משותפת <span>\( g\in G \)</span>. בפרט <span>\( g_{1},g_{2} \)</span> מסכימות על ערכים ששתיהן מוגדרות עליהם.</li>
<li>החיתוך של <span>\( G \)</span> ושל כל קבוצה צפופה <span>\( D\in\mathcal{M} \)</span> לא ריק.</li>
</ul>
<p>“קבוצה צפופה” פה היא קבוצה של פונקציות כך שלכל <span>\( g\in P \)</span> קיימת הרחבה ב-<span>\( D \)</span>. התכונה הזו מסייעת לנו כך: לכל קבוצה של טבעיים ב-<span>\( \mathcal{M} \)</span>, כלומר <span>\( x\in\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span>, נגדיר את <span>\( D_{x}\subseteq P \)</span> בתור אוסף הפונקציות ב-<span>\( P \)</span> שמוגדרות על <span>\( x \)</span> (כלומר, <span>\( x \)</span> שייך לתחום שלהן, לא משנה איזה ערך הן נותנות לו). זו קבוצה צפופה כי הרי כל פונקציה היא או ב-<span>\( D_{x} \)</span> או שאפשר להרחיב אותה בצורה קונסטרוקטיבית על ידי הגדרה שלה על <span>\( x \)</span> להיות איבר שרירותי של <span>\( \aleph_{1}^{\mathcal{M}} \)</span>, נאמר 0. בנוסף, <span>\( D_{x}\in\mathcal{M} \)</span> כי קל לקבל אותה בעזרת אקסיומת ההפרדה מתוך <span>\( P \)</span> עצמה. המסקנה היא של-<span>\( G \)</span> יש חיתוך לא ריק עם <span>\( D_{x} \)</span>, כלומר קיימת ב-<span>\( G \)</span> פונקציה כלשהי שמוגדרת על <span>\( x \)</span>, וזה <strong>לכל</strong> <span>\( x\in\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span>. לכן <span>\( \bigcup G \)</span> (האיחוד של כל הפונקציות ב-<span>\( G \)</span>; זכרו שכל פונקציה היא בסך הכל קבוצת זוגות סדורים) הולכת להיות פונקציה שמוגדרת לכל <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> והיא חח”ע ועל.</p>
<p>כדי לראות שהיא חח”ע, נניח בשלילה ש-<span>\( \left(x_{1},y\right),\left(x_{2},y\right)\in\bigcup G \)</span> עם <span>\( x_{1}\ne x_{2} \)</span>, אז זה אומר שקיימות <span>\( g_{1},g_{2} \)</span> כך ש-<span>\( g_{1}\left(x_{1}\right)=g_{2}\left(x_{2}\right)=y \)</span>, אבל אז ניקח <span>\( g \)</span> שמרחיבה אותן והיא תקיים <span>\( g\left(x_{1}\right)=g\left(x_{2}\right) \)</span> כלומר לא תהיה חח”ע ועל, בסתירה להנחה ש-<span>\( g\in P \)</span>. באותו אופן גם מראים ש-<span>\( \bigcup G \)</span> היא פונקציה במובן זה שאין <span>\( \left(x,y_{1}\right),\left(x,y_{2}\right)\in\bigcup G \)</span> עבור <span>\( y_{1}\ne y_{2} \)</span>. לראות ש-<span>\( \bigcup G \)</span> מוגדרת לכל <span>\( x\in\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> הראיתי קודם; נשאר רק להראות שלכל <span>\( y\in\aleph_{1}^{\mathcal{M}} \)</span> יש <span>\( x \)</span> שמחזיר אותו, ואת זה עושים עם טריק דומה לזה שעשינו קודם עם <span>\( D \)</span>, רק הפעם מגדירים <span>\( D_{y} \)</span> בתור אוסף הפונקציות ב-<span>\( P \)</span> ש-<span>\( y \)</span> נכלל בתמונה שלהן.</p>
<p>אם כן, הצלחנו! בנינו פונקציה <span>\( f=\bigcup G \)</span> שהיא התאמה חח”ע ועל בין <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> ו-<span>\( \aleph_{1}^{\mathcal{M}} \)</span>! אלא שאין סיבה להניח ש-<span>\( f\in\mathcal{M} \)</span>. כמובן, אם היה מתקיים <span>\( G\in\mathcal{M} \)</span> אז מאקסיומת האיחוד היינו מקבלים <span>\( \bigcup G\in\mathcal{M} \)</span>. אבל אין לנו את <span>\( G\in\mathcal{M} \)</span>.</p>
<p>“אה-הא!” אתן אומרות, ובצדק, “הנה מה שעבדנו עבורו כל כך קשה!”. אכן, רוב העבודה שלנו הייתה לבנות קבוצה <span>\( \mathcal{M}\left[G\right] \)</span> שעדיין מקיימת את ZFC ומתקיים בה <span>\( G\in\mathcal{M}\left[G\right] \)</span>. אז אכן מתקבל מה שרצינו: ב-<span>\( \mathcal{M}\left[G\right] \)</span> קיימת פונקציה חח”ע ועל <span>\( f:\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}}\to\aleph_{1}^{\mathcal{M}} \)</span> והפונקציה הזו היא… לא מה שאנחנו רוצים.</p>
<p>שיהיה ברור, זו הייתה הפונקציה ש<strong>רצינו</strong>. בזמן עבר. קודם. כשהיקום המתמטי שלנו היה <span>\( \mathcal{M} \)</span>. אבל עכשיו היקום המתמטי שלנו התרחב והפך להיות <span>\( \mathcal{M}\left[G\right] \)</span>, ולכן ביקום המתמטי הרחב יותר הזה מה שאנחנו מחפשים הוא פונקציה <span>\( f:\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}\to\aleph_{1}^{\mathcal{M}\left[G\right]} \)</span>, ואת זה הבניה שעשינו לא נותנת לנו ולכן כל ההוכחה היפה הזו <strong>נכשלה לחלוטין</strong>.</p>
<h2>הפרק שבו אנו מנסים לבצע כפייה עם פונקציות בנות מניה ומצליחים מעבר לכל שיעור</h2>
<p>בואו ננסה להתאושש מהשברים. דרך אחת להתאושש: לתהות האם אולי יש שיטה פשוטה להרחיב את <span>\( f:\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}}\to\aleph_{1}^{\mathcal{M}} \)</span> כדי לקבל <span>\( f:\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}\to\aleph_{1}^{\mathcal{M}\left[G\right]} \)</span>. אולי יש כזו, אבל אני לא יודע מה היא; זה לא הכיוון שנלך בו.</p>
<p>דרך אחרת להתאושש: להבין מה בעצם יכול לקרות שיוביל לכך ש-<span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}\ne\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> או ש-<span>\( \aleph_{1}^{\mathcal{M}\left[G\right]}\ne\aleph_{1}^{\mathcal{M}} \)</span>, ללמוד מזה לקח, ולבנות מראש את <span>\( P \)</span> בצורה כזו שתבטיח ש-<span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}=\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> ו-<span>\( \aleph_{1}^{\mathcal{M}\left[G\right]}=\aleph_{1}^{\mathcal{M}} \)</span> כך שהבניה שראינו כן תעבוד.</p>
<p>מה בעצם משתנה במעבר מ-<span>\( \mathcal{M} \)</span> אל <span>\( \mathcal{M}\left[G\right] \)</span>? אנחנו רק מוסיפים קבוצות ל-<span>\( \mathcal{M} \)</span>, אז לא ייתכן שקבוצות קיימות ייעלמו; אבל בהחלט ייתכן שיתווספו קבוצות חדשות של מספרים טבעיים, כך ש-<span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]} \)</span> תהיה גדולה יותר מ-<span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span>. ומה יכול לגרום לכך ש-<span>\( \aleph_{1}^{\mathcal{M}\left[G\right]} \)</span> כבר ל יהיה שווה אל <span>\( \aleph_{1}^{\mathcal{M}} \)</span>? זה טיפה יותר טריקי: אנחנו <strong>יודעים</strong> שכל סודר שבא לפני <span>\( \aleph_{1}^{\mathcal{M}} \)</span> הוא שווה עוצמה אל <span>\( \omega \)</span>, כלומר יש ב-<span>\( \mathcal{M} \)</span> את הפונקציה <span>\( f \)</span> שמראה את שוויון העוצמה הזה. מה שיכול להשתבש מבחינת <span>\( \aleph_{1}^{\mathcal{M}} \)</span> הוא שגם <strong>עבורו</strong> פתאום תתווסף פונקציה כזו, ותדיח את <span>\( \aleph_{1}^{\mathcal{M}} \)</span> ממעמדו - הוא כבר לא יהיה הסודר הקטן ביותר שאינו שווה עוצמה ל-<span>\( \omega \)</span> (כי כאמור, “שווה עוצמה” כאן פירוש שקיימת פונקציה שמראה את שוויון העוצמה הזה). פונקציה כזו אפשר לתאר בתור פונקציה <span>\( g:\mathbb{N}\to\aleph_{1}^{\mathcal{M}} \)</span>. כמו כן, אם הוספנו קבוצה <span>\( X \)</span> של טבעיים, אז אפשר לבנות פונקציה <span>\( g_{X}:\mathbb{N}\to\left\{ 0,1\right\} \)</span> שהיא הפונקציה המציינת שלה: <span>\( g_{X}\left(a\right)=\begin{cases} 1 & a\in X\\ 0 & a\notin X \end{cases} \)</span>. את הפונקציה הזו ניתן לבנות בעזרת ZFC מתוך <span>\( X \)</span>, כך שאם <span>\( X \)</span> התווספה בהרחבה אל <span>\( \mathcal{M}\left[G\right] \)</span>, גם <span>\( g_{X} \)</span> התווספה בהרחבה הזו. מה שאנחנו רואים פה הוא שאת שתי ה”בעיות” אפשר לתאר באותו האופן: התווספה איזו פונקציה מעצבנת מהטבעיים לקבוצה <span>\( X \)</span> כלשהי, וכדי לצמצם את ה”כלשהי” בצורה שתשאיר לנו תקווה להתמודד עם זה, אפשר להניח ש-<span>\( X\in\mathcal{M} \)</span>, כלומר הוספנו פונקציה מהטבעיים לקבוצה שכבר הייתה קיימת (אנחנו צריכים לפסול רק את המקרים <span>\( X=\left\{ 0,1\right\} \)</span> ו-<span>\( X=\aleph_{1}^{\mathcal{M}} \)</span> שבשניהם <span>\( X\in\mathcal{M} \)</span>, אז לא הגבלנו את עצמנו). אנחנו צריכים איכשהו לשנות את <span>\( P \)</span> בצורה שתמנע את הסיטואציה הזו.</p>
<p>למרבה השמחה, השינוי שאנחנו צריכים לבצע ב-<span>\( P \)</span> הוא פשוט יחסית מבחינה רעיונית: נבנה קבוצה <span>\( P \)</span> שאבריה הם <strong>כל</strong> הפונקציות <span>\( g:A\to B \)</span> שהן חח”ע ועל, כך ש-<span>\( A\subseteq\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> היא קבוצה <strong>בת מניה</strong> וגם <span>\( B\subseteq\aleph_{1}^{\mathcal{M}} \)</span> היא קבוצה <strong>בת מניה</strong>. כאן שוב צריך להיזהר מהניואנס שמאפיין את הסיטואציה הזו: אנחנו הרי יודעים שכל <span>\( A,B \)</span> כאלו הם קבוצות בנות מניה בגלל היקום הזעיר של <span>\( \mathcal{M} \)</span>, אבל כשאמרתי קודם “בת מניה” הכוונה הייתה “בת מניה ב-<span>\( \mathcal{M} \)</span>”, כלומר שקיימת ב-<span>\( \mathcal{M} \)</span> פונקציה חח”ע ועל מהקבוצות הללו אל <span>\( \mathbb{N} \)</span>.</p>
<p>מה שנרצה להוכיח הוא שכאשר נבנה את <span>\( \mathcal{M}\left[G\right] \)</span> עבור אידאל גנרי <span>\( G \)</span> שנבנה מתוך ה-<span>\( P \)</span> הזו, לא יתווספו לנו בכלל פונקציות מהצורה <span>\( g:\mathbb{N}\to X \)</span> אל <span>\( \mathcal{M}\left[G\right] \)</span> עם <span>\( X\in\mathcal{M} \)</span>. כלומר, כל פונקציה כזו ב-<span>\( \mathcal{M}\left[G\right] \)</span> כבר הייתה קיימת ב-<span>\( \mathcal{M} \)</span> עצמה. אפשר יהיה להוכיח את זה כחלק מטענה כללית קצת יותר:</p>
<p>נאמר שקבוצה <span>\( P \)</span> היא <span>\( \omega \)</span>-סגורה אם לכל סדרה עולה אינסופית <span>\( p_{1}\subseteq p_{2}\subseteq p_{3}\subseteq\ldots \)</span> של אברי <span>\( P \)</span> גם האיחוד שלה <span>\( \bigcup_{i=1}^{\infty}p_{i} \)</span> שייך ל-<span>\( P \)</span>. הטענה שנרצה להוכיח היא שאם <span>\( P \)</span> היא <span>\( \omega \)</span>-סגורה ב-<span>\( \mathcal{M} \)</span> ו-<span>\( G\subseteq P \)</span> הוא אידאל גנרי, אז לכל <span>\( X\in\mathcal{M} \)</span> וכל פונקציה <span>\( g:\mathbb{N}\to X \)</span> כך ש-<span>\( g\in\mathcal{M}\left[G\right] \)</span> מתקיים <span>\( g\in\mathcal{M} \)</span>.</p>
<p>לפני שנוכיח את הטענה, למה <span>\( P \)</span> הספציפית שלנו היא <span>\( \omega \)</span>-סגורה? פשוט מאוד, מכיוון שאם יש לנו סדרה <span>\( f_{1}\subseteq f_{2}\subseteq\ldots \)</span> של פונקציות עם תחום בן מניה, אז גם האיחוד האינסופי שלהן יהיה פונקציה, ובגלל שהאיחוד בן מניה גם התחום יישאר בן מניה (איחוד של קבוצות בנות מניה הוא בן מניה). זה היה פשוט, וכל מה שנשאר לנו כדי לסיים את כל ההוכחה הוא להוכיח את הטענה על “לא מתווספות פונקציות חדשות”. כאן יגיע מה שהסתתר כל הפוסט - החלק הטכני שבו אנחנו מסתמכים יותר לעומק על הדברים הטכניים שראינו.</p>
<h2>הפרק שבו אנחנו מגיעים לחלק הטכני!</h2>
<p>טוב, בואו ניגש לעבודה ללא רחמים (וב”ללא רחמים” אני מתכוון “אני אשתמש כאן חופשי במושגים שראינו בפוסטים הקודמים בלי להסביר אותם מחדש”). עבור קבוצה <span>\( X\in\mathcal{M} \)</span> כלשהי ניקח פונקציה <span>\( g:\mathbb{N}\to X \)</span> ששייכת ל-<span>\( \mathcal{M}\left[G\right] \)</span> ונראה שהיא שייכת כבר ל-<span>\( \mathcal{M} \)</span>. כמו כל איבר אחר של <span>\( \mathcal{M}\left[G\right] \)</span>, גם <span>\( g=\tau^{G} \)</span> כאשר <span>\( \tau \)</span> הוא שם-<span>\( P \)</span>. מה שנרצה להוכיח הוא זה: אם <span>\( S \)</span> היא קבוצת הפונקציות מ-<span>\( \mathbb{N} \)</span> אל <span>\( X \)</span> ששייכות ל-<span>\( \mathcal{M} \)</span>, אנחנו רוצים להראות <span>\( g\in S \)</span>. לשם כך מספיק להראות שיש ב-<span>\( G \)</span> איבר שכופה את <span>\( \tau\in\check{S} \)</span>. ראינו בעבר טריק כדי להוכיח דברים כאלו: אם <span>\( D\in\mathcal{M} \)</span> היא קבוצה צפופה מעל <span>\( p\in G \)</span> כלשהו, אז <span>\( G\cap D\ne\emptyset \)</span>. אצלנו <span>\( D \)</span> יהיה אוסף האיברים של <span>\( P \)</span> שכופה את <span>\( \tau\in\check{S} \)</span>, אבל כדי לומר משהו מועיל על <span>\( D \)</span> נזדקק להכנה מוקדמת.</p>
<p>עכשיו, קיימים שני שמות-<span>\( P \)</span>, <span>\( \mathbb{\check{N}},\check{X} \)</span> כך ש-<span>\( \mathbb{\check{N}}^{G}=\mathbb{N} \)</span> ו-<span>\( \check{X}^{G}=X \)</span> (כי <span>\( \mathbb{N},X\in\mathcal{M} \)</span>), אז אם נתבונן בפסוק שאומר “<span>\( \tau \)</span> הוא פונקציה מ-<span>\( \mathbb{\check{N}} \)</span> אל <span>\( \check{X} \)</span>”, הפסוק הזה מסתפק ב-<span>\( \mathcal{M}\left[G\right] \)</span>, ולכן מהמשפט היסודי של תורת הכפייה קיים <span>\( p\in G \)</span> כך כך ש-<span>\( p \)</span> כופה את הפסוק הזה. זו התחלה טובה, אבל שימו לב שזה <strong>לא</strong> אומר ש-<span>\( \tau\in\check{S} \)</span>, כי <span>\( S \)</span> היא לא סתם קבוצת הפונקציות מ-<span>\( \mathbb{N} \)</span> אל <span>\( X \)</span> אלא אותן פונקציות שגם שייכות ל-<span>\( \mathcal{M} \)</span>. מה שנעשה יהיה לבנות במסגרת <span>\( \mathcal{M} \)</span> פונקציה ספציפית שכזו, ולהראות שיש <span>\( p^{*} \)</span> שכופה על <span>\( \tau \)</span> להיות הפונקציה הספציפית הזו.</p>
<p>עכשיו, בואו נסתכל על היחס <span>\( q\Vdash\text{op}\left(\check{n},\check{x}\right)\in\tau \)</span>, כלומר <span>\( q \)</span> כופה על הזוג הסדור של <span>\( \check{n},\check{x} \)</span> להיות שייכים ל-<span>\( \tau \)</span>. זה אוסף שלשות מהצורה <span>\( \left(q,\check{n},\check{x}\right) \)</span> והמשפט היסודי של תורת הכפייה מראה לנו שהוא שייך ל-<span>\( \mathcal{M} \)</span>. מכיוון ש-<span>\( \mathcal{M} \)</span> מקיימת את ZFC אנחנו יכולים במסגרתה לשחזר מ-<span>\( \left(q,\check{n},\check{x}\right) \)</span> את השלשה <span>\( \left(q,n,x\right)\in P\times\mathbb{N\times X} \)</span>, ולכן אם נסמן ב-<span>\( T\subseteq P\times\mathbb{N\times X} \)</span> את אוסף השלשות הללו כך ש-<span>\( q\Vdash\text{op}\left(\check{n},\check{x}\right)\in\tau \)</span>, נקבל ש-<span>\( T\in\mathcal{M} \)</span>. עכשיו בואו נראה איך <span>\( T \)</span> הזה מתקשר אל <span>\( p \)</span>.</p>
<p>לכל <span>\( n\in\mathbb{N} \)</span>, נסתכל על אוסף ה-<span>\( q \)</span>-ים כך שקיים <span>\( x \)</span> עבורו <span>\( \left(q,n,x\right)\in T \)</span>. האוסף הזה צפוף מעל <span>\( p \)</span>, כלומר לכל הרחבה של <span>\( p \)</span> יש הרחבה ששייכת לאוסף. בואו נוכיח את זה: ניקח הרחבה <span>\( p\subseteq p^{\prime} \)</span> וניקח אידאל גנרי <span>\( G^{\prime} \)</span> כך ש-<span>\( p^{\prime}\in G^{\prime} \)</span> (כזכור, ראינו בניה שמחזירה אידאל גנרי שמכיל איבר ספציפי). מכיוון ש-<span>\( p\subseteq p^{\prime} \)</span> הרי ש-<span>\( p^{\prime} \)</span> כופה כל דבר ש-<span>\( p \)</span> כופה (גם את הטענה הזו ראינו בעבר) ולכן, מכך ש-<span>\( p^{\prime}\in G^{\prime} \)</span> ומכך ש-<span>\( p \)</span> כופה ש-<span>\( \tau \)</span> הוא פונקציה, נקבל שב-<span>\( \mathcal{M}\left[G^{\prime}\right] \)</span> מתקיים ש-<span>\( \tau^{G^{\prime}} \)</span> היא פונקציה מ-<span>\( \mathbb{N} \)</span> אל <span>\( X \)</span>. לכן, עבור ה-<span>\( n \)</span> שלקחנו בתחילת הפסקה הזו, אנחנו יודעים שקיים <span>\( x\in X \)</span> כך ש-<span>\( \left(n,x\right)\in\tau^{G^{\prime}} \)</span>. עכשיו נשתמש שוב במשפט היסודי של תורת הכפייה: אם ב-<span>\( G^{\prime} \)</span> מתקיים <span>\( \left(n,x\right)\in\tau^{G^{\prime}} \)</span>, זה אומר שיש <span>\( q\in G^{\prime} \)</span> שכופה את זה - זה בדיוק <span>\( q\Vdash\text{op}\left(\check{n},\check{x}\right)\in\tau \)</span>. אם <span>\( p^{\prime} \)</span> לא מוכל ב-<span>\( q \)</span> ניקח, כרגיל, הרחבה משותפת לשניהם; היא עדיין תעבוד.</p>
<p>אז מה יש לנו? ראשית, יש לנו את <span>\( p\in G \)</span> שכופה את הפסוק שאומר ש-<span>\( \tau \)</span> היא פונקציה מ-<span>\( \mathbb{\check{N}} \)</span> אל <span>\( \check{X} \)</span>. עכשיו אנחנו לוקחים הרחבה <span>\( p\subseteq p^{\prime} \)</span> של <span>\( p \)</span> כי המטרה שלנו היא בסוף להראות שקבוצה <span>\( D \)</span> כלשהי היא צפופה מעל <span>\( p \)</span>, כלומר שכל הרחבה <span>\( p^{\prime} \)</span> שכזו ניתנת להרחבה נוספת שתהיה בתוך <span>\( D \)</span>. עכשיו נשיג את ההרחבה הנוספת על ידי שימוש בצפיפות של <span>\( T \)</span> שזה עתה הראינו כדי לבנות את הסדרה האינסופית <span>\( p^{\prime}\subseteq p_{0}\subseteq p_{1}\subseteq p_{2}\subseteq\ldots \)</span> באופן הבא: ראשית, עבור <span>\( n=0 \)</span>, אוסף ה-<span>\( q \)</span>-ים כך שקיים <span>\( x \)</span> עבורו <span>\( \left(q,0,x\right)\in T \)</span> הוא צפוף מעל <span>\( p \)</span> ולכן עבור <span>\( p^{\prime} \)</span> (הרחבה כלשהי של <span>\( p \)</span>) קיימים <span>\( p_{0} \)</span> ו-<span>\( x_{0} \)</span> כך ש-<span>\( p^{\prime}\subseteq p_{0} \)</span> וגם <span>\( p_{0} \)</span> כופה את <span>\( \text{op}\left(\check{0},\check{x}_{0}\right)\in\tau \)</span>. עכשיו, אינדוקטיבית, נניח שכבר בנינו את כל אברי הסדרה עד <span>\( p_{n-1} \)</span>, אז כעת אוסף ה-<span>\( q \)</span>-ים כך שקיים <span>\( x \)</span> עבורו <span>\( \left(q,n,x\right)\in T \)</span> הוא צפוף מעל <span>\( p \)</span> ולכן עבור <span>\( p_{n-1} \)</span> (שגם הוא הרחבה כלשהי של <span>\( p \)</span>) קיימים <span>\( p_{n} \)</span> ו-<span>\( x_{n} \)</span> כך ש-<span>\( p_{n-1}\subseteq p_{n} \)</span> וגם <span>\( p_{n} \)</span> כופה את <span>\( \text{op}\left(\check{n},\check{x}_{n}\right)\in\tau \)</span>.</p>
<p>בנינו סדרה אינסופית וכזכור, ההנחה שלנו בתחילת ההוכחה הייתה ש-<span>\( P \)</span> היא <span>\( \omega \)</span>-סגורה, אז עכשיו הרגע להשתמש בה ולקבל שקיים <span>\( p^{*}=\bigcup_{n=0}^{\infty}p_{n}\in P \)</span>. מכיוון ש-<span>\( p^{*} \)</span> מכיל כל <span>\( p_{n} \)</span>, הוא כופה כל טענה מהצורה <span>\( \text{op}\left(\check{n},\check{x}\right)\in\tau \)</span> לכל <span>\( n\in\mathbb{N} \)</span>, ולכן בכל אידאל <span>\( G^{\prime} \)</span> שמכיל את <span>\( p^{*} \)</span>, מתקיים ש-<span>\( \tau^{G^{\prime}} \)</span> הוא א) פונקציה מ-<span>\( \mathbb{N} \)</span> אל <span>\( X \)</span> (כי <span>\( p\subseteq p^{*} \)</span> כופה את זה) וב) זו בדיוק הפונקציה <span>\( h\left(n\right)=x_{n} \)</span> כאשר ה-<span>\( x_{n} \)</span> הם האיברים שאספנו בשלב הבניה הקודם.</p>
<p>עכשיו, וזו נקודה עדינה, שלב הבניה הזה התבצע כולו במסגרת <span>\( \mathcal{M} \)</span>. כלומר, את הסדרה <span>\( x_{0},x_{1},x_{2},\ldots \)</span> (שהיא בעצם הפונקציה <span>\( h \)</span> הזו) בנינו במסגרת <span>\( \mathcal{M} \)</span>, ולכן <span>\( h\in\mathcal{M} \)</span>, ובפרט <span>\( h\in S \)</span> כאשר <span>\( S \)</span> היא הקבוצה שדיברתי עליה בהתחלה, של הפונקציות מ-<span>\( \mathbb{N} \)</span> אל <span>\( X \)</span> שהן ב-<span>\( \mathcal{M} \)</span>. כלומר, לכל <span>\( G^{\prime} \)</span> שמכיל את <span>\( p^{*} \)</span> מתקיים ש-<span>\( \tau^{G^{\prime}}\in\check{S}^{G^{\prime}} \)</span>, מה שאומר ש-<span>\( p^{*} \)</span> כופה את <span>\( \tau\in\check{S} \)</span>.</p>
<p>בואו נסכם מה עשינו פה. יש לנו פונקציה <span>\( g:\mathbb{N}\to X \)</span> כך ש-<span>\( g\in\mathcal{M}\left[G\right] \)</span> ואנחנו רוצים להראות ש-<span>\( g\in S \)</span>. מכיוון ש-<span>\( g=\tau^{G} \)</span>, מספיק לנו להראות שיש ב-<span>\( G \)</span> איבר כלשהו שכופה את <span>\( \tau\in\check{S} \)</span>. מובטח לנו שיהיה איבר כזה אם הקבוצה <span>\( D \)</span> של האיברים שכופים את <span>\( \tau\in\check{S} \)</span> תהיה א) שייכת ל-<span>\( \mathcal{M} \)</span> וב) צפופה מעל <span>\( p \)</span>. בשביל א) יש לנו את המשפט היסודי שהראה שיחס כפיה כזו הוא משהו שניתן לנסח במסגרת <span>\( \mathcal{M} \)</span>, ובשביל ב) הראינו שלכל הרחבה <span>\( p\subseteq p^{\prime} \)</span> קיימת הרחבה <span>\( p^{\prime}\subseteq p^{*} \)</span> ששייכת ל-<span>\( D \)</span>, מה שמראה ש-<span>\( D \)</span> אכן צפופה מעל <span>\( p \)</span>, מה שמסיים את ההוכחה.</p>
<h2>סיכום זריז לפני שממשיכים אל מה שהיה היעד שלנו לכל אורך הדרך</h2>
<p>הצלחנו! הוכחנו את הטענה הבאה: “אם ZFC עקבית, אז גם ZFC+CH עקבית”. בואו נבין את התמונה הגדולה של ההוכחה, עכשיו משסיימנו לטבוע בפרטים הקטנים.</p>
<ol> <li>הגדרנו קבוצת תנאי כפיה <span>\( P \)</span> של פונקציות חח"ע ועל מתת קבוצה בת מניה של <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> אל תת-קבוצה של <span>\( \aleph_{1}^{\mathcal{M}} \)</span>.</li>
<li>לקחנו אידאל גנרי <span>\( G\subseteq P \)</span> והרחבנו את <span>\( \mathcal{M} \)</span> לקבלת <span>\( \mathcal{M}\left[G\right] \)</span> שמקיימת את ZFC על פי הטכניקה שראינו בפוסטים הקודמים.</li>
<li>הראינו ש- <span>\( G\in\mathcal{M}\left[G\right] \)</span> ושבמקרה שלנו, <span>\( \bigcup G \)</span> נותן לנו פונקציה חח"ע ועל <span>\( f:\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}}\to\aleph_{1}^{\mathcal{M}} \)</span></li>
<li>הראינו שבהרחבה הזו לא נוצרות פונקציות חדשות מהטבעיים, ולכן <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}=\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> וגם <span>\( \aleph_{1}^{\mathcal{M}\left[G\right]}=\aleph_{1}^{\mathcal{M}} \)</span>.</li>
<li>המסקנה היא שבתוך <span>\( \mathcal{M}\left[G\right] \)</span> יש לנו התאמה חח"ע ועל <span>\( f:\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}\to\aleph_{1}^{\mathcal{M}\left[G\right]} \)</span>, כלומר השערת הרצף CH מתקיימת בתוך <span>\( \mathcal{M}\left[G\right] \)</span>.</li>
<li>קיבלנו "יקום מתמטי זעיר" שבו גם ZFC וגם CH מתקיימים בו זמנית, ולכן המסקנה היא ש-CH מתיישבת עם ZFC, כלומר לא ניתן <strong>להפריך</strong> את CH מתוך ZFC.</li>
</ol>
<p>כל מה שנשאר לנו כדי להשלים את ההוכחה שהשערת הרצף בלתי תלויה ב-ZFC הוא לבנות <span>\( \mathcal{M}\left[G\right] \)</span> אחר שבו דווקא <span>\( \neg\text{CH} \)</span> (שלילת השערת הרצף) מתקיימת. את זה נעשה בפוסט הבא, שיהיה <strong>האחרון</strong> בסדרת הפוסטים הזו!</p>פרק המבוא שבו אנחנו חוזרים בפעם ה-\( \omega \) על כל מה שקרה עד כהבעקבות השערת הרצף, חלק י”א ואחרון: מוכיחים את העקביות של שלילת השערת הרצף2023-07-31T00:00:00+00:002023-07-31T00:00:00+00:00http://gadial.net/2023/07/31/continuum_hypothesis_forcing_proving_neg_ch_consistant<h2>פרק המבוא שבו אנחנו חוזרים על מה שקרה קודם בפעם האחרונה</h2>
<p>זהו, הגענו לרגע האמת: בפוסט הזה נסיים להוכיח את אי-התלות של השערת הרצף באקסיומות ZFC. מה שנשאר לנו לעשות הוא ההוכחה ששלילת השערת הרצף, מה שאני מסמן ב-<span>\( \neg\text{CH} \)</span>, מתיישבת עם ZFC - כלומר, לבנות מודל שבו ZFC ו-<span>\( \neg\text{CH} \)</span> מתקיימות בו זמנית. האתגר של לעשות את זה נותר בעיה פתוחה מסוף המאה ה-19 ועד ל-1963, אז פול כהן הוכיח זאת באמצעות טכניקת הכפייה שפיתח וראינו במשך סדרת הפוסטים הזו. מכיוון שאני עוקב אחרי הספר של Weaver בכל הפוסטים אני אפילו לא יודע לומר אם מה שנראה הפעם הוא בדיוק מה שכהן עשה או גרסה מודרנית יותר.</p>
<p>השערת הרצף היא הטענה ש-<span>\( \mathcal{P}\left(\mathbb{N}\right)\cong\aleph_{1} \)</span> - עוצמת קבוצת החזקה של הטבעיים זהה לעוצמה הקטנה ביותר שגדולה מעוצמת <span>\( \mathbb{N} \)</span>. הרעיון בכפיה הוא להצטמצם ל”יקום מתמטי זעיר” <span>\( \mathcal{M} \)</span> שהוא טרנזיטיבי בן מניה אבל איכשהו מצליח במובן מסויים לקיים את כל ZFC. ביקום הזה <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> הוא אוסף כל קבוצות הטבעיים ששייכות ל-<span>\( \mathcal{M} \)</span> ואילו <span>\( \aleph_{1}^{\mathcal{M}} \)</span> הוא הסודר הקטן ביותר ששייך ל-<span>\( \mathcal{M} \)</span> כך שאין ב-<span>\( \mathcal{M} \)</span> פונקציה חח”ע ועל בינו ובין <span>\( \mathbb{N} \)</span> (שימו לב לניואנס - <strong>קיימת</strong> פונקציה כזו, כי הרי <span>\( \mathcal{M} \)</span> הוא בן מניה וטרנזיטיבי כך שכל איבר שלו גם כן בן מניה; פשוט הפונקציה הזו לא שייכת ל-<span>\( \mathcal{M} \)</span>).</p>
<p>עכשיו, הרעיון הוא איכשהו להרחיב את <span>\( \mathcal{M} \)</span> ליקום-מתמטי-זעיר-אבל-פחות <span>\( \mathcal{M}\left[G\right] \)</span> שבו מובטח לנו שתכונה מועילה כלשהי מתקיימת. בפוסט הקודם עבדנו לא מעט כדי להראות שמתקיים <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}\cong\aleph_{1}^{\mathcal{M}\left[G\right]} \)</span> - כלומר, ביקום הזעיר <span>\( \mathcal{M}\left[G\right] \)</span> שבנינו השערת הרצף <strong>כן</strong> התקיימה כי בנינו במפורש פונקציה חח”ע ועל בין <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]} \)</span> ובין <span>\( \aleph_{1}^{\mathcal{M}\left[G\right]} \)</span>. הפעם אנחנו רוצים לעשות את ההפך ולהוכיח שהיא לא מתקיימת. אפשר היה לקוות שאולי אפשר לבנות <span>\( \mathcal{M}\left[G\right] \)</span> שבו מתקיים <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}\cong\aleph_{2}^{\mathcal{M}\left[G\right]} \)</span>, אבל השיטה שהשתמשנו בה בפוסט הקודם לא מסוגלת לעשות את זה (ואסביר עוד מעט למה).</p>
<p>במקום זה, מה שנעשה הוא לבנות <span>\( \aleph_{2}^{\mathcal{M}\left[G\right]} \)</span> קבוצות שונות של טבעיים ב-<span>\( \mathcal{M}\left[G\right] \)</span>. זה לא מוכיח <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}\cong\aleph_{2}^{\mathcal{M}\left[G\right]} \)</span> אלא “רק” <span>\( \left|\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}\right|\ge\aleph_{2}^{\mathcal{M}\left[G\right]} \)</span>, אבל זה די והותר כדי להראות ש-<span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}\not\cong\aleph_{1}^{\mathcal{M}\left[G\right]} \)</span> ולכן השערת הרצף לא מתקיימת. האופן הפורמלי שבו נבנה את הקבוצות הללו של הטבעיים הוא על ידי בנייה של אובייקט אחד ספציפי: פונקציה <span>\( f:\mathbb{N}\times\aleph_{2}^{\mathcal{M}}\to\left\{ 0,1\right\} \)</span>. הפוסט הולך לסבוב סביב האובייקט הזה - בעזרת איזו קבוצה <span>\( P \)</span> של תנאי כפייה בונים אותו, ואילו תכונות נחמדות הבניה הזו מקיימת (כפי שנראה, הבניה הזו <strong>משמרת עוצמות</strong>, כלומר הסודרים שהם עוצמות ב-<span>\( \mathcal{M}\left[G\right] \)</span> הם אותם איברים בדיוק כמו ב-<span>\( \mathcal{M} \)</span>).</p>
<p>בואו ניגש לעבודה.</p>
<h2>פרק ראשון, שבו אנו מזכירים לעצמנו איך כפיות עובדות, ורואים מה עובד ולא עובד במקרה שלנו</h2>
<p>בואו נזכיר לעצמנו איך כפיות עובדות על ידי חזרה זריזה על מה שקרה בפוסט הקודם. ראשית, מגדירים קבוצה <span>\( P\in\mathcal{M} \)</span> של <strong>תנאי כפיה</strong> - בפוסט הקודם לקחנו את <span>\( P \)</span> להיות פונקציות חח”ע ועל בין תת-קבוצה בת מניה של <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> ותת-קבוצה בת מניה של <span>\( \aleph_{1}^{\mathcal{M}} \)</span>. פורמלית, פונקציות חח”ע ועל ועל <span>\( g:A\to B \)</span> כך ש-<span>\( A\subseteq\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span>, <span>\( B\subseteq\aleph_{1}^{\mathcal{M}} \)</span> וגם <span>\( A,B \)</span> בנות מניה. אחר כך לקחנו אידאל גנרי <span>\( G\subseteq P \)</span> של תנאי הכפיה, ובנינו את ההרחבה <span>\( \mathcal{M}\left[G\right] \)</span>. מכיוון ש-<span>\( G\in\mathcal{M}\left[G\right] \)</span> (זו מהות בניית ההרחבה, שהדבר הזה יתקיים) אז <span>\( \bigcup G\in\mathcal{M}\left[G\right] \)</span> (אקסיומת האיחוד), אבל <span>\( \bigcup G \)</span> היה איחוד של פונקציות שכולן מסכימות זו עם זו כך שהתוצאה הייתה פונקציה חח”ע ועל בעצמה מתת-קבוצה של <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> אל תת-קבוצה של <span>\( \aleph_{1}^{\mathcal{M}} \)</span>. בשלב הזה השתמשו בתכונה המהותית של אידאל גנרי - חיתוך לא רק עם כל <span>\( D\in\mathcal{M} \)</span> צפופה - והראינו שעבור האיחוד הזה <span>\( A=\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> ו-<span>\( B=\aleph_{1}^{\mathcal{M}} \)</span> כך שקיבלנו פונקציה חח”ע ועל <span>\( f:\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}}\to\aleph_{1}^{\mathcal{M}} \)</span>. עד כאן הכל טוב ויפה, אבל פה הגיעה נקודה עדינה שמסבכת את הכל.</p>
<p>הנקודה העדינה הייתה שפונקציה <span>\( f:\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}}\to\aleph_{1}^{\mathcal{M}} \)</span> ששייכת ל-<span>\( \mathcal{M}\left[G\right] \)</span> <strong>לא מראה</strong> שהשערת הרצף מתקיימת ב-<span>\( \mathcal{M} \)</span> (כי בשביל זה היא הייתה צריכה להיות שייכת ל-<span>\( \mathcal{M} \)</span>, לא ל-<span>\( \mathcal{M}\left[G\right] \)</span>), והיא גם <strong>לא מראה</strong> שהשערת הרצף מתקיימת ב-<span>\( \mathcal{M}\left[G\right] \)</span> כי בשביל להראות את זה צריך למצוא פונקציה <span>\( f:\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}\to\aleph_{1}^{\mathcal{M}\left[G\right]} \)</span>. ה”חשש” שלנו הוא שבמעבר מ-<span>\( \mathcal{M} \)</span> אל <span>\( \mathcal{M}\left[G\right] \)</span> גם ישתנו לנו מושגים בסיסיים כמו “קבוצת כל תתי הקבוצות של טבעיים” ו”המונה האינסופי הראשון שגדול מ-<span>\( \aleph_{0} \)</span>”. זה באמת מה שקרה בגרסה הראשונה שלנו, שבה הכפייה בוצעה עם פונקציות שהתחום שלהן <strong>סופי</strong>; לכן עברנו לדבר על תחום <strong>בן מניה</strong>, מה שפתר באופן קסום (עם עבודה טכנית) את הבעיה.</p>
<p>ספציפית, מה שהראינו היו שני דברים:</p>
<ul> <li>ה-<span>\( P \)</span> הזה מקיים תכונה שנקראת "<span>\( \omega \)</span>-סגירות"</li>
<li>כל כפייה עם <span>\( P \)</span> שמקיים <span>\( \omega \)</span>-סגירות לא יכולה להוסיף פונקציות חדשות <span>\( f:\mathbb{N}\to X \)</span> עבור כל קבוצה <span>\( X \)</span>.</li>
</ul>
<p>זה עזר לנו בשתי דרכים: ראשית, <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}}=\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]} \)</span> כי אפשר לזהות “תת קבוצה של טבעיים” עם “פונקציה מהטבעיים אל <span>\( \left\{ 0,1\right\} \)</span>” (מה שנקרא <strong>הפונקציה המציינת</strong> של הקבוצה) אז אם אין פונקציות חדשות, גם אין תת-קבוצות חדשות של טבעיים.</p>
<p>שנית, <span>\( \aleph_{1}^{\mathcal{M}}=\aleph_{1}^{\mathcal{M}\left[G\right]} \)</span>, כלומר יש לנו <strong>שימור עוצמה</strong> עבור העוצמה <span>\( \aleph_{1} \)</span>; היא לא משתנה במעבר מ-<span>\( \mathcal{M} \)</span> אל <span>\( \mathcal{M}\left[G\right] \)</span>. כדי להבין למה, צריך לחשוב איך היא בכלל יכולה להשתנות. יכולים לקרות שני דברים רעים מבחינתה:</p>
<ol> <li>סודר קטן ממנה, שקודם היה שקול אל <span>\( \omega \)</span>, יפסיק להיות שקול אל <span>\( \omega \)</span> ולכן <span>\( \aleph_{1}^{\mathcal{M}} \)</span> כבר לא יהיה הסודר הקטן ביותר שלא שקול ל-<span>\( \omega \)</span>.</li>
<li><span>\( \aleph_{1}^{\mathcal{M}} \)</span> יהפוך לשקול ל-<span>\( \omega \)</span> בעצמו ולכן כבר לא יהיה כבר לא יהיה הסודר הקטן ביותר שלא שקול ל-<span>\( \omega \)</span>.</li>
</ol>
<p>מקרה 1 הוא בלתי אפשרי באופן כללי כשמבצעים כפיה; כפיה לא מסירה איברים מהעולם, רק מוסיפה להם. כדי להפסיק להיות שקול ל-<span>\( \omega \)</span> צריך שהפונקציה החח”ע ועל בינך ובין <span>\( \omega \)</span> תיעלם מהעולם, וכפיה לא משיגה את האפקט הזה.</p>
<p>אם מקרה 2 מתרחש, זה אומר שצצה לנו פונקציה חדשה שמראה שקילות בין <span>\( \aleph_{1}^{\mathcal{M}} \)</span> ובין <span>\( \omega \)</span>, כלומר פונקציה <span>\( f:\mathbb{N}\to X \)</span> חדשה כש-<span>\( X=\aleph_{1}^{\mathcal{M}} \)</span> (כזכור, <span>\( \mathbb{N} \)</span> ו-<span>\( \omega \)</span> הן אותה קבוצה בדיוק, אני פשוט כותב <span>\( \omega \)</span> כשחשוב לי לחשוב על הקבוצה הזו בתור סודר). עכשיו, כפי שאמרנו - פונקציות חדשות כאלו לא יכולות לצוץ, ולכן מקרה 2 נמנע. זה סיים את ההוכחה שראינו בפוסט הקודם: קיבלנו <span>\( \mathcal{M}\left[G\right] \)</span> שבה השערת הרצף <strong>כן מתקיימת</strong>.</p>
<p>ועכשיו השאלה - למה לא לעשות את אותו הדבר גם עבור ההוכחה שהשערת הרצף לא מתקיימת? כדי להוכיח את זה, מספיק לבנות פונקציה חח”ע ועל <span>\( f:\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}\to\aleph_{2}^{\mathcal{M}\left[G\right]} \)</span>; פונקציה כזו תוכיח שהעוצמה של <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]} \)</span> היא <strong>לא</strong> העוצמה הקטנה ביותר שגדולה מ-<span>\( \omega \)</span>, וחסל. אז אנחנו מגדירים תנאי כפייה <span>\( P \)</span> של פונקציות חח”ע ועל מתת-קבוצות בנות מניה של <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}} \)</span> לתת-קבוצות בנות מניה של <span>\( \aleph_{2}^{\mathcal{M}} \)</span> ובונים את <span>\( \mathcal{M}\left[G\right] \)</span> כמו קודם, ואנחנו יודעים שיש לנו שם פונקציה <span>\( f:\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}}\to\aleph_{2}^{\mathcal{M}} \)</span>, ואנחנו יודעים מהדבר הזה עם תכונת ה-<span>\( \omega \)</span>-סגירות שמתקיים <span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}}=\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]} \)</span>, אז מה חסר לנו?</p>
<p>חסר לנו <span>\( \aleph_{2}^{\mathcal{M}}=\aleph_{2}^{\mathcal{M}\left[G\right]} \)</span>, כלומר להראות שהקטע הזה של <strong>שימור עוצמות</strong> מתקיים עבור תנאי הכפיה שלנו גם עבור עוצמות גדולות מ-<span>\( \aleph_{1}^{\mathcal{M}} \)</span>. ואת זה פשוט <strong>אין לנו</strong>. מה שתכונת ה-<span>\( \omega \)</span>-סגירות נותנת לנו הוא שעוצמה לא יכולה “לקרוס” ולהפוך לשקולה ל-<span>\( \omega \)</span>, כי זה ידרוש פונקציה חח”ע ועל חדשה מ-<span>\( \omega \)</span> אליה; אבל העוצמה בהחלט עלולה לקרוס אל עוצמה קטנה יותר ממנה <strong>שעדיין גדולה</strong> מ-<span>\( \omega \)</span>, כלומר אנחנו עשויים לקבל למשל ש-<span>\( \aleph_{2}^{\mathcal{M}}\sim\aleph_{1}^{\mathcal{M}\left[G\right]} \)</span>, מה שאומר ש-<span>\( \aleph_{2}^{\mathcal{M}}\ne\aleph_{2}^{\mathcal{M}\left[G\right]} \)</span>. במילים אחרות, אם נרצה לומר משהו על עוצמות שגדולות מ-<span>\( \aleph_{1} \)</span>, יהיה מועיל אם קבוצת תנאי הכפייה שלנו תקיים תנאי יותר חזק מה-<span>\( \omega \)</span>-סגירות במובן זה שהוא מבטיח לנו יותר שימור עוצמות. זה בדיוק מה שהולך לקרות בפועל: אנחנו נשתמש בתנאי כפייה שמקיימים תכונה שמבטיחה <strong>שימור עוצמות</strong> מוחלט: כל סודר ב-<span>\( \mathcal{M} \)</span> שהיה עוצמה (כלומר, לא היה שקול לסודר קטן ממנו) יישאר עוצמה גם ב-<span>\( \mathcal{M}\left[G\right] \)</span>.</p>
<p>עכשיו, מה היעד שלנו? כאמור, אנחנו <strong>לא</strong> הולכים לנסות לבנות פונקציה חח”ע ועל <span>\( f:\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}\to\aleph_{2}^{\mathcal{M}\left[G\right]} \)</span> כי תנאי הכפייה שמניבים לנו פונקציה כזו לא משמרים עוצמות. לכן אנחנו מנסים לבנות משהו אחר: פונקציה חח”ע ועל <span>\( f:\mathbb{N}\times\aleph_{2}^{\mathcal{M}}\to\left\{ 0,1\right\} \)</span>. הרעיון בפונקציה כזו היא קידוד של <span>\( \aleph_{2}^{\mathcal{M}} \)</span> קבוצות שונות של טבעיים. תחשבו על זה ככה: לכל סודר <span>\( \alpha\in\aleph_{2}^{\mathcal{M}} \)</span> נגדיר קבוצה <span>\( A_{\alpha}\subseteq\mathbb{N} \)</span> על ידי <span>\( A_{\alpha}=\left\{ n\in\mathbb{N}\ |\ f\left(n,\alpha\right)=1\right\} \)</span> (כלומר, הפונקציה <span>\( f_{\alpha}\left(n\right)=f\left(n,\alpha\right) \)</span> היא הפונקציה המציינת של הקבוצה). עכשיו, אם <span>\( A_{\alpha}\ne A_{\beta} \)</span> לכל שתי קבוצות שמקודדות בצורה כזו, קיבלנו <span>\( \aleph_{2}^{\mathcal{M}} \)</span> תת-קבוצות שונות של <span>\( \mathbb{N} \)</span>, מה שמראה שבתוך <span>\( \mathcal{M}\left[G\right] \)</span> מתקיים <span>\( \left|\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}}\right|\ge\aleph_{2}^{\mathcal{M}} \)</span>.</p>
<p>עכשיו צריך לשים לב לשני דברים: ראשית, תכונת <strong>שימור העוצמות</strong> מראה לנו ש-<span>\( \aleph_{2}^{\mathcal{M}}=\aleph_{2}^{\mathcal{M}\left[G\right]} \)</span>. שנית, אנחנו <strong>לא יודעים</strong> ש-<span>\( \mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}}=\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]} \)</span> אבל אנחנו גם לא צריכים את זה כי מה שאנחנו כן יודעים שבמעבר מ-<span>\( \mathcal{M} \)</span> אל <span>\( \mathcal{M}\left[G\right] \)</span> מספר תתי-הקבוצות של טבעיים <strong>יכול רק לגדול</strong> (הרי כפיה לא מסירה איברים מהעולם, כמו שכבר אמרתי). לכן <span>\( \left|\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}\right|\ge\left|\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}}\right|\ge\aleph_{2}^{\mathcal{M}}=\aleph_{2}^{\mathcal{M}\left[G\right]} \)</span> וקיבלנו את מה שרצינו: <span>\( \left|\mathcal{P}\left(\mathbb{N}\right)^{\mathcal{M}\left[G\right]}\right|\ge\aleph_{2}^{\mathcal{M}\left[G\right]} \)</span> היא שלילת השערת הרצף, והיא מתקיימת בתוך <span>\( \mathcal{M}\left[G\right] \)</span>.</p>
<p>איך נבנה את הפונקציה <span>\( f:\mathbb{N}\times\aleph_{2}^{\mathcal{M}}\to\left\{ 0,1\right\} \)</span>? זה החלק הפשוט בכל העניין: כמו בנסיון הראשון והנאיבי שלנו לבנות את הפונקציה בפוסט הקודם. פשוט נסתכל על קבוצת הפונקציות מתת-קבוצה <strong>סופית</strong> של התחום אל הטווח. כלומר, <span>\( P \)</span> שלנו יכלול את כל הפונקציה <span>\( f:X\to\left\{ 0,1\right\} \)</span> כך ש-<span>\( X\subseteq\mathbb{N}\times\aleph_{2}^{\mathcal{M}} \)</span> ו-<span>\( X \)</span> סופית. בכל היתר יטפל הקסם הזה של לקחת אידאל גנרי <span>\( G \)</span>: ניקח כזה, נגדיר <span>\( f=\bigcup G \)</span>, ונראה בהמשך שהכל יסתדר - גם נקבל פונקציה <span>\( f:\mathbb{N}\times\aleph_{2}^{\mathcal{M}}\to\left\{ 0,1\right\} \)</span> שמוגדרת על <strong>כל </strong><span>\( \mathbb{N}\times\aleph_{2}^{\mathcal{M}} \)</span> וגם הפונקציה הזו תקודד קבוצות <strong>שונות</strong>. זו אולי הפעם הראשונה שאני באמת מרגיש כמה תכונת ה”גנריות” הזו חזקה. אבל את זה נשמור לסוף הפוסט. ראשית נדבר על התוצאה הכללית יותר: איזה תנאי קבוצת תנאי הכפייה שלנו תקיים שיבטיח <strong>שימור עוצמות</strong>?</p>
<h2>פרק שני, שבו ccc משמר עוצמות</h2>
<p>אפשר לשכוח לרגע מהשערת הרצף ומכל הדיון שסביבה. אנחנו חוזרים, בפעם האחרונה, להראות תוצאה “אבסטרקטית” על קבוצה כללית <span>\( P \)</span> של תנאי כפיה: טענה מהצורה “אם <span>\( P \)</span> מקיימת כך-וכך, אז במעבר מ-<span>\( \mathcal{M} \)</span> אל <span>\( \mathcal{M}\left[G\right] \)</span> כל סודר אינסופי שהיה עוצמה ב-<span>\( \mathcal{M} \)</span> נשאר עוצמה ב-<span>\( \mathcal{M}\left[G\right] \)</span>”. צריך להתחיל מתיאור הכך-וכך, שהוא תכונה שנקראת ccc - קיצור של Countable Chain Condition. כפי שנראה עוד רגע, זה שם קצת מטעה כי האובייקט שהמספר שלו הולך להיות בן מניה לא יהיה chain אלא דווקא antichain, והשם הוא הפוך בגלל מה שנקרא במתמטיקה “סיבות היסטוריות” שלא ניכנס אליהן. לכן אני אבדוק ב-ccc וחסל.</p>
<p>בשביל ההגדרה, בואו נגיד ששני איברים <span>\( p_{1},p_{2}\in P \)</span> הם <strong>מתואמים</strong> אם קיימת להם הרחבה משותפת, <span>\( q\in P \)</span> כך ש-<span>\( p_{1}\subseteq q \)</span> וגם <span>\( p_{2}\subseteq q \)</span> (בשביל אינטואיציה, תחשבו ש-<span>\( p_{1},p_{2} \)</span> מייצגים פונקציות; קיום הרחבה משותפת אומר שעל הקלטים שמשותפים ל-<span>\( p_{1},p_{2} \)</span> שתי הפונקציות הללו מסכימות, כלומר הן “מתואמות ביניהן” על קלטים משותפים). עכשיו, <strong>אנטי-שרשרת</strong> ב-<span>\( P \)</span> היא קבוצה של איברים שכל זוג מהם הם <strong>בלתי מתואמים</strong> (כלומר לא משנה איזה זוג איברים שונים ניקח מתוך הקבוצה, לא תהיה להם התאמה משותפת). אנחנו אומרים ש-<span>\( P \)</span> היא ccc אם כל אנטי-שרשרת היא בת מניה. במילים אחרות: כל הקבוצות של איברים בלתי מתואמים הן <strong>די קטנות</strong>. זה שומר את הכאוס ברמה נמוכה.</p>
<p>עכשיו בואו נראה רגע את התמונה הגדולה של איך להוכיח <strong>שימור עוצמות</strong>. ראשית, המספרים הטבעיים לא משתנים כשמבצעים כפייה ולכן כולם משתמרים כמות שהם ולכן כל העוצמות הסופיות משתמרות אבל זה לא עוזר לנו בכל מקרה. לכן מלכתחילה אני אדבר רק על שימור של עוצמות אינסופות. עכשיו, נניח ש-<span>\( \alpha\in\mathcal{M} \)</span> הוא סודר אינסופי כך ש-<span>\( \alpha \)</span> <strong>אינו</strong> עוצמה ב-<span>\( \mathcal{M}\left[G\right] \)</span>. אני רוצה להראות ש-<span>\( \alpha \)</span> אינו עוצמה כבר ב-<span>\( \mathcal{M} \)</span> (השקול הלוגי של “אם <span>\( \alpha \)</span> עוצמה ב-<span>\( \mathcal{M} \)</span> אז <span>\( \alpha \)</span> עוצמה ב-<span>\( \mathcal{M}\left[G\right] \)</span>” הוא “אם <span>\( \alpha \)</span> אינו עוצמה ב-<span>\( \mathcal{M}\left[G\right] \)</span> אז <span>\( \alpha \)</span> אינו עוצמה ב-<span>\( \mathcal{M} \)</span>”).</p>
<p>אם <span>\( \alpha \)</span> אינו עוצמה ב-<span>\( \mathcal{M}\left[G\right] \)</span>, המשמעות היא שקיימת פונקציה חח”ע ועל <span>\( f:\alpha\to\beta \)</span> כך ש-<span>\( \beta<\alpha \)</span> הוא סודר קטן מ-<span>\( \alpha \)</span>. היינו רוצים כמובן להראות ש-<span>\( f\in\mathcal{M} \)</span> ומקלקל ל-<span>\( \alpha \)</span> את היכולת להיות סודר כבר ב-<span>\( \mathcal{M} \)</span>, אבל זה קצת יותר מדי בשבילנו. במקום זה נראה שקיימת פונקציה אחת, <span>\( g\in\mathcal{M} \)</span>, שבמובן מסוים מהווה <strong>קירוב</strong> של <span>\( f \)</span> ולמרות שהיא לא פונקציה חח”ע ועל מ-<span>\( \alpha \)</span> אל <span>\( \beta \)</span> היא תספיק כדי להראות ש-<span>\( \left|\alpha\right|=\left|\beta\right| \)</span> (ששניהם שקולי עוצמה) על ידי אחת התוצאות הבסיסיות בחשבון עוצמות: אנחנו נראה ש-<span>\( \left|\alpha\right|=\aleph_{0}\cdot\left|\beta\right| \)</span> ונתבסס על כך ש-<span>\( \aleph_{0}\cdot\left|\beta\right|=\left|\beta\right| \)</span> לכל עוצמה אינסופית. ה-<span>\( \aleph_{0} \)</span> הזה? הוא מגיע ישירות מכך שהגודל המקסימלי של אנטי-שרשרת ב-<span>\( P \)</span> הוא <span>\( \aleph_{0} \)</span>. זה הרעיון, ועכשיו נשאר רק להיכנס לפרטים.</p>
<p>הנה משפט העזר על ה”קירוב”:</p>
<p>אם עבור <span>\( P\in\mathcal{M} \)</span> מתקיים ccc ו-<span>\( G \)</span> הוא אידאל גנרי של <span>\( \mathcal{M} \)</span>, ו-<span>\( f:X\to Y \)</span> היא פונקציה ב-<span>\( \mathcal{M}\left[G\right] \)</span> כך ש-<span>\( X,Y\in\mathcal{M} \)</span> אז קיימת פונקציה <span>\( g:X\to\mathcal{P}\left(Y\right) \)</span> כך ש-<span>\( g\in\mathcal{M} \)</span> ולכל <span>\( x\in X \)</span> מתקיים ש-<span>\( f\left(x\right)\in g\left(x\right) \)</span>, ו-<span>\( g\left(x\right) \)</span> היא בת מניה ב-<span>\( \mathcal{M} \)</span>.</p>
<p>כלומר, ה”קירוב” <span>\( g \)</span> לא בדיוק מחזיר את <span>\( f\left(x\right) \)</span> לכל <span>\( x \)</span>, אבל הוא כן מחזיר קבוצה של כמה ערכים ש-<span>\( f\left(x\right) \)</span> נמצא ביניהם, והקבוצה הזו היא לא גדולה מדי, כלומר היא בת מניה ב-<span>\( \mathcal{M} \)</span>. שווה להזכיר מה זה אומר, “בת מניה ב-<span>\( \mathcal{M} \)</span>”: זה אומר שקיימת התאמה חח”ע ועל בין הקבוצה ובין <span>\( \mathbb{N} \)</span> וההתאמה הזו שייכת ל-<span>\( \mathcal{M} \)</span> בעצמה. לכן אני לא יכול לומר סתם “בת מניה” כי הרי כל האיברים של <span>\( \mathcal{M} \)</span> בני מניה.</p>
<p>אוקיי, בואו נוכיח את הטענה! זו תהיה הפעם האחרונה שניכנס לבפנוכו של ההגדרות של ביצוע כפיה. מה שנתון לנו הוא הפונקציה שאנחנו רוצים לקרב, <span>\( f\in\mathcal{M}\left[G\right] \)</span>. כמו כל איבר אחר ב-<span>\( \mathcal{M}\left[G\right] \)</span>, <span>\( f=\tau^{G} \)</span> עבור שם-<span>\( P \)</span> כלשהו <span>\( \tau \)</span>. עכשיו, מכיוון שב-<span>\( \mathcal{M}\left[G\right] \)</span> מתקיימת הטענה “<span>\( \tau^{G} \)</span> הוא פונקציה מ-<span>\( X \)</span> אל <span>\( Y \)</span>” אז המשפט היסודי של תורת הכפייה נותן לנו איבר <span>\( p\in P \)</span> שכופה את הפסוק “<span>\( \tau \)</span> הוא פונקציה מ-<span>\( \check{X} \)</span> אל <span>\( \check{Y} \)</span>” (כזכור, <span>\( \check{X} \)</span> הוא שם-<span>\( P \)</span> שמקיים <span>\( \check{X}^{G}=X \)</span>; ראינו שקיים כזה כשהצגנו כפיה לראשונה).</p>
<p>עכשיו נגדיר פונקציה <span>\( g\in\mathcal{M} \)</span> בצורה הבאה: לכל <span>\( x\in X \)</span>, נגדיר את <span>\( g\left(x\right) \)</span> להיות קבוצת כל ה-<span>\( y\in Y \)</span> כך שקיים <span>\( q\supseteq p \)</span> שכופה את הפסוק “{} <span>\( \text{op}\left(\check{x},\check{y}\right)\in\tau \)</span>”. פורמלית:</p>
<p><span>\( g\left(x\right)=\left\{ y\in Y\ |\ \exists q\supseteq p:q\Vdash\text{op}\left(\check{x},\check{y}\right)\in\tau\right\} \)</span></p>
<p>מה קורה כאן? כזכור, <span>\( \text{op} \)</span> זו הדרך שלנו לבנות שם-<span>\( P \)</span> עבור זוג סדור: הביטוי <span>\( \text{op}\left(\check{x},\check{y}\right) \)</span> בסך הכל משמעותו שם-<span>\( P \)</span> שמקיים <span>\( \text{op}\left(\check{x},\check{y}\right)^{G}=\left(x,y\right) \)</span> לכל אידאל גנרי <span>\( G \)</span>. אז אינטואיטיבית, <span>\( g\left(x\right) \)</span> הוא קבוצת כל ה-<span>\( y \)</span>-ים שאפשר עבורם לכפות את הטענה ש-<span>\( f\left(x\right)=y \)</span> בעזרת איבר שמרחיב את <span>\( p \)</span>.</p>
<p>עכשיו, העניין הוא שההגדרה של <span>\( g\left(x\right) \)</span> משתמשת כולה רק במושגים של <span>\( \mathcal{M} \)</span>. כזכור, חלק מרכזי מהמשפט היסודי עסק בכך שאפשר להגדיר את היחס <span>\( \Vdash \)</span> במסגרת <span>\( \mathcal{M} \)</span> בלבד. זה אומר שלכל <span>\( x \)</span>, אנו יכולים לבנות את <span>\( g\left(x\right) \)</span> במסגרת <span>\( \mathcal{M} \)</span> ולכן <span>\( g\in\mathcal{M} \)</span>.</p>
<p>עכשיו, הדרישה שיתקיים <span>\( f\left(x\right)\in g\left(x\right) \)</span> מתקבלת מאוד בקלות: מכיוון שעבור <span>\( y=f\left(x\right) \)</span> אנחנו יודעים שב-<span>\( \mathcal{M}\left[G\right] \)</span> מתקיים <span>\( \left(x,y\right)\in f \)</span>, אז מהמשפט היסודי של תורת הכפייה אנחנו יודעים שקיים <span>\( q\in G \)</span> שכופה את <span>\( \text{op}\left(\check{x},\check{y}\right)\in\tau \)</span> עבור ה-<span>\( y \)</span> הספציפי הזה. כרגיל, לא בטוח ש-<span>\( p\subseteq q \)</span> אבל אם זה לא קורה, אפשר להחליף את <span>\( q \)</span> בהרחבה משותפת שלו ושל <span>\( p \)</span>, כי מעבר להרחבה משותפת הזו משמר את כל מה שהאיבר המקורי כפה.</p>
<p>נשאר רק להראות ש-<span>\( g\left(x\right) \)</span> היא לא “גדולה מדי” - שהיא בת מניה. כאן בדיוק תנאי ה-ccc אמור לבוא לידי ביטוי כי טרם השתמשנו בו. אבל הוא מופיע ממש באופן טבעי כאן: אנחנו יודעים שלכל <span>\( y\in g\left(x\right) \)</span> קייים <span>\( q_{y}\supseteq p \)</span> כך ש-<span>\( q_{y}\Vdash\text{op}\left(\check{x},\check{y}\right)\in\tau \)</span>, פשוט כי זו ההגדרה של <span>\( g\left(x\right) \)</span>. הפואנטה היא שעבור <span>\( y_{1}\ne y_{2} \)</span>, בהכרח <span>\( q_{y_{1}} \)</span> ו-<span>\( q_{y_{2}} \)</span> יהיו בלתי מתואמים, כי אם קיימת להם הרחבה משותפת <span>\( q \)</span>, אז בכל אידאל גנרי <span>\( G^{\prime} \)</span> שמכיל את <span>\( q \)</span>, אנחנו נקבל שב-<span>\( \mathcal{M}\left[G^{\prime}\right] \)</span> גם <span>\( \left(x,y_{1}\right)\in f \)</span> וגם <span>\( \left(x,y_{2}\right)\in f \)</span>, וזה כמובן בלתי אפשרי שכן <span>\( p\subseteq q \)</span> ולכן <span>\( q \)</span> כופה גם את זה שב-<span>\( \mathcal{M}\left[G^{\prime}\right] \)</span> <span>\( f \)</span> היא פונקציה. אם כן, <span>\( g\left(x\right) \)</span> היא אנטי-שרשרת ב-<span>\( P \)</span>, ולכן מכיוון שב-<span>\( \mathcal{M} \)</span> מתקיימת תכונת ccc עבור <span>\( P \)</span>, אנחנו יודעים שב-<span>\( \mathcal{M} \)</span> האנטי-שרשרת <span>\( g\left(x\right) \)</span> היא בת מניה. זה מסיים את משפט העזר על ה”קירוב”.</p>
<p>נחזור אל הדבר המרכזי שאנחנו רוצים להוכיח - שימור עוצמות. לפני שנתחיל אני מזכיר טענה שדיברנו עליה בעבר - המעבר מ-<span>\( \mathcal{M} \)</span> אל <span>\( \mathcal{M}\left[G\right] \)</span> <strong>משמר סודרים</strong>. כלומר, הסודרים ב-<span>\( \mathcal{M} \)</span> וב-<span>\( \mathcal{M}\left[G\right] \)</span> הם בדיוק אותן קבוצות. זה נובע מכך שסודר הוא קבוצה טרנזיטיבית שסדורה בסדר טוב על ידי יחס ה-<span>\( \in \)</span>, וזו תכונה “פנימית” של הקבוצה שתלויה רק באיברים שלה ולא בעולם הרחב שמסביב.</p>
<p>עכשיו אל הטענה שלנו. אנחנו מניחים שהסודר <span>\( \alpha \)</span> אינו עוצמה ב-<span>\( \mathcal{M}\left[G\right] \)</span>, המשמעות היא שקיימת ב-<span>\( \mathcal{M}\left[G\right] \)</span> פונקציה חח”ע ועל <span>\( f:\beta\to\alpha \)</span> אל <span>\( \alpha \)</span> מסודר <span>\( \beta\in\mathcal{M}\left[G\right] \)</span> כלשהו שמקיים <span>\( \beta<\alpha \)</span>. מכיוון שהם סודרים, אז <span>\( \alpha,\beta\in\mathcal{M} \)</span> ולכן אנחנו בסיטואציה של טענת העזר שהוכחנו לפני רגע, עם <span>\( X=\beta \)</span> ו-<span>\( Y=\alpha \)</span>. לכן קיימת ב-<span>\( \mathcal{M} \)</span> פונקציה <span>\( g:\beta\to\mathcal{P}\left(\alpha\right) \)</span> כך שלכל <span>\( \gamma\in\beta \)</span>, הקבוצה <span>\( g\left(\gamma\right) \)</span> היא בת מניה.</p>
<p>עכשיו, בואו נשים לב לכך שכל ה-<span>\( g\left(\gamma\right) \)</span> הללו “מכסים” את כל <span>\( \alpha \)</span>: <span>\( \alpha=\bigcup_{\gamma\in\beta}g\left(\gamma\right) \)</span>. כיוון אחד של ההכלה ברור: כל אברי <span>\( g\left(\gamma\right) \)</span> שייכים ל-<span>\( \alpha \)</span> כי הטווח של <span>\( g \)</span> הוא <span>\( \mathcal{P}\left(\alpha\right) \)</span>. הכיוון השני, <span>\( \alpha\subseteq\bigcup_{\gamma\in\beta}g\left(\gamma\right) \)</span>, נובע מכך שלכל <span>\( y\in\alpha \)</span> קיים <span>\( \gamma\in\beta \)</span> כך ש-<span>\( f\left(\gamma\right)=y \)</span> (שכן <span>\( f \)</span> היא על) ולכן <span>\( y\in g\left(\gamma\right) \)</span>. עכשיו אפשר להסיק מ-<span>\( \alpha=\bigcup_{\gamma\in\beta}g\left(\gamma\right) \)</span> מסקנה על הקשר בין העוצמות של הקבוצות הללו:</p>
<p><span>\( \left|\alpha\right|=\left|\bigcup_{\gamma\in\beta}g\left(\gamma\right)\right|\le\left|\beta\right|\cdot\aleph_{0}=\left|\beta\right|\le\left|\alpha\right| \)</span></p>
<p>כשהמעבר האחרון נובע מכך ש-<span>\( \beta<\alpha \)</span> כסודרים. המסקנה משרשרת אי השוויונים הללו היא ש-<span>\( \left|\alpha\right|=\left|\beta\right| \)</span>, וזה מה שרצינו להוכיח. סיימנו! הראינו שאם <span>\( P \)</span> מקיימת ccc היא <strong>משמרת עוצמות</strong>! אנחנו כבר ממש קרובים לסיום הוכחת אי התלות של השערת הרצף.</p>
<h2>פרק שלישי, שבו אנחנו גולשים לגרפים לא בני מניה</h2>
<p>עד עכשיו הראינו טענה כללית בתורת הכפיה: שאם קבוצת תנאי הכפיה <span>\( P \)</span> מקיימת ccc, אז הכפיה באמצעותה משמרת עוצמות. עכשיו אנחנו צריכים להראות שקבוצת תנאי הכפיה הספציפיים שאנחנו משתמשים בה מקיימת את ccc. גם זה ידרוש עבודה, אבל לפחות עבודה קונקרטית עם קבוצה ספציפית… לא, רגע, בואו נתחיל את השלב הזה בעוד הוכחה גנרית שנשתמש בה בהמשך.</p>
<p>כדי להראות ש-<span>\( P \)</span> מקיימת ccc אנחנו צריכים להראות שכל תת-קבוצה <strong>לא בת מניה</strong> של <span>\( P \)</span> בהכרח כוללת זוג איברים מתואמים. בנוסף, הרעיון ב-<span>\( P \)</span> הוא כזכור שאיבריו יהיו פונקציות שהתחום שלהן <strong>סופי</strong>. אנחנו הולכים לשחק בדיוק על המתח בזה של “אוסף לא בן מניה של איברים מגודל סופי” ולבנות משהו שנקרא <strong>מערכת</strong> <span>\( \Delta \)</span>.</p>
<p>המשפט שנוכיח הוא זה: לכל משפחה <strong>שאיננה בת מניה</strong> <span>\( X \)</span> של קבוצות <strong>סופיות</strong> קיימת תת-קבוצה <span>\( Y\subseteq X \)</span> שגם היא אינה בת מניה, וקבוצה <span>\( R \)</span> כך ש-<span>\( A\cap B=R \)</span> לכל <span>\( A\ne B\in Y \)</span>. הקבוצה <span>\( Y \)</span> הזו היא מה שנקרא מערכת-<span>\( \Delta \)</span>.</p>
<p>המשפט עצמו מרגיש לי חזק במבט ראשון - הקבוצות יכולות להיות מורכבות למדי, ועם זאת אנחנו הולכים למצוא תת-קבוצה שהיא ענקית בגודלה וכל זוג קבוצות בה נחתכות בדיוק באותה הצורה - סדר שצץ במפתיע במקום מאוד מבולגן, פשוט מכוח המתח הזה בין “לא בן מניה” ובין “סופי”.</p>
<p>כדי להוכיח את הטענה, בואו נתחיל בלעשות סדר. הקבוצות של <span>\( X \)</span> כולן סופיות, אז אפשר למיין אותן לפי גודל: <span>\( X_{k}=\left\{ A\in X\ |\ \left|A\right|=k\right\} \)</span>. יש מספר בן מניה של <span>\( X_{k} \)</span>-ים אבל הגודל של <span>\( X \)</span> הוא לא בן מניה, אז חייב להיות קיים <span>\( k \)</span> כלשהו כך ש-<span>\( X_{k} \)</span> לא בת מניה; מכאן ואילך נעבוד רק עם האיברים שלה, שכולם מגודל <span>\( k \)</span>. סדר!</p>
<p>עכשיו אנחנו צריכים לחפש את <span>\( R \)</span> שלנו. זו קבוצה שחייבת להיות מוכלת במספר לא בן מניה של איברים של <span>\( X_{k} \)</span>. יש כמובן קבוצה כזו - הקבוצה הריקה, <span>\( \emptyset \)</span>, שמוכלת בכל אברי <span>\( X_{k} \)</span>. הבעיה היא שאנחנו לא יודעים שהחיתוך של זוגות של איברים מ-<span>\( X_{k} \)</span> יהיה <span>\( \emptyset \)</span>; בהחלט ייתכן שלא יהיו שתי קבוצות זרות שם בכלל. למשל, אם כל הקבוצות מכילות את 42, בוודאי שהחיתוך של זוג קבוצות לא יהיה זר, הוא תמיד יכיל את 42. אבל אם כן, אולי <span>\( \left\{ 42\right\} \)</span> היא מועמדת טובה להיות <span>\( R \)</span>? אולי, ואולי יש עוד איבר שמוכל ברוב הקבוצות… הבנו את הרעיון, אנחנו רוצים להגדיר את <span>\( R \)</span> להיות קבוצה <strong>מקסימלית</strong> בגודלה שעדיין מוכלת במספר לא בן מניה של קבוצות מ-<span>\( X_{k} \)</span>. באופן כללי, כדי להראות שקיים איבר מקסימלי באוסף כלשהו (במקרה הנוכחי - אוסף “מי שמוכלות במספר לא בן מניה של קבוצות מ-<span>\( X_{k} \)</span>”) צריך להראות שהאוסף לא ריק (הוא לא, כי <span>\( \emptyset \)</span> שם) ושיש חסם מלעיל לגודל של איברים באוסף (אין באוסף קבוצה מגודל <span>\( k+1 \)</span> או יותר כי כל הקבוצות ב-<span>\( X_{k} \)</span> הן מגודל <span>\( k \)</span>). לכן קיימת קבוצה מקסימלית <span>\( R \)</span> שכזו.</p>
<p>המקסימליות של <span>\( R \)</span> פירושה שהשטיק ההוא שקרה קודם עם 42 לא יכול לחזור על עצמו. בהינתן <span>\( x\notin R \)</span>, הקבוצה <span>\( R\cup\left\{ x\right\} \)</span> יכולה להיות מוכלת רק במספר בן מניה של קבוצות מ-<span>\( X_{k} \)</span> (אחרת <span>\( R\cup\left\{ x\right\} \)</span> הייתה סתירה למקסימליות של <span>\( R \)</span>). בואו ניקח עכשיו את אוסף כל הקבוצות שמכילות את <span>\( R \)</span>: <span>\( X_{k}^{\prime}=\left\{ A\in X_{k}\ |\ R\subseteq A\right\} \)</span>. זה אוסף לא בן מניה והחיתוך של כל זוג קבוצות בו <strong>מכיל</strong> את <span>\( R \)</span>, אבל הבעיה היא שהחיתוך לאו דווקא <strong>שווה</strong> ל-<span>\( R \)</span>. לכן זו עדיין לא <span>\( Y \)</span> שלנו; נצטרך איכשהו להיפטר מעוד קבוצות שם.</p>
<p>באופן נחמד, אפשר עכשיו לעבור לניסוח של מה שצריך לעשות בעזרת תורת הגרפים. נגדיר גרף שצמתיו הם אברי <span>\( X_{k}^{\prime} \)</span>, ויש קשת בין <span>\( A,B \)</span> אם ורק אם <span>\( A\cap B\ne\emptyset \)</span>. זה גרף עם מספר לא בן מניה של צמתים ומה שאנחנו מחפשים הוא <strong>קבוצה בלתי תלויה</strong> לא בת מניה (קבוצה בלתי תלויה היא קבוצת צמתים שאין קשת בין אף זוג צמתים בה).</p>
<p>בהינתן צומת <span>\( A \)</span>, כמה שכנים יכולים להיות לו? אם <span>\( A\cap B\ne R \)</span> אז בהכרח קיים <span>\( x \)</span> כך ש-<span>\( R\cup\left\{ x\right\} \subseteq A\cap B \)</span>. אמרנו כבר ש-<span>\( R\cup\left\{ x\right\} \)</span> יכולה להיות מוכלת רק במספר בן מניה של <span>\( B \)</span>-ים, אז ל-<span>\( A \)</span> יש רק מספר בן מניה של שכנים ש-<span>\( x \)</span> “מוכיח” את השכנות שלהם. כמה <span>\( x \)</span>-ים יש בסך הכל? ובכן, כל <span>\( x \)</span> כזה חייב להופיע גם ב-<span>\( A \)</span>, והרי <span>\( A \)</span> סופית ולכן קיים רק מספר סופי של <span>\( x \)</span>-ים כאלו. מכאן שמספר השכנים של <span>\( A \)</span> הוא לכל היותר בן מניה.</p>
<p>והנה הגענו לטענה בתורת הגרפים האינסופיים: אם יש בגרף מספר לא בן מניה של צמתים, אבל לכל צומת יש רק מספר בן מניה של שכנים, אז קיימת קבוצה בלתי תלויה מגודל לא בן מניה. אפשר לבנות ממש קבוצה כזו באינדוקציה על-סופית: לכל סודר <span>\( \alpha\in\aleph_{1} \)</span> נגדיר צומת <span>\( v_{\alpha} \)</span> על ידי בחינת קבוצת הצמתים <span>\( \left\{ v_{\beta}\right\} _{\beta<\alpha} \)</span>: זו קבוצה בת מניה (כל <span>\( \alpha\in\aleph_{1} \)</span> הוא בן מניה, זו המהות של <span>\( \aleph_{1} \)</span>) ולכל איבר בה יש רק מספר בן מניה של שכנים, אז אפשר מתוך המספר הלא בן מניה של צמתים בגרף למצוא אחד שאינו שכן של אף צומת שנבחר עד כה. כך קיבלנו קבוצה לא בת מניה <span>\( Y \)</span> של קבוצות, כך שהחיתוך של כל זוג איברים מהקבוצה הוא בדיוק <span>\( R \)</span>. סיימנו! יש לנו מערכת-<span>\( \Delta \)</span>! רק נותר להשתמש בתוצאה הזו כדי להוכיח סוף סוף ש-<span>\( P \)</span> שלנו היא בעלת תכונת ccc.</p>
<h2>פרק רביעי, שבו P מקיימת את ccc</h2>
<p>אנחנו סוף סוף חוזרים לדבר קונקרטית על <span>\( P \)</span> שלנו. כזכור (ועד שהגענו לפה גם אני כבר שכחתי), ה-<span>\( P \)</span> שלנו היא אוסף הפונקציות <span>\( f:A\to\left\{ 0,1\right\} \)</span> כך ש-<span>\( A \)</span> היא קבוצה סופית ו-<span>\( A\subseteq\mathbb{N}\times\aleph_{2}^{\mathcal{M}} \)</span>. כדי להראות ש-<span>\( P \)</span> מקיימת ccc אנחנו צריכים לקחת תת-קבוצה <span>\( S\subseteq P \)</span> שהיא לא בת מניה, ולהראות שבהכרח קיימים בה שני איברים מתואמים. עכשיו, כל איבר של <span>\( S \)</span> הוא פונקציה שמוגדרת על תחום <span>\( A \)</span> מסוים, <span>\( \text{dom}f=A \)</span>, אז בואו נגדיר את ה-<span>\( X \)</span> שעליה נפעיל את מה שמצאנו בחלק הקודם בתור <span>\( X=\left\{ \text{dom}f\ |\ f\in S\right\} \)</span>. בשביל שנוכל להפעיל את החלק הקודם על <span>\( X \)</span> צריך שני דברים:</p>
<ol> <li><span>\( X \)</span> צריכה להיות לא בת מניה.</li>
<li>כל <span>\( A\in X \)</span> צריכה להיות סופית.</li>
</ol>
<p>את 2 יש לנו: זה בגלל ש-<span>\( P \)</span> הוגדר כך במפורש. בשביל 1 צריך רגע של מחשבה. <span>\( S \)</span> עצמה היא לא בת מניה, אבל במעבר מ-<span>\( f \)</span> אל <span>\( \text{dom}f \)</span> בוודאי שאנחנו עלולים לאבד איברים כי שתי פונקציות שונות לגמרי יכולות להיות בעלות אותו תחום. אבל כמה פונקציות כאלו כבר יש? בהינתן <span>\( A \)</span> קונקרטית, מספר הפונקציות <strong>הכולל</strong> מ-<span>\( A \)</span> אל <span>\( \left\{ 0,1\right\} \)</span> הוא <span>\( 2^{\left|A\right|} \)</span> - מספר סופי. אם <span>\( X \)</span> הייתה בת מניה, אז מספר הפונקציות הכולל ב-<span>\( S \)</span> היה מספר סופי כפול <span>\( \aleph_{0} \)</span>, כלומר <span>\( \aleph_{0} \)</span>, בסתירה לכך ש-<span>\( S \)</span> לא בת מניה. המסקנה היא ש-<span>\( X \)</span> לא בת מניה ולכן אפשר למצוא לה מערכת-<span>\( \Delta \)</span> <span>\( Y\subseteq X \)</span>.</p>
<p>במערכת-<span>\( \Delta \)</span> שכזו קיימת קבוצה <span>\( R \)</span> כך שלכל <span>\( A,B\in Y \)</span> מתקיים <span>\( A\cap B=R \)</span>. כל ה-<span>\( A \)</span>-ים הללו הם תתי-קבוצות סופיות של <span>\( \mathbb{N}\times\aleph_{2}^{\mathcal{M}} \)</span> ולכן גם <span>\( R\subseteq\mathbb{N}\times\aleph_{2}^{\mathcal{M}} \)</span> והיא סופית.</p>
<p>עכשיו בואו נחזור מ-<span>\( Y \)</span> (אוסף של תת-קבוצות של <strong>תחום</strong> הפונקציות ב-<span>\( S \)</span>) אל <span>\( S \)</span> עצמה. נגדיר תת-קבוצה <span>\( T\subseteq S \)</span> על ידי בחירת נציגים לאברי <span>\( Y \)</span>: לכל <span>\( A\in Y \)</span> קיימת לפחות פונקציה אחת <span>\( f\in S \)</span> כך ש-<span>\( \text{dom}f=A \)</span>, אז נוסיף <span>\( f \)</span> אחת כזו ל-<span>\( T \)</span> (כמו שאנחנו רואים, אקסיומת הבחירה עובדת כאן שעות נוספות, נראה לי שהשתמשתי בה גם קודם). מה קיבלנו? לכל <span>\( f,g\in T \)</span>, מתקיים ש-<span>\( \text{dom}f\cap\text{dom}g=R \)</span>. וכעת הפאנץ’: יש רק מספר <strong>סופי</strong> של פונקציות מ-<span>\( R \)</span> אל <span>\( \left\{ 0,1\right\} \)</span>, כי <span>\( R \)</span> סופית, אבל יש מספר <strong>לא בן מניה</strong> של פונקציות ב-<span>\( T \)</span>. כשלוקחים פונקציה ב-<span>\( T \)</span> ומצמצמים את התחום שלה ל-<span>\( R \)</span> מקבלים רק אחת מבין אותו מספר סופי של פונקציות, ולכן מעקרון שובך היונים (עם מספר סופי של שובכים ומספר אינסופי של יונים) יש שתי פונקציות <span>\( f,g \)</span> שהתחום שמשותף לשתיהן הוא <span>\( R \)</span> <strong>וגם </strong>שהצמצמום שלהן ל-<span>\( R \)</span> הוא זהה. שתי הפונקציות הללו מתואמות וקיימת להן הרחבה משותפת, שזה מה שחיפשנו. זה מסיים את ההוכחה ש-<span>\( P \)</span> מקיימת את ccc ומכניס אותנו לישורת האחרונה ממש של סדרת הפוסטים הזו.</p>
<h2>פרק חמישי ואחרון, שבו אנו מוכיחים שהשערת הרצף אינה תלויה ב-ZFC</h2>
<p>אחרי כל מלאכת ההכנה הזו שנמשכה כמעט 3,000 מילים (ויש שיגידו - סדרה של עשרה פוסטים) הגענו סוף סוף אל המטרה שלנו, ההוכחה שלמענה הומצאה תורת הכפיה: הוכחה ש-<span>\( \neg\text{CH} \)</span> מתיישבת עם ZFC. כמעט עשינו את הכל, אבל עוד נשארו כמה פרטים להבהיר, וכמובן - להציג שוב את התמונה הגדולה.</p>
<p>ובכן, הגדרנו תנאי כפיה <span>\( P \)</span> שהם פונקציות <span>\( f:A\to\left\{ 0,1\right\} \)</span> כך ש-<span>\( A \)</span> תת-קבוצה סופית של <span>\( \mathbb{N}\times\aleph_{2}^{\mathcal{M}} \)</span>. הראינו שתנאי הכפיה הללו מקיימים תכונה שנקראת ccc, וקיום התכונה הזו אומר שהרחבת <span>\( \mathcal{M} \)</span> באמצעות אידאל גנרי של <span>\( P \)</span> <strong>משמרת עוצמות</strong>, כלומר מתקיים <span>\( \aleph_{2}^{\mathcal{M}}=\aleph_{2}^{\mathcal{M}\left[G\right]} \)</span>. מכיוון ש-<span>\( G\in\mathcal{M}\left[G\right] \)</span> הרי ש-<span>\( f=\bigcup G\in\mathcal{M}\left[G\right] \)</span>. כל מה שנותר לעשות הוא להבין מה בדיוק הפונקציה הזו. כרגע אנחנו יודעים שזו פונקציה מתת-קבוצה של <span>\( \mathbb{N}\times\aleph_{2}^{\mathcal{M}} \)</span> אל <span>\( \left\{ 0,1\right\} \)</span>. אני טוען שני דברים:</p>
<ol> <li><span>\( \text{dom}f=\mathbb{N}\times\aleph_{2}^{\mathcal{M}} \)</span>, כלומר הפונקציה תופסת את <strong>כל</strong> <span>\( \mathbb{N}\times\aleph_{2}^{\mathcal{M}} \)</span> (זה דומה למה שקרה בפוסט הקודם).</li>
<li>לכל <span>\( \alpha\in\aleph_{2}^{\mathcal{M}} \)</span>, הפונקציה <span>\( f_{\alpha} \)</span> שמוגדרת על ידי <span>\( f_{\alpha}\left(n\right)=f\left(n,\alpha\right) \)</span> היא ייחודית: אם <span>\( \alpha\ne\beta \)</span> אז <span>\( f_{\alpha}\ne f_{\beta} \)</span> ולכן דה פקטו שתיהן מגדירות תתי-קבוצות שונות של <span>\( \mathbb{N} \)</span>.</li>
</ol>
<p>צריך את 1 כדי שאפשר יהיה להגדיר את הפונקציה <span>\( f_{\alpha} \)</span> ב-2, ו-2 הוא מה שנותן לנו את שלילת השערת הרצף כי הוא מראה שיש ב-<span>\( \mathcal{M}\left[G\right] \)</span> לפחות <span>\( \aleph_{2}^{\mathcal{M}}=\aleph_{2}^{\mathcal{M}\left[G\right]} \)</span> תתי-קבוצות שונות של <span>\( \mathbb{N} \)</span>.</p>
<p>את תכונות 1 ו-2 מוכיחים בעזרת אחת מהתכונות שמגדירות אידאל גנרי: אם <span>\( G \)</span> אידאל גנרי ו-<span>\( D\subseteq P \)</span> היא קבוצה צפופה שמקיימת <span>\( D\in\mathcal{M} \)</span>, אז <span>\( G\cap D\ne\emptyset \)</span>. “צפיפות” של <span>\( D \)</span> פירושה שלכל <span>\( p\in P \)</span> קיימת הרחבה <span>\( q\supseteq p \)</span> כך ש-<span>\( q\in D \)</span>.</p>
<p>בשביל 1, בואו ניקח <span>\( \left(n,\alpha\right)\in\mathbb{N}\times\aleph_{2}^{\mathcal{M}} \)</span> כלשהו, ונגדיר קבוצה <span>\( D \)</span> של כל הפונקציות ב-<span>\( P \)</span> שמוגדרות על <span>\( \left(n,\alpha\right) \)</span>. זו קבוצה צפופה כי כל איבר ב-<span>\( P \)</span> הוא או מוגדר על <span>\( \left(n,\alpha\right) \)</span> (ואז הוא עצמו ההרחבה ששייכת ל-<span>\( D \)</span>) או שאפשר להרחיב אותו על ידי הגדרתו על <span>\( \left(n,\alpha\right) \)</span> (להיות שווה 0, נאמר). המסקנה שהיא שב-<span>\( G \)</span> קיימת פונקציה אחת לפחות שמוגדרת על <span>\( \left(n,\alpha\right) \)</span> ומכיוון ש-<span>\( f \)</span> התקבלה מאיחוד כל הפונקציות ב-<span>\( G \)</span>, גם היא עצמה מוגדרת על <span>\( \left(n,\alpha\right) \)</span>.</p>
<p>נשאר לנו רק 2. בואו ניקח <span>\( \alpha,\beta\in\aleph_{2}^{\mathcal{M}} \)</span> ונוכיח ש-<span>\( f_{\alpha}\ne f_{\beta} \)</span>. לצורך כך, נגדיר קבוצה <span>\( D_{\alpha,\beta} \)</span> שכוללת את כל הפונקציות <span>\( g\in P \)</span> כך <strong>שקיים</strong> <span>\( n\in\mathbb{N} \)</span> עבורו <span>\( g \)</span> מוגדרת על <span>\( \left(n,\alpha\right),\left(n,\beta\right) \)</span> וגם <span>\( g\left(n,\alpha\right)\ne g\left(n,\beta\right) \)</span>. למה <span>\( D_{\alpha,\beta} \)</span> צפופה? כי בואו ניקח פונקציה <span>\( g\in P \)</span> כלשהי. התחום שלה הוא <strong>סופי</strong> ולכן בהכרח קיים <span>\( n \)</span> טבעי שעבורו <span>\( g\left(n,\alpha\right) \)</span> וגם <span>\( g\left(n,\beta\right) \)</span> <strong>לא מוגדרות</strong>, ואנו יכולים להרחיב את <span>\( g \)</span> לקבלת איבר ב-<span>\( D_{\alpha,\beta} \)</span> על ידי הגדרת <span>\( g\left(n,\alpha\right)=0 \)</span> ו-<span>\( g\left(n,\beta\right)=1 \)</span>. זה מראה את הצפיפות של <span>\( D_{\alpha,\beta} \)</span>, ולכן מראה שב-<span>\( G \)</span> קיימת פונקציה שעבורה יש <span>\( n \)</span> שמפריד בין הקבוצות שמוגדרות על ידי <span>\( \alpha,\beta \)</span>, ולכן גם <span>\( f \)</span> עצמה היא כזו: <span>\( f_{\alpha}\ne f_{\beta} \)</span>, כנדרש.</p>
<p>זה מסיים את הוכחת טענות 1 ו-2 על הפונקציה <span>\( f \)</span> שבנינו; ולכן גם מסיים את ההוכחה שמספר תתי-הקבוצות של טבעיים ב-<span>\( \mathcal{M}\left[G\right] \)</span> הוא לפחות <span>\( \aleph_{2}^{\mathcal{M}\left[G\right]} \)</span>; ולכן גם מסיים את ההוכחה ש-<span>\( \neg\text{CH} \)</span> מתיישבת עם ZFC, ולכן גם מסיים את ההוכחה שהשערת הרצף היא בלתי תלויה ב-ZFC. סיימנו.</p>
<h2>אפילוג ובו סיכום מעמיק של כל מה שראינו ולמדנו בכל סדרת הפוסטים הזו</h2>
<p>וואו, זה היה כיף!</p>פרק המבוא שבו אנחנו חוזרים על מה שקרה קודם בפעם האחרונהבעקבות השערת הרצף, חלק ט’: מוכיחים את ZFC2023-07-30T00:00:00+00:002023-07-30T00:00:00+00:00http://gadial.net/2023/07/30/continuum_hypothesis_forcing_proving_zfc_axioms<h2>מבוא</h2>
<p>כרגיל בסדרת הפוסטים הזו כדאי להתחיל עם תזכורת למטרות העל שלנו ולכלים שיש לנו בשביל להוכיח אותן. ובכן, כדי להראות שהשערת הרצף בלתי תלויה באקסיומות ZFC יצרנו קודם כל “יקום מתמטי זעיר” <span>\( \mathcal{M} \)</span> שהיה קבוצה בת מניה וטרנזיטיבית שמקיימת את כל אקסיומות ZFC (בהנחה - שלא הוכחנו ולא נוכל להוכיח - שבכלל יש יקום מתמטי <strong>כלשהו </strong>שמקיים את ZFC). אחר כך דיברנו על האופן שבו ניתן <strong>להרחיב</strong> את <span>\( \mathcal{M} \)</span> ליקום מתמטי זעיר אבל קצת פחות <span>\( \mathcal{M}\left[G\right] \)</span>, כאשר <span>\( G \)</span> הוא משהו שנקרא <strong>אידאל גנרי</strong> שנבנה מתוך קבוצה של <strong>תנאי כפיה</strong>. הרעיון הוא שתנאי כפיה מסויימים מכתיבים שהאידאל הגנרי יבטיח שב-<span>\( \mathcal{M}\left[G\right] \)</span> קורה משהו מעניין - למשל שהשערת הרצף תתקיים/לא תתקיים ב-<span>\( \mathcal{M}\left[G\right] \)</span>. האתגר המרכזי שלנו בבנייה הזו היה להוכיח ש-<span>\( \mathcal{M}\left[G\right] \)</span> מקיימת את אקסיומות ZFC. הוכחנו שחמש מהן מתקיימות כבר בפוסט שבו ראינו לראשונה את <span>\( \mathcal{M}\left[G\right] \)</span>, כי היה קל למדי להוכיח אותן. נשארו לנו ארבע: אקסיומות ההפרדה, קבוצת החזקה, ההחלפה והבחירה. את כולן נוכיח בפוסט הזה (אבל שוב, מה המשמעות של “להוכיח” כאן? אנחנו מוכיחים הוכחה <strong>יחסית</strong>: מתוך ההנחה ש-<span>\( \mathcal{M} \)</span> מקיימת את האקסיומות, אנחנו מוכיחים שגם <span>\( \mathcal{M}\left[G\right] \)</span> תקיים אותן).</p>
<p>אם רוצים את האקשן, אפשר לקפוץ לחלק הבא, אבל לפני כן בואו נזכיר את הנקודות העיקריות שנזדקק להן בפוסט הזה.</p>
<p>ראשית, תנאי כפייה: בהינתן היקום הזעיר שלנו <span>\( \mathcal{M} \)</span> לקחנו קבוצה <span>\( P\in\mathcal{M} \)</span> כלשהי בו וקראנו לאיברים שלה <strong>תנאי כפיה</strong>. בשימוש בפועל תהיה חשיבות גדולה לצורה שבה <span>\( P \)</span> נבנית אבל כרגע אנחנו מוכיחים משפטים כלליים אז <span>\( P \)</span> יכולה להיות כל קבוצה ב-<span>\( \mathcal{M} \)</span>. עכשיו, בתוך <span>\( P \)</span> קיימות תת-קבוצות “נחמדות” <span>\( G\subseteq P \)</span> שנקראות <strong>אידאל גנרי</strong>; לא ניכנס כרגע לתכונות שלהן. הנקודה היא ש-<span>\( G \)</span> היא קבוצה שהיינו מאוד רוצים להוסיף ל-<span>\( \mathcal{M} \)</span> כדי לקבל יקום זעיר שתואם את הדרישות שלנו. היקום הזה נקרא <span>\( \mathcal{M}\left[G\right] \)</span>.</p>
<p>שנית, מה הבניה של <span>\( \mathcal{M}\left[G\right] \)</span>: לצורך הבניה הגדרנו אובייקטים שנקראים <strong>שמות</strong>-<span>\( P \)</span>. כל שם שכזה הוא איבר <span>\( \tau\in\mathcal{M} \)</span> (זה חשוב, שהוא שייך ליקום הזעיר <span>\( \mathcal{M} \)</span>) כך שהאיברים של <span>\( \tau \)</span> הם זוגות <span>\( \left(\sigma,p\right) \)</span> כך ש-<span>\( \sigma \)</span> גם הוא שם-<span>\( P \)</span> (מדרגה נמוכה יותר מ-<span>\( \tau \)</span>; לא ניכנס לזה) ו-<span>\( p\in P \)</span> הוא תנאי כפיה ש”מתייג” את <span>\( \sigma \)</span>. דרישה מועילה אחת על שמות היא שאם <span>\( \left(\sigma,p\right)\in\tau \)</span> וגם <span>\( p\subseteq q \)</span> אז גם <span>\( \left(\sigma,q\right)\in\tau \)</span>; השתמשנו בזה בעבר ונשתמש בזה גם הפעם.</p>
<p>בהינתן שם <span>\( \tau \)</span> ואידאל גנרי <span>\( G \)</span> אנחנו נותנים לו ערך בצורה הבאה: <span>\( \tau^{G}=\left\{ \sigma^{G}\ |\ \exists p\in G:\left(\sigma,p\right)\in\tau\right\} \)</span>. כלומר, <span>\( G \)</span> משמש בתור מין “מסנן” שמוחק מ-<span>\( \tau \)</span> את החלקים שלא מתויגים עם תנאי כפיה ששייכים ל-<span>\( G \)</span>. וזהו, זו הבניה: אנחנו מגדירים את <span>\( \mathcal{M}\left[G\right] \)</span> להיות כל האיברים מהצורה <span>\( \tau^{G} \)</span>.</p>
<p>הכלי המרכזי שאנחנו זקוקים לו כשבאים להוכיח דברים על <span>\( \mathcal{M}\left[G\right] \)</span> הוא מה שנקרא <strong>המשפט היסודי של תורת הכפיה</strong> שהוכחנו בפוסטים האחרונים. בשביל לנסח אותו צריך להכניס מושג חדש לתמונה - יחס הכפיה. אם כן, ניקח נוסחה כלשהי <span>\( \phi\left(x_{1},\ldots,x_{n}\right) \)</span> שהמשתנים החופשיים שלה הם <span>\( x_{1},\ldots,x_{n} \)</span>, וניקח שמות-<span>\( P \)</span> ספציפיים <span>\( \tau_{1},\ldots,\tau_{n} \)</span> ונציב אותם בתוך המשתנים החופשיים הללו כדי לקבל “תבנית נוסחה” <span>\( \phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>. בצורה הזו לנוסחה עדיין אין ערך אמת מוגדר, אבל ברגע שאנחנו מכניסים לתמונה אידאל גנרי <span>\( G \)</span>, אפשר לבדוק איזה ערך הוא נותן לכל השמות שהצבנו בנוסחה, כלומר להסתכל על <span>\( \phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>. הנוסחה <strong>הזו</strong> כבר מקבלת ערך “אמת” או “שקר” מעל <span>\( \mathcal{M}\left[G\right] \)</span>, ואם היא מקבלת ערך אמת אנחנו מסמנים את זה ב-<span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>.</p>
<p>עכשיו, בהינתן תנאי כפיה <span>\( p\in P \)</span> כלשהו, אנחנו אומרים שהוא <strong>כופה</strong> את <span>\( \phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> ומסמנים זאת <span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> אם <strong>לכל</strong> אידאל גנרי <span>\( G \)</span> כך ש-<span>\( p\in G \)</span>, מתקיים <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>. דהיינו, תנאי הכפיה היחיד, הבודד, הקטן, הפשוט <span>\( p \)</span> מספיק לבדו להבטיח ש-<span>\( \phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> יהיה בעל ערך אמת בכל אידאל גנרי שמכיל את <span>\( p \)</span>.</p>
<p>המשפט היסודי אומר שני דברים, שההוכחה שלהם הייתה שלובה זה בזה:</p>
<ul> <li>אם <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> עבור <span>\( G \)</span> כלשהו, אז קיים <span>\( p\in G \)</span> כך ש-<span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>.</li>
<li>אפשר להגדיר את היחס <span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> במסגרת <span>\( \mathcal{M} \)</span> (כלומר, לבנות פורמלית את קבוצת ה-<span>\( n+1 \)</span>-יות <span>\( \left(p,\tau_{1},\ldots,\tau_{n}\right) \)</span> כך ש-<span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>).</li>
</ul>
<p>זה כל מה שנזדקק לו; בואו ניגש לעבודה. כרגיל, אני הולך להיצמד לספר של Weaver ולהוכחות שלו, עד לרמת הסימונים.</p>
<h2>אקסיומת ההפרדה</h2>
<p>כזכור, באופן לא פורמלי אקסיומת ההפרדה אומרת שאם יש לנו קבוצה <span>\( A \)</span> ואנחנו מסוגלים לנסח בצורה פורמלית קריטריון כלשהו שאברי <span>\( A \)</span> יכולים לקיים/לא לקיים, אז התת-קבוצה של <span>\( A \)</span> של כל האיברים שמקיימים את הקריטריון הזה קיימת.</p>
<p>הנה הניסוח הפורמלי שאותו נוכיח עבור <span>\( \mathcal{M}\left[G\right] \)</span>: תהא <span>\( \phi \)</span> נוסחה כלשהי עם משתנים חופשיים <span>\( u,x_{1},\ldots,x_{n} \)</span>. אז לכל קבוצה <span>\( \tau^{G}\in\mathcal{M}\left[G\right] \)</span> וכל אוסף של <strong>פרמטרים</strong> <span>\( \tau_{1}^{G},\ldots,\tau_{n}^{G}\in\mathcal{M}\left[G\right] \)</span>, הקבוצה הבאה שייכת ל-<span>\( \mathcal{M}\left[G\right] \)</span>:</p>
<p><span>\( y=\left\{ x\in\tau^{G}\ |\ \mathcal{M}\left[G\right]\models\phi\left(x,\tau_{1}^{G},\ldots,\tau_{n}^{G}\right)\right\} \)</span></p>
<p>האתגר שלנו הוא ממש לבנות את הקבוצה הזו יש מאין, אבל כמובן שתוך ניצול כלשהו של קיום אקסיומת ההפרדה ב-<span>\( \mathcal{M} \)</span> עצמו. בשביל זה צריך לזכור נקודה עדינה כלשהי: שמות-<span>\( P \)</span> הם כולם איברים של <span>\( \mathcal{M} \)</span>. לכל <span>\( \tau \)</span>, מתקיים <span>\( \tau\in\mathcal{M} \)</span>. הנקודה שבה אנחנו פורצים “מעבר לגבולות <span>\( \mathcal{M} \)</span>” היא בשלב השמת הערך; בהחלט ייתכן שיתקיים <span>\( \tau^{G}\notin\mathcal{M} \)</span> כי תהליך הפילטור המורכב ש-<span>\( \tau \)</span> עבר יצר תת-קבוצות שלא היו קיימות שם קודם. אבל השמות עצמם הם כולם איברים של <span>\( \mathcal{M} \)</span> - ואם הם איברים של <span>\( \mathcal{M} \)</span>, אפשר להפעיל את אקסיומת ההפרדה <strong>עליהם</strong>.</p>
<p>אם כן, כדי לבנות את תת-הקבוצה של <span>\( \tau^{G} \)</span> בואו ניקח את השם <span>\( \tau \)</span> ונבנה תת-קבוצה שלו, שמוגדרת כך:</p>
<p><span>\( \pi=\left\{ \left(\sigma,p\right)\in\tau\ |\ p\Vdash\phi\left(\sigma,\tau_{1},\ldots,\tau_{n}\right)\right\} \)</span></p>
<p>כדי שאפשר יהיה להשתמש באקסיומת ההפרדה, יחס הכפיה <span>\( \Vdash \)</span> צריך להיות ניתן להגדרה במסגרת <span>\( \mathcal{M} \)</span>; זה למרבה המזל בדיוק מה שהוכחנו כחלק מהמשפט היסודי. אז הבניה הזו תקפה. בנוסף לכך, צריך לשים לב לכך ש-<span>\( \pi \)</span> עצמה היא שם-<span>\( P \)</span>. האיברים שלה הם בוודאי מהצורה הנכונה, אבל זה לא מספיק - צריך להראות שאם <span>\( \left(\sigma,p\right)\in\pi \)</span> אז גם <span>\( \left(\sigma,q\right)\in\pi \)</span> לכל <span>\( p\subseteq q \)</span>. זה עוד משהו שראינו בפוסט הקודם - שאם <span>\( p \)</span> כופה משהו, גם כל הרחבה <span>\( q \)</span> של <span>\( p \)</span> תכפה אותו, אז לא אחזור על זה כאן.</p>
<p>נשאר רק להראות שאכן, <span>\( \pi^{G}=y \)</span>. ואת זה נעשה, כמו שתמיד כיף לעשות בתורת הקבוצות החל מהסמסטר הראשון של התואר הראשון, על ידי <strong>הכלה דו כיוונית</strong>.</p>
<p>בכיוון אחד, ניקח איבר כלשהו של <span>\( \pi^{G} \)</span>. איבר כזה הוא מהצורה <span>\( \sigma^{G} \)</span> כאשר <span>\( \left(\sigma,p\right)\in\pi \)</span> ובנוסף <span>\( p\in G \)</span>. עכשיו, לפי הקריטריון שמגדיר את <span>\( \pi \)</span>, אנחנו יודעים ש-<span>\( p\Vdash\phi\left(\sigma,\tau_{1},\ldots,\tau_{n}\right) \)</span>, ומכיוון ש-<span>\( p\in G \)</span> אז מהגדרת הכפיה אנחנו מסיקים ש-<span>\( \mathcal{M}\left[G\right]\models\phi\left(\sigma^{G},\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> ולכן <span>\( \sigma^{G}\in y \)</span> על פי הגדרת <span>\( y \)</span>. זה כיוון אחד שהראה לנו <span>\( \pi^{G}\subseteq y \)</span>, והוא פשוט כל כך כי הגדרת יחס הכפיה שירתה בדיוק את המטרה שהיא באה לשרת - להבטיח ש-<span>\( \mathcal{M}\left[G\right] \)</span> תספק פסוק מסוים. שימו לב שבכיוון הזה לא נזקקנו בכלל למשפט היסודי.</p>
<p>הכיוון השני יהיה קצת יותר טריקי. אנחנו לוקחים איבר <span>\( x\in y \)</span>, כלומר איבר <span>\( x\in\tau^{G} \)</span> שעבורו מתקיים <span>\( \mathcal{M}\left[G\right]\models\phi\left(x,\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>. מכיוון ש-<span>\( x\in\tau^{G} \)</span> אז הוא מהצורה <span>\( \sigma^{G} \)</span> עבור <span>\( \sigma \)</span> שהופיע בתוך <span>\( \tau \)</span>; ליתר דיוק, <span>\( \left(\sigma,p\right)\in\tau \)</span> עבור <span>\( p\in G \)</span> כלשהו. אז אפשר לכתוב <span>\( \mathcal{M}\left[G\right]\models\phi\left(\sigma^{G},\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> והמשפט היסודי אומר לנו שקיים <span>\( q\in G \)</span> כך ש-<span>\( q\Vdash\phi\left(\sigma,\tau_{1},\ldots,\tau_{n}\right) \)</span>.</p>
<p>עכשיו יש לנו נקודה עדינה: אנחנו יודעים ש-<span>\( \left(\sigma,p\right)\in\tau \)</span> ואנחנו יודעים ש-<span>\( q \)</span> כופה את <span>\( \phi\left(\sigma,\tau_{1},\ldots,\tau_{n}\right) \)</span>, אבל ייתכן ש-<span>\( p\ne q \)</span> ואנחנו צריכים תנאי כפיה שיעשה את שני אלו <strong>ביחד</strong>. כאן נכנס טריק שכבר השתמשנו בו כמה פעמים: מכיוון ש-<span>\( p,q\in G \)</span> אפשר להשתמש בתכונה של אידאלים שלכל שני איברים יש הרחבה משותפת בתוך האידאל, נאמר <span>\( p^{\prime}\in G \)</span>. מכך ש-<span>\( \left(\sigma,p\right)\in\tau \)</span> אפשר להסיק <span>\( \left(\sigma,p^{\prime}\right)\in\tau \)</span> כי זה חלק מהדרישה שהייתה לנו משמות-<span>\( P \)</span>; וכבר אמרתי קודם שראינו שאם <span>\( q \)</span> כופה משהו, גם כל הרחבה שלו כופה אותו. לכן עם <span>\( p^{\prime} \)</span> הזה יש לנו <span>\( \left(\sigma,p^{\prime}\right)\in\pi \)</span> ולכן <span>\( \sigma^{G}\in\pi^{G} \)</span>. זה מראה לנו ש-<span>\( y\subseteq\pi^{G} \)</span>, ושני הכיוונים ביחד נותנים לנו את <span>\( y=\pi^{G} \)</span> המבוקש. הוכחנו את אקסיומת ההפרדה!</p>
<h2>אקסיומת קבוצת החזקה</h2>
<p>הטענה הפורמלית שאנחנו רוצים להוכיח עכשיו היא זו: לכל קבוצה <span>\( \tau^{G}\in\mathcal{M}\left[G\right] \)</span>, מתקיים ש-<span>\( \mathcal{P}\left(\tau^{G}\right)\cap\mathcal{M}\left[G\right]\in\mathcal{M}\left[G\right] \)</span>. כלומר - קבוצת כל תתי-הקבוצות של <span>\( \tau^{G} \)</span> ששייכות ל-<span>\( \mathcal{M}\left[G\right] \)</span> היא עצמה איבר של <span>\( \mathcal{M}\left[G\right] \)</span>. אינטואיטיבית אולי קצת קשה לעכל את הקטע הזה שאנחנו לא דורשים שקבוצת <strong>כל</strong> תתי-הקבוצות של <span>\( \tau^{G} \)</span> תהיה ב-<span>\( \mathcal{M}\left[G\right] \)</span>, אבל זו בדיוק המשמעות של רלטיביזציה של ZFC ל”יקומים מתמטיים זעירים” כמו <span>\( \mathcal{M}\left[G\right] \)</span> שהם מלכתחילה בני מניה ולכן אין סיכוי שיהיה בהם את <strong>כל</strong> תתי-הקבוצות של קבוצות בנות מניה אינסופיות (כי יש מספר לא בן מניה של תתי-קבוצות כאלו).</p>
<p>כמו קודם, אנחנו צריכים לבנות שם-<span>\( P \)</span> כלשהו שיהיה מי שנותן לנו את הקבוצה המבוקשת, וגם הפעם נעשה את זה מתוך <span>\( \tau \)</span> עצמו:</p>
<p><span>\( \hat{\tau}=\left\{ \left(\sigma,p\right)\ |\ \sigma\subseteq\tau,p\in P\right\} \)</span>, כך שכל <span>\( \sigma \)</span> כזה הוא בעצמו שם-<span>\( P \)</span> (קשה לי לכתוב בתוך הסוגריים המסולסלים את זה)</p>
<p>את <span>\( \hat{\tau} \)</span> אפשר לבנות במסגרת <span>\( \mathcal{M} \)</span> (שכזכור, מקיימת את כל ZFC) בתהליך הבא: ראשית כל לוקחים את קבוצת החזקה של <span>\( \tau \)</span> בעזרת <strong>אקסיומת קבוצת החזקה</strong>. יש בה הרבה תתי-קבוצות של <span>\( \tau \)</span>, גם כאלו שהן לא שמות-<span>\( P \)</span> (כי אין את הסגירות כלפי מעלה של תנאי הכפייה). אז בעזרת <strong>אקסיומת ההפרדה</strong> משאירים רק את מי שהם שמות-<span>\( P \)</span>. אחר כך לסיום בונים את <strong>המכפלה הקרטזית</strong> של הקבוצה שקיבלנו יחד עם <span>\( P \)</span> (בניה של מכפלה קרטזית של שתי קבוצות <span>\( A\times B \)</span> מתבצעת עם <strong>אקסיומת הזיווג</strong> שיחד עם <strong>אקסיומת האיחוד</strong> בונה את <span>\( A\cup B \)</span>, שתי הפעלות של <strong>אקסיומת קבוצת החזקה</strong> שנותנות את <span>\( \mathcal{P}\mathcal{P}\left(A\cup B\right) \)</span> ולסיום הפעלה של <strong>אקסיומת ההפרדה</strong> ששולפת מהסמטוחה הזו את האיברים מהצורה <span>\( \left(a,b\right)\triangleq\left\{ \left\{ a\right\} ,\left\{ a,b\right\} \right\} \)</span> כך ש-<span>\( a\in A,b\in B \)</span>).</p>
<p><span>\( \hat{\tau} \)</span> הוא שם-<span>\( P \)</span> באופן טריוויאלי למדי: כל אבריו הם על פי הגדרה מהצורה <span>\( \left(\sigma,p\right) \)</span>, ואם <span>\( \left(\sigma,p\right)\in\hat{\tau} \)</span> ו-<span>\( p\subseteq q \)</span> אז כמובן שגם <span>\( \left(\sigma,q\right)\in\hat{\tau} \)</span> כי <strong>לכל</strong> איבר של <span>\( P \)</span> יהיה לנו אותו כזוג עם <span>\( \sigma \)</span> ב-<span>\( \hat{\tau} \)</span>. אם כן, כל מה שנותר להראות הוא ש-<span>\( \hat{\tau}^{G} \)</span> הוא אכן קבוצת כל תתי-הקבוצות של <span>\( \tau^{G} \)</span> ב-<span>\( \mathcal{M}\left[G\right] \)</span>.</p>
<p>בכיוון אחד, כל איבר של <span>\( \hat{\tau}^{G} \)</span> הוא מהצורה <span>\( \sigma^{G} \)</span> כך ש-<span>\( \sigma\subseteq\tau \)</span>. מכאן שגם <span>\( \sigma^{G}\subseteq\tau^{G} \)</span> כי כל איבר שיהיה שייך ל-<span>\( \sigma^{G} \)</span> התווסף לשם בזכות זוג <span>\( \left(\pi,p\right) \)</span> ששייך גם ל-<span>\( \tau \)</span> (בזכות ההכלה <span>\( \sigma\subseteq\tau \)</span>) ולכן מוסיף את אותו איבר.</p>
<p>הכיוון השני הוא המעניין יותר - אנחנו רוצים להראות ש<strong>כל</strong> תת-קבוצה של <span>\( \tau^{G} \)</span> ששייכת ל-<span>\( \mathcal{M}\left[G\right] \)</span> נמצאת בתוך <span>\( \hat{\tau}^{G} \)</span>. ראשית, כל איבר של <span>\( \mathcal{M}\left[G\right] \)</span> הוא מצורה ספציפית: <span>\( \pi^{G} \)</span> עבור שם <span>\( \pi \)</span> כלשהו. לכן אנחנו מתחילים עם <span>\( \pi^{G}\subseteq\tau^{G} \)</span>. מה שנרצה לעשות הוא למצוא שם <span>\( \pi^{\prime} \)</span> שמגדיר את אותו איבר כמו <span>\( \pi \)</span>, כך שאנחנו יודעים בודאות ש-<span>\( \pi^{\prime} \)</span> מופיע כחלק מ-<span>\( \hat{\tau} \)</span>, כלומר כך שאנחנו יודעים ש-<span>\( \pi^{\prime}\subseteq\tau \)</span>. בשביל הבניה הזו של <span>\( \pi^{\prime} \)</span> שוב נגייס לעזרתנו את מושג הכפיה - הנה למה חיכינו למשפט היסודי בשביל האקסיומה הזו:</p>
<p><span>\( \pi^{\prime}=\left\{ \left(\sigma^{\prime},p\right)\in\tau\ |\ p\Vdash\sigma^{\prime}\in\pi\right\} \)</span></p>
<p>מההגדרה ברור ש-<span>\( \pi^{\prime}\subseteq\tau \)</span>, לכן רק נשאר להראות ש-<span>\( \pi^{G}=\pi^{\prime G} \)</span>, ואת זה נעשה… בהכלה דו כיוונית.</p>
<p>מצד אחד, אם <span>\( \sigma^{\prime G}\in\pi^{\prime}{}^{G} \)</span> זה אומר שקיים <span>\( p\in G \)</span> כך ש-<span>\( \left(\sigma^{\prime},p\right)\in\pi^{\prime} \)</span>, כך ש-<span>\( p\Vdash\sigma^{\prime}\in\pi \)</span>. מכיוון ש-<span>\( p\in G \)</span> יחס הכפיה הזה מלמד אותנו ש-<span>\( \sigma^{\prime G}\in\pi^{G} \)</span>, שזה בדיוק מה שרצינו.</p>
<p>מצד שני, אם <span>\( \sigma^{G}\in\pi^{G} \)</span>, אז מכיוון ש-<span>\( \pi^{G}\subseteq\tau^{G} \)</span> נקבל <span>\( \sigma^{G}\in\tau^{G} \)</span>, מה שאומר שקיים <span>\( \left(\sigma^{\prime},p_{1}\right)\in\tau \)</span> כך ש-<span>\( p_{1}\in G \)</span> ו-<span>\( \sigma^{\prime G}=\sigma^{G} \)</span>. עכשיו המשפט היסודי נכנס לתמונה: מכיוון שמתקיים השוויון <span>\( \sigma^{\prime G}=\sigma^{G} \)</span>, אז קיים <span>\( p_{2}\in G \)</span> שכופה את <span>\( \sigma^{\prime}=\sigma \)</span>, ואפשר לקחת הרחבה משותפת <span>\( p_{1},p_{2}\subseteq p \)</span> ולקבל <span>\( p\in G \)</span> שמקיים גם <span>\( \left(\sigma^{\prime},p\right)\in\tau \)</span> וגם <span>\( p\Vdash\sigma^{\prime}=\sigma \)</span>.</p>
<p>עכשיו מגיעה נקודה עדינה. כדי להוכיח ש-<span>\( \sigma^{G}\in\pi^{\prime G} \)</span> מספיק להראות רק <span>\( \sigma^{\prime G}\in\pi^{\prime G} \)</span> כי הרי ראינו ש-<span>\( \sigma^{\prime G}=\sigma^{G} \)</span>; אבל כדי להראות <span>\( \sigma^{\prime G}\in\pi^{\prime G} \)</span> צריך להראות שמתקיים הקריטריון <span>\( p\Vdash\sigma^{\prime}\in\pi \)</span>. בפועל כל מה שראינו הוא רק <span>\( p\Vdash\sigma^{\prime}=\sigma \)</span>. לכן בואו נוסיף עוד משהו לתמונה: מכיוון שההנחה הבסיסית שלנו בכיוון הזה הייתה <span>\( \sigma^{G}\in\pi^{G} \)</span>, המשפט היסודי נותן לנו איבר שכופה את <span>\( \sigma\in\pi \)</span>, ואפשר להניח שזה ה-<span>\( p \)</span> שלנו (אחרת שוב ניקח הרחבה משותפת).</p>
<p>אז יש לנו <span>\( p\Vdash\sigma^{\prime}=\sigma \)</span> וגם <span>\( p\Vdash\sigma\in\pi \)</span>, ומשני אלו ניתן להסיק <span>\( p\Vdash\sigma^{\prime}\in\pi \)</span>. פורמלית, כדי להסיק את זה, ניקח <span>\( G^{\prime} \)</span> כלשהו כך ש-<span>\( p\in G^{\prime} \)</span>, אז מ-<span>\( p\Vdash\sigma^{\prime}=\sigma \)</span> נקבל <span>\( \sigma^{\prime G^{\prime}}=\sigma^{G^{\prime}} \)</span> ומ-<span>\( p\Vdash\sigma\in\pi \)</span> נקבל <span>\( \sigma^{G^{\prime}}\in\pi^{G^{\prime}} \)</span>. משילוב של שניהם נקבל <span>\( \sigma^{\prime G^{\prime}}\in\pi^{G^{\prime}} \)</span>, וזה מה שרצינו - הראינו שהשוויון הזה מתקיים בכל אידאל שמכיל את <span>\( p \)</span>, ולכן <span>\( p\Vdash\sigma^{\prime}\in\pi \)</span>, מה שמסיים את ההוכחה של אקסיומת קבוצת החזקה.</p>
<h2>אקסיומת ההחלפה</h2>
<p>אני חייב להודות, מכל האקסיומות, ההחלפה תמיד מבעיתה אותי. אפילו קשה לי עם הניסוח שלה. ראשית, היא וההפרדה הן האקסיומות היחידות שאינן “סתם” אקסיומות אלא <strong>סכמות</strong>, כלומר אינסוף אקסיומות שונות כשכל אקסיומה תלויה בפסוק <span>\( \phi \)</span> כלשהו. שנית, בזמן שאקסיומת ההפרדה קלה לעיכול כי היא בסך הכל אומרת “בואו ניקח תת-קבוצה”, אקסיומת ההחלפה אומרת - מה בעצם? שהפעלה של פונקציה על קבוצה נותנת קבוצה? אבל בלי שהפונקציה באמת תהיה פונקציה אלא תהיה פסוק שמתנהג כמו פונקציה? אבל כל זה הוא סתם פחד אינסטנקטיבי כזה, כי האקסיומה לא באמת כזו גרועה ולא יהיה כזה קשה להוכיח שהיא מתקיימת ב-<span>\( \mathcal{M}\left[G\right] \)</span>.</p>
<p>הנה מה שהאקסיומה אומרת: ראשית, מתחילים עם נוסחה <span>\( \phi\left(u,v,x_{1},\ldots,x_{n}\right) \)</span> שכדאי לחשוב בה על <span>\( u \)</span> בתור “קלט”, על <span>\( v \)</span> בתור “פלט” ועל <span>\( x_{1},\ldots,x_{n} \)</span> בתור “פרמטרים”. עכשיו, ניקח קבוצה כלשהי ב-<span>\( \mathcal{M}\left[G\right] \)</span>, כלומר <span>\( \tau^{G}\in\mathcal{M}\left[G\right] \)</span>, וניקח ערכים <span>\( \tau_{1}^{G},\ldots,\tau_{n}^{G} \)</span> עבור הפרמטרים. לבסוף, נניח שלכל <span>\( x\in\tau^{G} \)</span> קיים ויחיד <span>\( y\in\mathcal{M}\left[G\right] \)</span> כך שהנוסחה <span>\( \phi\left(x,y,\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> היא בעלת ערך אמת - אז במקרה זה, אוסף האיברים שמתקבל מהחלפת כל <span>\( x\in\tau^{G} \)</span> ב-<span>\( y \)</span> המתאים לו על פי הנוסחה הוא קבוצה ששייכת ל-<span>\( \mathcal{M}\left[G\right] \)</span>.</p>
<p>לפני שניגש להוכחה, שאלה: למה בעצם צריך את אקסיומת ההחלפה ואי אפשר פשוט להשתמש באקסיומת ההפרדה כדי להוכיח שהתמונה של <span>\( \phi \)</span> קיימת? הרי התמונה של <span>\( \phi \)</span> היא אוסף של <span>\( y \)</span>-ים שמקיימים את התכונה “קיים <span>\( x \)</span> כך ש-<span>\( \phi\left(x,y,\ldots\right) \)</span> מתקיימת”. זה נראה מתאים להפרדה. העניין הוא שבשביל להשתמש בהפרדה, כל ה-<span>\( y \)</span>-ים הללו צריכים כבר להיות שייכים מראש לקבוצה <strong>קיימת</strong>, ולכן זה לא עוזר לנו כשאנחנו רוצים ללכת באומץ להיכן שאף קבוצה עוד לא הגיעה. למשל, כשבונים את <span>\( 2\cdot\omega=\left\{ 0,1,2,3,\ldots,\omega,\omega+1,\omega+2,\omega+3,\ldots\right\} \)</span> צריך להשתמש בהחלפה כדי לקבל מהקבוצה <span>\( \omega=\left\{ 0,1,2,3,\ldots\right\} \)</span> את הקבוצה <span>\( \left\{ \omega,\omega+1,\omega+2,\omega+3,\ldots\right\} \)</span>. אין דרך להשתמש בהפרדה, כי בשלב הזה אין לנו שום קבוצה שמכילה את <span>\( 2\cdot\omega \)</span> (באופן מעניין, גם בלי החלפה יש לנו די והותר קבוצות כדי לפתח בהן את רוב המתמטיקה הרגילה, ויש גם כל מני הצעות לגישות אלטרנטיביות לתורת הקבוצות שמוותרות לגמרי על החלפה אבל לא ניכנס לזה).</p>
<p>העניין הוא שעכשיו במקרה שלנו, כשאנחנו מניחים מראש שיש החלפה ב-<span>\( \mathcal{M} \)</span> ורק צריכים להראות שיש החלפה גם ב-<span>\( \mathcal{M}\left[G\right] \)</span>, אנחנו <strong>כן נוכל</strong> להשתמש בהפרדה (ולפני רגע אכן הוכחנו שיש הפרדה ב-<span>\( \mathcal{M}\left[G\right] \)</span>). עיקר העבודה שלנו יהיה, אם כן, להראות איך מוצאים את הקבוצה ש<strong>בתוכה</strong> נבצע את ההפרדה כדי לקבל את התמונה של <span>\( \phi \)</span>.</p>
<p>זה הזמן להיזכר שדיברתי <a href="https://gadial.net/2023/01/18/classes_and_transfinite/">בפוסט מוקדם יותר</a> על משהו שנקרא <strong>ההיררכייה המצטברת</strong>, <span>\( V_{0},V_{1},V_{2},\ldots \)</span>, שהייתה דרך לסדר באופן היררכי את כל הקבוצות הקיימות. ההגדרה שבה השתמשנו הייתה <span>\( V_{\alpha}=\mathcal{P}\left(\bigcup_{\beta<\alpha}V_{\beta}\right) \)</span> - הגדרה שדורשת בפני עצמה את אקסיומת ההחלפה.</p>
<p>עכשיו, מה שמעניין אותנו הוא לא כל היקום של תורת הקבוצות - רק החלק שלו ששייך ל-<span>\( \mathcal{M}\left[G\right] \)</span>. נגדיר את החלק הזה בצורה פורמלית כך: לכל סודר <span>\( \alpha\in\mathcal{M} \)</span> נגדיר <span>\( \tilde{V}_{\alpha}=\left\{ \sigma^{G}\ |\ \sigma\in N_{\alpha}\right\} \)</span> כאשר <span>\( N_{\alpha} \)</span> היא קבוצת כל שמות ה-<span>\( P \)</span> מדרגה <span>\( \alpha \)</span> (זו קבוצה שראינו שאפשר להגדיר במסגרת <span>\( \mathcal{M} \)</span>). לא קשה לראות שמתקיים <span>\( \tilde{V}_{\alpha}=\mathcal{P}\left(\bigcup_{\beta<\alpha}\tilde{V}_{\beta}\right)\cap\mathcal{M}\left[G\right] \)</span> לכל סודר <span>\( \alpha\in\mathcal{M} \)</span>; מה שנחמד הוא שנראה את זה עם אקסיומת קבוצת החזקה שהוכחנו ממש עכשיו.</p>
<p>הרעיון הוא כזה: לכל סודר <span>\( \alpha\in\mathcal{M} \)</span> נגדיר <span>\( \tau_{\alpha}=\left\{ \left(\sigma,p\right)\ |\ \sigma\in N_{\alpha}\wedge p\in P\right\} \)</span>. עכשיו, ברור ש-<span>\( \tau_{\alpha}^{G}=\tilde{V}_{\alpha} \)</span> כי ב-<span>\( \tau_{\alpha}^{G} \)</span> יש את <strong>כל</strong> ה-<span>\( \sigma\in N_{\alpha} \)</span> כשהם מתוייגים על ידי <strong>כל</strong> האיברים של <span>\( P \)</span> ובפרט על ידי איברים של <span>\( G \)</span>. עכשיו, בואו נגדיר קבוצה חדשה של שמות, <span>\( \tau_{<\alpha}=\bigcup_{\beta<\alpha}\tau_{\beta} \)</span>. כזכור, כשהוכחתי את אקסיומת קבוצת החזקה אז לכל שם <span>\( \tau \)</span> השתמשתי בסימון <span>\( \hat{\tau}=\left\{ \left(\sigma,p\right)\ |\ \sigma\subseteq\tau,p\in P\right\} \)</span>; במקרה שלנו כשזה יופעל על <span>\( \tau_{<\alpha} \)</span> נקבל <span>\( \hat{\tau}_{<\alpha}=\left\{ \left(\sigma,p\right)\ |\ \sigma\subseteq\tau_{<\alpha},p\in P\right\} \)</span>. עוד מעט אראה ש-<span>\( \tau_{\alpha}=\hat{\tau}_{<\alpha} \)</span>, מה שיוביל לכך ש-<span>\( \tilde{V}_{\alpha}=\tau_{\alpha}^{G}=\hat{\tau}_{<\alpha}^{G}=\mathcal{P}\left(\tau_{<\alpha}^{G}\right)\cap\mathcal{M}\left[G\right] \)</span> כאשר המעבר האחרון נובע ממה שהוכחנו עבור אקסיומת קבוצת החזקה. מכיוון ש-<span>\( \tau_{<\alpha}=\bigcup_{\beta<\alpha}\tau_{\beta} \)</span> אז <span>\( \tau_{<\alpha}^{G}=\bigcup_{\beta<\alpha}\tau_{\beta}^{G}=\bigcup_{\beta<\alpha}\tilde{V}_{\beta} \)</span> ולכן קיבלנו בסוף שרשרת הגרירות את <span>\( \tilde{V}_{\alpha}=\mathcal{P}\left(\bigcup_{\beta<\alpha}\tilde{V}_{\beta}\right)\cap\mathcal{M}\left[G\right] \)</span> המבוקש.</p>
<p>נעבור להוכיח שאכן <span>\( \tau_{\alpha}=\hat{\tau}_{<\alpha} \)</span>, מה שיהיה טיפה טכני ומעצבן אז אפשר לדלג. אנחנו מוכיחים בהכלה דו כיוונית. <span>\( \left(\sigma,p\right)\in\hat{\tau}_{<\alpha} \)</span> אם ורק אם <span>\( \sigma\subseteq\tau_{<\alpha} \)</span>, מה שמתקיים אם ורק אם לכל <span>\( \left(\sigma^{\prime},q\right)\in\sigma \)</span> קיים <span>\( \beta<\alpha \)</span> כך ש-<span>\( \sigma^{\prime}\in N_{\beta} \)</span>, מה שקורה אם ורק אם <span>\( \sigma\in N_{\alpha} \)</span>, וזה קורה אם ורק אם <span>\( \left(\sigma,p\right)\in\tau_{\alpha} \)</span>.</p>
<p>למה “לכל <span>\( \left(\sigma^{\prime},q\right)\in\sigma \)</span> קיים <span>\( \beta<\alpha \)</span> כך ש-<span>\( \sigma^{\prime}\in N_{\beta} \)</span>” שקול אל “<span>\( \sigma\in N_{\alpha} \)</span>”? ובכן, כי כך שמות-<span>\( P \)</span> הוגדרו מלכתחילה. ב-<span>\( N_{\alpha} \)</span> יש את <strong>כל</strong> שמות ה-<span>\( P \)</span> שניתן לבנות במסגרת <span>\( \mathcal{M} \)</span> כך שכל השמות שמופיעים בתוכם הם מתוך קבוצות ברמה נמוכה יותר בהיררכיית ה-<span>\( N \)</span>-ים.</p>
<p>עכשיו, כשיש לנו גרסה של ההירכייה המצטברת עבור <span>\( \mathcal{M}\left[G\right] \)</span>, אפשר לחזור להוכחת אקסיומת ההחלפה. אמרתי שהרעיון הוא שבהינתן <span>\( \tau^{G} \)</span> והנוסחה <span>\( \phi\left(u,v,\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>, אני אראה שאוסף ה-<span>\( v \)</span>-ים שמתאים ל-<span>\( u\in\tau^{G} \)</span> הוא תת-קבוצה של איזו שהיא קבוצה <span>\( \tilde{V}_{\alpha} \)</span> בהיררכייה, ואז אקסיומת ההפרדה תראה לי שהאוסף הזה הוא קבוצה. אם כן, אני רק צריך למצוא <span>\( \alpha \)</span> מתאים ולהוכיח שכל <span>\( v \)</span> אכן שייך אליו. אבל למה שיהיה <span>\( \alpha \)</span> כזה?</p>
<p>אפשר להגיד - בואו ניקח את כל ה-<span>\( v \)</span>-ים הללו. לכל <span>\( v \)</span> כזה <strong>קיים</strong> איבר <span>\( \tilde{V}_{\beta} \)</span> בהיררכייה ש-<span>\( v \)</span> שייך אליו. אז ניקח את כל ה-<span>\( \beta \)</span> הללו, זו קבוצה של סודרים; לקבוצה <span>\( X \)</span> של סודרים יש סופרמום <span>\( \sup X \)</span>, כלומר איבר קטן ביותר שגדול או שווה לכולם. הקיום של סופרמום כזה מובטח מאקסיומת האיחוד, כי לא קשה לראות ש-<span>\( \sup X=\bigcup X \)</span>. אלא שאנחנו לא יכולים להשתמש בזה כאן, כי אין לנו <strong>קבוצה</strong> <span>\( X \)</span>. את אוסף הסודרים שלנו קיבלנו בתהליך הבא: לוקחים <span>\( u \)</span> מהקבוצה <span>\( \tau^{G} \)</span>, מחליפים אותו ב-<span>\( v \)</span> שמתאים לו על פי <span>\( \phi \)</span>, ואת <span>\( v \)</span> מחליפים בסודר שמתאים לו - אנחנו משתמשים כאן באקסיומת ההחלפה, שהיא בדיוק מה שאנחנו באים להוכיח. אז צריך לעשות משהו שונה - לא לעבוד ישירות בתוך <span>\( \mathcal{M}\left[G\right] \)</span> עם פעולות על הקבוצה <span>\( \tau^{G} \)</span> אלא לעבוד בתוך <span>\( \mathcal{M} \)</span> (שכבר ידוע שמקיים את אקסיומת ההחלפה) עם פעולות על השם <span>\( \tau \)</span>.</p>
<p>אז לכל <span>\( \left(\sigma,p\right)\in\tau \)</span> נגדיר סודר, ונגדיר אותו בצורה שמכריחה את ה-<span>\( v \)</span> שמתאים ל-<span>\( \sigma \)</span> להיות בדרגה של הסודר הזה, וכשאני אומר “מכריחה” אני מתכוון “כופה”, כי שוב אנחנו הולכים להשתמש במושג המועיל הזה. ספציפית, נסמן ב-<span>\( \alpha_{\sigma,p} \)</span> את הסודר המינימלי ב-<span>\( \mathcal{M} \)</span> שעבורו <span>\( p\Vdash\left(\sigma,\pi,\tau_{1},\ldots,\tau_{n}\right) \)</span> עבור <span>\( \pi\in N_{\alpha_{\sigma,p}} \)</span>, בהנחה שסודר כזה קיים בכלל. עכשיו נשתמש באקסיומת ההחלפה שמתקיימת ב-<span>\( \mathcal{M} \)</span> כדי להחליף את אברי <span>\( \tau \)</span> בסודרים שמתאימים להם, נקבל קבוצה של סודרים ונסמן את הסופרמום שלה ב-<span>\( \alpha \)</span>. מכיוון ש-<span>\( \mathcal{M} \)</span> מקיימת את כל ZFC, בפרט הסופרמום הזה שייך ל-<span>\( \mathcal{M} \)</span> גם כן. כל מה שנשאר עכשיו הוא להראות ש-<span>\( \tilde{V}_{\alpha} \)</span> אכן מכילה את כל האיברים שאנחנו צריכים.</p>
<p>אם כן, ניקח <span>\( u\in\tau^{G} \)</span> כלשהו. קיים <span>\( v\in\mathcal{M}\left[G\right] \)</span> ייחודי כך ש-<span>\( \phi\left(u,v,\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> מתקיימת, ואנחנו רוצים להראות ש-<span>\( v\in\tilde{V}_{\alpha}=\left\{ \sigma^{G}\ |\ \sigma\in N_{\alpha}\right\} \)</span>, כלומר להראות ש-<span>\( v \)</span> התקבל על ידי מתן ערך ב-<span>\( G \)</span> לאיזה שהוא שם-<span>\( P \)</span> מדרגה <span>\( \alpha \)</span> לכל היותר.</p>
<p>מכיוון ש-<span>\( u\in\tau^{G} \)</span> אנחנו יודעים ש-<span>\( u=\sigma^{G} \)</span> עבור <span>\( \left(\sigma,p\right)\in\tau \)</span> כלשהו, כך ש-<span>\( p\in G \)</span>. אנחנו גם יודעים ש-<span>\( v=\pi^{G} \)</span> עבור שם <span>\( \pi \)</span> כלשהו. כלומר, הנוסחה <span>\( \phi\left(\sigma^{G},\pi^{G},\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> מתקיימת ב-<span>\( G \)</span>, ועל פי המשפט היסודי של תורת הכפיה זה אומר שקיים <span>\( p^{\prime}\in G \)</span> כלשהו כך ש-<span>\( p^{\prime}\Vdash\left(\sigma,\pi,\tau_{1},\ldots,\tau_{n}\right) \)</span>. כרגיל, ניקח הרחבה משותפת של <span>\( p,p^{\prime} \)</span> ונקבל איבר <span>\( q \)</span> שגם כופה את <span>\( \left(\sigma,\pi,\tau_{1},\ldots,\tau_{n}\right) \)</span> וגם <span>\( \left(\sigma,q\right)\in\tau \)</span>.</p>
<p>עכשיו, לכל <span>\( \left(\sigma,q\right) \)</span> התאמנו כזכור <span>\( \alpha_{\sigma,q} \)</span> שהיה הסודר המינימלי שעבורו קיים <span>\( \pi^{\prime}\in N_{\alpha_{\sigma,q}} \)</span> כך ש-<span>\( q\Vdash\left(\sigma,\pi^{\prime},\tau_{1},\ldots,\tau_{n}\right) \)</span>. זה הוגדר רק בתנאי שבכלל קיים סודר כזה, כלומר בכלל קיים <span>\( \pi^{\prime} \)</span> <strong>כלשהו</strong> כך ש-<span>\( q\Vdash\left(\sigma,\pi^{\prime},\tau_{1},\ldots,\tau_{n}\right) \)</span>. במקרה שלנו, כבר ראינו שקיים איבר כזה - <span>\( \pi \)</span> (את זה ראינו בעזרת המשפט היסודי). אם כן, <span>\( q \)</span> כופה גם את <span>\( \left(\sigma,\pi,\tau_{1},\ldots,\tau_{n}\right) \)</span> וגם את <span>\( \left(\sigma,\pi^{\prime},\tau_{1},\ldots,\tau_{n}\right) \)</span>, כלומר ב-<span>\( G \)</span> גם <span>\( \pi^{G} \)</span> וגם <span>\( \pi^{\prime G} \)</span> יתאימו לאיבר <span>\( u=\sigma^{G} \)</span> על פי <span>\( \phi \)</span>. אבל כזכור, הדרישה שלנו מהאקסיומה הייתה שההתאמה ל-<span>\( u \)</span> תהיה <strong>יחידה</strong>, מה שאומר ש-<span>\( \pi^{G}=\pi^{\prime G} \)</span>, ואנחנו יודעים ש-<span>\( \pi^{\prime G} \)</span> התקבל על ידי מתן ערך ב-<span>\( G \)</span> לשם-<span>\( P \)</span> מדרגה <span>\( \alpha \)</span> לכל היותר, כי <span>\( \pi^{\prime}\in N_{\alpha_{\sigma,q}} \)</span> ו-<span>\( \alpha \)</span> הוא הסופרמום של קבוצה שכוללת את <span>\( \alpha_{\sigma,q} \)</span>. המסקנה: <span>\( v=\pi^{G}=\pi^{\prime G}\in\tilde{V}_{\alpha} \)</span>, וזה מה שרצינו להראות. עכשיו אקסיומת ההפרדה מסיימת את העבודה בשבילנו.</p>
<h2>אקסיומת הבחירה</h2>
<p>זהו, נשארה רק אקסיומה אחת כדי לסיים להוכיח ש-<span>\( \mathcal{M}\left[G\right] \)</span> מקיימת את ZFC! בשביל אקסיומת הבחירה אנחנו הולכים “לרמות” טיפה ולהוכיח במקומה את <strong>עקרון הסדר הטוב</strong>: לכל <span>\( \tau^{G}\in\mathcal{M}\left[G\right] \)</span> קיים סדר טוב על אברי <span>\( \tau^{G} \)</span>. זה גורר את אקסיומת הבחירה, כי בהינתן אוסף של קבוצות אפשר לבנות עבורו פונקציית בחירה באופן הבא: לקחת את האיחוד של הקבוצות, לסדר את האיחוד הזה בסדר טוב, ואז לכל קבוצה להגדיר שהפונקציה תחזיר עליה את האיבר המינימלי מבין קבוצת האיברים באיחוד ששייך אליה.</p>
<p>אני הולך לעשות כמו הספר של Weaver ובעיקר לנפנף בידיים עכשיו, אבל מותר לנו לנפנף בידיים כי עד עכשיו הוכחנו ש-<span>\( \mathcal{M}\left[G\right] \)</span> מקיימת את ZF, כלומר אפשר לעשות בה כל מה שעושים במתמטיקה “רגילה” חוץ מאותם דברים שדורשים את אקסיומת הבחירה (רוב המתמטיקה הרגילה לא דורשת אותה).</p>
<p>אני אזדקק לבניה אחת שמערבת שמות-<span>\( P \)</span>: בניה של זוג סדור. בשביל זה בואו ניזכר מה קרה כשרציתי להוכיח את אקסיומת הזיווג: היו לנו שני שמות <span>\( \tau_{1},\tau_{2} \)</span> ובניתי שם חדש <span>\( \tau_{\left\{ 1,2\right\} } \)</span> שקיים <span>\( \tau_{\left\{ 1,2\right\} }^{G}=\left\{ \tau_{1}^{G},\tau_{2}^{G}\right\} \)</span>: עשיתי את זה על ידי ההגדרה <span>\( \tau_{\left\{ 1,2\right\} }=\left\{ \left(\sigma,p\right)\ |\left(\sigma=\tau_{1}\vee\sigma=\tau_{2}\right)\wedge p\in P\right\} \)</span>. עכשיו, אני רוצה לעשות משהו דומה עבור <strong>זוג סדור</strong>, כלומר לבנות <span>\( \tau_{\left(1,2\right)} \)</span> כך ש-<span>\( \tau_{\left(1,2\right)}^{G}=\left(\tau_{1}^{G},\tau_{2}^{G}\right) \)</span>.</p>
<p>כזכור, זוג סדור הוגדר אצלנו בצורה הזו: <span>\( \left(a,b\right)=\left\{ \left\{ a\right\} ,\left\{ a,b\right\} \right\} =\left\{ \left\{ a,a\right\} ,\left\{ a,b\right\} \right\} \)</span>. זה מראה שאפשר לבנות זוג סדור על ידי שלוש “הפעלות” של בניית זוג לא סדור. לכן הנה הרעיון: נגדיר <span>\( \sigma_{1}=\tau_{\left\{ 1,1\right\} },\sigma_{2}=\tau_{\left\{ 1,2\right\} } \)</span> ואז <span>\( \tau_{\left(1,2\right)}=\sigma_{\left\{ 1,2\right\} } \)</span>. די פשוט. כדי לחסוך לעצמי כאב ראש בסימונים אני אסמן ב-<span>\( \text{op}\left(\tau,\sigma\right) \)</span> את השם שמייצג את הזוג הסודר של <span>\( \tau,\sigma \)</span>, עכשיו כשראינו איך בונים אותו.</p>
<p>עוד דבר שנזדקק לו הוא העובדה שלכל איבר של <span>\( x\in\mathcal{M} \)</span> קיים שם <span>\( \check{x}\in\mathcal{M} \)</span> שנותן אותו ב-<span>\( \mathcal{M}\left[G\right] \)</span>, דהיינו <span>\( \check{x}^{G}=x \)</span> (לא אחזור על הבניה שלו)</p>
<p>אם כן, ניקח <span>\( \tau^{G}\in\mathcal{M}\left[G\right] \)</span> שאני רוצה לסדר בסדר טוב, ועכשיו נגדיר קבוצה</p>
<p><span>\( \left\{ \left(\text{op}\left(\check{\left(\sigma,p\right)},\sigma\right),p\right)\ |\ \left(\sigma,p\right)\in\tau\right\} \)</span></p>
<p>מה יש לנו פה? לכל <span>\( \left(\sigma,p\right)\in\tau \)</span> אנחנו בונים זוג סדור שהאיבר הראשון שלו הוא הקידוד של <span>\( \left(\sigma,p\right) \)</span> בתור שם, והאיבר השני שלו הוא רק <span>\( \sigma \)</span>, כשלכל זה מוצמדת התגית <span>\( p \)</span>. כל התפלץ הזה הוא עצמו שם-<span>\( P \)</span> כי אם <span>\( p\subseteq q \)</span> אנחנו יודעים ש-<span>\( \left(\sigma,q\right)\in\tau \)</span> (מכיוון ש-<span>\( \tau \)</span> הוא שם) ולכן <span>\( q \)</span> עם כל התפלץ גם יהיה במה שבנינו.</p>
<p>כשניקח את השם שבנינו ונציב לו ערך בעזרת <span>\( G \)</span>, מה נקבל? רק תיוגים עם <span>\( p\in G \)</span> יישארו בקבוצה, ועבורם <span>\( \text{op}\left(\check{\left(\sigma,p\right)},\sigma\right) \)</span> הולך להתפרש אל <span>\( \left(\left(\sigma,p\right),\sigma^{G}\right) \)</span>. על אוסף הזוגות הזה אפשר לחשוב בתור פונקציה <span>\( f \)</span> מתת-קבוצה של <span>\( \tau \)</span> (שכוללת את אותם זוגות שבהם התיוג נלקח מתוך <span>\( G \)</span>) שהיא <strong>על </strong><span>\( \tau^{G} \)</span> (כלומר, כל איבר ב-<span>\( \tau^{G} \)</span> מתקבל כפלט של הפונקציה). זה מאפשר לנו לבנות פונקציה בכיוון הנגדי: <span>\( g:\tau^{G}\to\tau \)</span> שמוגדרת כך ש-<span>\( g\left(y\right)=\min\left\{ x\in\tau\ |\ f\left(x\right)=y\right\} \)</span>. כדי שיהיה הגיון בהגדרה הזו צריך ש-<span>\( \tau \)</span> תהיה מסודרת בסדר טוב שיאפשר לקחת מינימום לכל תת-קבוצה; אבל הרי <span>\( \tau \)</span> היא איבר של <span>\( \mathcal{M} \)</span> ויש לנו כבר את אקסיומת הבחירה עבור <span>\( \mathcal{M} \)</span>, אז זה ניתן לביצוע.</p>
<p>אם כן, קיבלנו פונקציה חח”ע <span>\( g:\tau^{G}\to\tau \)</span>, מה שנקרא <strong>שיכון</strong> במתמטית. מה שנחמד בשיכונים הוא שהם מאפשרים לקחת את המבנה של הקבוצה בטווח של הפונקציה ולהחיל אותו על הקבוצה שבתחום: דהיינו, ניקח את הסדר הטוב על <span>\( \tau \)</span> ונשרה אותו על <span>\( \tau^{G} \)</span> על ידי כך ש-<span>\( y_{1}\le y_{2}\iff g\left(y_{1}\right)\le g\left(y_{2}\right) \)</span>. זה יסדר גם את <span>\( \tau^{G} \)</span> בסדר טוב, וסיימנו להוכיח שאקסיומת הבחירה מתקיימת עבור <span>\( \mathcal{M}\left[G\right] \)</span>!</p>
<h2>סיכום הביניים המסורתי</h2>
<p>אוקיי, אז איפה אנחנו עומדים עכשיו? המצב די טוב: סיימנו את <strong>כל</strong> עבודת ההכנה שנדרשה לנו. כל המנגנון של תורת הכפייה כבר קיים בשלמותו, רק נותר ליישם אותו פעמיים: פעם אחת כדי להראות שהשערת הרצף עקבית עם ZFC, ופעם אחת כדי להראות ששלילת השערת הרצף עקבית עם ZFC.</p>
<p>בואו נראה שוב מה המסלול שעברנו:</p>
<ul> <li>בניית "יקום מתמטי זעיר" <span>\( \mathcal{M} \)</span> שבו ZFC מתקיימת (במובן מסוים, עם הסתייגויות טכניות) למרות שזה יקום בגודל של צעצוע.</li>
<li>הכנסת מושגים של "תנאי כפייה" <span>\( P \)</span> ו"אידאל גנרי" <span>\( G \)</span> שבאים לתאר בניות חלקיות של הדבר שאנחנו רוצים להוסיף ל-<span>\( \mathcal{M} \)</span> כדי שהטענה שאנו רוצים להראות את העקביות שלה תתקיים בתוך ההרחבה של <span>\( \mathcal{M} \)</span>.</li>
<li>הגדרה של האופן שבו ההרחבה <span>\( \mathcal{M}\left[G\right] \)</span> הזו נבנית: אוסף של שמות-<span>\( P \)</span> שנבנים בתוך <span>\( \mathcal{M} \)</span>, ואז נתינת ערך להם באמצעות <span>\( G \)</span> שמוציאה אותנו מגבולות <span>\( \mathcal{M} \)</span>.</li>
<li>הוכחה שכל ZFC מתקיימת גם ב-<span>\( \mathcal{M}\left[G\right] \)</span>, תוך שימוש אינטנסיבי במשפט היסודי שמראה לנו שאם פסוק מתקיים ב-<span>\( \mathcal{M}\left[G\right] \)</span> מסוים, אז קיים ב-<span>\( G \)</span> איבר בודד שכופה שהפסוק יתקיים בכל הרחבה על ידי אידאל שמכיל אותו.</li>
</ul>
<p>היה פה לא מעט לעכל, אבל זה הולך להשתלם עכשיו - עדיין נזדקק לעבודה כדי להבין את מה שהולך להגיע, אבל רוב הקושי הטכני מאחורינו ואנחנו כמעט שם.</p>מבואבעקבות השערת הרצף, חלק ח’: המשפט היסודי של תורת הכפיה (המקרה הכללי)2023-07-29T00:00:00+00:002023-07-29T00:00:00+00:00http://gadial.net/2023/07/29/continuum_hypothesis_forcing_fundemental_theorem_second_part<h2>מבוא</h2>
<p>בפוסט הקודם הצגתי את המשפט היסודי של תורת הכפיה והוכחתי מקרה פרטי אחד שלו, המסובך ביותר, שיהווה בסיס ליתר ההוכחה. הפעם נתחיל מלסיים את כל ההוכחה, אבל כמובן שכדאי להיזכר על מה בעצם אנחנו מדברים.</p>
<p>כזכור, יש לנו “יקום מתמטי זעיר” <span>\( \mathcal{M} \)</span> שהוא קבוצה בת מניה וטרנזיטיבית שאפשר להניח עליה (במובן ניואנסי מסוים שכבר חפרתי עליו בעבר) שמקיימת את אקסיומות ZFC. על היקום הזה אנחנו מלבישים קבוצה של “תנאי כפייה” <span>\( P\in\mathcal{M} \)</span> שנבחרים בהתאם למטרה הספציפית שאנחנו רוצים להשיג, אבל בינתיים אנחנו מתייחסים אליהם באופן כללי. עכשיו, בהינתן <span>\( P \)</span> אפשר לבנות קבוצה כלשהי <span>\( G\subseteq P \)</span> שנקראת <strong>אידאל גנרי</strong> שיש לה מבנה עשיר מסוים שאנחנו רוצים להוסיף אל <span>\( \mathcal{M} \)</span>. הראינו איך לעשות את זה - לבנות קבוצה חדשה <span>\( \mathcal{M}\left[G\right] \)</span> בתהליך דו-שלבי שבו ראשית בנינו באופן בלתי תלוי ב-<span>\( G \)</span> קבוצה של איברים של <span>\( \mathcal{M} \)</span> שנקראו “שמות-<span>\( P \)</span>”; ושנית, הראינו דרך בהינתן שם-<span>\( P \)</span> <span>\( \sigma \)</span> לקבל ממנו קבוצה <span>\( \sigma^{G} \)</span> באופן שבו <span>\( G \)</span> “מסננת” איברים מיותרים מתוך <span>\( \sigma \)</span>. כל זה התרחש עוד לפני הפוסט האחרון.</p>
<p>בפוסט האחרון התחלנו להתעסק בשאלה “איזה תכונות היקום <span>\( \mathcal{M}\left[G\right] \)</span> מקיים, וחשוב מכך - <strong>למה</strong> הוא מקיים אותן?” וטענו טענה שהיא די מרחיקת לכת, אפילו אם לא לגמרי ברור עד כמה - שאם נוסחה <span>\( \phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> כלשהי (שמורכבת מנוסחה לוגית <span>\( \phi \)</span> ומשמות-<span>\( P \)</span> <span>\( \tau_{1},\ldots\tau_{n} \)</span> שהוצבו בתוך המשתנים החופשיים שלה) מתקיימת עבור <span>\( \mathcal{M}\left[G\right] \)</span> <strong>כלשהו</strong> (כלומר <span>\( \phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> הוא בעל ערך “אמת”), אז ה”סיבה” לכך שהנוסחה התקיימה היא איבר אחד ויחיד <span>\( p\in G \)</span>. מה זאת אומרת? זה אומר ש<strong>לכל אידאל גנרי</strong> <span>\( G^{\prime} \)</span>, אם <span>\( p\in G^{\prime} \)</span> אז <span>\( \phi\left(\tau_{1}^{G^{\prime}},\ldots,\tau_{n}^{G^{\prime}}\right) \)</span>. מתקיימת. על סיטואציה כזו אמרנו ש-<span>\( p \)</span> <strong>כופה</strong> את <span>\( \phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> וסימנו את זה בתור <span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>.</p>
<p>אז שוב, כדי לחדד, הנה המשפט שאנחנו רוצים להוכיח: שעבור אידאל גנרי <span>\( G \)</span> מתקיים <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> אם ורק אם קיים <span>\( p\in G \)</span> כך ש- <span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>.</p>
<p>עד כה, מה שעשינו היה להוכיח את המשפט עבור <span>\( \phi \)</span> שהיא הנוסחה <span>\( x_{1}=x_{2} \)</span>. מן הסתם לא אחזור על כל ההוכחה, אבל <strong>כן אחזור</strong> בקצרה על החלקים ממנה שיהיו רלוונטיים אלינו כי ההוכחה הכללית דומה להם מאוד, רק שאפשר לנפנף בידיים יותר בקלות.</p>
<p>הרעיון הבסיסי הוא לבנות במפורש את ה<strong>יחס</strong> <span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> בעזרת אוסף של קבוצות. יחס כזה הוא אוסף של <span>\( n+1 \)</span>-יות, <span>\( \left(p,\tau_{1},\ldots,\tau_{n}\right) \)</span>. עכשיו, על שמות ה-<span>\( P \)</span> מוגדרת באופן טבעי היררכייה: כשבנינו אותם, עשינו את זה באמצעות סדרה של קבוצות <span>\( N_{0},N_{1},N_{2},\ldots \)</span> שמאונדקסת על ידי כל הסודרים שיש ב-<span>\( \mathcal{M} \)</span>, כך שהאיברים של כל שם-<span>\( P \)</span> נבנים בעזרת שמות-<span>\( P \)</span> קדומים יותר בהיררכייה. אז עכשיו אנחנו מגדירים <span>\( \mathcal{F}_{\alpha}^{\phi} \)</span> עבור סודר <span>\( \alpha\in\mathcal{M} \)</span> בתור אוסף כל ה-<span>\( n+1 \)</span>-יות <span>\( \left(p,\tau_{1},\ldots,\tau_{n}\right) \)</span> עבורן <span>\( \tau_{1},\ldots,\tau_{n} \)</span> כולם שייכים ל-<span>\( N_{\alpha} \)</span>, והן מקיימות <strong>תכונה מעניינת</strong> שתלויה ב-<span>\( \phi \)</span> ואיכשהו תוביל לכך שה-<span>\( n+1 \)</span>-יות הללו אכן מקודדות את <span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>.</p>
<p>בפוסט הקודם ראינו <span>\( \mathcal{F} \)</span> כאלו עבור יחס השוויון, וה”תכונה מעניינת” המדוברת הייתה מסובכת למדי. למזלנו, הפעם התכונה תהיה פשוטה הרבה יותר כי יש לנו בסיס אינדוקטיבי להסתמך עליו.</p>
<p>קדימה לעבודה.</p>
<h2>אנו נזכרים איך בונים נוסחאות ואיך הוכחנו את המשפט היסודי בפעם הקודמת</h2>
<p>מה זו בעצם “נוסחה”? ראינו את זה בסדרת הפוסטים הזו, אבל למה לא לחזור על זה שוב. אני מדבר פה על נוסחאות בהקשר הספציפי של תורת הקבוצות, כי בלוגיקה מסדר ראשון כללית זה מושג יותר מורכב.</p>
<p>נוסחה בנויה מ<strong>משתנים</strong> <span>\( x_{1},x_{2},x_{3},\ldots \)</span> ומכל מני סימנים לוגיים שתכף נראה. היא תמיד תהיה בסופו של דבר סדרה סופית של סימבולים, אבל עם מבנה בעל משמעות מסוים. שני סוגי הנוסחאות הפשוטים ביותר הם <span>\( x_{1}=x_{2} \)</span> ו-<span>\( x_{1}\in x_{2} \)</span>; הנוסחאות הללו נקראות <strong>נוסחאות אטומיות</strong>. כל נוסחה שאינה אטומית נבנית מתוך נוסחאות פשוטות ביותר <span>\( \varphi,\psi \)</span> באופן הבא: גם <span>\( \neg\psi \)</span> היא נוסחה (שמשמעותה <strong>שלילה</strong> של <span>\( \psi \)</span>), וגם <span>\( \varphi\to\psi \)</span> היא נוסחה (שמשמעותה ש-<span>\( \varphi \)</span> <strong>גוררת לוגית</strong> את <span>\( \psi \)</span>), וגם <span>\( \forall x\psi \)</span> היא נוסחה, לכל משתנה <span>\( x \)</span> (שמשמעותה שלכל ערך שנציב ב-<span>\( x \)</span>, הנוסחה <span>\( \psi \)</span> תתקיים).</p>
<p>יש עוד סימנים לוגיים: למשל <span>\( \wedge \)</span> שמייצג “וגם” ו-<span>\( \exists \)</span> שמייצג “קיים”, אבל אפשר לבנות להן נוסחאות שקולות עם הסימנים שכבר ראינו, ולכן כדי לשמור על פשטות אנחנו מסתפקים במה שכבר הצגנו. יש גם עניין עם סוגריים ו”קריאה יחידה” שאני משמיט את הדיבור עליו לגמרי כדי לא לסבך בצורה מיותרת כי בסוף יוצא מזה שמה שאני עושה כרגע הוא בסדר גמור.</p>
<p>עכשיו אפשר להגדיר את הקבוצות <span>\( \mathcal{F}_{\alpha}^{\phi} \)</span> שלנו. עבור <span>\( \phi \)</span> שהוא <span>\( x_{1}=x_{2} \)</span> הגדרנו את זה בפוסט הקודם וקראתי להגדרה <strong>תכונה מעניינת</strong> שהייתה גם מסובכת למדי. עבור יתר המקרים המצב פשוט יותר. אני אסמן את המשתנים החופשיים שמופיעים ב-<span>\( \phi \)</span> בתור <span>\( x_{1},\ldots,x_{n} \)</span>, והאיברים של <span>\( \mathcal{F}_{\alpha}^{\phi} \)</span> יהיו אוסף של <span>\( n+1 \)</span>-יות <span>\( \left(p,\tau_{1},\ldots,\tau_{n}\right) \)</span> כך ש-<span>\( p\in P \)</span> וכל <span>\( \tau_{i} \)</span> הוא שם-<span>\( P \)</span> מתוך <span>\( N_{\alpha} \)</span>, כך ש-<span>\( \left(p,\tau_{1},\ldots,\tau_{n}\right) \)</span> מקיים את התנאי הבא שתלוי במבנה של <span>\( \phi \)</span>:</p>
<ul> <li>אם <span>\( \phi \)</span> מהצורה <span>\( x_{1}\in x_{2} \)</span> אז <span>\( \left\{ q\in P\ |\ \exists\left(\sigma,q\right)\in\tau_{2}:q\Vdash\tau_{1}=\sigma\right\} \)</span> היא <strong>צפופה</strong> מעל <span>\( p \)</span>.</li>
<li>אם <span>\( \phi \)</span> מהצורה <span>\( \neg\psi \)</span> אז <strong>אף הרחבה</strong> של <span>\( p \)</span> לא כופה את <span>\( \psi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>.</li>
<li>אם <span>\( \phi \)</span> מהצורה <span>\( \psi_{1}\to\psi_{2} \)</span> אז כל הרחבה של <span>\( p \)</span> שכופה את <span>\( \psi_{1}\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> היא בעלת הרחבה שכופה את <span>\( \psi_{2}\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>.</li>
<li>אם <span>\( \phi \)</span> מהצורה <span>\( \forall x\psi \)</span> אז לכל שם-<span>\( P \)</span> <span>\( \tau \)</span>, קבוצת ה-<span>\( q \)</span>-ים שכופים את <span>\( \psi\left(\tau,\tau_{1},\ldots,\tau_{n}\right) \)</span> היא <strong>צפופה</strong> מעל <span>\( p \)</span>.</li>
</ul>
<p>יש תחושה של קשר עמום כלשהו בין המבנה של <span>\( \phi \)</span> ובין התנאי שמגדירים, אבל בלי להיכנס להוכחה לא יהיה ברור איך הקשר הזה עובד. אז בואו נדבר על ההוכחה.</p>
<p>עכשיו, איך הלכה ההוכחה עבור <span>\( x_{1}=x_{2} \)</span>? לב ההוכחה היה להגדיר קבוצה <span>\( A\subseteq P \)</span> ולהראות (בערך, אני קצת מרמה) ש-<span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span> גורר ש-<span>\( G\subseteq A \)</span> ואילו אם עבור <span>\( p\in G \)</span> כלשהו, כל ההרחבות של <span>\( p \)</span> שייכות ל-<span>\( A \)</span>, אז <span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span>. ההגדרה של <span>\( A \)</span> הזו הייתה קצת מורכבת ונבעה מאופי <strong>התכונה המעניינת</strong> שהגדירה את ה-<span>\( \mathcal{F}_{\alpha} \)</span> עבור הפסוק <span>\( x_{1}=x_{2} \)</span>; עכשיו גם נגדיר קבוצה <span>\( A \)</span> כזו עבור הפסוק <span>\( \phi \)</span> שלנו אבל היא תהיה פשוטה יותר.</p>
<p>אז אנחנו מגדירים את <span>\( A \)</span> להיות קבוצת כל ה-<span>\( q\in P \)</span> אשר מקיימים:</p>
<ul> <li>אם <span>\( \phi \)</span> מהצורה <span>\( x_{1}\in x_{2} \)</span> אז קיים <span>\( \left(\sigma,q^{\prime}\right)\in\tau_{2} \)</span> כך ש-<span>\( q\subseteq q^{\prime} \)</span> ו-<span>\( q^{\prime} \)</span> כופה את <span>\( \tau_{1}=\sigma \)</span>.</li>
<li>אם <span>\( \phi \)</span> מהצורה <span>\( \neg\psi \)</span> אז <span>\( q \)</span> אינו כופה את <span>\( \psi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span></li>
<li>אם <span>\( \phi \)</span> מהצורה <span>\( \psi_{1}\to\psi_{2} \)</span> אז או ש-<span>\( q \)</span> לא כופה את <span>\( \psi_{1}\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> או שיש ל-<span>\( q \)</span> הרחבה שכופה את <span>\( \psi_{2}\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>.</li>
<li>אם <span>\( \phi \)</span> מהצורה <span>\( \forall x\psi \)</span> אז לכל שם-<span>\( P \)</span> <span>\( \tau \)</span>, קיימת הרחבה של <span>\( q \)</span> שכופה את <span>\( \psi\left(\tau,\tau_{1},\ldots,\tau_{n}\right) \)</span>.</li>
</ul>
<p>ההגדרות הללו של שייכות ל-<span>\( A \)</span> דומות כמובן להגדרה של <span>\( \mathcal{F}_{\alpha}^{\phi} \)</span> שראינו קודם. זה קרה גם בפוסט הקודם: ראינו שם שהתנאי של שייכות ל-<span>\( \mathcal{F}_{\alpha} \)</span> בעצם אומר “לכל הרחבה <span>\( q \)</span> של <span>\( p \)</span>, מתקיים ש-<span>\( q\in A \)</span>”. זה קורה גם עכשיו: <span>\( \left(p,\tau_{1},\ldots,\tau_{n}\right)\in\mathcal{F}_{\alpha}^{\phi} \)</span> אם ורק אם כל הרחבה של <span>\( p \)</span> שייכת ל-<span>\( A \)</span>. בואו נראה את זה, בזהירות.</p>
<p>ראשית, המקרה של <span>\( x_{1}\in x_{2} \)</span>. אם <span>\( \left(p,\tau_{1},\tau_{2}\right)\in\mathcal{F}_{\alpha}^{\phi} \)</span> אז על פי הגדרה הקבוצה <span>\( \left\{ q\in P\ |\ \exists\left(\sigma,q\right)\in\tau_{2}:q\Vdash\tau_{1}=\sigma\right\} \)</span> היא צפופה מעל <span>\( p \)</span>. המשמעות של “צפופה” היא שלכל הרחבה של <span>\( p \)</span> קיימת הרחבה בתוך הקבוצה הזו. אני רוצה להוכיח שכל הרחבה של <span>\( p \)</span> שייכת ל-<span>\( A \)</span>, אז בואו ניקח הרחבה <span>\( p\subseteq q \)</span> שכזו. על פי הגדרת הצפיפות, קיימת ל-<span>\( q \)</span> הרחבה <span>\( q\subseteq q^{\prime} \)</span> בתוך הקבוצה, כלומר קיימים <span>\( \left(\sigma,q^{\prime}\right)\in\tau_{2} \)</span> כך ש-<span>\( q^{\prime}\Vdash\tau_{1}=\sigma \)</span>. זה בדיוק עונה להגדרה של <span>\( A \)</span> (זה כיוון אחד, אבל השני עובד באותה צורה).</p>
<p>עכשיו למקרה של <span>\( \neg\psi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>. אם <span>\( \left(p,\tau_{1},\ldots,\tau_{n}\right)\in\mathcal{F}_{\alpha}^{\phi} \)</span> אז אף הרחבה של <span>\( p \)</span> לא כופה את <span>\( \psi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>. אם ניקח הרחבה <span>\( p\subseteq q \)</span> כזו, מכיוון שהיא לא כופה את <span>\( \psi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> אז <span>\( q\in A \)</span>. זה היה פשוט, מה? אותו דבר קורה גם במקרה של <span>\( \psi_{1}\to\psi_{2} \)</span>. אבל המקרה של <span>\( \forall x\psi \)</span> שוב מערב צפיפות אז בואו נראה אותו במפורש.</p>
<p>אם כן, אני מניח ש-<span>\( \left(p,\tau_{1},\ldots,\tau_{n}\right)\in\mathcal{F}_{\alpha}^{\phi} \)</span> ולוקח הרחבה <span>\( p\subseteq q \)</span>. עכשיו, בהינתן שם <span>\( \tau \)</span> אנחנו רוצים למצוא הרחבה של <span>\( q \)</span> שכופה את <span>\( \psi\left(\tau,\tau_{1},\ldots,\tau_{n}\right) \)</span>. אנחנו משתמשים בכך שקבוצת כל האיברים שכופים את <span>\( \psi\left(\tau,\tau_{1},\ldots,\tau_{n}\right) \)</span> היא <strong>צפופה</strong> מעל <span>\( p \)</span>, כלומר לכל הרחבה של <span>\( p \)</span> (ובפרט <span>\( q \)</span>) יש הרחבה ששייכת לקבוצה הזו - בדיוק מה שאנחנו צריכים. זה האופן שבו מושג ה”צפיפות” משרת אותנו.</p>
<p>אוקיי, אז אם לסכם - היה די קל להראות ש-<span>\( \left(p,\tau_{1},\ldots,\tau_{n}\right)\in\mathcal{F}_{\alpha}^{\phi} \)</span> אם ורק אם כל הרחבה של <span>\( p \)</span> שייכת ל-<span>\( A \)</span>. עכשיו, כמו בהוכחה של הפוסט הקודם, <span>\( A \)</span> איכשהו צריכה לעזור לנו לסיים את הוכחת המשפט. זה קורה עם שתי הטענות הבאות:</p>
<ul> <li>אם <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> אז <span>\( G\subseteq A \)</span></li>
<li>אם עבור <span>\( p\in G \)</span> כלשהו כל הרחבה של <span>\( p \)</span> שייכת ל-<span>\( A \)</span> אז <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span></li>
</ul>
<p>עבור שוויון השתמשנו באותן שתי טענות בצורה קצת שונה - במקום <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> היה לנו <span>\( \tau_{1}^{G}\subseteq\tau_{2}^{G} \)</span> ואותו הדבר גם בכיוון השני עבור <span>\( A \)</span> אחרת ואז איכשהו שילבנו את שני אלו. בשלב הזה אפשר לנפנף בידיים ולהגיד שכל מה שנעשה עכשיו הוא בערך כמו קודם (זה מה שהספר עושה) אבל אני לא מרגיש שאני מבין מה הולך פה מספיק טוב, אז אני אנסה להוכיח הכל פורמלית ככל הניתן. וזה אומר שיהיו שני שלבים, כמקודם: ראשית נראה איך שתי טענות העזר מוכיחות את המשפט; ושנית נראה איך מוכיחים את טענות העזר.</p>
<h2>איך טענות העזר מוכיחות לנו את המשפט היסודי</h2>
<p>יש שתי טענות מרכזיות שצריך להוכיח, עבור נוסחה <span>\( \phi \)</span> ושמות <span>\( \tau_{1},\ldots,\tau_{n} \)</span>:</p>
<ul> <li>עבור אידאל גנרי <span>\( G \)</span> מתקיים <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> אם ורק אם קיים <span>\( p\in G \)</span> כך ש- <span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>.</li>
<li><span>\( \left(p,\tau_{1},\ldots,\tau_{n}\right)\in\mathcal{F}_{\alpha}^{\phi} \)</span> אם ורק אם <span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span></li>
</ul>
<p>בטענה הראשון הכיוון של ה”אם” טריוויאלי (זו המשמעות של כפיה) והחלק המעניין הוא להראות שאם <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> אז קיים <span>\( p\in G \)</span> שכופה את <span>\( \phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>. עכשיו, בזכות טענת העזר הראשונה, <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> מלמד אותנו ש-<span>\( G\subseteq A \)</span>. טענת עזר מהפוסט הקודם שאין צורך להוכיח מחדש כי אני משתמש בה כמות שהיא אומרת שאם <span>\( G\subseteq A\in\mathcal{M} \)</span> אז קיים <span>\( p \)</span> כך שכל הרחבה של <span>\( p \)</span> שייכת ל-<span>\( A \)</span>. יחד עם טענת העזר השניה זה מראה לנו שלכל <span>\( G^{\prime} \)</span> כך ש-<span>\( p\in G^{\prime} \)</span> יתקיים <span>\( \mathcal{M}\left[G^{\prime}\right]\models\phi\left(\tau_{1}^{G^{\prime}},\ldots,\tau_{n}^{G^{\prime}}\right) \)</span>, וזו בדיוק המשמעות של לומר ש-<span>\( p \)</span> כופה את <span>\( \left(\tau_{1},\ldots,\tau_{n}\right) \)</span>.</p>
<p>הדבר היחיד שחסר לנו בשביל הטיעון שבפסקה הקודמת הוא להראות ש-<span>\( A\in\mathcal{M} \)</span>. זה מצריך אותנו לחזור להגדרות השונות והמשונות של <span>\( A \)</span> ולשאול את עצמנו האם יש משהו שמסובך לבנות במסגרת <span>\( \mathcal{M} \)</span> - מסגרת שכזכור מקיימת את ZFC ולכן את כל הדרכים הרגילות שבהן אנו בונים קבוצות. התשובה, בנפנוף ידיים, היא שהכל פשוט - אבל אנחנו צריכים להסתמך על כך שכבר הראינו שכפיה שקולה לשייכות ל-<span>\( \mathcal{F}_{\beta}^{\psi} \)</span> עבור נוסחאות <span>\( \psi \)</span> פשוטות יותר מ-<span>\( \phi \)</span> (כלומר, כאלו שמרכיבות את <span>\( \phi \)</span>) ו/או עבור סודרים <span>\( \beta \)</span> שהם קטנים מ-<span>\( \alpha \)</span>. זו הנחת אינדוקציה סטנדרטית ואין איתה בעיה.</p>
<p>זה סיים את הוכחת הטענה הראשונה, אבל אנחנו זקוקים לשניה - ובדיוק ראינו למה אנחנו זקוקים לה, כדי שנוכל להשתכנע ש-<span>\( A\in\mathcal{M} \)</span>.</p>
<p>נתחיל עם להניח ש-<span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> ונוכיח מתוך זה ש-<span>\( \left(p,\tau_{1},\ldots,\tau_{n}\right)\in\mathcal{F}_{\alpha}^{\phi} \)</span>. כבר הוכחתי קודם ששייכות כזו ל-<span>\( \mathcal{F}_{\alpha}^{\phi} \)</span> פירושה “לכל הרחבה <span>\( q \)</span> של <span>\( p \)</span>, מתקיים ש-<span>\( q\in A \)</span>”. עכשיו משתמשים בטריק: אנחנו יודעים שקיים אידאל גנרי <span>\( G \)</span> כך ש-<span>\( q\in G \)</span> כי אפשר לבנות אידאל גנרי שמכיל איבר ספציפי נתון (הוכחנו את זה כשהתחלנו לדבר על אידאלים גנריים). האידאל הזה יכיל את <span>\( p \)</span> שהרי <span>\( p\subseteq q \)</span>, ומכיוון ש-<span>\( p \)</span> כופה דברים, נקבל <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>, מה שלפי טענת העזר הראשונה מוכיח <span>\( G\subseteq A \)</span> ולכן <span>\( q\in G\subseteq A \)</span> שייך ל-<span>\( A \)</span> וזה מה שרצינו.</p>
<p>נשאר רק הכיוון השני! זה שבו מניחים <span>\( \left(p,\tau_{1},\ldots,\tau_{n}\right)\in\mathcal{F}_{\alpha}^{\phi} \)</span> ומוכיחים <span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>. כלומר, אנחנו לוקחים אידאל גנרי <span>\( G \)</span> כך ש-<span>\( p\in G \)</span> וצריכים להראות <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>. טענת העזר השניה אומרית שזה קורה אם כל הרחבה של <span>\( p \)</span> שייכת ל-<span>\( A \)</span>, וזה… כמו שראינו קודם… שקול בדיוק אל <span>\( \left(p,\tau_{1},\ldots,\tau_{n}\right)\in\mathcal{F}_{\alpha}^{\phi} \)</span>, אז בעצם אין עוד מה לעשות! סיימנו את הוכחת המשפט היסודי! בהינתן הוכחה לטענות העזר, שלא הוכחתי עדיין.</p>
<h2>ההוכחה לטענות העזר שלא הוכחתי עדיין</h2>
<p>אוקיי, הנה טענות העזר שוב:</p>
<ul> <li>אם <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> אז <span>\( G\subseteq A \)</span></li>
<li>אם עבור <span>\( p\in G \)</span> כלשהו כל הרחבה של <span>\( p \)</span> שייכת ל-<span>\( A \)</span> אז <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span></li>
</ul>
<p>נתחיל מהטענה הראשונה: אנחנו מניחים שב-<span>\( \mathcal{M}\left[G\right] \)</span> מתקיים הפסוק <span>\( \phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> ורוצים להשתמש בזה כדי להראות שעבור <span>\( q\in G \)</span> כלשהו מתקיים <span>\( q\in A \)</span>. זה תלוי, מן הסתם, בהגדרה הספציפית של <span>\( A \)</span> שתלויה בתורה במבנה של <span>\( \phi \)</span>. מה שאומר שפתאום ההוכחה הקלילה שלנו הפכה להתעסקות ב<strong>ארבעה</strong> מקרים שונים.</p>
<p>במקרה הראשון <span>\( q\in A \)</span> אם:</p>
<ul> <li>אם <span>\( \phi \)</span> מהצורה <span>\( x_{1}\in x_{2} \)</span> אז קיים <span>\( \left(\sigma,q^{\prime}\right)\in\tau_{2} \)</span> כך ש-<span>\( q\subseteq q^{\prime} \)</span> ו-<span>\( q^{\prime} \)</span> כופה את <span>\( \tau_{1}=\sigma \)</span>.</li>
</ul>
<p>הידע שיש לנו הוא ש-<span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>, כלומר בהקשר של <span>\( \phi \)</span> הזו, <span>\( \tau_{1}^{G}\in\tau_{2}^{G} \)</span>. המשמעות של השייכות הזו היא שקיימים <span>\( \left(\sigma,q_{1}\right)\in\tau_{2} \)</span> כך ש-<span>\( \tau_{1}^{G}=\sigma^{G} \)</span> ועכשיו קורה <strong>קסם</strong>! אנחנו יכולים להשתמש במשפט שהוכחנו בפוסט הקודם עבור שוויון ולהסיק שאם קורה <span>\( \tau_{1}^{G}=\sigma^{G} \)</span>, אז קיים <span>\( q_{2}\in G \)</span> שכופה את <span>\( \tau_{1}=\sigma \)</span>. אפשר עכשיו לקחת הרחבה משותפת <span>\( q_{1},q_{2}\subseteq q^{\prime} \)</span> ולקבל את ה-<span>\( q^{\prime} \)</span> שרצינו.</p>
<p>הטכניקה הזו של “הרחבה משותפת” עדיין קצת מבלבלת אפילו אותי, אז הנה תזכורת למה זה עובד כאן: ראשית, <span>\( G \)</span> אידאל ולכן לכל שני איברים שלו יש הרחבה משותפת (אצלנו האיברים הללו הם <span>\( q_{1},q_{2} \)</span>). שנית, על פי הבניה של שמות-<span>\( P \)</span>, אם <span>\( \left(\sigma,q_{1}\right)\in\tau_{2} \)</span> אז <span>\( \left(\sigma,q^{\prime}\right)\in\tau_{2} \)</span> לכל הרחבה <span>\( q^{\prime} \)</span> של <span>\( q_{1} \)</span> ולכן בפרט לזו שבנינו; ולבסוף, אם <span>\( q_{2} \)</span> כופה <strong>משהו</strong>, גם <span>\( q^{\prime} \)</span> יכפה אותו, כי אם ניקח אידאל <span>\( G^{\prime} \)</span> כלשהו כך ש-<span>\( q^{\prime}\in G^{\prime} \)</span> אז בגלל הסגירות כלפי מטה של אידאלים גם <span>\( q_{2}\in G^{\prime} \)</span> והקיום שלו באידאל מבטיח שה<strong>משהו</strong> יתקיים עבור <span>\( G^{\prime} \)</span>. את כל זה ראינו גם בפוסט הקודם ולפחות עבורי זה מרגיש קצת יותר טבעי עכשיו למרות שאני עדיין טובע בפרטים.</p>
<p>האם אני מרגיש בטוח בעצמי מספיק כדי לדלג על הוכחה טרחנית מפורשת של שאר המקרים? לא! למה להפסיק עכשיו, כשזה סוף סוף נהיה קל?</p>
<p>אז במקרה השני <span>\( q\in A \)</span> אם:</p>
<ul> <li>אם <span>\( \phi \)</span> מהצורה <span>\( \neg\psi \)</span> אז <span>\( q \)</span> אינו כופה את <span>\( \psi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span></li>
</ul>
<p>הידע שיש לנו הוא ש-<span>\( \mathcal{M}\left[G\right]\models\neg\psi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>, כלומר אנחנו יודעים ש<strong>לא מתקיים</strong> <span>\( \neg\psi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>. עכשיו, אם <span>\( q \)</span> <strong>כן</strong> כופה את <span>\( \psi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> אז מכיוון ש-<span>\( q\in G \)</span> זה אומר ש<strong>כן מתקיים</strong> <span>\( \psi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>, וזו סתירה. היי, זה היה קל! קל מדי…? אם כן, כנראה יעירו לי בתגובות עוד כמה שנים טובות כשכבר לא אזכור כלום ממה שהלך פה.</p>
<p>קדימה למקרה השלישי! <span>\( q\in A \)</span> אם:</p>
<ul> <li>אם <span>\( \phi \)</span> מהצורה <span>\( \psi_{1}\to\psi_{2} \)</span> אז או ש-<span>\( q \)</span> לא כופה את <span>\( \psi_{1}\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> או שיש ל-<span>\( q \)</span> הרחבה שכופה את <span>\( \psi_{2}\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>.</li>
</ul>
<p>הידע שיש לנו הוא ש-<span>\( \mathcal{M}\left[G\right]\models\psi_{1}\to\psi_{2} \)</span>, כלומר אנחנו יודעים שמתקיים אחד משניים: או ש-<span>\( \psi_{1} \)</span> לא מתקיים, או ש-<span>\( \psi_{2} \)</span> כן מתקיים.</p>
<p>הדרך היחידה שבה <span>\( q \)</span> לא יקיים את התנאי של <span>\( A \)</span> הוא אם <span>\( q \)</span> <strong>כן יכפה</strong> את <span>\( \psi_{1} \)</span> אבל <strong>לא תהיה</strong> לו הרחבה שכופה את <span>\( \psi_{2} \)</span>. מכיוון ש-<span>\( q \)</span> כופה את <span>\( \psi_{1} \)</span> אז <span>\( \psi_{1} \)</span> מתקיים; ולכן מסיקים מ-<span>\( \mathcal{M}\left[G\right]\models\psi_{1}\to\psi_{2} \)</span> ש-<span>\( \psi_{2} \)</span> כן מתקיים. כאן נכנסת לפעולה הנחת האינדוקציה: מכיוון ש-<span>\( \psi_{2} \)</span> היא נוסחה פשוטה יותר מ-<span>\( \phi \)</span> אפשר להניח שכבר הוכחנו עבורה את המשפט המרכזי. כלומר, מכך ש-<span>\( \mathcal{M}\left[G\right]\models\psi_{2} \)</span> אפשר להסיק שקיים ב-<span>\( G \)</span> איבר שכופה את <span>\( \psi_{2} \)</span>, ואז ניקח הרחבה משותפת שלו ושל <span>\( q \)</span> ונקבל הרחבה של <span>\( q \)</span> שכופה את <span>\( \psi_{2} \)</span>, מה שמסיים את המקרה הזה.</p>
<p>נשאר רק המקרה האחרון. <span>\( q\in A \)</span> אם:</p>
<ul> <li>אם <span>\( \phi \)</span> מהצורה <span>\( \forall x\psi \)</span> אז לכל שם-<span>\( P \)</span> <span>\( \tau \)</span>, קיימת הרחבה של <span>\( q \)</span> שכופה את <span>\( \psi\left(\tau,\tau_{1},\ldots,\tau_{n}\right) \)</span>.</li>
</ul>
<p>הידע שיש לנו הוא ש-<span>\( \mathcal{M}\left[G\right]\models\forall x\psi\left(x,\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>. מה זה בעצם אומר, פורמלית? אם נסתכל על הנוסחה <span>\( \forall x\psi\left(x,x_{1},\ldots,x_{n}\right) \)</span> נראה שיש לה משתנים חופשיים: <span>\( x_{1},\ldots,x_{n} \)</span>. בנוסף יש בה גם משתנים קשורים, כאלו שנופלים תחת כמת - לכל הפחות, <span>\( x \)</span> הוא כזה. עכשיו, בשלב הראשון החלפנו את כל המשתנים החופשיים באיברים קונקרטיים, <span>\( \tau_{1}^{G},\ldots,\tau_{n}^{G} \)</span>. נשאר לחשב את ערך האמת של הפסוק על ידי הצבה של ערכים במשתנים המכומתים. הכתיב <span>\( \mathcal{M}\left[G\right]\models \)</span> בעצם אומר לי שה”עולם” שממנו מגיעים הערכים שאפשר להציב במשתנים הללו הוא <span>\( \mathcal{M}\left[G\right] \)</span>. בפרט, אם <span>\( \tau \)</span> הוא שם-<span>\( P \)</span> כלשהו, אז אם נציב ב-<span>\( x \)</span> את <span>\( \tau^{G} \)</span> מובטח לנו שיתקיים <span>\( \mathcal{M}\left[G\right]\models\psi\left(\tau^{G},\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>.</p>
<p>עכשיו שוב אפשר להשתמש בהנחת האינדוקציה, כי <span>\( \psi \)</span> פשוט יותר מ-<span>\( \phi \)</span>, ולקבל שקיים איבר ב-<span>\( G \)</span> שכופה את <span>\( \psi\left(\tau,\tau_{1},\ldots,\tau_{n}\right) \)</span>, לקחת הרחבה משותפת שלו ושל <span>\( q \)</span>, וסיימנו! היה שווה לעשות את כל הצעדים במפורש כי עכשיו הטכניקה ממש ברורה וקלילה - וממילא כל ההוכחה הזו הייתה פשוטה בהרבה מהסיבוך שהיה לנו עבור השוויון בפוסט הקודם (כי שם לא היו לנו הנחות אינדוקציה פשוטות להסתמך עליהן).</p>
<p>האם סיימנו? לא! כי יש עוד טענת עזר שצריך להוכיח:</p>
<ul> <li>אם עבור <span>\( p\in G \)</span> כלשהו כל הרחבה של <span>\( p \)</span> שייכת ל-<span>\( A \)</span> אז <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span></li>
</ul>
<p>גם פה אין מנוס מלפרק למקרים על פי המבנה של <span>\( \phi \)</span>. נקווה שגם זה יהיה קל!</p>
<p>אז שוב, במקרה הראשון, <span>\( q\in A \)</span> אם:</p>
<ul> <li>אם <span>\( \phi \)</span> מהצורה <span>\( x_{1}\in x_{2} \)</span> אז קיים <span>\( \left(\sigma,q^{\prime}\right)\in\tau_{2} \)</span> כך ש-<span>\( q\subseteq q^{\prime} \)</span> ו-<span>\( q^{\prime} \)</span> כופה את <span>\( \tau_{1}=\sigma \)</span>.</li>
</ul>
<p>במקרה הזה אנחנו רוצים להוכיח ש-<span>\( \tau_{1}^{G}\in\tau_{2}^{G} \)</span>. כלומר, שקיים <span>\( \left(\sigma,q\right)\in\tau_{2} \)</span> כך ש-<span>\( \tau_{1}^{G}=\sigma^{G} \)</span>. בשביל זה מספיק למצוא איבר ב-<span>\( G \)</span> שכופה את <span>\( \tau_{1}=\sigma \)</span> עבור <span>\( \sigma \)</span> כלשהו שמופיע ב-<span>\( \tau_{2} \)</span>. לכאורה ההגדרה של <span>\( A \)</span> נותנת לנו איבר כזה, אבל צריך להיזהר פה: לכל הרחבה של <span>\( p\in G \)</span> יש הרחבה נוספת <span>\( q^{\prime} \)</span> שכופה את <span>\( \tau_{1}=\sigma \)</span> עבור <span>\( \sigma \)</span> מתאים, אבל שום דבר לא מבטיח לנו ש-<span>\( q^{\prime}\in G \)</span>. לא בלי טיעון נוסף.</p>
<p>בפוסט הקודם הטיעון הנוסף היה לקחת את קבוצת <strong>כל האיברים</strong> שכופים את מה שאנחנו רוצים, כלומר במקרה שלנו זו הקבוצה</p>
<p><span>\( D=\left\{ q^{\prime}\in P\ |\ \exists\left(\sigma,q^{\prime}\right)\in\tau_{2}:q^{\prime}\Vdash\tau_{1}=\sigma\right\} \)</span></p>
<p>בפוסט הקודם האבחנה הייתה ש-<span>\( D \)</span> צפופה מעל איבר של <span>\( G \)</span>, וזה קורה גם כאן: <span>\( D \)</span> צפופה מעל <span>\( p \)</span> כי לכל הרחבה של <span>\( p \)</span>, ההרחבה שייכת ל-<span>\( A \)</span> (ההנחה שלנו) ולכן קיימת לה הרחבה ששייכת ל-<span>\( D \)</span> (כי זו המשמעות של שייכות ל-<span>\( A \)</span> במקרה הזה). הצפיפות הזו עוזרת לנו כי ראינו שאם <span>\( D\in\mathcal{M} \)</span> היא צפופה מעל <span>\( p\in G \)</span> אז <span>\( G\cap D\ne\emptyset \)</span> ולכן אנחנו מקבלים שיש ב-<span>\( G \)</span> איבר שכופה <span>\( \tau_{1}=\sigma \)</span>, כפי שרצינו.</p>
<p>בשביל שכל זה יעבוד צריך שיתקיים <span>\( D\in\mathcal{M} \)</span> מה שדורש שאפשר יהיה לנסח את יחס הכפייה במסגרת <span>\( \mathcal{M} \)</span>. זה <strong>לא</strong> נובע מהנחת אינדוקציה כי <span>\( \tau_{1} \)</span> הוא לא משהו שיש לנו הנחת אינדוקציה עליו, הרי הוא מה שאנחנו מנסים להוכיח עליו דברים עכשיו. אבל למרבה המזל, יחס הכפייה המדובר הוא של <span>\( \tau_{1}=\sigma \)</span>, כלומר של שוויון, שבו טיפלנו בנפרד (ובדם יזע ודמעות…) ולכן אנחנו יודעים כבר שאפשר לנסח אותו במסגרת <span>\( \mathcal{M} \)</span> גם בלי שום הנחת אינדוקציה. זו המחשה יפה של העובדה שלמרות שגם <span>\( x_{1}=x_{2} \)</span> וגם <span>\( x_{1}\in x_{2} \)</span> שניהם פסוקים אטומיים, המקרה של שוויון הוא “יותר בסיסי” עבורנו.</p>
<p>קודם המקרה השני היה קל מאוד. האם גם הפעם? <span>\( q\in A \)</span> אם:</p>
<ul> <li>אם <span>\( \phi \)</span> מהצורה <span>\( \neg\psi \)</span> אז <span>\( q \)</span> אינו כופה את <span>\( \psi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span></li>
</ul>
<p>במקרה הזה אנחנו רוצים להוכיח ש-<span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\dots,\tau_{n}^{G}\right) \)</span>, כלומר ש-<span>\( \mathcal{M}\left[G\right] \)</span> <strong>לא</strong> מספקת את <span>\( \psi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>. אנחנו יודעים, בעזרת הנחת האינדוקציה, שאם <span>\( \mathcal{M}\left[G\right] \)</span> כן הייתה מספקת אותו אז היה קיים ב-<span>\( G \)</span> איבר שכופה את <span>\( \psi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>. אפשר לקחת הרחבה של האיבר הזה ושל <span>\( p \)</span>, ולקבל הרחבה <span>\( p\subseteq q \)</span> שכופה את <span>\( \psi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>, מה שסותר את ההנחה שכל הרחבה של <span>\( p \)</span> שייכת ל-<span>\( A \)</span>. זה מסיים את המקרה הזה, שבאמת היה קל (ואולי… אני שוב מפספס משהו!)</p>
<p>קדימה אל המקרה השלישי! <span>\( q\in A \)</span> אם:</p>
<ul> <li>אם <span>\( \phi \)</span> מהצורה <span>\( \psi_{1}\to\psi_{2} \)</span> אז או ש-<span>\( q \)</span> לא כופה את <span>\( \psi_{1}\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> או שיש ל-<span>\( q \)</span> הרחבה שכופה את <span>\( \psi_{2}\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>.</li>
</ul>
<p>כאן כדי להוכיח <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\dots,\tau_{n}^{G}\right) \)</span> מספיק להניח ש-<span>\( \mathcal{M}\left[G\right]\models\psi_{1} \)</span> ולהוכיח ש-<span>\( \mathcal{M}\left[G\right]\models\psi_{2} \)</span>. הפעם נגדיר</p>
<p><span>\( D=\left\{ q^{\prime}\in P\ |\ q^{\prime}\Vdash\psi_{2}\left(\tau_{1},\ldots,\tau_{n}\right)\right\} \)</span></p>
<p>ושוב - אם נוכיח ש-<span>\( D \)</span> צפופה מעל <span>\( p \)</span>, סיימנו (הפעם <span>\( D\in\mathcal{M} \)</span> בעזרת הנחת האינדוקציה של המשפט היסודי על <span>\( \psi_{2} \)</span>). אז אנחנו לוקחים הרחבה <span>\( p\subseteq q \)</span> ומראים שיש לה הרחבה ב-<span>\( D \)</span>.</p>
<p>מכך ש-<span>\( \mathcal{M}\left[G\right]\models\psi_{1} \)</span>, על ידי הפעלת הנחת האינדוקציה של המשפט היסודי על <span>\( \psi_{1} \)</span>, אפשר לקבל שיש איבר ב-<span>\( G \)</span> שכופה את <span>\( \psi_{1} \)</span> ולקחת הרחבה משותפת שלו ושל <span>\( q \)</span> שגם תכפה את <span>\( \psi_{1} \)</span> וגם תהיה שייכת ל-<span>\( A \)</span> (כי כל הרחבה של <span>\( p \)</span> שייכת ל-<span>\( A \)</span>). השייכות ל-<span>\( A \)</span>, יחד עם הכפיה של <span>\( \psi_{1} \)</span>, מלמדים אותנו שלאיבר הזה יש הרחבה שכופה את <span>\( \psi_{2} \)</span>, שזה מה שרצינו.</p>
<p>זהו, הגענו למקרה האחרון בכיוון הזה, ולכן גם לשלב האחרון של ההוכחה של המשפט היסודי. <span>\( q\in A \)</span> אם:</p>
<ul> <li>אם <span>\( \phi \)</span> מהצורה <span>\( \forall x\psi \)</span> אז לכל שם-<span>\( P \)</span> <span>\( \tau \)</span>, קיימת הרחבה של <span>\( q \)</span> שכופה את <span>\( \psi\left(\tau,\tau_{1},\ldots,\tau_{n}\right) \)</span>.</li>
</ul>
<p>כאן כדי להוכיח <span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\dots,\tau_{n}^{G}\right) \)</span> אנחנו צריכים לקחת שם-<span>\( P \)</span> כלשהו <span>\( \tau \)</span> ולהראות ש-<span>\( \mathcal{M}\left[G\right]\models\psi\left(\tau^{G},\tau_{1}^{G},\dots,\tau_{n}^{G}\right) \)</span>. ננקוט באותו תעלול שעבד קודם: נגדיר <span>\( D=\left\{ q\in P\ |\ q\Vdash\psi\left(\tau,\tau_{1},\ldots,\tau_{n}\right)\right\} \)</span>; ניקח הרחבה של <span>\( p \)</span>, אנחנו יודעים שהיא ב-<span>\( A \)</span> ולכן עבור <span>\( \tau \)</span> קיימת הרחבה <span>\( q \)</span> שלה שכופה את <span>\( \psi\left(\tau,\tau_{1},\ldots,\tau_{n}\right) \)</span>, ולכן שייכת ל-<span>\( D \)</span>, ומכיוון ש-<span>\( D\in\mathcal{M} \)</span> (הנחת האינדוקציה עבור <span>\( \psi \)</span>) נקבל שיש ב-<span>\( G \)</span> איבר של <span>\( D \)</span>, וסיימנו!</p>
<h2>סיכום קצר לפני שממשיכים הלאה</h2>
<p>סיימנו להוכיח את המשפט היסודי! זה דרש פוסט ארוך פחות מאשר ההוכחה של המקרה הפרטי של <span>\( x_{1}=x_{2} \)</span>, והסתמכנו על מה שהלך שם בכמה דרכים שונות - גם באופן ישיר בתוצאה עצמה שהוכחנו (הסקנו מ-<span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span> שיש איבר שכופה את <span>\( \tau_{1}=\tau_{2} \)</span>), גם על ידי הדמיון בין ההוכחה במקרה הפרטי וההוכחה במקרה הכללי (כל הקטע הזה עם הקבוצות <span>\( A \)</span> ו-<span>\( D \)</span>) וגם על ידי שימוש חוזר בתוצאות העזר שהוכחנו בפעם הקודמת (למשל עם הצפיפות של <span>\( D \)</span> שמובילה לחיתוך לא ריק עם <span>\( G \)</span>). אני מקווה שתוך כדי ההוכחה גם התרגלנו קצת לכוח הגדול של המשפט. עכשיו מגיע הזמן להתחיל לקטוף את הפירות סוף כל סוף; ראשית כל לסיים להוכיח ש-<span>\( \mathcal{M}\left[G\right] \)</span> מקיימת את כל אקסיומות ZFC, ובפרט את אקסיומות ההפרדה, קבוצת החזקה, ההחלפה והבחירה; ולאחר מכן סוף סוף לבצע כפיות קונקרטיות עבור קבוצות <span>\( P \)</span> של תנאי כפייה שבפעם אחת יתנו לנו את השערת הרצף ובפעם אחרת את שלילתה. יהיה כיף.</p>מבואבעקבות השערת הרצף, חלק ז’: המשפט היסודי של תורת הכפיה (המקרה הפרטי שהוא עיקר העבודה)2023-07-29T00:00:00+00:002023-07-29T00:00:00+00:00http://gadial.net/2023/07/29/continuum_hypothesis_forcing_fundemental_theorem_first_part<h2>מבוא</h2>
<p>בפוסט הקודם ראינו את ההגדרה המרכזית של תורת הכפיה, והפעם נראה את המשפט המרכזי של תורת הכפיה. ההגדרה המרכזית הייתה האופן שבו בהינתן ה”עולם” <span>\( \mathcal{M} \)</span> שלנו ואידאל גנרי <span>\( G \)</span> בו, אנחנו בונים מתוכם את ההרחבה <span>\( \mathcal{M}\left[G\right] \)</span>, שהיא קבוצה שמכילה את <span>\( \mathcal{M} \)</span> ואת <span>\( G \)</span> (את אלו ראינו) ומקיימת את אותן תכונות יפות כמו <span>\( \mathcal{M} \)</span>: היא בת מניה, טרנזיטיבית ומקיימת את אקסיומות ZFC.</p>
<p>כזכור, <span>\( \mathcal{M}\left[G\right] \)</span> נבנתה בתהליך דו-שלבי. בשלב הראשון הגדרנו משהו שנקרא שמות-<span>\( P \)</span>, ובשלב השני לכל שם-<span>\( P \)</span> <span>\( \sigma \)</span> התאמנו ערך <span>\( \sigma^{G} \)</span> והגדרנו את <span>\( \mathcal{M}\left[G\right] \)</span> בתור הקבוצה של כל ה-<span>\( \sigma^{G} \)</span> הללו לכל שמות ה-<span>\( P \)</span> הקיימים מעל <span>\( \mathcal{M} \)</span>. הבניה של שמות ה-<span>\( P \)</span> וההגדרה של השמת הערך עבורם היו רקורסיביים. שם-<span>\( P \)</span> <span>\( \tau \)</span> היה קבוצה של זוגות מהצורה <span>\( \left(\sigma,p\right) \)</span> כך ש-<span>\( p\in P \)</span> ואילו <span>\( \sigma \)</span> הוא שם-<span>\( P \)</span> שכבר הוגדר קודם, ובנוסף הייתה לנו דרישה לפיה אם <span>\( q \)</span> הוא הרחבה של <span>\( p \)</span> וגם <span>\( \left(\sigma,p\right)\in\tau \)</span> אז <span>\( \left(\sigma,q\right)\in\tau \)</span>. ההגדרה של השמת ערך הייתה <span>\( \tau^{G}=\left\{ \sigma^{G}\ |\ \exists p\in G:\left(\sigma,p\right)\in\tau\right\} \)</span>.</p>
<p>עבור הבניה הזו ראינו איך מתקיימות חלק מהאקסיומות: היקפיות, זיווג, איחוד, אינסוף ויסוד. עד כאן הכל טוב, אבל בשביל לטפל ביתר האקסיומות אני צריך משהו חזק יותר. <strong>הרבה יותר</strong>.</p>
<p>המשהו הזה כל כך חזק שהוא נקרא <strong>המשפט היסודי של תורת הכפיה</strong> והוא אומר, בגדול, שקבוצת תנאי הכפיה <span>\( P \)</span> קובעת את המבנה <span>\( \mathcal{M}\left[G\right] \)</span> בצורה כל כך חזקה, שעבור כל נוסחה <span>\( \phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> קיים תנאי כפיה <span>\( p \)</span> כך ש<strong>לכל</strong> <span>\( G \)</span> שמכיל את <span>\( p \)</span>, אנו יודעים ש-<span>\( \mathcal{M}\left[G\right] \)</span> יספק את <span>\( \phi \)</span>. במילים אחרות, תנאי הכפיה הבודד <span>\( p\in G \)</span> <strong>כופה</strong> על <span>\( \mathcal{M}\left[G\right] \)</span> לקיים את הנוסחה.</p>
<p>להבין את הניסוח המדויק של המשפט יכול להיות קצת מעצבן, אז בואו נפתח עם דוגמא - דוגמא חשובה במיוחד, כי היא מצד אחד המקרה הפרטי הבסיסי ביותר של המשפט, ומצד שני ההוכחה שלה תהיה החלק הקשה ביותר בהוכחה של המשפט כולו והיא תתפרש על כל הפוסט הזה ותדרוש הרבה פרטים טכניים. הדוגמא היא הנוסחה האטומית <span>\( x_{1}=x_{2} \)</span>.</p>
<p>הנוסחה האטומית הזו כוללת שני <strong>משתנים חופשיים</strong>, <span>\( x_{1},x_{2} \)</span>. אין לה ערך אמת בפני עצמה ב-<span>\( \mathcal{M}\left[G\right] \)</span>; אנחנו צריכים לבחור השמה של ערכים לשני המשתנים הללו. השמה פירושה לבחור איברים של <span>\( \mathcal{M}\left[G\right] \)</span> ולהציב אותם בנוסחה במקום המשתנים, כלומר נקבל משהו כמו <span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span>, וזו טענה שיכולה להיות נכונה <strong>אך ורק</strong> אם <span>\( \tau_{1}^{G} \)</span> ו-<span>\( \tau_{2}^{G} \)</span> הם אותם איברים <strong>בדיוק</strong>. אז איפה בעצם נכנסים תנאי הכפייה לתמונה? מה המשפט פה בכלל?</p>
<p>בשביל לראות את זה צריך לקחת צעד אחורה ולא לחשוב על <span>\( \mathcal{M}\left[G\right] \)</span> בתור משהו קבוע. השאלה שאנחנו שואלים את עצמנו עכשיו היא - עבור ערכים שונים של <span>\( G \)</span>, מה קובע האם הנוסחה תתקיים? אבל גם זו נדמית כמו שאלה חסרת משמעות: הנוסחה <span>\( x_{1}=x_{2} \)</span> מתקיימת אם ורק אם מציבים בשני המשתנים שלה את אותו איבר, סוף הסיפור.</p>
<p>לכן אנחנו שואלים שאלה קצת שונה. אנחנו מתחילים עם שני שמות-<span>\( P \)</span>, <span>\( \tau_{1},\tau_{2} \)</span>. בפני עצמם, השמות הללו הם בסך הכל איברים של <span>\( \mathcal{M} \)</span>. אם נבחר <span>\( G \)</span> נוכל להעביר אותם תהליך של השמה שיחזיר מהם ערך שהוא איבר ב-<span>\( \mathcal{M}\left[G\right] \)</span>, אבל הם קיימים גם בלי שיהיה <span>\( G \)</span> אחד ספציפי ברקע. עכשיו אני יכול “להציב” אותם ב-<span>\( x_{1}=x_{2} \)</span> ולקבל את הנוסחה <span>\( \tau_{1}=\tau_{2} \)</span>. אני חושב על זה בתור סימון בלבד, מין תבנית שמחכה שנבחר <span>\( G \)</span> ספציפי ואז נקבל מהנוסחה הזו את <span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span>. והשאלה שאנחנו שואלים היא: מה צריך <span>\( G \)</span> לקיים כדי שהנוסחה <span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span> תהיה בעלת ערך T? התשובה היא שעבור <span>\( \tau_{1},\tau_{2} \)</span> הללו קיים תנאי כפיה <span>\( p \)</span> כך שאם <span>\( p\in G \)</span>, מובטח ש-<span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span> היא אכן בעלת ערך T.</p>
<p>בואו נעבור לנסח את זה פורמלית, ולהבין איך בכלל תלך ההוכחה.</p>
<h2>מנסחים את זה פורמלית ומבינים איך בכלל הולכת ההוכחה</h2>
<p>מושג המפתח שעליו אנחנו מדברים כאן הוא מתי תנאי כפיה <span>\( p \)</span> <strong>כופה</strong> משהו על נוסחה ושמות-<span>\( P \)</span> שמופיעים בה. אז תהא <span>\( \phi\left(x_{1},\ldots,x_{n}\right) \)</span> נוסחה כלשהי עם משתנים חופשיים <span>\( x_{1},\ldots,x_{n} \)</span> ויהיו <span>\( \tau_{1},\ldots,\tau_{n} \)</span> שמות-<span>\( P \)</span> כלשהם, ויהא <span>\( p\in P \)</span> תנאי כפיה כלשהו. אני אגיד ש-<span>\( p \)</span> <strong>כופה</strong> את <span>\( \phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> ואסמן זאת <span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> אם <strong>לכל</strong> אידאל גנרי <span>\( G \)</span> כך ש-<span>\( p\in G \)</span>, מתקיים ש-<span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span>, דהיינו הפסוק <span>\( \phi\left(x_{1},\ldots,x_{n}\right) \)</span> מקבל ערך T במודל של <span>\( \mathcal{M}\left[G\right] \)</span> תחת ההשמה שנותנת למשתנים את הערכים <span>\( \tau_{1}^{G},\ldots,\tau_{n}^{G} \)</span> (שימו לב: ב-<span>\( \phi \)</span> יכולים להיות גם משתנים מכומתים, והרעיון הוא שהערכים המכומתים הללו מגיעים מתוך <span>\( \mathcal{M}\left[G\right] \)</span>). הנקודה העדינה שצריך לשים לב אליה היא שכפיה לא תלויה רק בתנאי <span>\( p \)</span> ובפסוק <span>\( \phi \)</span> אלא גם <strong>בשמות ספציפיים</strong> <span>\( \tau_{1},\ldots,\tau_{n} \)</span>, כלומר <span>\( p \)</span> לא סתם כופה את הפסוק <span>\( \phi \)</span> אלא את ה”תבנית” <span>\( \phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> שהיא ערבוב של הפסוק והשמות.</p>
<p>המשפט הכללי שאני רוצה להוכיח - “המשפט היסודי של תורת הכפיה”, הוא זה: לכל אידאל גנרי <span>\( G \)</span>, נוסחה <span>\( \phi\left(x_{1},\ldots,x_{n}\right) \)</span> ושמות-<span>\( P \)</span> <span>\( \tau_{1},\ldots,\tau_{n} \)</span>, מתקיים ש-<span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> אם ורק אם קיים <span>\( p\in G \)</span> כך ש-<span>\( p \)</span> כופה את <span>\( \phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>. בניסוח הפורמלי המלא בפוסט הבא יהיה עוד חלק חשוב לא פחות שעוסק ביכולת שלנו להגדיר את יחס הכפיה במסגרת <span>\( \mathcal{M} \)</span>, אבל בינתיים אני חושב שזה יכול רק לבלבל אז בואו נראה איך זה צץ מעצמו כשאנחנו מוכיחים את המשפט.</p>
<p>כיוון אחד של המשפט הוא טריוויאלי: מן הסתם אם יש ב-<span>\( G \)</span> איבר <span>\( p \)</span> שכופה את <span>\( \phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> אז נובע מכך מייד ש-<span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> כי זה נובע מיידית מההגדרה של <span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>. מה שמעניין הוא הכיוון השני: שאם <span>\( \phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> מקבלת T במודל הספציפי <span>\( \mathcal{M}\left[G\right] \)</span>, זה אומר שאפשר “לזקק” את <span>\( G \)</span> לכדי איבר בודד <span>\( p\in G \)</span> שהוא זה שאחראי לזה.</p>
<p>כרגע אני רוצה להסתפק ביעד הצנוע של להוכיח את זה עבור הנוסחה <span>\( x_{1}=x_{2} \)</span>. כלומר, יהיו <span>\( \tau_{1},\tau_{2} \)</span> שני שמות-<span>\( P \)</span>; אני רוצה להראות שאם עבור אידאל גנרי <span>\( G \)</span> מתקיים <span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span> , אז קיים <span>\( p\in G \)</span> כך ש-<span>\( p\Vdash\tau_{1}=\tau_{2} \)</span>, דהיינו <strong>לכל</strong> אידאל גנרי <span>\( G^{\prime} \)</span> כך ש-<span>\( p\in G^{\prime} \)</span> יתקיים <span>\( \tau_{1}^{G^{\prime}}=\tau_{2}^{G^{\prime}} \)</span>. זו המטרה, וזו לא תהיה מטרה קלה בכלל, אבל נסתדר.</p>
<p>לפני שמדברים על מה קורה בתוך אידאלים גנריים, אנחנו צריכים לענות לשאלה יותר בסיסית - האם אנחנו יכולים, עבור <span>\( \tau_{1},\tau_{2} \)</span>, “לתפוס” את אותם <span>\( p \)</span>-ים שכופים את השוויון שלהם? זה יצריך מאיתנו בניה לא טריוויאלית וזהירה, אבל התשובה היא <strong>כן</strong>.</p>
<p>כזכור, את שמות ה-<span>\( P \)</span> בנינו באופן היררכי; בנינו סדרה <span>\( N_{\alpha} \)</span> של קבוצות, שמאונדקסות על ידי הסודרים שמופיעים ב-<span>\( \mathcal{M} \)</span>, כך שכל שם-<span>\( P \)</span> השתייך לאחת הקבוצות. <strong>הדרגה</strong> של שם-<span>\( P \)</span> הייתה האינדקס המינימלי <span>\( \alpha \)</span> של קבוצה כזו שבה הוא מופיע; האיברים שלו התבססו על שמות-<span>\( P \)</span> מדרגה נמוכה יותר. בהיררכייה הזו נשתמש כדי ליצור את ה<strong>יחס</strong> <span>\( p\Vdash\tau_{1}=\tau_{2} \)</span>. יחס כזה הוא אוסף של <strong>שלשות</strong> מהצורה <span>\( \left(p,\tau_{1},\tau_{2}\right) \)</span>; ונבנה את אוסף השלשות הזה בצורה רקורסיבית. לכל סודר <span>\( \alpha\in\mathcal{M} \)</span> נגדיר קבוצה <span>\( \mathcal{F}_{\alpha} \)</span> שכוללת חלק מהשלשות הללו, בהתאם לדרגה של <span>\( \tau_{1},\tau_{2} \)</span>. פורמלית, <span>\( \mathcal{F}_{\alpha}\subseteq P\times N_{\alpha}\times N_{\alpha} \)</span>, כלומר ב-<span>\( \mathcal{F}_{\alpha} \)</span> יופיעו אותם שמות-<span>\( P \)</span> שהם לכל היותר מדרגה <span>\( \alpha \)</span>.</p>
<p>בואו נסמן את הדרגה של שם-<span>\( P \)</span> כלשהו ב-<span>\( \text{rank}\left(\tau\right) \)</span> ועבור שני שמות, נסמן <span>\( \text{rank}\left(\tau_{1},\tau_{2}\right)=\text{max}\left\{ \text{rank}\left(\tau_{1}\right),\text{rank}\left(\tau_{2}\right)\right\} \)</span>. עכשיו אפשר סוף סוף להגדיר פורמלית את <span>\( \mathcal{F}_{\alpha} \)</span>: <span>\( \left(p,\tau_{1},\tau_{2}\right)\in\mathcal{F}_{\alpha} \)</span> אם מתקיימים שני התנאים הבאים (שהם בעצם ניסוחים סימטריים של אותו דבר):</p>
<ul> <li>לכל <span>\( \left(\sigma_{1},q_{1}\right)\in\tau_{1} \)</span> כך ש-<span>\( p\subseteq q_{1} \)</span>, קיים <span>\( \left(\sigma_{2},q_{2}\right)\in\tau_{2} \)</span> כך ש-<span>\( q_{1}\subseteq q_{2} \)</span> ו-<span>\( \left(q_{2},\sigma_{1},\sigma_{2}\right)\in\mathcal{F}_{\text{rank}\left(\sigma_{1},\sigma_{2}\right)} \)</span>.</li>
<li>לכל <span>\( \left(\sigma_{2},q_{2}\right)\in\tau_{2} \)</span> כך ש-<span>\( p\subseteq q_{2} \)</span>, קיים <span>\( \left(\sigma_{1},q_{1}\right)\in\tau_{1} \)</span> כך ש-<span>\( q_{2}\subseteq q_{1} \)</span> ו-<span>\( \left(q_{1},\sigma_{1},\sigma_{2}\right)\in\mathcal{F}_{\text{rank}\left(\sigma_{1},\sigma_{2}\right)} \)</span>.</li>
</ul>
<p>לא לגמרי ברור בשלב הזה מה הרעיון בהגדרה ולמה זה עובד - נקדיש לא מעט עבודה טכנית בשביל זה. אבל בשלב הזה אפשר כבר להשתכנע שהשימוש ברקורסיה פה הוא תקין: אנחנו מגדירים את <span>\( \mathcal{F}_{\alpha} \)</span> תוך הסתמכות על כך ש-<span>\( \mathcal{F}_{\text{rank}\left(\sigma_{1},\sigma_{2}\right)} \)</span> כבר הוגדר לכל <span>\( \sigma_{1},\sigma_{2} \)</span> שמופיעים בתוך <span>\( \tau_{1},\tau_{2} \)</span> בהתאמה. זה עובד, כי <span>\( \text{rank}\left(\sigma_{i}\right)<\text{rank}\left(\tau_{i}\right)\le\alpha \)</span> (ממש על פי הגדרה; שם-<span>\( P \)</span> מדרגה מסוימת מוגדר על ידי אוסף זוגות שנבנים משמות שדרגתם קטנה יותר) ולכן <span>\( \text{rank}\left(\sigma_{1},\sigma_{2}\right)<\alpha \)</span>.</p>
<h2>מוכיחים שזה עובד - החימום</h2>
<p>לפני שאני אגיע להוכחה המרכזית, אני צריך להוכיח כמה טענות עזר שיהיו קריטיות במהלכה. הן עצמן פשוטות למדי ומרגישות כמו משחק בהגדרות.</p>
<p>ראשית, בואו נוכיח שאם <span>\( G \)</span> הוא אידאל גנרי ו-<span>\( D\in\mathcal{M} \)</span> היא קבוצה <span>\( D\subseteq P \)</span>, כך שלכל איבר של <span>\( G \)</span><strong> </strong>יש הרחבה משותפת עם איבר של <span>\( D \)</span>, אז <span>\( G\cap D\ne\emptyset \)</span> (כזכור, הרחבה משותפת של <span>\( p_{1},p_{2} \)</span> היא <span>\( q \)</span> כך ש-<span>\( p_{1}\subseteq q \)</span> וגם <span>\( p_{2}\subseteq q \)</span>).</p>
<p>למה הטענה נכונה? בשביל זה צריך להיזכר בהגדרה של אידאל גנרי: “אידאל <span>\( G \)</span> הוא גנרי ביחס ל-<span>\( \mathcal{M} \)</span> אם לכל קבוצה צפופה <span>\( D\subseteq P \)</span> כך ש-<span>\( D\in\mathcal{M} \)</span>, החיתוך של <span>\( G \)</span> ו-<span>\( D \)</span> אינו ריק, <span>\( G\cap D\ne\emptyset \)</span>.” רואים? הנה הגיעה לה <span>\( D \)</span> וגם ה-<span>\( G\cap D\ne\emptyset \)</span> המבוקש. רק צריך להראות ש-<span>\( D \)</span> צפופה. ומה זה צפופה? נפלא, בואו ניזכר גם בהגדרה הזו, “תת-קבוצה <span>\( D\subseteq P \)</span> היא <strong>צפופה</strong> אם לכל <span>\( p\in P \)</span> קיימת הרחבה ב-<span>\( D \)</span>.”</p>
<p>אוקיי, יש לנו בעיה: ההגדרה של צפופה חזקה מדי, לא מובטח ש-<span>\( D \)</span> תקיים אותה. אז בואו <strong>נרחיב</strong> את <span>\( D \)</span> לקבלת קבוצה <span>\( D^{\prime} \)</span> שתהיה צפופה, באופן הבא: נוסיף ל-<span>\( D^{\prime} \)</span> את כל האיברים שמרחיבים איבר כלשהו ב-<span>\( D \)</span>, כלומר את הקבוצה <span>\( \left\{ q\in P\ |\ \exists p\in D:p\subseteq q\right\} \)</span>. לרוע המזל, גם זה לא מספיק טוב. מה עם איברים <span>\( p\in P \)</span> שאין להם שום הרחבה משותפת עם אף איבר של <span>\( D \)</span>? אוקיי, בואו נוסיף <strong>גם אותם</strong> אל <span>\( D^{\prime} \)</span>. זה כבר מבטיח ש-<span>\( D^{\prime} \)</span> צפופה, כי אם <span>\( p\in P \)</span> יש שתי אפשרויות: או שאין ל-<span>\( p \)</span> הרחבה משותפת עם אף איבר של <span>\( D \)</span>, ואז מההגדרה הוא שייך אל <span>\( D^{\prime} \)</span>; או שיש לו הרחבה משותפת ואז ההרחבה הזו כבר מצאה את דרכה אל <span>\( D^{\prime} \)</span> כשרק הגדרנו אותו. קיבלנו ש-<span>\( D^{\prime} \)</span> אכן צפופה ולכן <span>\( G\cap D^{\prime}\ne\emptyset \)</span>.</p>
<p>עכשיו, אנחנו יודעים שלכל איבר של <span>\( G \)</span> יש הרחבה משותפת עם איבר של <span>\( D \)</span>, כלומר אם <span>\( p\in G\cap D^{\prime} \)</span> אז <span>\( p \)</span> שייך לחצי הראשון של <span>\( D^{\prime} \)</span>, של אותם איברים שהתקבלו מהרחבת איברים של <span>\( D \)</span>. זה עוזר לנו, כי אנחנו יודעים מההגדרה של אידאל שאם איבר שייך אליו, כך גם כל מי שמוכל בו:</p>
<p>“סגורה כלפי מטה: אם <span>\( q\in G \)</span> ועבור <span>\( p\in P \)</span> כלשהו מתקיים <span>\( p\subseteq q \)</span> אז <span>\( p\in G \)</span>.”</p>
<p>אז במקרה שלנו, <span>\( p \)</span> שייך לאידאל <span>\( G \)</span> ומרחיב איבר של <span>\( D \)</span> ולכן אותו איבר של <span>\( D \)</span> שייך ל-<span>\( G \)</span> בעצמו, וסיימנו.</p>
<p>עכשיו בואו נוכיח בעזרת הטענה שזה עתה ראינו עוד משהו. אני אומר על קבוצה <span>\( D\in\mathcal{M} \)</span> שהיא <strong>צפופה מעל</strong> <span>\( p \)</span> כלשהו אם לכל הרחבה של <span>\( p \)</span> קיימת הרחבה ב-<span>\( D \)</span> (כלומר לכל <span>\( p\subseteq q \)</span> קיים <span>\( q^{\prime}\in D \)</span> כך ש-<span>\( q\subseteq q^{\prime} \)</span>). זו גרסה מקומית של ההגדרה הכללית של צפיפות שפשוט דרשה שלכל איבר תהיה הרחבה ששייכת ל-<span>\( D \)</span>.</p>
<p>עכשיו, אם <span>\( G \)</span> הוא אידאל גנרי ו-<span>\( D \)</span> צפופה מעל <span>\( p\in G \)</span> כלשהו, אני רוצה להסיק מכך ש-<span>\( G\cap D\ne\emptyset \)</span>. אז מן הסתם אנסה לבצע רדוקציה לטענה הקודמת, מה שמצריך אותי להוכיח שלכל איבר של <span>\( G \)</span> יש הרחבה משותפת עם איבר של <span>\( D \)</span>. אבל זה קל, כי בואו ניקח <span>\( p^{\prime}\in G \)</span>. מההגדרה של אידאל קיים <span>\( q\in G \)</span> כך ש-<span>\( p,p^{\prime}\subseteq q \)</span>, ולכן אנחנו יודעים שיש <span>\( q^{\prime}\in D \)</span> כך ש-<span>\( p^{\prime}\subseteq q\subseteq q^{\prime} \)</span> וה-<span>\( q^{\prime} \)</span> הזה הוא הרחבה משותפת של <span>\( p^{\prime} \)</span> ושל עצמו. לכן אפשר להסיק ש-<span>\( G\cap D\ne\emptyset \)</span>.</p>
<p>לבסוף, עוד דבר אחד שאזדקק לו הוא זה: שאם <span>\( G\subseteq A\in\mathcal{M} \)</span> אז קיים <span>\( p\in G \)</span> כך שכל הרחבה של <span>\( p \)</span> שייכת ל-<span>\( A \)</span>. בשלב הזה אנחנו כנראה לא מספיק בהכרה כדי “להרגיש” מה זה אומר בכלל, אבל כשאני חושב על זה רגע זה לא משהו מובן מאליו. הרחבות של איברים הן בדרך כלל משהו שמתפרע לו ואין לנו שליטה עליו, לא? באידאל ה”שליטה” שיש לנו היא לכיוון ההפוך - אם איבר שייך לאידאל, אז כל מי שהוא מרחיב גם כן שייך לאידאל. כאן סוג של קורה הכיוון השני, כך שזה מעין קסם. הסיבה לקסם הזה היא ש-<span>\( A\in\mathcal{M} \)</span> וזה איכשהו מבטיח שהמבנה שלו יהיה “נחמד” מספיק, להבדיל מהמבנה היותר מסובך של <span>\( G \)</span> שגורם לכך ש-<span>\( G \)</span> לא תהיה ב-<span>\( \mathcal{M} \)</span>.</p>
<p>אוקיי, אז איך מוכיחים את זה? מכיוון ש-<span>\( G\subseteq A \)</span> אז <span>\( G\cap P\backslash A=\emptyset \)</span>. ראינו לפני רגע את הטענה שאם <span>\( D\in\mathcal{M} \)</span> היא קבוצה <span>\( D\subseteq P \)</span>, כך שלכל איבר של <span>\( G \)</span><strong> </strong>יש הרחבה משותפת עם איבר של <span>\( D \)</span>, אז <span>\( G\cap D\ne\emptyset \)</span>. במקרה שלנו ניקח <span>\( D=P\backslash A \)</span> (מכיוון ש-<span>\( P,A\in\mathcal{M} \)</span> ו-<span>\( \mathcal{M} \)</span> מקיימת את ZFC אז גם <span>\( P\backslash A\in\mathcal{M} \)</span>) ולכן מכך שהטענה <strong>לא</strong> מתקיימת נוכל להסיק את השלילה של התנאים שלה, כלומר ש<strong>קיים</strong> איבר <span>\( p\in G \)</span> ש<strong>אין</strong> לו הרחבה משותפת עם אף איבר של <span>\( D \)</span>. זה כמובן ה-<span>\( p \)</span> שאנחנו רוצים; כל הרחבה של <span>\( p \)</span> הזה בהכרח לא שייכת ל-<span>\( D \)</span> אחרת היינו מקבלים הרחבה משותפת ל-<span>\( p \)</span> ולאיבר של <span>\( D \)</span> (הוא עצמו). המסקנה היא ש-<span>\( p\in A \)</span> ובכך סיימנו את ההוכחה של טענות העזר ואפשר לעבור להוכחה של המשפט המרכזי.</p>
<h2>מוכיחים שזה עובד - ההוכחה</h2>
<p>הנה המשפט שאני רוצה להוכיח. אני אוכיח אותו באינדוקציה על הסודרים של <span>\( \mathcal{M} \)</span>, והוא כולל שני חלקים, שכל אחד מהם, כשמשתמשים בו בתור הנחת האינדוקציה, עוזר להוכיח את השני. הנה מה שהוא אומר:</p>
<p>בהינתן סודר <span>\( \alpha\in\mathcal{M} \)</span>, לכל זוג שמות-<span>\( P \)</span> <span>\( \tau_{1},\tau_{2} \)</span> שהם מדרגה <span>\( \alpha \)</span> לכל היותר, מתקיים:</p>
<ol> <li>אידאל גנרי <span>\( G \)</span> של <span>\( P \)</span> מקיים <span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span> אם ורק אם קיים <span>\( p\in G \)</span> שכופה את <span>\( \tau_{1}=\tau_{2} \)</span>.</li>
<li>איבר <span>\( p\in P \)</span> כופה את <span>\( \tau_{1}=\tau_{2} \)</span> אם ורק אם <span>\( \left(p,\tau_{1},\tau_{2}\right)\in\mathcal{F}_{\alpha} \)</span></li>
</ol>
<p>כאמור, ההוכחה תהיה באינדוקציה; אנחנו נוכל להניח שהטענה הוכחה לכל זוג <span>\( \sigma_{1},\sigma_{2} \)</span> של שמות שהם מדרגה נמוכה מ-<span>\( \alpha \)</span> (כלומר, כל שם שמופיע ב-<span>\( \tau_{1} \)</span> או <span>\( \tau_{2} \)</span>). תחת ההנחה הזו, אני הולך להוכיח טענת עזר שהיא הדבר המרכזי שנזדקק לו כאן, ומן הסתם תתבסס על הטענות שהוכחנו בחלק של “החימום”. אני אגדיר קבוצה <span>\( A\subseteq P \)</span> באופן הבא: <span>\( q_{1}\in A \)</span> אם לכל <span>\( \sigma_{1} \)</span> כך ש-<span>\( \left(\sigma_{1},q_{1}\right)\in\tau_{1} \)</span> קיים <span>\( \left(\sigma_{2},\tau_{2}\right)\in\tau_{2} \)</span> כך ש-<span>\( q_{1}\subseteq q_{2} \)</span> ו-<span>\( q_{2} \)</span> כופה את <span>\( \sigma_{1}=\sigma_{2} \)</span>. עכשיו אני טוען ש-<span>\( A \)</span> מקיימת את שתי התכונות הבאות, לכל אידאל גנרי <span>\( G \)</span>:</p>
<ul> <li>אם <span>\( \tau_{1}^{G}\subseteq\tau_{2}^{G} \)</span> אז <span>\( G\subseteq A \)</span>.</li>
<li>אם יש <span>\( p\in G \)</span> שכל הרחבה שלו שייכת ל-<span>\( A \)</span>, אז <span>\( \tau_{1}^{G}\subseteq\tau_{2}^{G} \)</span>.</li>
</ul>
<p>במקום להוכיח את שתי התכונות הללו מייד, בואו נראה איך הן משמשות אותנו להוכחת המשפט המרכזי, כי בלי זה לא ברור למה הן כאן בכלל ובשביל מה כל זה טוב.</p>
<p>ראשית בואו נטפל בהוכחה של טענה 1. כבר אמרנו שכיוון אחד טריוויאלי: אם קיים <span>\( p\in G \)</span> שכופה את <span>\( \tau_{1}=\tau_{2} \)</span> אז בוודאי ש-<span>\( G \)</span> מקיים <span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span> (וזה מתקיים <strong>לכל</strong> אידאל שיכיל את <span>\( p \)</span> הזה, לא רק <span>\( G \)</span>). אז מה שמעניין אותנו הוא הכיוון השני, זה שבשבילו הכנסנו לתמונה את ההגדרה של <span>\( \mathcal{F}_{\alpha} \)</span> מלכתחילה: איך אני הולך למצוא את ה-<span>\( p \)</span> הכופה הקסום הזה, רק מתוך הידיעה ש-<span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span>?</p>
<p>ובכן, טענת העזר נחלצת לעזרתנו: <span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span> בפרט אומר <span>\( \tau_{1}^{G}\subseteq\tau_{2}^{G} \)</span>, ולכן ש-<span>\( G\subseteq A \)</span>. עכשיו הנה עניין טיפה טריקי שאנפנף בו בידיים: אני טוען ש-<span>\( A\in\mathcal{M} \)</span> (השייכות הזו ל-<span>\( \mathcal{M} \)</span> הייתה קריטית בטענות העזר). למה? כי אפשר להגדיר את <span>\( A \)</span> באמצעות הנוסחה</p>
<p><span>\( A=\left\{ q_{1}\in P:\forall\sigma_{1}\left(\sigma_{1},q_{1}\right)\in\tau_{1}\to\exists\left(\sigma_{2},q_{2}\right)\in\tau_{2}\left(q_{1}\subseteq q_{2}\wedge q_{2}\Vdash\sigma_{1}=\sigma_{2}\right)\right\} \)</span></p>
<p>כלומר, אני יכול לקבל את <span>\( A \)</span> בעזרת אקסיומת ההפרדה, בתנאי שאפשר לנסח את כל התנאי המסובך של הקבוצה במסגרת <span>\( \mathcal{M} \)</span>. מה שלא ברור שאפשר לנסח הוא <span>\( q_{2}\Vdash\sigma_{1}=\sigma_{2} \)</span>, התנאי שאומר “<span>\( q_{2} \)</span> כופה את <span>\( \sigma_{1}=\sigma_{2} \)</span>”, אבל כאן נחלצת לעזרתי הנחת האינדוקציה שאומרת שזה קורה אם ורק אם <span>\( \left(q_{2},\sigma_{1},\sigma_{2}\right)\in\mathcal{F}_{\beta} \)</span> עבור <span>\( \beta<\alpha \)</span> כלשהו, ואת זה אפשר להגדיר במסגרת <span>\( \mathcal{M} \)</span>.</p>
<p>עכשיו, מכיוון ש-<span>\( G\subseteq A\in\mathcal{M} \)</span> אז מהטענה שראינו קודם קיים <span>\( p\in G \)</span> כך שכל הרחבה של <span>\( p \)</span> שייכת ל-<span>\( A \)</span>. עכשיו מגיע החלק הקסום. כזכור, אני מבטיח שאוכיח את הטענה הבאה על <span>\( A \)</span>:</p>
<ul> <li>אם יש <span>\( p\in G \)</span> שכל הרחבה שלו שייכת ל-<span>\( A \)</span>, אז <span>\( \tau_{1}^{G}\subseteq\tau_{2}^{G} \)</span>.</li>
</ul>
<p>העניין הוא שהטענה הזו נכונה <strong>לכל</strong> אידאל גנרי <span>\( G \)</span> שמכיל את <span>\( G \)</span>, לא רק לאידאל שהתחלנו ממנו את הכיוון הזה של ההוכחה. זו בדיוק הקפיצה שמאפשרת לנו לעבור מ-“מתקיים <span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span>” אל “יש איבר שכופה את <span>\( \tau_{1}=\tau_{2} \)</span>”. פורמלית, ניקח <span>\( G^{\prime} \)</span> כלשהו כך ש-<span>\( p\in G^{\prime} \)</span>, אז מכיוון שכל הרחבה של <span>\( p \)</span> שייכת ל-<span>\( A \)</span>, קיבלנו ש-<span>\( \tau_{1}^{G^{\prime}}\subseteq\tau_{2}^{G^{\prime}} \)</span>. המסקנה? <span>\( p \)</span> כופה את <span>\( \tau_{1}\subseteq\tau_{2} \)</span> שזה… לא בדיוק מה שרצינו, אבל זה קרוב מאוד.</p>
<p>בואו נחדד את מה שהוכחנו: ראינו שאם <span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span> אז קיים <span>\( p_{1}\in G \)</span> שכופה את <span>\( \tau_{1}\subseteq\tau_{2} \)</span>. באופן סימטרי לגמרי קיים <span>\( p_{2}\in G \)</span> שכופה את <span>\( \tau_{2}\subseteq\tau_{1} \)</span> (ומוכיחים את זה דרך קבוצה <span>\( A \)</span> שונה, “של <span>\( p_{2} \)</span>”). מכיוון ש-<span>\( G \)</span> הוא אידאל, קיים <span>\( p\in G \)</span> כך ש-<span>\( p_{1},p_{2}\subseteq p \)</span>. כל הרחבה של <span>\( p \)</span> הזה היא גם הרחבה של <span>\( p_{1} \)</span> ולכן שייכת ל-<span>\( A \)</span> של <span>\( p_{1} \)</span>. לכן גם <span>\( p \)</span> כופה את <span>\( \tau_{1}\subseteq\tau_{2} \)</span>, ובאותו אופן הוא גם כופה את <span>\( \tau_{2}\subseteq\tau_{1} \)</span> ומשני אלו קיבלנו שהוא כופה את <span>\( \tau_{1}=\tau_{2} \)</span>, וזה בדיוק מה שרצינו!</p>
<p>אבל לא סיימנו את ההוכחה עדיין, כי צריך להוכיח גם את חלק 2 של המשפט:</p>
<ul> <li>איבר <span>\( p\in P \)</span> כופה את <span>\( \tau_{1}=\tau_{2} \)</span> אם ורק אם <span>\( \left(p,\tau_{1},\tau_{2}\right)\in\mathcal{F}_{\alpha} \)</span></li>
</ul>
<p>החלק הזה היה קריטי עבורנו קודם, בשלב שבו רצינו להוכיח ש-<span>\( A\in\mathcal{M} \)</span>. באותו אופן, ההוכחה של החלק הזה תסתמך אינדוקטיבית על מה שזה עתה הוכחנו:</p>
<ul> <li>אידאל גנרי <span>\( G \)</span> של <span>\( P \)</span> מקיים <span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span> אם ורק אם קיים <span>\( p\in G \)</span> שכופה את <span>\( \tau_{1}=\tau_{2} \)</span>.</li>
</ul>
<p>בואו נראה איך. כאן יש לנו שני כיוונים שאף אחד מהם לא טריוויאלי לגמרי. ראשית נניח ש-<span>\( p \)</span> כופה את <span>\( \tau_{1}=\tau_{2} \)</span> ונוכיח ש-<span>\( \left(p,\tau_{1},\tau_{2}\right)\in\mathcal{F}_{\alpha} \)</span>. כזכור, שייכות ליחס הזה דורשת שתי טענות סימטריות כך שמספיק לי להוכיח את הראשונה, שהיא</p>
<ul> <li>לכל <span>\( \left(\sigma_{1},q_{1}\right)\in\tau_{1} \)</span> כך ש-<span>\( p\subseteq q_{1} \)</span>, קיים <span>\( \left(\sigma_{2},q_{2}\right)\in\tau_{2} \)</span> כך ש-<span>\( q_{1}\subseteq q_{2} \)</span> ו-<span>\( \left(q_{2},\sigma_{1},\sigma_{2}\right)\in\mathcal{F}_{\text{rank}\left(\sigma_{1},\sigma_{2}\right)} \)</span></li>
</ul>
<p>התנאי הזה דומה באופן מובהק ולא מקרי בעליל להגדרה של <span>\( A \)</span>:</p>
<ul> <li><span>\( q_{1}\in A \)</span> אם לכל <span>\( \sigma_{1} \)</span> כך ש-<span>\( \left(\sigma_{1},q_{1}\right)\in\tau_{1} \)</span> קיים <span>\( \left(\sigma_{2},\tau_{2}\right)\in\tau_{2} \)</span> כך ש-<span>\( q_{1}\subseteq q_{2} \)</span> ו-<span>\( q_{2} \)</span> כופה את <span>\( \sigma_{1}=\sigma_{2} \)</span>.</li>
</ul>
<p>ליתר דיוק, התנאי של שייכות ל-<span>\( \mathcal{F}_{\alpha} \)</span> בעצם אומר “לכל הרחבה <span>\( q_{1} \)</span> של <span>\( p \)</span>, מתקיים ש-<span>\( q_{1}\in A \)</span>” (אני משתמש כאן בהנחת האינדוקציה במובלע כשאני מתייחס אל <span>\( \left(q_{2},\sigma_{1},\sigma_{2}\right)\in\mathcal{F}_{\text{rank}\left(\sigma_{1},\sigma_{2}\right)} \)</span> בתור “<span>\( q_{2} \)</span> כופה את <span>\( \sigma_{1}=\sigma_{2} \)</span>”). זה מה שאנחנו רוצים להוכיח. לשם כך אני אגייס את אחת מהתכונות של <span>\( A \)</span> שהבטחתי להוכיח וטרם עשיתי זאת:</p>
<ul> <li>אם <span>\( \tau_{1}^{G}\subseteq\tau_{2}^{G} \)</span> אז <span>\( G\subseteq A \)</span>.</li>
</ul>
<p>המהלך הלוגי הוא כזה: ניקח הרחבה <span>\( q_{1} \)</span> כלשהי של <span>\( p \)</span>. אם <span>\( G \)</span> הוא אידאל גנרי כך ש-<span>\( q_{1}\in G \)</span> אז בגלל תכונת הסגירות מטה של אידאלים, <span>\( p\in G \)</span>. מכיוון ש-<span>\( p \)</span> כופה את <span>\( \tau_{1}=\tau_{2} \)</span> הרי ש-<span>\( \tau_{1}^{G}\subseteq\tau_{2}^{G} \)</span> ולכן <span>\( q_{1}\in G\subseteq A \)</span> וקיבלנו ש-<span>\( q_{1}\in A \)</span>, מה שמסיים את הכיוון הזה… אבל רק אם <strong>קיים</strong> אידאל גנרי <span>\( G \)</span> כך ש-<span>\( q_{1}\in G \)</span>. הענין הוא שבאמת קיים, הוכחנו את זה בשעתו, כשהוכחתי קיום של אידאל גנרי; ההוכחה הייתה “בואו נראה שלכל תנאי כפיה <span>\( p\in P \)</span> קיים אידאל גנרי שמכיל אותו”, והנה זה מסייע לנו עכשיו.</p>
<p>נשאר הכיוון השני, שבו אני מניח ש-<span>\( \left(p,\tau_{1},\tau_{2}\right)\in\mathcal{F}_{\alpha} \)</span> ומוכיח ש-<span>\( p \)</span> כופה את <span>\( \tau_{1}=\tau_{2} \)</span>. את זה נעשה ישירות מההגדרה: ניקח אידאל גנרי <span>\( G \)</span> כך ש-<span>\( p\in G \)</span> ונוכיח <span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span>. את זה נקבל מטענת העזר שטרם הוכחנו</p>
<ul> <li>אם יש <span>\( p\in G \)</span> שכל הרחבה שלו שייכת ל-<span>\( A \)</span>, אז <span>\( \tau_{1}^{G}\subseteq\tau_{2}^{G} \)</span>.</li>
</ul>
<p>ותנאי ה”כל הרחבה שלו שייכת ל-<span>\( A \)</span>” זה בדיוק מה שראינו קודם - האופן שבו התנאי שמגדיר את <span>\( \mathcal{F}_{\alpha} \)</span> אומר “לכל הרחבה <span>\( q_{1} \)</span> של <span>\( p \)</span>, מתקיים ש-<span>\( q_{1}\in A \)</span>”. לכן <span>\( \tau_{1}^{G}\subseteq\tau_{2}^{G} \)</span> ובאותו אופן גם <span>\( \tau_{2}^{G}\subseteq\tau_{1}^{G} \)</span> וקיבלנו את <span>\( \tau_{1}^{G}=\tau_{2}^{G} \)</span> כפי שרצינו. זה משלים את המשפט, למעט טענות העזר.</p>
<h2>טענות העזר</h2>
<p>כמעט סיימנו! רק נותרו לנו טענות העזר שהתבססנו עליהן שוב ושוב. שתיהן כזכור נגעו לקבוצה <span>\( A \)</span> כלשהי. אז הנה התזכורת:</p>
<ul> <li>הגדרת <span>\( A \)</span>: <span>\( q_{1}\in A \)</span> אם לכל <span>\( \sigma_{1} \)</span> כך ש-<span>\( \left(\sigma_{1},q_{1}\right)\in\tau_{1} \)</span> קיים <span>\( \left(\sigma_{2},\tau_{2}\right)\in\tau_{2} \)</span> כך ש-<span>\( q_{1}\subseteq q_{2} \)</span> ו-<span>\( q_{2} \)</span> כופה את <span>\( \sigma_{1}=\sigma_{2} \)</span>. </li>
<li>טענה 1: אם <span>\( \tau_{1}^{G}\subseteq\tau_{2}^{G} \)</span> אז <span>\( G\subseteq A \)</span>.</li>
<li>טענה 2: אם יש <span>\( p\in G \)</span> שכל הרחבה שלו שייכת ל-<span>\( A \)</span>, אז <span>\( \tau_{1}^{G}\subseteq\tau_{2}^{G} \)</span>.</li>
</ul>
<p>נתחיל מטענה 1. נניח ש-<span>\( \tau_{1}^{G}\subseteq\tau_{2}^{G} \)</span> וניקח <span>\( q_{1}\in G \)</span> כלשהו. אנחנו רוצים להראות ש-<span>\( q_{1}\in A \)</span>. אז יהא <span>\( \sigma_{1} \)</span> כלשהו כך שמתקיים <span>\( \left(\sigma_{1},q_{1}\right)\in\tau_{1} \)</span>: המטרה שלנו היא למצוא <span>\( \left(\sigma_{2},\tau_{2}\right)\in\tau_{2} \)</span> כך ש-<span>\( q_{2} \)</span> שמרחיב את <span>\( q_{1} \)</span> וכופה את <span>\( \sigma_{1}=\sigma_{2} \)</span>.</p>
<p>מכיוון ש-<span>\( \left(\sigma_{1},q_{1}\right)\in\tau_{1} \)</span> אז <span>\( \sigma_{1}^{G}\in\tau_{1}^{G} \)</span> (זוכרים? האיברים של <span>\( \tau_{1}^{G} \)</span> הם בדיוק שמות ה-<span>\( P \)</span> שעוברים את הפילטר של <span>\( G \)</span> ואז אנחנו רקורסיבית מחשבים את הערך ש-<span>\( G \)</span> נותן להם) ולכן <span>\( \sigma_{1}^{G}\in\tau_{2}^{G} \)</span>. זה אומר שבין שמות ה-<span>\( P \)</span> שמרכיבים את <span>\( \tau_{2} \)</span> חייב להיות אחד שהערך ש-<span>\( G \)</span> נותן לו הוא <span>\( \sigma_{1}^{G} \)</span>; במילים אחרות, יש <span>\( \left(\sigma_{2},q_{2}\right)\in\tau_{2} \)</span> כך ש-<span>\( q_{2}\in G \)</span> וגם <span>\( \sigma_{2}^{G}=\sigma_{1}^{G} \)</span>.</p>
<p>עכשיו, מכיוון ש-<span>\( q_{1},q_{2}\in G \)</span> יש להם הרחבה משותפת <span>\( q \)</span>, וכזכור (?) דרישה שלנו משמות-<span>\( P \)</span> הייתה שאם <span>\( \left(\sigma_{2},q_{2}\right)\in\tau_{2} \)</span> ו-<span>\( q \)</span> מרחיב את <span>\( q_{2} \)</span> אז גם <span>\( \left(\sigma_{2},q\right)\in\tau_{2} \)</span>. זה מאפשר לנו להניח בלי הגבלת הכלליות ש-<span>\( q_{1}\subseteq q_{2} \)</span> (אחרת נחליף את <span>\( q_{2} \)</span> בהרחבה משותפת שלו ושל <span>\( q_{1} \)</span>).</p>
<p>צריך לזכור שאנחנו עדיין בהקשר של הוכחת המשפט המרכזי באינדוקציה. מה שאומר שאפשר להיעזר בהנחת האינדוקציה:</p>
<ul> <li>אידאל גנרי <span>\( G \)</span> של <span>\( P \)</span> מקיים <span>\( \sigma_{1}^{G}=\sigma_{2}^{G} \)</span> אם ורק אם קיים <span>\( p\in G \)</span> שכופה את <span>\( \sigma_{1}=\sigma_{2} \)</span>.</li>
</ul>
<p>כאשר הנחת האינדוקציה הזו מופעלת לא על <span>\( \tau_{1},\tau_{2} \)</span> (האובייקטים עליהם אנחנו מנסים עכשיו להוכיח משהו) אלא על מי שבאים לפניהם בהיררכייה, כלומר שייכים אליהם, כלומר בפרט <span>\( \sigma_{1},\sigma_{2} \)</span>; לכן ניסחתי את ההנחה באמצעותם.</p>
<p>מה מצאנו? ראינו כבר ש-<span>\( \sigma_{2}^{G}=\sigma_{1}^{G} \)</span> ולכן קיים <span>\( p\in G \)</span> שכופה את <span>\( \sigma_{1}=\sigma_{2} \)</span>. אנחנו יכולים לקחת הרחבה משותפת של <span>\( p \)</span> ושל <span>\( q_{2} \)</span> וגם ההרחבה המשותפת הזו תכפה את <span>\( \sigma_{1}=\sigma_{2} \)</span> מנימוק שכבר ראינו קודם: כל אידאל שמכיל את ההרחבה המשותפת הזו יכיל גם את <span>\( p \)</span> עצמו, ולכן <span>\( p \)</span> יכפה את השוויון באותו אידאל. זה מסיים את ההוכחה של טענה 1.</p>
<p>נשארה רק טענה 2: ניקח <span>\( p\in G \)</span> שכל הרחבה שלו שייכת ל-<span>\( A \)</span>, ונראה ש-<span>\( \tau_{1}^{G}\subseteq\tau_{2}^{G} \)</span>. בשביל להראות את ההכלה, ניקח איבר כלשהו ב-<span>\( \tau_{1}^{G} \)</span>; הצורה שלו היא <span>\( \sigma_{1}^{G} \)</span> כאשר <span>\( \left(\sigma_{1},q_{1}\right)\in\tau_{1} \)</span> עבור <span>\( q_{1} \)</span> כלשהו. אפשר להניח ש-<span>\( p\subseteq q_{1} \)</span> אחרת נחליף את <span>\( q_{1} \)</span> בהרחבה המשותפת שלו ושל <span>\( p \)</span>. בסיטואציה הזו, <strong>כל</strong> הרחבה <span>\( q_{1}^{\prime} \)</span> של <span>\( q_{1} \)</span> שייכת ל-<span>\( A \)</span>. עכשיו, בואו נסמן ב-<span>\( D \)</span> את קבוצת כל ה-<span>\( q_{2} \)</span>-ים שכופים את <span>\( \sigma_{1}=\sigma_{2} \)</span> עבור <span>\( \sigma_{2} \)</span> כלשהו שמקיים <span>\( \left(\sigma_{2},q_{2}\right)\in\tau_{2} \)</span>. פורמלית</p>
<p><span>\( D=\left\{ q_{2}\in P\ |\ \exists\left(\sigma_{2},q_{2}\right)\in\tau_{2}:q_{2}\Vdash\sigma_{1}=\sigma_{2}\right\} \)</span></p>
<p>כמו קודם, ההגדרה הזו מראה ש-<span>\( D\in\mathcal{M} \)</span> כי אפשר לנסח אותה במסגרת <span>\( \mathcal{M} \)</span> באמצעות אקסיומת ההפרדה, תוך שימוש בהנחת האינדוקציה שמאפשרת לנו לנסח את <span>\( q_{2}\Vdash\sigma_{1}=\sigma_{2} \)</span> בלשון של שייכות ל-<span>\( \mathcal{F}_{\beta} \)</span>.</p>
<p>עכשיו, על פי ההגדרה של <span>\( A \)</span> והעובדה שכל הרחבה של <span>\( q_{1} \)</span> שייכת ל-<span>\( A \)</span>, קיבלנו שלכל הרחבה של <span>\( q_{1} \)</span> קיימת הרחבה ב-<span>\( D \)</span>. זה מתקשר להגדרה שהצגתי קודם:</p>
<ul> <li>אני אומר על קבוצה <span>\( D\in\mathcal{M} \)</span> שהיא <strong>צפופה מעל</strong> <span>\( p \)</span> כלשהו אם לכל הרחבה של <span>\( p \)</span> קיימת הרחבה ב-<span>\( D \)</span></li>
</ul>
<p>כלומר <span>\( D \)</span> צפופה מעל <span>\( q_{1} \)</span>, בהינתן שאוכיח ש-<span>\( D\in\mathcal{M} \)</span>. זה טוב לנו כי קודם הראיתי את טענת העזר</p>
<ul> <li>אם <span>\( G \)</span> הוא אידאל גנרי ו-<span>\( D \)</span> צפופה מעל <span>\( p\in G \)</span> כלשהו, אז <span>\( G\cap D\ne\emptyset \)</span></li>
</ul>
<p>מה שמסיים את ההוכחה כי אז ה-<span>\( p\in G\cap D \)</span> הזה כופה את <span>\( \sigma_{1}^{G}=\sigma_{2}^{G} \)</span>. זה אומר שלקחנו איבר כללי <span>\( \sigma_{1}^{G}\in\tau_{1}^{G} \)</span> והראינו שהוא שייך ל-<span>\( \tau_{2}^{G} \)</span>, מה שמוכיח את <span>\( \tau_{1}^{G}\subseteq\tau_{2}^{G} \)</span> המבוקש. זה מסיים את כל מה שנשאר לנו מההוכחה!</p>
<h2>סיכום ביניים לפני שממשיכים הלאה</h2>
<p>מה הלך בפוסט הזה? אפשר לסכם אותו בשלוש נקודות עיקריות:</p>
<ul> <li>ראינו את מושג ה<strong>כפייה</strong>: <span>\( p\Vdash\phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span> (<span>\( p \)</span> כופה את <span>\( \phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>) אם <strong>לכל</strong> אידאל גנרי <span>\( G \)</span> כך ש-<span>\( p\in G \)</span>, מתקיים ש-<span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span></li>
<li>ראינו את המשפט היסודי של תורת הכפייה: לכל אידאל גנרי <span>\( G \)</span>, נוסחה <span>\( \phi\left(x_{1},\ldots,x_{n}\right) \)</span> ושמות-<span>\( P \)</span> <span>\( \tau_{1},\ldots,\tau_{n} \)</span>, מתקיים ש-<span>\( \mathcal{M}\left[G\right]\models\phi\left(\tau_{1}^{G},\ldots,\tau_{n}^{G}\right) \)</span> אם ורק אם קיים <span>\( p\in G \)</span> כך ש-<span>\( p \)</span> כופה את <span>\( \phi\left(\tau_{1},\ldots,\tau_{n}\right) \)</span>.</li>
<li><strong>הוכחנו</strong> את המשפט היסודי למקרה הפרטי של הנוסחה <span>\( \phi\left(x_{1},x_{2}\right) \)</span> שמתארת שוויון, <span>\( x_{1}=x_{2} \)</span>.</li>
</ul>
<p>ההוכחה של המקרה הפרטי הייתה ארוכה, מסובכת ועם שלל טענות עזר ושימושים בהגדרות שראינו עד כה - כל מה שעשינו עד עכשיו התרכז לנקודה הזו, בעצם. למרות שאין פה משהו קשה באמת קל מאוד ללכת לאיבוד בפרטים; עבורי כתיבת הפוסט הזה הייתה הפעם הראשונה שבה הצלחתי (אני מקווה…) לעקוב לגמרי אחרי כל המעברים, אז ממש לא קריטי אם הולכים לאיבוד.</p>
<p>מה נשאר לנו?</p>
<ul> <li>להוכיח את המשפט למקרה הכללי: זה יהיה <strong>יותר קל</strong> מאשר מה שקרה עד כה, אינטואיטיבית בגלל שכאן "התחלנו מאפס" ובהמשך נוכל להסתמך על מה שהוכחנו כאן.</li>
<li>להראות איך המשפט מוכיח לנו שההרחבה הגנרית <span>\( \mathcal{M}\left[G\right] \)</span> (זוכרים שהיה פעם משהו כזה?) מקיימת את כל אקסיומות ZFC.</li>
<li>להשתמש בתוצאות הללו כדי להראות איך בונים <span>\( \mathcal{M}\left[G\right] \)</span> אחד שבו השערת הרצף <strong>מתקיימת</strong> ו-<span>\( \mathcal{M}\left[G\right] \)</span> אחר שבו השערת הרצף <strong>לא מתקיימת</strong>.</li>
</ul>
<p>כל אלו עדיין ידרשו עבודה, אבל עבודה פחות טכנית ועם יותר הבנה של התמונה הגדולה. אז קדימה לדרך!</p>מבואבעקבות השערת הרצף, חלק ו’: הרחבות גנריות2023-07-28T00:00:00+00:002023-07-28T00:00:00+00:00http://gadial.net/2023/07/28/continuum_hypothesis_forcing_generic_extensions<h2>מבוא</h2>
<p>בפוסט הקודם תיארנו את הרעיון הכללי של שיטת הכפייה של כהן. כדאי להזכיר את המרכיבים העיקריים שבהם נשתמש: יש לנו קבוצה <span>\( \mathcal{M} \)</span> שהיא טרנזיטיבית ובת מניה ומהווה סוג של מודל עבור ZFC, ואנחנו רוצים <strong>להרחיב</strong> אותה כדי שהשערת הרצף תתקיים בה (וגם להרחיב בצורה אחרת שבה השערת הרצף לא מתקיימת). לצורך כך אנחנו לוקחים קבוצה <span>\( P\in\mathcal{M} \)</span> וקוראים לאיברים שלה <strong>תנאי כפייה</strong>, ומתוך קבוצת התנאים הזו אנחנו בוחרים תת-קבוצה <span>\( G\subseteq P \)</span> שמקיימת כמה תכונות מועילות לנו ונקראת <strong>אידאל גנרי</strong>. עכשיו אנחנו רוצים להרחיב את <span>\( \mathcal{M} \)</span> בעזרת האידאל הגנרי הזה ולקבל קבוצה חדשה <span>\( \mathcal{M}\left[G\right] \)</span> שמרחיבה את <span>\( \mathcal{M} \)</span> באופן המבוקש שלנו <strong>ועדיין</strong> מהווה סוג של מודל עבור <span>\( \text{ZFC} \)</span>.</p>
<p>בפוסט הקודם נתתי דוגמא פשוטה מאוד שעוזרת לאינטואיציה: אפשר היה לחשוב על <span>\( P \)</span> בדוגמא הזו כעל <strong>בניות חלקיות</strong> של פונקציה מ-<span>\( \mathbb{N} \)</span> אל <span>\( \left\{ 0,1\right\} \)</span>, כלומר כעל פונקציות מתת-קבוצות סופיות של <span>\( \mathbb{N} \)</span> אל <span>\( \left\{ 0,1\right\} \)</span>. אידאל גנרי היה אוסף ספציפי של בניות חלקיות שלא סותרות זו את זו והוא גדול דיו כך שכאשר נסתכל על האיחוד <span>\( \bigcup G \)</span> נקבל פונקציה מהטבעיים אל <span>\( \left\{ 0,1\right\} \)</span>, ולא סתם פונקציה אלא אחת שלא יכלה להיות ב-<span>\( \mathcal{M} \)</span> מראש (את הכל הוכחתי והסברתי בפירוט בפוסט הקודם). עכשיו, כזכור יש לנו ב-<span>\( \text{ZFC} \)</span> משהו שנקרא <strong>אקסיומת האיחוד</strong> שאומר שאם קבוצה כלשהי קיימת, גם האיחוד של כל אבריה קיים; כלומר, אותה <span>\( G \)</span> שהזכרתי לא יכלה להיות שייכת אל <span>\( \mathcal{M} \)</span> (שימו לב: כל האיברים של <span>\( G \)</span> שייכים ל-<span>\( \mathcal{M} \)</span> אבל זה <strong>ממש לא אומר</strong> שהיא עצמה שייכת ל-<span>\( )\mathcal{M} \)</span>, והמטרה בבניית <span>\( \mathcal{M}\left[G\right] \)</span> היא להוסיף את <span>\( G \)</span> אל <span>\( \mathcal{M} \)</span> כך ש-<span>\( \text{ZFC} \)</span> תמשיך להתקיים גם אחרי התוספת הזו.</p>
<p>את הבניה הזו אציג כאן, ואני מזהיר שלמרות שהיא מאוד פשוטה מבחינה פורמלית, היא <strong>לא קלה לעיכול</strong>. אבל מרגע שנשתלט עליה, החלק הקשה מאחורינו.</p>
<h2>שתי אנלוגיות מועילות (או שלא מועילות)</h2>
<p>כשיש הגדרה אבסטרקטית יחסית, לדעתי מועיל לראות אנלוגיות מתחומים אחרים, שבתקווה כבר התרגלנו אל הטירוף שמתחולל בהם. אני אנסה לתת שתי אנלוגיות כאלו כאן, ואני מזהיר מראש שהן לא זהות 1:1 למה שהולך לקרות עכשיו - אבל מן הסתם, זו הסיבה שבגללה מה שהולך לקרות עכשיו הוא מעניין!</p>
<p>הדוגמא הראשונה היא <strong>הרחבה אלגברית</strong> של הרציונליים. נאמר, למשל, שאני לוקח את המספר <span>\( \sqrt[3]{7} \)</span> ומוסיף אותו למספרים הרציונליים ו”סוגר” את התוצאה כדי לקבל שדה, <span>\( \mathbb{Q}\left(\sqrt[3]{7}\right) \)</span>, איך השדה הזה ייראה? הוא יכיל את <span>\( \sqrt[3]{7} \)</span>, ואת המכפלה שלו בעצמו, שהיא <span>\( \sqrt[3]{49} \)</span>, וכשנכפול אותו שוב בעצמו נקבל פשוט 7 שכבר שייך לשדה. לאיברים הללו צריך גם להוסיף את כל מה שאפשר לקבל ממכפלה שלהם באיבר מהשדה, ואת הסכומים של האיברים שמתקבלים כך, ויוצא שהצורה הכללית של איבר בהרחבה האלגברית הזו הוא <span>\( a\sqrt[3]{7}+b\sqrt[3]{49}+c \)</span> כאשר <span>\( a,b,c\in\mathbb{Q} \)</span>.</p>
<p>הכל טוב ויפה, אבל יש כאן בעיה אחת: הדרך הזו תקפה רק אם אנחנו כבר יודעים שהאיבר <span>\( \sqrt[3]{7} \)</span> קיים; אבל מה אם נקודת המבט שלנו היא שאנחנו לא מכירים אותו, ורוצים לבנות את האיבר הזה <strong>מתוך</strong> מה שיש לנו בידיים כרגע, כלומר <span>\( \mathbb{Q} \)</span>? מה שעושים הוא לעבור להתבונן על <strong>חוג הפולינומים</strong> מעל <span>\( \mathbb{Q} \)</span>, החוג <span>\( \mathbb{Q}\left[x\right] \)</span> שכולל את כל האיברים מהצורה <span>\( p_{n}x^{n}+p_{n-1}x^{n-1}+\ldots+p_{1}x+p_{0} \)</span> כאשר ה-<span>\( p \)</span>-ים הם מספרים רציונליים. אפשר כמובן לשאול מה זה ה-<span>\( x \)</span> הזה בכלל, אבל זו סתם <strong>שיטת סימון</strong>; על כל פולינום כזה אפשר לחשוב פשוט בתור סדרה <span>\( \left(p_{0},\ldots,p_{n}\right) \)</span> ואין לנו ספק שהן קיימות. גם בבניה שתכף נציג, אנחנו בונים את אברי <span>\( \mathcal{M}\left[G\right] \)</span> מתוך אברי <span>\( P \)</span> שמסודרים במבנה מסוים (קצת יותר מורכב מאשר סדרה). לאיברים שנבנה באופן הזה נקרא <strong>שמות</strong>-<span>\( P \)</span>.</p>
<p>עכשיו, אחרי שיש לנו את <span>\( \mathbb{Q}\left[x\right] \)</span>, אנחנו <strong>מחלקים אותו</strong> באידאל שנוצר על ידי פולינום, במקרה שלנו <span>\( x^{3}-7 \)</span> שהוא הפולינום הקטן ביותר שמאפס את <span>\( \sqrt[3]{7} \)</span>. החלוקה הזו היא תהליך שלוקח את האיברים הכלליים של <span>\( \mathbb{Q}\left[x\right] \)</span> ומפשט אותם (הם הופכים להיות פולינומים ממעלה 2 לכל היותר) תוך כדי זה שהוא מקנה להם מבנה מסוים (פעולת הכפל שלהם תשקף את האופי הספציפי של הפולינום <span>\( x^{3}-7 \)</span> שבו חילקנו). גם אצלנו, אנחנו הולכים לקחת את כל האיברים שבנינו באמצעות <span>\( P \)</span> ולבצע עליהם מין תהליך של פישוט שיתבסס על האופי הספציפי של <span>\( G \)</span> שבחרנו - תהליך שבו אנחנו נותנים <strong>ערך</strong> לכל שם-<span>\( P \)</span> שבנינו קודם.</p>
<p>הדוגמא האנלוגית השניה מגיעה מהוכחת משפט השלמות של גדל על לוגיקה מסדר ראשון (<a href="https://gadial.net/2013/02/25/godel_completeness_proof_1/">יש לי פוסט</a> על זה). מאוד בגדול, מה שקורה שם הוא שיש לנו תורה - אוסף של נוסחאות - <span>\( \Phi \)</span> והאוסף הזה הוא עקבי, ואנחנו רוצים להראות שנובע מהעקביות הזו שקיים לתורה הזו מודל - כלומר אובייקט מתמטי שמספק את כל הנוסחאות של <span>\( \Phi \)</span>. זו תעלומה גדולה מאיפה אפשר בכלל לבנות אובייקט כזה, והתשובה היא שעושים תעלול: מרחיבים איכשהו את השפה שלנו כך שיש בה <strong>המון</strong> סימני קבועים (אלו המקבילים של שמות-<span>\( P \)</span> אצלנו) ואז בונים את המודל כך שהעולם שלו מורכב מסימני הקבועים הללו (זה תעלול יפה - האובייקט ה<strong>סינטקטי</strong> של הקבועים הופך להיות מה שמשתמשים בו בפרשנות ה<strong>סמנטית</strong> של הפסוקים) והיחסים של המודל נבחרים בצורה שמתיישבת יפה עם <span>\( \Phi \)</span> - זה דומה לתהליך הפישוט באמצעות <span>\( G \)</span> שדיברתי עליו.</p>
<p>כאמור, שתי האנלוגיות הללו לא מושלמות, והן כמובן חסרות ערך אם לא מכירים את הבניות המתמטיות שתיארתי; אבל אלו האינטואיציות הכי טובות שאני יכול לגייס לפני שאנחנו לוקחים צעד קדימה, אל מה שהיה עבורי הדבר הקשה ביותר לעיכול בכל סדרת הפוסטים הזו.</p>
<h2>שמות ופרשנותם</h2>
<p>הבניה של <span>\( \mathcal{M}\left[G\right] \)</span> מורכבת משני שלבים:</p>
<ul> <li>בניית אוסף אובייקטים שנקראים <strong>שמות</strong>-<span>\( P \)</span> שנוצרים במסגרת <span>\( \mathcal{M} \)</span> באמצעות <span>\( P \)</span>.</li>
<li>בניית <span>\( \mathcal{M}\left[G\right] \)</span> על ידי מתן <strong>ערך</strong> לכל שם-<span>\( P \)</span> באמצעות <span>\( G \)</span>.</li>
</ul>
<p>ההגדרה היא רקורסיבית: שם-<span>\( P \)</span> הולך להיות קבוצה של זוגות <span>\( \left(\sigma,p\right) \)</span> כך ש-<span>\( \sigma \)</span> הוא שם-<span>\( P \)</span> פשוט יותר ו-<span>\( p\in P \)</span> הוא “תגית” שמוצמדת אל <span>\( \sigma \)</span>. כשנותנים לשם <span>\( P \)</span> ערך זה נעשה רקורסיבית, על ידי לקיחת קבוצת ה-<span>\( \sigma \)</span>-ות שבתוך השם שתויגו על ידי איברים מ-<span>\( G \)</span>, והחלפה שלהן בערך ש-<span>\( G \)</span> נותן להן.</p>
<p>כרגיל בהגדרות רקורסיביות, כדי שזה יעבוד צריכה להיות מין היררכייה על האיברים שעובדים איתם: שם-<span>\( P \)</span> חייב להיבנות משמות פשוטים יותר. לכן ההגדרה שלנו תכלול בתוכה את יצירת ההיררכייה הזו.</p>
<p>עכשיו, בואו נראה פורמלית את שני השלבים הללו. זה די קצר:</p>
<p>אנחנו מגדירים סדרה <strong>טרנספיניטית</strong> של קבוצות <span>\( N_{0},N_{1},\ldots,N_{\alpha},\ldots \)</span> כך שיש לנו קבוצה <span>\( N_{\alpha} \)</span> לכל סודר <span>\( \alpha\in\mathcal{M} \)</span>. אברי הקבוצות הללו נקראים כולם שמות-<span>\( P \)</span> (או בקיצור, <strong>שמות</strong>), ועבור שם <span>\( \tau \)</span> <strong>הדרגה </strong>שלו היא הסודר <span>\( \alpha \)</span> המינימלי כך ש-<span>\( \tau\in N_{\alpha} \)</span>.</p>
<p>כל קבוצה <span>\( N_{\alpha} \)</span> מוגדרת באופן רקורסיבי. אברי <span>\( N_{\alpha} \)</span> הם כל הקבוצות <span>\( \tau\in\mathcal{M} \)</span> כך ש:</p>
<ol> <li>אברי <span>\( \tau \)</span> הם זוגות סדורים מהצורה <span>\( \left(\sigma,p\right) \)</span> כך ש-<span>\( p\in P \)</span> ואילו <span>\( \sigma\in N_{\beta} \)</span> עבור <span>\( \beta<\alpha \)</span>.</li>
<li>אם <span>\( q \)</span> הוא הרחבה של <span>\( p \)</span> וגם <span>\( \left(\sigma,p\right)\in\tau \)</span> אז <span>\( \left(\sigma,q\right)\in\tau \)</span>.</li>
</ol>
<p>שלב ב’: לכל שם <span>\( \tau \)</span> אנו מגדירים את <strong>הערך</strong> שלו, <span>\( \tau^{G} \)</span>, ברקורסיה על הדרגה של <span>\( \tau \)</span>:</p>
<p><span>\( \tau^{G}=\left\{ \sigma^{G}\ |\ \exists p\in G:\left(\sigma,p\right)\in\tau\right\} \)</span></p>
<p>וכעת מגדירים</p>
<p><span>\( \mathcal{M}\left[G\right]=\left\{ \tau^{G}\ |\ \tau\in\bigcup N_{\alpha}\right\} \)</span></p>
<p>זה הכל! זו ההגדרה המפחידה שכל כך התלוננתי עליה! אם היא ברורה לכם, יופי! לי היא בכלל לא הייתה ברורה! אני יוצא מנקודת הנחה שגם לכם היא לא כזו ברורה, אז בואו ננסה להסביר אותה.</p>
<p>נתחיל עם ההגדרה של שמות-<span>\( P \)</span>. כמו כל הגדרה רקורסיבית, קשה להבין מה הולך בה אם קשה להבין מאיפה זה מתחיל בכלל, אז בואו נראה מה קורה בשלבים הראשונים. ראשית, <span>\( N_{0} \)</span>. אם <span>\( \tau\in N_{0} \)</span>, זה אומר שכל אברי <span>\( \tau \)</span> הם מהצורה <span>\( \left(\sigma,p\right) \)</span> כך ש-<span>\( \sigma\in N_{\beta} \)</span> שעבורו <span>\( \beta<0 \)</span>… אין דבר כזה. אז אין שום דבר שיכול להיות איבר של <span>\( \tau \)</span>. זה אומר ש-<span>\( \tau=\emptyset \)</span>. השם היחיד מדרגה 0 הוא פשוט הקבוצה הריקה: <span>\( N_{0}=\left\{ \emptyset\right\} \)</span>.</p>
<p>למרבה המזל, ב-<span>\( N_{1} \)</span> כבר יש דברים מעניינים הרבה יותר. לכל שם ששייך ל-<span>\( N_{1} \)</span> יש הרבה איברים פוטנציאליים אפשריים: כל זוג מהצורה <span>\( \left(\sigma,p\right) \)</span> כך ש-<span>\( \sigma\in N_{0} \)</span> ו-<span>\( p\in P \)</span>. מכיוון ש-<span>\( N_{0}=\left\{ \emptyset\right\} \)</span>, אנחנו מדברים רק על איברים מהצורה <span>\( \left(\emptyset,p\right) \)</span>, אבל גם כאלו יכולים להיות לא מעט, ואנחנו לוקחים את כל הקבוצות של איברים מהצורה הזו - <strong>כל עוד</strong> הן שייכות ל-<span>\( \mathcal{M} \)</span>. חשוב להדגיש את זה: אנחנו כל הזמן עובדים במסגרת <span>\( \mathcal{M} \)</span> כשאנחנו בונים שמות. הפעולה שתחריג אותנו ותוציא אותנו החוצה תהיה שלב השמת הערכים בהתאם ל-<span>\( G \)</span>.</p>
<p>איך נראה איבר של <span>\( N_{2} \)</span>? כאן אנחנו כבר נתקלים בדברים מסובכים למדי. עבור <span>\( \tau\in N_{2} \)</span> יש לנו קבוצה שכל איבר של הוא מהצורה <span>\( \left(\sigma,p\right) \)</span> עבור <span>\( \sigma\in N_{1} \)</span> או <span>\( \sigma\in N_{0} \)</span>. אם <span>\( \sigma\in N_{0} \)</span> אנחנו יודעים שהזוג הוא <span>\( \left(\emptyset,p\right) \)</span> אבל אם הוא ב-<span>\( N_{1} \)</span> הוא כבר יכול להיות הרבה דברים. למשל <span>\( \left(\left\{ \left(\emptyset,p_{1}\right)\right\} ,p\right) \)</span>; או למשל <span>\( \left(\left\{ \left(\emptyset,p_{1}\right),\left(\emptyset,p_{2}\right)\right\} ,p\right) \)</span>; או אפילו אולי <span>\( \left(\left\{ \left(\emptyset,p_{1}\right),\left(\emptyset,p_{2}\right),\ldots\right\} ,p\right) \)</span> עבור <span>\( \sigma \)</span> אינסופית שמכילה את כל ה-<span>\( P \)</span>-ים. בקיצור, יש כאן הרבה גמישות וחופש בחירה, אבל בסופו של דבר כשמסתכלים על כל <span>\( \tau \)</span> כזה רואים המון זוגות סדורים, בקינונים שונים ומשונים, כך שלכל איבר מסובך <span>\( \sigma \)</span> מתלווה איזו תווית פשוטה <span>\( p \)</span>. כאמור, אני אתייחס אל <span>\( p \)</span> בתור <strong>תיוג</strong> פה ושם מכאן והלאה; זה סתם שם לא פורמלי שעוזר לאינטואיציה שלי.</p>
<p>כדי להבין מה קורה עכשיו, כדאי להיזכר באקסיומת ההפרדה. אקסיומת ההפרדה היא הדרך שלנו לקחת קבוצה גדולה <span>\( A \)</span> אבל אולי לא הכי מורכבת בעולם, ובעזרת קריטריון <span>\( \psi \)</span> כלשהו לבנות מתוכה קבוצה מעניינת יותר: <span>\( \left\{ a\in A\ |\ \psi\left(a\right)=\text{T}\right\} \)</span>. הקבוצה המעניינת היא <strong>קטנה יותר</strong> מ-<span>\( A \)</span> במובן זה שיש בה פחות איברים, אבל המבנה שלה עשוי להיות הרבה יותר מורכב. כך גם אצלנו - הרעיון עכשיו הוא לקחת את השם <span>\( \tau \)</span> ו”לסנן” ממנו את כל הדברים שלא מתוייגים בעזרת אברי <span>\( G \)</span>, כדי לקבל קבוצות עם מבנה מעניין שלא נכללו ב-<span>\( \mathcal{M} \)</span> עצמה (כאן אנחנו רואים יתרון של השימוש בשם <strong>מסנן</strong> כדי לתאר את <span>\( G \)</span> - שימוש שהוא כאמור נפוץ בספרות, יחד עם היפוך טרמינולוגי מסוים, והעדפתי להימנע ממנו).</p>
<p>בואו נסתכל כעת שוב על השמת הערך ל-<span>\( \tau \)</span>:</p>
<p><span>\( \tau^{G}=\left\{ \sigma^{G}\ |\ \exists p\in G:\left(\sigma,p\right)\in\tau\right\} \)</span></p>
<p>אנחנו בעצם עושים כאן שני דברים: ראשית, אנחנו מסננים מ-<span>\( \tau \)</span> החוצה את כל האיברים <span>\( \left(\sigma,p\right) \)</span> כך ש-<span>\( p\notin G \)</span>. אחרי שלב הסינון הזה התגית שמחוברת ל-<span>\( \sigma \)</span> ששרדו היא “מיותרת” כי את הסינון עבורם כבר עשינו. אז אנחנו נפטרים מהתגית, נשארים רק עם <span>\( \sigma \)</span>, ואז באופן רקורסיבי אנחנו נותנים ל-<span>\( \sigma \)</span> הזה ערך בעזרת <span>\( G \)</span> ומקבלים את <span>\( \sigma^{G} \)</span> שהוא מה שהולך להיכנס לגרסה הסופית של <span>\( \tau^{G} \)</span>.</p>
<p>בשביל שההגדרה הזו תעבור, אני צריך שהדרגה של <span>\( \sigma \)</span> תהיה קטנה מהדרגה של <span>\( \tau \)</span>, כך שאפשר יהיה להניח באינדוקציה שכשאני בא לתת ערך ל-<span>\( \tau \)</span> הערך של <span>\( \sigma^{G} \)</span> כבר נקבע. אבל זה ברור: נסתכל על ה-<span>\( \alpha \)</span> המינימלי כך ש-<span>\( \tau\in N_{\alpha} \)</span>. על פי ההגדרה, אברי <span>\( \tau \)</span> הם <span>\( \left(\sigma,p\right) \)</span> כך שכל <span>\( \sigma\in N_{\beta} \)</span> כך ש-<span>\( \beta<\alpha \)</span>, ובפרט הדרגה של <span>\( \sigma \)</span> היא לכל היותר <span>\( \beta \)</span>, כך שההגדרה עובדת.</p>
<h2>אבל מה בעצם קיבלנו?</h2>
<p>בואו נניח שהבנו בערך איך ההגדרה עובדת. עדיין לא ברור הדבר המרכזי - מה זה בעצם <span>\( \mathcal{M}\left[G\right] \)</span> הזה? ובכן, זו קבוצה; קבוצה שנבנית מתוך האיברים של <span>\( \mathcal{M} \)</span> אבל עם תת-קבוצות חדשות שלא היו שם קודם. בפרט, <span>\( \mathcal{M\subseteq}\mathcal{M}\left[G\right] \)</span> וגם <span>\( G\in\mathcal{M}\left[G\right] \)</span>. ואני רוצה שיהיה ברור, כי האנלוגיות שנתתי קודם אולי יוצרות רושם שגוי בנקודה הזו - כשאני אומר <span>\( \mathcal{M\subseteq}\mathcal{M}\left[G\right] \)</span> אני לא מתכוון שיש איזה עותק איזומורפי של <span>\( \mathcal{M} \)</span> בתוך <span>\( \mathcal{M}\left[G\right] \)</span> או משהו. אני מתכוון שכל האיברים של <span>\( \mathcal{M} \)</span> נמצאים כמות שהם בתוך <span>\( \mathcal{M}\left[G\right] \)</span>. וגם לא קשה לראות את זה.</p>
<p>בתור שלב ראשון, אני רוצה להראות שלכל <span>\( x\in\mathcal{M} \)</span> יש שם כלשהו <span>\( \sigma \)</span> כך שכאשר מבצעים את ההשמה <span>\( \sigma^{G} \)</span> מקבלים <span>\( x=\sigma^{G} \)</span>. אני אסמן את השם שמחזיר כך את <span>\( x \)</span> בתור <span>\( \check{x} \)</span>. הדרך שבה אני רוצה להוכיח את קיום את כל ה-<span>\( \check{x} \)</span>-ים הללו היא באינדוקציה על-סופית, וכאן אני משתמש במושג של <strong>ההיררכייה המצטברת</strong> <a href="https://gadial.net/2023/01/18/classes_and_transfinite/">שהצגתי בפוסט</a> על אינדוקציה ורקורסיה על-סופיות. גם אם לא זוכרים מה אמרתי שם, לא נורא; בפועל מה שאני משתמש בו הוא שאני יכול להניח, כשאני בא להוכיח משהו על <span>\( x \)</span>, שאותו משהו כבר הוכח לכל האיברים של <span>\( x \)</span>.</p>
<p>אוקיי, אז בואו ניקח <span>\( x\in\mathcal{M} \)</span> כלשהו. מה יהיה השם <span>\( \check{x} \)</span> שמתאים לו? האינטואיציה אומרת - מכיוון ש-<span>\( x \)</span> כבר שייך ל-<span>\( \mathcal{M} \)</span> ו-<span>\( \mathcal{M} \)</span> טרנזיטיבית, גם כל האיברים של <span>\( x \)</span> כבר שייכים ל-<span>\( \mathcal{M} \)</span> ולכן אפשר להניח באינדוקציה שיש להם שמות שמתאימים להם; כל מה שנשאר לעשות הוא לוודא שהשמות הללו לא מושמדים כשאנחנו מכניסים את <span>\( G \)</span> לתמונה, אז פשוט נתייג שם כזה עם כל <span>\( p\in P \)</span> אפשרי:</p>
<p><span>\( \check{x}=\left\{ \left(\left(\check{y},p\right)\ |\ y\in x\wedge p\in P\right)\right\} \)</span></p>
<p>האם <span>\( \check{x} \)</span> הוא בכלל שם חוקי? ובכן, שם צריך לקיים שתי דרישות. ראשית, שכל אבריו יהיו מהצורה <span>\( \left(\sigma,p\right) \)</span> כאשר <span>\( \sigma \)</span> הוא בעצמו שם - זה בהחלט מתקיים על פי ההגדרה. שנית, צריך להתקיים שאם <span>\( q \)</span> הוא הרחבה של <span>\( p \)</span> וגם <span>\( \left(\sigma,p\right)\in\tau \)</span> אז <span>\( \left(\sigma,q\right)\in\tau \)</span>. כמובן שגם זה מתקיים כי לכל <span>\( \check{y} \)</span> לקחנו את <strong>כל</strong> האיברים מהצורה <span>\( \left(\check{y},p\right) \)</span> לכל <span>\( p\in P \)</span> כולל <span>\( q \)</span>.</p>
<p>אז זה שם חוקי, אבל לא מספיק לקיים את הקריטריונים, גם צריך שיתקיים <span>\( \check{x}\in\mathcal{M} \)</span> (זוכרות? כל השמות הם איברים של <span>\( \mathcal{M} \)</span>; זו ההשמה לתוכם שיוצרת דברים שאינם ב-<span>\( \mathcal{M} \)</span>). אם אנחנו מניחים באינדוקציה ש-<span>\( \check{y}\in\mathcal{M} \)</span> אז אנחנו מסודרים בזכות זה ש-<span>\( \mathcal{M} \)</span> מקיימת את <span>\( \text{ZFC} \)</span>: בעזרת הפרדה על הקבוצה <span>\( \mathcal{M} \)</span> אנחנו בונים את הקבוצה <span>\( A=\left\{ \check{y}\in\mathcal{M}\ |\ y\in x\right\} \)</span>, ואז <span>\( \check{x}=A\times P \)</span> - ומכפלה קרטזית של שתי קבוצות ששייכות ל-<span>\( \mathcal{M} \)</span> שייכת בעצמה ל-<span>\( \mathcal{M} \)</span> כי אפשר לבנות מכפלה קרטזית בעזרת ZFC.</p>
<p>עכשיו, מה קורה בשלב השמת הערך? <span>\( \check{x}^{G}=\left\{ \check{y}^{G}\ |\ \exists p\in G:\left(\check{y},p\right)\in\dot{x}\right\} =\left\{ \check{y}^{G}\ |\ y\in x\right\} \)</span> כשהמעבר השני נובע מכך ש-<span>\( G \)</span> לא מפלטר שום דבר כי בנינו את <span>\( \check{x} \)</span> כך שכל איבר שלו יופיע עם כל התיוגים האפשריים ובפרט כאלו ששייכים אל <span>\( G \)</span>. כעת, נניח באינדוקציה שכבר ראינו <span>\( \check{y}^{G}=y \)</span> ונקבל <span>\( \check{x}^{G}=\left\{ \check{y}^{G}\ |\ y\in x\right\} =\left\{ y\ |\ y\in x\right\} =x \)</span>, כפי שרצינו. אז אנחנו רואים ש-<span>\( \mathcal{M}\subseteq\mathcal{M}\left[G\right] \)</span> בצורה פשוטה למדי.</p>
<p>עכשיו בואו נראה שגם יצרנו משהו חדש: ש-<span>\( G\in\mathcal{M}\left[G\right] \)</span>. מי יהיה השם שמתאים ל-<span>\( G \)</span>? כבר ראינו שלכל <span>\( x\in\mathcal{M} \)</span> יש שם <span>\( \check{x} \)</span> שנותן אותו; בפרט לכל <span>\( p\in P \)</span> מתקיים <span>\( p\in\mathcal{M} \)</span> אז לכל <span>\( p \)</span> כזה יש שם <span>\( \check{p} \)</span> מתאים. אז נגדיר:</p>
<p><span>\( \Gamma=\left\{ \left(\check{p},q\right)\ |\ p,q\in P\wedge p\subseteq q\right\} \)</span></p>
<p>כלומר, לכל שם <span>\( \check{p} \)</span> שכבר יצרנו, אנחנו מתייגים אותו עם כל ה-<span>\( q \)</span>-ים שהם הרחבות של <span>\( p \)</span>. למה אני קורא לזה <span>\( \Gamma \)</span> ולא, נאמר, <span>\( \check{G} \)</span>? ובכן, כי הבניה הזו לא נובעת מ-<span>\( G \)</span> בשום צורה; <span>\( G \)</span> יצוץ רק בשלב השמת הערכים. אם היינו עובדים עם אידאל גנרי אחר, בשלב השמת הערכים <span>\( \Gamma \)</span> הייתה הופכת אליו.</p>
<p>למה הגדרנו את זה ככה? ובכן, ההגדרה הכי פשוטה היא <span>\( \Gamma=\left\{ \left(\check{p},p\right)\ |\ p\in P\right\} \)</span>. עם ההגדרה הזו, ברור ש-<span>\( \Gamma^{G}=\left\{ \check{p}^{G}\ |\ p\in G\right\} =\left\{ p\ |\ p\in G\right\} =G \)</span> כי כבר ראינו ש-<span>\( \check{p}^{G}=p \)</span> (זה נכון לכל איבר של <span>\( \mathcal{M} \)</span>) ובעצם פשוט סיננו החוצה את האיברים של <span>\( P \)</span> שאינם ב-<span>\( G \)</span>. אבל הגדרתי עם ה-<span>\( q \)</span> כדי לשמור על כך שהתכונה השניה של שמות-<span>\( P \)</span> תתקיים. זה לא יכול להכניס ל-<span>\( \Gamma^{G} \)</span> איברים שאינם ב-<span>\( G \)</span>, כי <span>\( G \)</span> היא אידאל, ואידאלים הם בעלי תכונת סגירות כלפי מטה: אם <span>\( q\in G \)</span> ו-<span>\( p\subseteq q \)</span> אז גם <span>\( p\in G \)</span>. לכן אם <span>\( p\in\Gamma^{G} \)</span>, כלומר אם קיים <span>\( q\in G \)</span> כך ש-<span>\( \left(\check{p},q\right)\in\Gamma \)</span>, אז על פי הגדרת <span>\( \Gamma \)</span> מתקיים <span>\( p\subseteq q \)</span> ולכן <span>\( p\in G \)</span>.</p>
<p>האם סיימנו? הו לא, אנחנו רק מתחילים!</p>
<h2>עולם חדש מופלא</h2>
<p>מה שעשינו עד כה היה לבנות מ-<span>\( \mathcal{M} \)</span> ו-<span>\( G \)</span> את <span>\( \mathcal{M}\left[G\right] \)</span>, שהיא קבוצה שמכילה את <span>\( \mathcal{M} \)</span> ואת <span>\( G \)</span>. אבל כדי שהבניה הזו תועיל לנו, צריך ש-<span>\( \mathcal{M}\left[G\right] \)</span> תקיים את התכונות היפות ש-<span>\( \mathcal{M} \)</span> קיימה; היא הייתה קבוצה טרנזיטיבית בת מניה שקיימה את כל אקסיומות ZFC. נצטרך להראות שהכל עובד גם ב-<span>\( \mathcal{M}\left[G\right] \)</span>. חלק מזה יהיה קל, וחלק… לא קל.</p>
<p>להוכיח ש-<span>\( \mathcal{M}\left[G\right] \)</span> היא טרנזיטיבית ובת מניה זה קל. בשביל החלק של בת מניה, שימו לב ש-<span>\( \mathcal{M}\left[G\right] \)</span> נוצרת ממתן ערך לכל שמות ה-<span>\( P \)</span> מעל <span>\( \mathcal{M} \)</span>, כך שאם יש מספר בן מניה של שמות-<span>\( P \)</span> גם <span>\( \mathcal{M}\left[G\right] \)</span> תהיה בת מניה, אבל שמות-<span>\( P \)</span> מלכתחילה <strong>הוגדרו</strong> בתור איברים של <span>\( \mathcal{M} \)</span> שמקיימים תכונות מסוימות, אז בוודאי שאם <span>\( \mathcal{M} \)</span> בת מניה גם הם בני מניה.</p>
<p>כדי לראות ש-<span>\( \mathcal{M}\left[G\right] \)</span> טרנזיטיבית, בואו ניקח איבר שלה, <span>\( \tau^{G}\in\mathcal{M}\left[G\right] \)</span>. מי האיברים של <span>\( \tau^{G} \)</span>? בואו נפתח שוב את ההגדרה:</p>
<p><span>\( \tau^{G}=\left\{ \sigma^{G}\ |\ \exists p\in G:\left(\sigma,p\right)\in\tau\right\} \)</span></p>
<p>ניקח <span>\( \sigma^{G} \)</span> שכזה: הוא עצמו מתן ערך לשם-<span>\( P \)</span> <span>\( \sigma \)</span>, ולכן על פי הגדרה, <span>\( \sigma^{G}\in\mathcal{M}\left[G\right] \)</span>, אז גם עניין הטרנזיטיביות היה קל. נשארה רק ZFC על שלל האקסיומות שלה. אפשר לחלק את האקסיומות לשני סוגים: אלו שממש קל להראות שמתקיימות גם ב-<span>\( \mathcal{M}\left[G\right] \)</span>, ואלו שנצטרך עבודת הכנה בדמות משפט מהותי מאוד על האופי של <span>\( \mathcal{M}\left[G\right] \)</span> לפני שנוכל להוכיח. אז נתחיל ממה שממש קל: אקסיומות ההיקפיות, הזיווג, האיחוד, האינסוף והיסוד (מה שמשאיר לנו את קבוצת החזקה, ההפרדה, ההחלפה והבחירה).</p>
<p>על אקסיומת היסוד אין מה לדבר בכלל: כל איבר של <span>\( \mathcal{M}\left[G\right] \)</span> הוא קבוצה, כלומר מקיים את אקסיומות ZFC בגרסה הלא יחסית שלהן, ולכן מקיים את אקסיומת היסוד. זה עשוי להישמע טריוויאלי למדי, למה אי אפשר להשתמש באותו טיעון כדי להראות שהיקפיות מתקיימת, למשל? כי כזכור, היקפיות אומרת ששתי קבוצות <span>\( A,B \)</span> הן שוות אם ורק אם לכל <span>\( x \)</span>, <span>\( x\in A \)</span> אם ורק אם <span>\( x\in B \)</span>, אבל כשאנחנו עוברים לדבר על הגרסה היחסית, <span>\( x \)</span> הוא לא איבר <strong>כלשהו</strong> אלא רק של העולם שאנחנו מדברים עליו, במקרה הנוכחי <span>\( \mathcal{M}\left[G\right] \)</span>. למרבה המזל, העולם הספציפי הזה הוא טרנזיטיבי, כפי שכבר ראינו, אז אם <span>\( A\in\mathcal{M}\left[G\right] \)</span> ואם <span>\( x\in A \)</span> אז בפרט <span>\( x\in\mathcal{M}\left[G\right] \)</span> ולכן הוא משתתף בהגדרה של היקפיות - ואנחנו מקבלים שהיקפיות פירושה “שתי קבוצות שוות אם יש להן בדיוק את אותם איברים” גם בהקשר הצר של <span>\( \mathcal{M}\left[G\right] \)</span>.</p>
<p>אקסיומת האינסוף נובעת מכך ש-<span>\( \mathcal{M} \)</span> מקיימת אותה ו-<span>\( \mathcal{M}\subseteq\mathcal{M}\left[G\right] \)</span>, כפי שכבר ראינו.</p>
<p>אקסיומת הזיווג מתחילה להיות טריקית. אנחנו לוקחים <span>\( \tau_{1}^{G},\tau_{2}^{G}\in\mathcal{M}\left[G\right] \)</span> והמטרה שלנו היא להראות שגם <span>\( \left\{ \tau_{1}^{G},\tau_{2}^{G}\right\} \in\mathcal{M}\left[G\right] \)</span>, כלומר ממש צריך לעבוד קצת עם הידיים ולבנות משהו. אבל טיפה חשיבה וקל לראות מה המשהו. נגדיר שם-<span>\( P \)</span> באופן הבא:</p>
<p><span>\( \tau_{\left\{ 1,2\right\} }=\left\{ \left(\sigma,p\right)\ |\left(\sigma=\tau_{1}\vee\sigma=\tau_{2}\right)\wedge p\in P\right\} \)</span></p>
<p>כלומר, <span>\( \tau_{\left\{ 1,2\right\} } \)</span> פשוט מכיל את השמות <span>\( \tau_{1},\tau_{2} \)</span> כשהם מתוייגים על ידי כל אברי <span>\( P \)</span>, ולכן ברור ש-<span>\( \tau_{\left\{ 1,2\right\} }^{G}=\left\{ \tau_{1}^{G},\tau_{2}^{G}\right\} \)</span>. ברור גם ש-<span>\( \tau_{\left\{ 1,2\right\} } \)</span> הוא שם-<span>\( P \)</span> חוקי על פי ההגדרה, בזכות זה שהתיוגים נלקחים מכל <span>\( P \)</span>. מה שקצת פחות ברור הוא למה <span>\( \tau_{\left\{ 1,2\right\} }\in\mathcal{M} \)</span> בכלל, אבל זה נובע מכך ש-<span>\( \mathcal{M} \)</span> מקיימת את ZFC. הרי <span>\( \tau_{\left\{ 1,2\right\} }=\left\{ \tau_{1}\right\} \times P\cup\left\{ \tau_{2}\right\} \times P \)</span> ואת הבניה הזו קל לבצע במסגרת ZFC.</p>
<p>נשארה לנו האקסיומה הקשה ביותר מבין אלו הקלות: איחוד. זה “קשה” בעיקר כי כשיש לנו איחוד צריך לדבר על איבר-של-איבר-של-איבר של משהו. אנחנו לוקחים איבר של <span>\( \mathcal{M}\left[G\right] \)</span> וצריכים להראות שיש ב-<span>\( \mathcal{M}\left[G\right] \)</span> קבוצה שהאיברים שלה הם כל האיבר-של-איבר של אותו איבר של <span>\( \mathcal{M}\left[G\right] \)</span> שהתחלנו ממנו.</p>
<p>ובכן, איבר כללי של <span>\( \mathcal{M}\left[G\right] \)</span> הוא מהצורה <span>\( \tau^{G} \)</span> עבור שם-<span>\( P \)</span> כלשהו <span>\( \tau \)</span>. האיברים של <span>\( \tau^{G} \)</span> הזה הם, על פי הגדרה, כל מני <span>\( \sigma^{G} \)</span>-ים כך ש-<span>\( \left(\sigma,p\right)\in\tau \)</span> עבור <span>\( p\in G \)</span>. מה שאנחנו צריכים להראות הוא קבוצה ב-<span>\( \mathcal{M}\left[G\right] \)</span> שהאיברים שלה הם אותם איברים של כל ה-<span>\( \sigma^{G} \)</span> הללו. כלומר, הם איברים מהצורה <span>\( \upsilon^{G} \)</span> כך ש-<span>\( \left(\upsilon,q\right)\in\sigma \)</span> עבור <span>\( q\in G \)</span> כלשהו.</p>
<p>עכשיו, מכיוון שאיבר כללי של <span>\( \mathcal{M}\left[G\right] \)</span> נבנה על ידי לקיחת שם-<span>\( P \)</span> ואז מתן ערך עבורו, אנחנו בעצם צריכים להגדיר שם-<span>\( P \)</span> שיתורגם אל הקבוצה הזו. בואו נסמן אותו ב-<span>\( \overline{\tau} \)</span> כדי שיהיה ברור הקשר ל-<span>\( \tau \)</span> המקורי. הנה נסיון לתת הגדרה על בסיס הפסקה הקודמת:</p>
<p><span>\( \overline{\tau}=\left\{ \left(\upsilon,q\right)\ |\ \exists\left(\sigma,p\right):\left(\left(\upsilon,q\right)\in\sigma\wedge\left(\sigma,p\right)\in\tau\right)\right\} \)</span></p>
<p>הבעיה היא שההגדרה הזו לא תעבוד. היא לא תעבוד בגלל בעיה עדינה, כמו שקורה המון בהוכחות כאן. דווקא בגלל זה אני רוצה שנתחיל את ההוכחה ונראה איפה אנחנו נתקעים.</p>
<p>ובכן, להוכחה יש שני כיוונים, וכשכתבתי את ההגדרה של <span>\( \overline{\tau} \)</span> חשבתי רק על אחד מהם - על לקחת איבר של <span>\( \bigcup\tau^{G} \)</span> ולהראות שהוא שייך ל-<span>\( \overline{\tau}^{G} \)</span>. אז בואו נתחיל מלנסות את הכיוון השני דווקא: ניקח איבר של <span>\( \overline{\tau}^{G} \)</span> וננסה להראות שהוא שייך אל <span>\( \bigcup\tau^{G} \)</span>.</p>
<p>ובכן, יהא <span>\( \upsilon^{G}\in\overline{\tau}^{G} \)</span> כלשהו (מנין לי שהצורה של איבר כללי של <span>\( \overline{\tau}^{G} \)</span> היא השמה-לשם-<span>\( P \)</span>? כי ככה הוגדר <span>\( \mathcal{M}\left[G\right] \)</span>). אני <strong>רוצה להראות</strong> שקיים <span>\( \sigma^{G} \)</span> כך שמתקיימת השרשרת <span>\( \upsilon^{G}\in\sigma^{G}\in\tau^{G} \)</span>, אז אני מסתכל על מה שנובע <strong>מהנתון</strong> שלי, כלומר מ-<span>\( \upsilon^{G}\in\overline{\tau}^{G} \)</span>; שייכות כזו מתקיימת אם <span>\( \left(\upsilon,q\right)\in\overline{\tau} \)</span> עבור <span>\( q\in G \)</span> כלשהו. כלומר, לפי הגדרת <span>\( \overline{\tau} \)</span>, קיים זוג <span>\( \left(\sigma,p\right) \)</span> כך ש-<span>\( \left(\upsilon,q\right)\in\sigma \)</span> וגם <span>\( \left(\sigma,p\right)\in\tau \)</span>. מכך ש-<span>\( \left(\upsilon,q\right)\in\sigma \)</span> אני יכול להסיק ש-<span>\( \upsilon^{G}\in\sigma^{G} \)</span>, אבל מכך ש-<span>\( \left(\sigma,p\right)\in\tau \)</span> אני <strong>לא יכול</strong> להסיק <span>\( \sigma^{G}\in\tau^{G} \)</span> ופה אני נתקע. למה? כי כדי להסיק את זה צריך שיתקיים <span>\( p\in G \)</span>, אבל שום דבר לא אומר לי ש-<span>\( p\in G \)</span>; כל מה שאני יודע הוא ש-<span>\( p \)</span> הוא איבר כלשהו של <span>\( P \)</span> וזה לא עוזר לי לדעת שהוא שייך אל <span>\( G \)</span>.</p>
<p>אז מה צריך לעשות כדי לתקן את ההגדרה? משהו די פשוט: להשתמש באותו איבר גם ל-<span>\( q \)</span> וגם ל-<span>\( p \)</span>, כלומר להגדיר</p>
<p><span>\( \overline{\tau}=\left\{ \left(\upsilon,p\right)\ |\ \exists\sigma:\left(\left(\upsilon,p\right)\in\sigma\wedge\left(\sigma,p\right)\in\tau\right)\right\} \)</span></p>
<p>ההגדרה הזו סבבה. אין ספק שהקבוצה הזו קיימת (אפשר לבנות אותה מהאקסיומות בתוך <span>\( \mathcal{M} \)</span>) ובדיקה מהירה מראה שהיא מקיימת את הדרישות משם-<span>\( P \)</span>. ועכשיו, השלב בהוכחה שנתקע לא ייתקע, כי עכשיו מכך ש-<span>\( \left(\sigma,p\right)\in\tau \)</span> אני יכול להסיק ש-<span>\( \sigma^{G}\in\tau^{G} \)</span>, וזה מסיים את הכיוון הזה.</p>
<p>כמובן, המחיר של התיקון הוא שעכשיו הכיוון השני יהיה טיפה יותר בעייתי - צריך להראות שההגדרה של <span>\( \overline{\tau} \)</span> לא הפכה לחזקה <strong>מדי</strong>, עד כדי כך שעכשיו מתפספסים איברים ששייכים לאיחוד אבל לא משתייכים אל <span>\( \overline{\tau}^{G} \)</span>. כדי לראות את זה אני לוקח שרשרת <span>\( \upsilon^{G}\in\sigma^{G}\in\tau^{G} \)</span>. מה שאני יכול להסיק ממנה הוא שקיימים <span>\( p,q \)</span> כך ש-<span>\( \left(\sigma,p\right)\in\tau \)</span> ו-<span>\( \left(\upsilon,q\right)\in\sigma \)</span>, ואני גם יכול להסיק ששניהם מקיימים <span>\( p,q\in G \)</span>, אבל אני לא יכול להסיק שהם שווים. לכאורה כאן נתקעתי, אבל למרבה המזל לא נגמרו ההגדרות שאפשר לשלוף מהשרוול.</p>
<p>בואו ניזכר ש-<span>\( G \)</span> הזה הוא לא סתם קבוצה, הוא מה שנקרא “אידאל”, שמקיים בין היתר את התכונה הבאה שאני מצטט מהפוסט הקודם:</p>
<p>“מכוונת: אם <span>\( p_{1},p_{2}\in G \)</span> אז קיים <span>\( q\in G \)</span> כך ש-<span>\( p_{1},p_{2}\subseteq q \)</span>”</p>
<p>ובכן, במקרה שלנו מכך ש-<span>\( p,q\in G \)</span> אני יכול להסיק שקיים <span>\( r\in G \)</span> כך ש-<span>\( p,q\subseteq r \)</span>. ועכשיו, תכונה 2 של שמות-<span>\( P \)</span> מבטיחה לי שאם <span>\( \left(\sigma,p\right)\in\tau \)</span> ו-<span>\( \left(\upsilon,q\right)\in\sigma \)</span> אז גם <span>\( \left(\sigma,r\right)\in\tau \)</span> ו-<span>\( \left(\upsilon,r\right)\in\sigma \)</span>, ולכן <span>\( \left(\upsilon,r\right)\in\overline{\tau} \)</span> על פי הגדרה, וקיבלנו <span>\( \upsilon^{G}\in\overline{\tau}^{G} \)</span>, כפי שרצינו. זה מסיים את ההוכחה הזו, וגם סוף סוף נותן לנו קצת תחושה של למה צריך חלק מהתכונות שהופיעו בהגדרות וטרם נגענו בהן.</p>
<p>זה מסיים את הפוסט הזה, אבל עדיין לא סיימנו עם הסיפור של בניית <span>\( \mathcal{M}\left[G\right] \)</span>, ובפוסט הבא נעסוק במה שנזדקק לו לצורך הוכחת יתר האקסיומות.</p>מבוא