משפט הפונקציה ההפוכה ומשפט הפונקציות הסתומות
פרק ראשון, ובו בקושי התחלנו וכבר אנחנו מעגלים פינות
בואו נדבר על מעגל. מעגל הוא הצורה החביבה עלינו. אנחנו אוהבים את המעגל. מהו המעגל? עבורנו זה אוסף כל הנקודות ב-\( \mathbb{R}^{2} \) שמרחקן מנקודה נתונה (“המרכז”) הוא זהה (ונקרא “הרדיוס” של המעגל). איך אנחנו מודדים “מרחק”? אצלנו המרחק של \( \left(x_{1},y_{1}\right) \) מ-\( \left(x_{2},y_{2}\right) \) הוא \( \sqrt{\left(x_{2}-x_{1}\right)^{2}+\left(y_{2}-y_{1}\right)^{2}} \). בואו נתמקד במעגל היחידה - מעגל ברדיוס 1 שמרכזו בראשית הצירים, כלומר ב-\( \left(0,0\right) \). מעגל כזה הוא אוסף כל הנקודות \( \left(x,y\right) \) שמקיימות את המשוואה \( x^{2}+y^{2}=1 \), כלומר הקבוצה \( \left\{ \left(x,y\right)|\ |\ x^{2}+y^{2}=1\right\} \). אתם בוודאי כבר יודעים את כל זה, אבל אני הולך להשתמש במעגל הזה בצורה כל כך אינטנסיבית שטוב שנוודא שאנחנו מבינים על מה מדובר.
לא הלכתם לאיבוד. אנחנו עדיין בסדרת הפוסטים שלי על אנליזה וקטורית. במה אנחנו מתעסקים? בפונקציות מרובות משתנים. האם מעגל הוא פונקציה מרובת משתנים שכזו? לא! מעגל, כפי שאמרתי, הוא אוסף נקודות שמקיים תכונה מסויימת - אילוץ מסויים, אם תרצו. אבל זה לא אומר שאי אפשר לחשוב עליו בגישה פונקציונלית. הנה גישה כזו: נגדיר פונקציה \( F\left(x,y\right) \) באופן הבא: \( F\left(x,y\right)=x^{2}+y^{2}-1 \). כעת, מעגל היחידה הוא בדיוק אוסף כל הקלטים שמאפסים את הפונקציה הזו. קיבלנו דרך התבוננות חדשה על אובייקטים גאומטריים - אוסף האפסים של פונקציה מסויימת. זו, למשל, נקודת המוצא של גאומטריה אלגברית, שמתעסקת (ברמה הבסיסית ביותר שלה - מדובר על תחום סבוך בצורה מטורפת) בקבוצות שניתן להגדיר באמצעות אוסף האפסים של פולינום מרובה משתנים שכזה (כמו המעגל).
בואו ניקח לרגע עוד דוגמה. הפונקציה \( F\left(x,y\right)=y-x^{2} \), שמתאימה למשוואה \( y=x^{2} \) שמתארת פרבולה. הדוגמה הזו מעניינת, כי אנחנו רואים בה בבירור שאפשר לחשוב על כל ערך של \( y \) כאילו הוא נקבע באופן יחיד על ידי הערך של \( x \); במילים אחרות, קיימת פונקציה במשתנה יחיד, \( f\left(x\right) \), כך ש-\( y=f\left(x\right) \) מתאר בדיוק את הפרבולה. אם לחדד, אנחנו מקבלים ש-\( F\left(x,f\left(x\right)\right)=0 \) לכל \( x \), ואנחנו מאוד מרוצים מעצמנו ואומרים ש-\( f \) הוא חילוץ של \( y \) מתוך \( F \).
האם זה עובד גם עבור המעגל? ובכן, לחלוטין לא. אם תסתכלו על מעגל, קל לראות שהוא אינו גרף של פונקציה. הנה קריטריון פשוט כדי לזהות אם אובייקט גאומטרי הוא גרף של פונקציה (במקרה שלנו, ש-\( y \) הוא פונקציה של \( x \)): אם אתם יכולים להעביר קו אנכי כלשהו, כך שהוא יחתוך את האובייקט שלכם פעמיים, אז זו אינה פונקציה, כי יש ערך של \( x \) שעבורו יש שני ערכים אפשריים של \( y \). אבל מה כן אפשר לומר על מעגל? שהוא מורכב משילוב של שתי פונקציות, אחת שמתארת את כל מה שקורה מעל ציר \( x \), והשניה את כל מה שקורה מתחת לציר \( x \).
בואו נחזור אל המשוואה \( x^{2}+y^{2}=1 \) שהגדירה את המעגל. נניח שאנחנו רוצים “לחלץ” את \( y \) כפונקציה של \( x \), מה נעשה? נעביר את \( x \) אגף ונוציא שורש. נקבל \( y=\pm\sqrt{1-x^{2}} \). קיבלנו את שתי הפונקציות שדיברתי עליהן - \( y=\sqrt{1-x^{2}} \) מתאר את מה שקורה מעל ציר \( x \) ו-\( y=-\sqrt{1-x^{2}} \) מתאר את מה שקורה מתחת.
אתן הגדרה פורמלית בהמשך, אבל לא פורמלית, המשוואה \( x^{2}+y^{2}=1 \) מגדירה את מה שנקרא פונקציות סתומות (באנגלית Implicit Functions נשמע יותר טוב ויותר הגיוני, אבל מהווה חומר פחות טוב לבדיחות שוביניסטיות). פונקציה סתומה היא פונקציה שלא נתונה לנו במפורש, אלא ניתנת להסקה מתוך משוואה כמו זו שלעיל, ומגדירה מעין פתרון שלה. כמובן, זה לא תיאור פורמלי במיוחד ולא ברור למה נתתי דווקא את שתי הפונקציות \( \sqrt{1-x^{2}} \) ו-\( -\sqrt{1-x^{2}} \) בתור הפונקציות הסתומות שניתנות להסקה מהמשוואה, הרי יש עוד הרבה (למשל \( g\left(x\right)=\begin{cases}\sqrt{1-x^{2}} & 0\le x\le1\\-\sqrt{1-x^{2}} & -1\le x\le0\end{cases} \)). נדבר על כל זה בהמשך.
פרק שני, שבו אנחנו מנסים להיחלץ אבל רק מסתבכים בצורה סתומה
עכשיו אני רוצה לדבר על מה זה בעצם אומר, “לחלץ”. מה שאעשה עשוי להיראות סבוך שלא לצורך, אבל חייבים לזכור שאני לא מנסה לפתור את הדוגמה שאני עובד איתה - כבר פתרנו אותה! אני רוצה למצוא משהו שיעבוד במקרים כללים יותר. הרבה, הרבה, הרבה יותר.
אז בואו נחזור אל \( F\left(x,y\right)=x^{2}+y^{2}-1 \). אני רוצה לקבל מהיצור הזה את \( y \). אמרתי “נעביר אגפים”. אבל מה זו העברת אגפים, במתמטיקה? זה אומר לחבר את אותו איבר לשני האגפים. אם אני מעביר את \( x^{2} \) אגף, אני בעצם מחבר לשני האגפים את \( -x^{2} \). אז בואו ניקח את \( F\left(x,y\right) \) ונעשה עליה את זה - נקבל \( y^{2}=F\left(x,y\right)-x^{2}+1 \), ואחרי הוצאת שורש חיובי נקבל \( y=\sqrt{F\left(x,y\right)-x^{2}+1} \).
אפשר לחשוב על ה”חילוץ” הזה בתור תהליך שקיבל שני קלטים ועשה איתם הוקוס פוקוס כדי לקבל את \( y \). הקלטים היו \( F\left(x,y\right) \) אבל גם \( x \) - נזקקתי לשני המספרים הללו (במקרה הנוכחי נזקקתי ל-\( x \) כדי לדחוף את \( -x^{2} \) לחישוב). את העסק הזה אפשר לתאר באמצעות פונקציה, \( h\left(a,b\right) \), שמקיימת \( y=h\left(x,F\left(x,y\right)\right) \). כעת, אם \( \left(x,y\right) \) הוא קלט שמאפס את \( F \), אז נקבל ש-\( y=h\left(x,0\right) \); כלומר, אם אגדיר פונקציה \( g\left(x\right)=h\left(x,0\right) \) אז הפונקציה \( g\left(x\right) \) הזו תהיה בדיוק חילוץ של \( y \) כפי שרציתי. אז התעלומה הגדולה היא איך אפשר לקבל את \( h \) הזו באופן כללי.
אנסח במדויק את השאלה שלי: בהינתן \( F\left(x,y\right) \), האם קיימת פונקציה \( h\left(a,b\right) \) כך ש-\( y=h\left(x,F\left(x,y\right)\right) \), ואיך נמצא כזו? הבעיה הזו מזכירה לנו את בעיית ההיפוך של פונקציות, רק שזה לא בדיוק מה שקורה כאן: זה נראה שאנחנו הופכים את \( F \) במובן מסויים, אבל רק חלקי, כי \( F:\mathbb{R}^{2}\to\mathbb{R} \) היא פונקציה בשני קלטים ופלט אחד, ואנחנו מבקשים להפוך את הפלט הזה ולקבל ממנו את הקלט השני, אבל לא מספיק לנו לקבל את הפלט - כפי שראינו קודם, אנחנו צריכים לקבל גם את \( x \), לכן \( h:\mathbb{R}^{2}\to\mathbb{R} \) היא בעצמה פונקציה בשני משתנים. זו הסיבה להגדרה הזו, שנראית מוזרה במבט ראשון: אנחנו מגדירים פונקציה \( \Phi:\mathbb{R}^{2}\to\mathbb{R}^{2} \) כך ש-\( \Phi\left(x,y\right)=\left(x,F\left(x,y\right)\right) \), וכעת אנו שואלים את עצמנו האם קיימת ל-\( \Phi \) הופכית. אם קיימת, אז אותה ב- \( \Phi^{-1}\left(a,b\right) \). המשמעות של הופכית היא שמתקיים \( \Phi^{-1}\left(x,F\left(x,y\right)\right)=\left(x,y\right) \) לכל \( \left(x,y\right) \); מכאן ש-\( \Phi^{-1} \) היא מהצורה \( \Phi^{-1}\left(a,b\right)=\left(a,h\left(a,b\right)\right) \), ו-\( h \) הזו היא בדיוק הפונקציה שרצינו.
הצלחתם לעקוב, בערך, אחרי מה שהלך כאן? ברכותי, זו, בערך, ההוכחה של משפט הפונקציות הסתומות שאפילו לא ניסחתי עדיין פורמלית. הסיבה העיקרית שנכנסתי כל כך לפרטים הללו לפני שמגיעים לניסוחים הפורמליים היא כדי שנראה מייד מהו החלק בהוכחה שמבצע את העבודה הקשה אצלנו: ה”קסם” שמאפשר לנו, בהינתן \( \Phi \), לקבל שקיימת פונקציה הופכית \( \Phi^{-1} \), וממנה אנחנו כבר מחלצים את הפונקציה \( h \) שממנה אנחנו מחלצים את הפונקציה \( g \) שהיא החילוץ של \( y \) מתוך \( F \).
תנשמו עמוק.
ועכשיו נופל עלינו הר של שאלות ופרטים - מי מבטיח לנו ש-\( \Phi \) הזו הפיכה? מתי זה קורה? באילו תנאים? איך כמה ולמה? האמנם? מדוע? כיצד? וכו’ וכו’ וכו’. אלו הדברים שנתעסק בהם עכשיו. נתחיל עם הצגה פורמלית של משפט הפונקציה ההפוכה שמטפל בתנאים שבהם אכן ניתן להפוך את \( \Phi \) ופונקציות כלליות יותר; אחר כך נעבור להצגה פורמלית של משפט הפונקציות הסתומות; אחר כך נוכיח פורמלית את משפט הפונקציות הסתומות (הוכחה שתהיה דומה למה שהראיתי אבל מפורטת יותר) ובסוף, אחרי שכבר כולנו נהיה גמורים לחלוטין, נגיע להוכחה של משפט הפונקציה ההפוכה, שהוא החלק הכבד ביותר כאן.
יהיה בסדר.
פרק שלישי, ובו מתחילים עם הגדרות פורמליות ושום דבר לא בסדר
יש שתי נקודות עיקריות שינחו את מה שנעשה עכשיו. ראשית, הפונקציות שבהן אנחנו נתעסק (גם מה שאנחנו מקבלים כקלט וגם מה שאנחנו רוצים שיצא כפלט) הולכות להיות נחמדות מנקודת מבטה של האנליזה; באנליזה אוהבים פונקציות רציפות, ועוד יותר אוהבים פונקציות גזירות, ועוד יותר אוהבים פונקציות גזירות שגם הנגזרת שלהן רציפה, ועוד יותר אוהבים פונקציות גזירות שגם הנגזרת שלהן גזירה, וכן הלאה. שנית, כל ההיפוכים וחילוצי הפונקציות הסתומות הולכים להיות מקומיים; הטיעונים לא יהיו בסגנון “הנה פונקציה \( F:\mathbb{R}^{n}\to\mathbb{R}^{n} \), והנה פונקציה \( F^{-1}:\mathbb{R}^{n}\to\mathbb{R}^{n} \) שהיא ההופכית שלה”. תמיד נגיד “בואו ניקח חתיכה \( A\subseteq\mathbb{R}^{n} \) ונהפוך את \( F \) רק בה”. המעגל מתחילת הפוסט הוא המחשה טובה לסיבה שבגללה מקומיות שכזו היא הכרחית. אם אנחנו רוצים לחלץ את \( y \) כפונקציה של \( x \) מתוך המעגל, אנחנו מצטמצמים בכל פעם לחתיכה מהמעגל שכוללת נקודה כלשהי עליו ואת הסביבה הקרובה אליה; אם ניקח יותר מדי מהמעגל, נקבל בסופו של דבר נקודות שמתאימות לאותו ערך \( x \) ולשני ערכי ה-\( y \)-ים המתאימים לו, ואז לא תהיה לנו שום תקווה לחלץ את \( y \) כפונקציה של \( x \). שימו לב גם לכך שנקודות הקצה הימנית והשמאלית של המעגל הן כאלו שלא משנה איזו סביבה שלהן ניקח, חילוץ כזה עדיין יהיה בלתי אפשרי - עוד מעט נראה בדיוק את הקריטריון הפורמלי שלא מתקיים במקרה הזה.
בואו ניגש סוף סוף לפורמליזם. נתחיל עם משפט הפונקציה ההפוכה. נניח שיש לנו \( A\subseteq\mathbb{R}^{n} \) שהיא קבוצה פתוחה, ופונקציה \( F:A\to\mathbb{R}^{n} \) שהיא ב-\( C^{r} \) (כלומר, גזירה ברציפות \( r \) פעמים). ניקח נקודה \( a\in A \) כך ש-\( DF\left(a\right) \) היא הפיכה בנקודה הזו (כלומר, \( \det DF\left(a\right)\ne0 \)). אז יש קבוצה פתוחה \( U\subseteq A \) כך ש-\( a\in U \) ו-\( F \) היא חח”ע על \( U \), ולכן אם נסמן \( V=F\left(U\right) \) נקבל ש-\( F:U\to V \) הפיכה וההופכית \( F^{-1}:V\to U \) שלה גם היא שייכת ל-\( C^{r} \).
שימו לב למה שהמשפט הזה עושה - סוג של רדוקציה לאלגברה לינארית. רוצים להפוך את \( F \)? בואו תסתכלו על הקירוב הלינארי של \( F \) בנקודה מסויימת, ותבדקו האם אותו קירוב לינארי הוא הפיך. אם כן, נשתמש ביכולת שלנו להפוך את הקירוב הלינארי הזה כדי לקבל את ההופכית של \( F \) סביב אותה נקודה. זה תמיד נחמד שתחומים מתמטיים מתנגשים.
להוכיח את קיום ההופכית יהיה קל יחסית; עיקר הקושי יהיה להוכיח שההופכית שייכת ל-\( C^{r} \). נחזור אל זה, כמובטח, בהמשך.
בואו נעבור עכשיו אל משפט הפונקציות הסתומות. כל הדיון שניהלתי עד כה עסק בפונקציות שמתוארות בצורה סתומה על ידי \( F:\mathbb{R}^{2}\to\mathbb{R} \), כלומר על ידי משוואה אחת בשני נעלמים שמתוכם אנחנו רוצים לחלץ אחד כפונקציה של השני. המשפט הכללי רוצה לעסוק בסיטואציה שבה יש לנו \( n+k \) משתנים, כך שאנחנו רוצים לחלץ את \( n \) המשתנים האחרונים כפונקציה של \( k \) המשתנים הראשונים. בשביל זה אנחנו זקוקים ל-\( n \) משוואות (מי שלא ברור לו למה, נסו לזכור מה קורה באלגברה לינארית). כלומר, אנחנו הולכים להתעסק עם פונקציה \( F:A\to\mathbb{R}^{n} \) כך ש-\( A\subseteq\mathbb{R}^{n+k} \) פתוחה. כרגיל, נניח ש-\( F \) ב-\( C^{r} \) עבור \( r \) כלשהו. עכשיו, מכיוון שלהתעסק עם \( n+k \) משתנים זה כאב ראש, אני אסמן את \( F \) בתור \( F\left(x,y\right) \) כך ש-\( x \) היא קבוצת \( k \) המשתנים הראשונים (כלומר, זו דרך מקוצרת לכתוב \( x_{1},\dots,x_{k} \)) ו-\( y \) היא \( n \) המשתנים האחרונים.
בואו ניקח נקודה \( \left(a,b\right) \) (שוב, \( a \) היא בעצם \( k \) קואורדינטות ו-\( b \) היא \( n \)) כך ש-\( F\left(a,b\right)=0 \) (זו המקבילה שלנו לנקודה על המעגל שסביבה אנחנו רוצים לחלץ). עכשיו, \( DF\left(a,b\right) \) היא מטריצה מסדר \( n\times\left(n+k\right) \); אנחנו יכולים לקחת אותה ולהצטמצם לתת-המטריצה של \( n \) העמודות האחרונות ולקבל מטריצה \( n\times n \) שאסמן \( \frac{\partial F}{\partial y} \). כדי שהחילוץ יהיה אפשרי, אני דורש שיתקיים \( \det\frac{\partial F}{\partial y}\left(a,b\right)\ne0 \), כלומר שתת-המטריצה הזו היא הפיכה. אם זה קורה, אז יש קבוצה פתוחה \( U\subseteq\mathbb{R}^{k} \) כך ש-\( a\in U \), ופונקציה \( g:U\to\mathbb{R}^{n} \) ב-\( C^{r} \) שמקיימת \( g\left(a\right)=b \) ו-\( F\left(x,g\left(x\right)\right)=0 \) לכל \( x\in U \). \( g \) הזו היא החילוץ. מה שמעניין במיוחד פה הוא ש-\( g \) היא יחידה, כלומר אין שני חילוצים שונים שאפשר להגדיר על \( U \).
הדרישה ש-\( \det\frac{\partial F}{\partial y}\left(a,b\right)\ne0 \) היא בדיוק מה שחסר בדוגמה שלנו עם המעגל כשאנחנו רוצים לבצע חילוץ בנקודות הקצה האופקיות. במקרה שלנו, \( F\left(x,y\right)=x^{2}+y^{2}-1 \) ולכן \( Df=\left[2x,2y\right] \) ולכן \( \frac{\partial F}{\partial y}=2y \) (זה אכן הסימון המקובל לרוב לנגזרת חלקית) ובשתי הנקודות הקצה הללו (\( \left(-1,0\right),\left(1,0\right) \)) מתקיים ש-\( \frac{\partial F}{\partial y}=0 \). לכן אלו הנקודות שבהן לא ניתן לבצע חילוץ של \( y \) .
פרק רביעי, ובו דוגמה זריזה שתיקח לנו הרבה מאוד זמן
הנה דוגמה זריזה לשימוש נחמד במשפט: גזירה סתומה. לפעמים אין לנו דרך לחלץ את \( g\left(x\right) \) באופן מפורש מהביטוי הסתום \( F \), אבל אנחנו עדיין צריכים לדעת משהו על הנגזרת שלה; אז אפשר לקבל ביטוי סתום גם עבור הנגזרת. בואו נסתכל על דוגמת המעגל שלנו. אמנם, שם אפשר לחלץ במפורש, אבל בואו נראה מה אפשר לעשות גם בלי זה.
הנגזרת של \( F\left(x,y\right) \) היא וקטור עם שתי כניסות, שהן הנגזרות החלקיות: \( \left[\frac{\partial F}{\partial x},\frac{\partial F}{\partial y}\right] \). על \( F\left(x,g\left(x\right)\right) \) אפשר לחשוב בתור הרכבה של \( F \) על פונקציה \( T:\mathbb{R}\to\mathbb{R}^{2} \) שמוגדרת על ידי \( T\left(x\right)=\left(x,g\left(x\right)\right) \) והנגזרת שלה היא הוקטור \( \left[\begin{array}{c}1\\g^{\prime}\end{array}\right] \). ההרכבה של שתיהן היא פונקציה רגילה, \( f:\mathbb{R}\to\mathbb{R} \) שמוגדרת על ידי \( f\left(x\right)=F\left(T\left(x\right)\right)=F\left(x,g\left(x\right)\right) \). את הנגזרת שלה אפשר לחשב על ידי כלל השרשרת ולקבל ש-
\( f^{\prime}\left(a\right)=DF\left(\left(a,g\left(a\right)\right)\right)\cdot DT\left(a\right)=\left[\frac{\partial F}{\partial x}\left(a,g\left(a\right)\right),\frac{\partial F}{\partial y}\left(a,g\left(a\right)\right)\right]\cdot\left[\begin{array}{c}1\\g^{\prime}\left(a\right)\end{array}\right]=\frac{\partial F}{\partial x}\left(a,g\left(a\right)\right)+\frac{\partial F}{\partial y}\left(a,g\left(a\right)\right)g^{\prime}\left(a\right) \)
(חלקכם אולי שמים לב שאני מתחיל לרמות בסימונים ולא להבדיל בין טרנספורמציה לינארית ממימד 1 על 1 ובין סקלר; רמאויות כאלו הופכות להכרחיות כשלא רוצים להיות ממש טרחניים בסימונים).
עכשיו, מכיוון ש-\( f\left(x\right)=F\left(x,g\left(x\right)\right) \) שווה זהותית לאפס, היא פונקציה קבועה, ולכן גם הנגזרת שלה שווה זהותית לאפס. המסקנה שלנו היא שמתקיים
\( \frac{\partial F}{\partial x}\left(a,g\left(a\right)\right)+\frac{\partial F}{\partial y}\left(a,g\left(a\right)\right)g^{\prime}\left(a\right)=0 \)
וקיבלנו משוואה חדשה שמערבת את \( g^{\prime}\left(a\right) \) ואפשר לחלץ אותה משם ולקבל \( g^{\prime}\left(a\right)=-\frac{\partial F/\partial x}{\partial F/\partial y}\left(a,g\left(a\right)\right) \). במילים אחרות, גם בלי להיות מסוגלים למצוא ביטוי מפורש ל-\( g \), אנחנו עדיין יכולים לחשב את הנגזרת של \( g \). אצלנו מתקיים \( F\left(x,y\right)=x^{2}+y^{2}-1 \) ולכן \( \frac{\partial F}{\partial x}=2x \) ו-\( \frac{\partial F}{\partial y}=2y \) ונקבל ש-\( g^{\prime}\left(x\right)=-\frac{2x}{2g\left(x\right)}=-\frac{x}{g\left(x\right)} \) - תבדקו ותראו שאכן \( \sqrt{1-x^{2}} \) ו-\( -\sqrt{1-x^{2}} \) מקיימות זאת.
בתיכון במקום להשתמש בסימני פונקציות מפורשים הרבה פעמים אוהבים לכתוב \( y=\sqrt{1-x^{2}} \) וכדומה, ואז להשתמש בסימון כמו \( y^{\prime}=-\frac{x}{\sqrt{1-x^{2}}} \). דרך ההצגה הזו היא מצד אחד מבלבלת, ומצד שני היא מאפשרת לנו לבצע גזירה סתומה בצורה יחסית פשוטה: קחו את הביטוי \( x^{2}+y^{2}-1 \), ועכשיו תגזרו את הכל לפי \( x \). הנגזרת של ה-\( y^{2} \) היא כמובן \( 2yy^{\prime} \), על פי כלל השרשרת (לא רואים את זה? מה הנגזרת של \( \left[g\left(x\right)\right]^{2} \)?). לכן נקבל \( 2x+2yy^{\prime}=0 \) ומכאן נקבל \( y^{\prime}=-\frac{x}{y} \). בהחלט יותר קל לזכור את הטכניקה הזו מאשר את הנוסחה שכתבתי למעלה, למרות שהן בעצם אותו הדבר בדיוק.
אבל רגע, כל הדיון הזה היה רק עבור המקרה הפשוט של פונקציות בשני משתנים. מה קורה באופן כללי? ובכן, עדיין מקבלים משוואות כמו זו שלמעלה, אבל מקבלים יותר משוואות, והמשוואות ארוכות יותר. הצורה הכללית של משוואה כזו היא
\( D_{j}F^{i}\left(a,g\left(a\right)\right)+\sum_{t=1}^{n}D_{k+t}F^{i}\left(a,g\left(a\right)\right)D_{j}g^{t}\left(a\right)=0 \)
כאשר \( 1\le i,j\le n \). הדבר הזה הוא מערכת משוואות לינארית ב”נעלמים” \( g^{1}\left(a\right),\dots,g^{n}\left(a\right) \) ומכיוון ש-\( \det\frac{\partial F}{\partial y}\ne0 \) ניתן לפתור אותה, אבל לא אכנס לפרטים יותר מכך.
פרק חמישי, ובו אנחנו מוכיחים את משפט הפונקציות הסתומות וכבר אין לנו כוח לכותרת מתחכמת
בואו נראה עכשיו את ההוכחה של משפט הפונקציות הסתומות, שדומה למה שעוללתי בתחילת הפוסט. אנחנו מגדירים \( \Phi:A\to\mathbb{R}^{n+k} \) על ידי \( \Phi\left(x,y\right)=\left(x,F\left(x,y\right)\right) \). אנחנו רוצים להפוך את הפונקציה הזו בעזרת משפט הפונקציה ההפוכה, ולשם כך צריך להוכיח שהנגזרת שלה הפיכה. הגזירות של \( \Phi \) נובעת מייד מהגזירות של \( F \) (ומכך שהפונקציה \( G\left(x,y\right)=x \) היא גזירה באופן כמעט טריוויאלי). נקבל את הנגזרת \( D\Phi=\left[\begin{array}{cc}I_{k} & 0\\\frac{\partial F}{\partial x} & \frac{\partial F}{\partial y}\end{array}\right] \). זו מטריצת בלוקים, שאתם אמורים להכיר מלינארית; הבלוקים ב”שורה” הראשונה מתאימים ל-\( G\left(x,y\right)=x \) וב”שורה” השניה ל-\( F \). חישוב דטרמיננטה של מטריצת בלוקים זה קל, ואנחנו מקבלים ש-\( \det D\Phi=\det\frac{\partial F}{\partial y} \). כאן נכנס לתמונה השימוש בכך ש-\( \det\frac{\partial F}{\partial y}\ne0 \); בלי זה לא היינו מסוגלים לבצע את ההיפוך שהכרחי לצורך החילוץ.
יופי. אז עכשיו אפשר להשתמש במשפט הפונקציה ההפוכה ולהסיק שקיימת קבוצה פתוחה מהצורה \( U\times V \) עם \( U\subseteq\mathbb{R}^{k} \) ו-\( V\subseteq\mathbb{R}^{n} \) פתוחות, שמכילה את \( \left(a,b\right) \) (הנקודה שסביבה אנחנו רוצים לחלץ) וקבוצה פתוחה \( W \) שמכילה את \( \Phi\left(a,b\right)=\left(a,0\right) \), כך ש-\( \Phi:U\times V\to W \) היא הפיכה. שימו לב שההנחה שהקבוצה הפתוחה שלי היא מהצורה \( U\times V \) היא לא לגמרי מיידית כי משפט הפונקציה ההפוכה מבטיח לי “רק” קבוצה פתוחה ב-\( \mathbb{R}^{n+k} \), לא כזו שנראית כמו מעין מלבן שכזה; אבל אפשר להצטמצם לתת-קבוצה שכן נראית ככה.
עכשיו, \( \Phi^{-1} \) חייבת להיות כזו שב”קואורדינטה הראשונה” (בעצם ב-\( k \) הראשונות) משאירה את הקלט שלה ללא שינוי, כלומר מהצורה \( \Phi^{-1}\left(x,y\right)=\left(x,h\left(x,y\right)\right) \) כאשר \( h:W\to V \). זאת מכיוון ש-\( \Phi \) מקבעת את הקואורדינטה הראשונה הזו. נשאר לנו רק להגדיר \( g\left(x\right)=h\left(x,0\right) \), כמו בדוגמה. מכיוון ש-
\( \left(a,b\right)=\Phi^{-1}\left(\Phi\left(a,b\right)\right)=\Phi^{-1}\left(a,F\left(a,b\right)\right)=\Phi^{-1}\left(a,0\right)=\left(a,h\left(a,0\right)\right)=\left(a,g\left(a\right)\right) \)
קיבלנו ש-\( g\left(a\right)=b \) כפי שרצינו. כל מה שנשאר לעשות הוא להשתכנע שמתקיים \( F\left(x,g\left(x\right)\right)=0 \) לכל \( x\in U \).
לצורך כך, ראשית כל נשים לב ש-\( \Phi^{-1}\left(x,0\right)=\left(x,h\left(x,0\right)\right)=\left(x,g\left(x\right)\right) \). כעת נפעיל את \( \Phi \) על שני האגפים ונקבל \( \left(x,0\right)=\Phi\left(x,g\left(x\right)\right)=\left(x,F\left(x,g\left(x\right)\right)\right) \), ועכשיו מהשוואת הקואורדינטות נקבל ש-\( F\left(x,g\left(x\right)\right)=0 \), כפי שרצינו.
הגזירות של \( g \) נובעת מייד מכך שמשפט הפונקציה ההפוכה משמר את הגזירות של מה שהוא מופעל עליו. מכיוון ש-\( F \) הייתה ב-\( C^{r} \), כך גם \( \Phi \), שהרכיבים שלה הם \( F \) ופונקציית הזהות; ולכן גם \( \Phi^{-1} \) ב-\( C^{r} \), ולכן גם \( h \) שהיא רכיב של \( \Phi^{-1} \), ולכן גם \( g \) שהיא צמצום של \( h \).
מה נשאר? להוכיח ש-\( g \) היא יחידה. נניח ש-\( k\left(x\right) \) היא פונקציה כלשהי שמקיימת את המשפט, כלומר ש-\( F\left(x,k\left(x\right)\right)=0 \) לכל \( x\in U \), ש-\( k\left(x\right) \) רציפה (לא צריך אפילו \( C^{r} \)) ושהיא מקיימת \( k\left(a\right)=b \). בשביל ההוכחה הזו אני אצטרך טיפה להתחכם יותר עם ההגדרה של \( g \). כרגע \( g \) מוגדרת על כל ההיטל של \( W \) על \( k \) הכניסות הראשונות. מה שאני רוצה בפועל הוא שהיא תהיה מוגדרת על קבוצה קשירה \( B \) כך ש-\( B\times\left\{ 0\right\} \subseteq W \) - תמיד אפשר להצטצמם כדי לקבל את זה. מה זו קבוצה קשירה? אינטואיטיבית זו קבוצה שלא מורכבת משני חלקים נפרדים; פורמלית, זו קבוצה שלא ניתן לכתוב בתור איחוד של שתי קבוצות פתוחות זרות לא ריקות. כדי להבין מה עשוי להשתבש עם קבוצה כזו חשבו לרגע על המעגל שלנו. אם, למשל, \( W \) הייתה מורכבת משני מלבנים נפרדים, אז בכל אחד מהמלבנים הללו הייתה לנו אפשרות לבחור לחלץ על פי החלק העליון של המעגל, או החלק התחתון שלו. המגבלה היחידה שלנו הייתה שהיינו צריכים לבחור את החלק שיש בו את \( \left(a,b\right) \), אבל זה קורה רק במלבן אחד, ובמלבן השני הייתה לנו בחירה חופשית, והופס - שני חילוצים שונים אפשריים!
אז אנחנו נאלצים להצטמצם. למרבה השמחה, זה מניב טיעון אלגנטי מעין כמותו ליחידות של \( g \), מסוג הטיעונים היפים שהולכים בטופולוגיה. בואו ניקח נקודה \( d\in B \) כלשהי ונניח ש-\( g\left(d\right)=k\left(d\right) \). אז אני טוען שקיימת קבוצה פתוחה \( D\subseteq B \) כך ש-\( d\in D \) ו-\( g|_{D}=k|_{D} \) (כלומר, שתי הפונקציות הללו מזדהות על כל איבר של \( D \)).
מה שאני רוצה לומר הוא ש-\( \Phi\left(x,k\left(x\right)\right)=\left(x,0\right)=\Phi\left(x,g\left(x\right)\right) \) ושמכאן אפשר להסיק ש-\( k\left(x\right)=g\left(x\right) \), אבל זה לא נכון באופן כללי; זה נכון רק בתחום שעליו \( \Phi \) היא חד-חד-ערכית, שהוא \( U\times V \). אני יודע ש-\( g \) מעבירה את כל הפלטים שלה ל-\( V \), אז אני רוצה למצוא \( D \) כך ש-\( k\left(D\right)\subseteq V \). כאן הרציפות של הפונקציות המעורבות נכנסת לתמונה. ההגדרה החשובה ביותר לרציפות של פונקציה, כזו שעובדת גם במרחבים טופולוגיים כלליים, היא זו: \( f:A\to B \) היא רציפה אם לכל \( V\subseteq B \) פתוחה, גם \( f^{-1}\left(V\right) \) היא פתוחה. כעת, \( g\left(d\right)\in V \) ו-\( V \) פתוחה, אז \( d \) שייכת ל-\( D=g^{-1}\left(V\right) \) הפתוחה. חד-חד-הערכיות של \( \Phi \) מבטיחה לי עכשיו ש-\( g|_{D}=k|_{D} \).
מה ראינו? שלכל נקודה \( d\in B \) שרירותית ש-\( g,k \) מסכימות עליה יש סביבה פתוחה ש-\( g,k \) מסכימות עליה. אז בואו ניקח את איחוד כל הסביבות של כל הנקודות ב-\( B \) ש-\( g,k \) מסכימות עליהן, כלומר כל הנקודות שמקיימות \( \left|g\left(x\right)-k\left(x\right)\right|=0 \) (תכף נבין למה הסימון המוזר הזה). האיחוד הזה הוא של קבוצות פתוחות, ולכן הוא קבוצה פתוחה (זו תוצאה בסיסית למדי, נסו להוכיח אותה לעצמכם). והוא כמובן שווה לקבוצת כל הנקודות שעליהן \( g,k \) מזדהות (שוב, אם זה לא ברור, נסו להוכיח זאת לעצמכם).
מה נשאר? כל הנקודות ב-\( B \) שעליהן \( g,k \) לא מסכימות, שאנחנו מקווים שהוא קבוצה ריקה. דרך אחרת לכתוב את הקבוצה הזו היא בתור אוסף כל הנקודות שמקיימות \( \left|g\left(x\right)-k\left(x\right)\right|>0 \), ומי שקצת משופשף בטופולוגיה ודאי יצעק מייד שזו בבירור קבוצה פתוחה, כי \( g,k \) הן רציפות ואי השוויון הוא חזק. לא אכתוב כאן הוכחת אפסילון-דלתא מלאה לטענה הזו כי שוב - ניחשתם - זה תרגיל טוב, אבל הנה הרעיון: נניח ש-\( x \) מקיימת \( \left|g\left(x\right)-k\left(x\right)\right|>0 \) וש-\( y \) היא נקודה “קרובה” ל-\( x \). בגלל ש-\( g,k \) רציפות, זה אומר שהערך של \( g\left(y\right) \) “קרוב” לערך של \( g\left(x\right) \), ושהערך של \( k\left(y\right) \) “קרוב” לערך של \( k\left(x\right) \) ולכן הערך של \( \left|g\left(y\right)-k\left(y\right)\right| \) הוא “קרוב” לערך של \( \left|g\left(x\right)-k\left(x\right)\right| \). היופי כאן הוא שאנחנו מסוגלים לשלוט על מידת ה”קרבה” הזו ולהקטין את ההפרש כמה שנרצה. לכן, מכיוון ש-\( \left|g\left(x\right)-k\left(x\right)\right| \) גדול ממש מאפס, נאמר \( \varepsilon \), אנחנו יכולים לבחור את רמת הקרבה של \( y \) אל \( x \) בצורה שתבטיח ש-\( \left|g\left(y\right)-k\left(y\right)\right| \) יהיה רחוק מ-\( \left|g\left(x\right)-k\left(x\right)\right| \) רק עד כדי \( \frac{\varepsilon}{2} \), ולכן עדיין גדול מאפס.
מסקנה: קיבלנו ש-\( B \) היא איחוד של שתי קבוצות פתוחות זרות. לכן אחת מהן חייבת להיות ריקה. \( \left|g\left(x\right)-k\left(x\right)\right|=0 \) כמובן לא ריקה כי היא כוללת את \( a \), ולכן הקבוצה השניה ריקה, מה שאומר ש-\( g \) שווה זהותית ל-\( k \) וסיימנו את כל ההוכחה!
פרק שישי, ובו אנחנו מוכיחים את משפט הפונקציה ההפוכה, וזה ארוך וקשה כפי שהבטחנו
את כל המהומה שהייתה עד עכשיו הצגתי בסדר הפוך ביחס לספרים, שבהם מתחילים ממשפט הפונקציה ההפוכה. למה? כי מוטיבציה. כדי שנראה שזה שימושי ומועיל ומעניין, ולנסות לתת לשלושה מכם שהגיעו עד לכאן מוטיבציה למה לנסות ולהבין איך מוכיחים את המשפט.
שתי הערות שכדאי לתת מראש: ראשית, אני הולך להשתמש בהוכחה בכל מני טענות ומושגים מטופולוגיה קבוצתית. אם אתם לא מכירים, תוכלו פשוט להאמין לי בנקודות הללו, ומומלץ לכם בכל מקרה לרוץ ללמוד טופולוגיה קבוצתית כי זה תחום נפלא. שנית, עד כה בכל הפוסטים לא ממש טרחתי להסביר מה זה הסימן \( \left|\cdot\right| \) שאני משתמש בו. ההנחה המובלעת הייתה שמדובר על הנורמה הרגילה על \( \mathbb{R}^{n} \): \( \left|x\right|_{2}=\sqrt{\sum_{i=1}^{n}x_{i}^{2}} \). עם זאת, הייתי יכול להשתמש באותה מידה גם בנורמה אחרת, נורמת הסופרמום, שמוגדרת בתור \( \left|x\right|_{\infty}=\sup\left\{ \left|x_{1}\right|,\dots,\left|x_{n}\right|\right\} \). שתי הנורמות הללו הן שקולות, במובן זה שהן מגדירות את אותה טופולוגיה של המרחב (אותן קבוצות פתוחות) ובאופן כללי מקיימות את אותן התכונות ולכן כל ההוכחות שנתתי עד כה עובדות באותה מידה עם שתיהן; עם זאת, הפעם יהיה לי קל יותר להשתמש בעיקר בנורמות הסופרמום, ולכן אסמן אותה ב-\( \left|\cdot\right| \) ואילו את הנורמה הרגילה ב-\( \|\cdot\| \).
בואו נזכור לרגע מה קורה במקרה החד ממדי. אם יש לנו פונקציה \( f:\mathbb{R}\to\mathbb{R} \) שהנגזרת שלה היא רציפה ושונה מאפס, נאמר חיובית, בנקודה \( a \), אז זה אומר שיש סביבה של \( a \) שבכולה מתקיים \( f^{\prime}\left(x\right)>0 \) (הרציפות של הנגזרת הכרחית פה). מכאן שהפונקציה היא מונוטונית עולה בסביבה הזו ולכן חד חד ערכית שם ולכן הפיכה. הדבר הראשון שנעשה יהיה להכליל את הטיעון הזה גם עבור פונקציה \( F:\mathbb{R}^{n}\to\mathbb{R}^{n} \) כללית שהיא \( C_{1} \) בקבוצה פתוחה \( A\subseteq\mathbb{R}^{n} \) ועבור \( a\in A \) כלשהו מתקיים \( \det Df\left(a\right)\ne0 \).
הרעיון יהיה למצוא סביבה כלשהי של \( a \) וקבוע \( \alpha>0 \) כך שלכל שתי נקודות \( x,y \) בסביבה הזו מתקיים \( \left|F\left(x\right)-F\left(y\right)\right|\ge\alpha\left|x-y\right| \), כאשר כאן ערך מוחלט מייצג את נורמת הסופרמום - הערך המוחלט המקסימלי של כניסה של הוקטור. זה מבטיח שאם \( x\ne y \) אז \( F\left(x\right)\ne F\left(y\right) \), מה שנותן לנו את החד-חד-ערכיות המבוקשת. נזדקק לכמה חישובים וכדי לפשט את הסימונים אני אסמן ב-\( E \) את הטרנספורמציה הלינארית \( DF\left(a\right) \). על פי ההנחה שלנו, \( E \) הפיכה. עכשיו אפשר לקשר את המרחק בין נקודות והמרחק בין ההפעלה של \( E \) עליהן, אבל חסם שבמבט ראשון נראה “לא נכון” כי הוא חוסם את הכיוון ההפוך:
\( \left|x-y\right|=\left|E^{-1}\left(Ex-Ey\right)\right|\le n\left|E^{-1}\right|\left|Ex-Ey\right| \)
המעבר לאי-השוויון דורש הסבר: כאמור, \( \left|E^{-1}\right| \) מייצג כאן את נורמת הסופרמום של המטריצה - המקסימום מבין ערכי הכניסות של \( E^{-1} \) בערך מוחלט. אפשר להוכיח ישירות מההגדרה שאם \( A,B \) הן מטריצות מסדרים \( k\times n \) ו-\( n\times m \) אז \( \left|AB\right|\le n\left|A\right|\left|B\right| \); אנחנו חושבים על \( Ex-Ey \) בתור וקטור (מסדר \( n\times1 \)).
ה-\( \alpha \) שאנחנו מחפשים כעת נמצא מולנו: \( \alpha=\frac{1}{2n\left|E^{-1}\right|} \). מייד אנחנו מקבלים ש-\( \left|Ex-Ey\right|\ge2\alpha\left|x-y\right| \). מה עכשיו?
עכשיו הגיע הזמן להכניס את \( F \) לתמונה. בואו נגדיר פונקציה \( H\left(x\right)=F\left(x\right)-Ex \) - הפונקציה הזו מתארת את “הטעות” של \( E \) בנקודה \( x \). גזירה שלה היא טריוויאלית: \( DH\left(x\right)=DF\left(x\right)-E \) (זוכרים? הנגזרת של טרנספורמציה לינארית זו היא בעצמה). מסקנה: \( DH\left(a\right)=DF\left(a\right)-E=E-E=0 \). מכיוון ש-\( DF\left(x\right) \) היא רציפה, כך גם \( H \), ולכן קיים \( \varepsilon>0 \) כך שלכל \( x \) עבורו \( \left|a-x\right|<\varepsilon \), מתקיים ש-\( \left|DH\left(x\right)\right|<\frac{\alpha}{n} \).
היכולת שלנו לשלוט על גודל הנגזרת של פונקציה מאפשרת לנו לשלוט על הקצב שבו היא משתנה. בואו נזכר במשפט מאינפי רגיל - משפט הערך הממוצע של לגראנז’: אם \( f \) גזירה בקטע \( \left[a,b\right] \) אז קיימת נקודה \( c\in\left[a,b\right] \) כך ש-\( f\left(b\right)-f\left(a\right)=\left(b-a\right)f^{\prime}\left(c\right) \). חסם על גודל הנגזרת בקטע נותן לנו חסם על \( f^{\prime}\left(c\right) \) ולכן על \( f\left(b\right)-f\left(a\right) \). אנחנו נעשה דבר דומה עבור \( H \), אבל על הנגזרות החלקיות שלה: \( \left|H_{i}\left(x\right)-H_{i}\left(y\right)\right|=\left|DH_{i}\left(c\right)\left(x-y\right)\right|\le n\left|DH_{i}\left(c\right)\right|\left|x-y\right|\le\alpha\left|x-y\right| \). מכיוון שאנחנו עובדים בנורמת הסופרמום, המסקנה היא שמתקיים
\( \alpha\left|x-y\right|\ge\left|H\left(x\right)-H\left(y\right)\right| \) (תרגיל: לחשוב אילו תיקונים היו נדרשים כדי שההוכחה תעבוד עם הנורמה האוקלידית הרגילה; תראו חיש קל שזו סתם עוד עבודה טכנית ולכן היתרון שבשימוש בנורמת הסופרמום ברור).
אם נפתח את \( H \) לפי ההגדרה, נקבל גם חסם תחתון על ההפרש. זכרו שבאופן כללי מתקיים \( \left|x-y\right|\ge\left|x\right|-\left|y\right| \) (כי \( \left|x\right|=\left|x-y+y\right|\le\left|x-y\right|+\left|y\right| \)), ולכן:
\( \left|H\left(x\right)-H\left(y\right)\right|=\left|F\left(x\right)-Ex-\left(F\left(y\right)-Ey\right)\right|=\left|\left(Ey-Ex\right)-\left(F\left(y\right)-F\left(x\right)\right)\right|\ge \)
\( \left|Ey-Ex\right|-\left|F\left(y\right)-F\left(x\right)\right|\ge2\alpha\left|x-y\right|-\left|F\left(y\right)-F\left(x\right)\right| \)
משילוב החסם העליון והתחתון נקבל \( \left|F\left(x\right)-F\left(y\right)\right|\ge\alpha\left|x-y\right| \) - בדיוק מה שרצינו. קצת קסם, במובן זה שעדיין לא ברור מאיפה פתאום זה צץ.
סיימנו עם החלק הקל - להראות ש-\( F \) הפיכה בסביבה של \( a \). כלומר, ראינו שקיימת קבוצה פתוחה \( A \) כך ש-\( F \) היא חח”ע על \( A \). כדי להפוך אותה צריך לדבר גם על התמונה שלה, \( B=F\left(A\right) \). אנחנו כבר יודעים ש-\( F^{-1}:B\to A \) קיימת והיא חח”ע ועל, אבל מה אנחנו יודעים על \( B \) עצמה? חלק ממה שהמשפט בא להבטיח הוא ש-\( B \) היא נחמדה - שהיא קבוצה פתוחה בעצמה. איך נראה את זה?
אינטואיטיבית אולי לא ברור מה הבעיה. אם \( F:A\to B \). לפעמים קל להתבלבל ולחשוב שפונקציה רציפה היא בעלת התכונה שהתמונה של קבוצה פתוחה היא קבוצה פתוחה. בפועל זה ההפך שהוא נכון - המקור של קבוצה פתוחה הוא קבוצה פתוחה. דוגמה פשוטה מאוד לפונקציה רציפה שאינה מעבירה קבוצה פתוחה לקבוצה פתוחה היא \( f:\mathbb{R}\to\mathbb{R} \) קבועה, למשל \( f\left(x\right)=0 \); התמונה של \( \mathbb{R} \) היא הקבוצה הלא פתוחה \( \left\{ 0\right\} \) (לא פתוחה, כי כל סביבה של 0 תכיל נקודות שאינן בקבוצה הזו). דוגמה קצת פחות טריוויאלית היא \( f\left(x\right)=\begin{cases}x & 0\le x\le1\\0 & x<0\\1 & x\ge1\end{cases} \) שמעבירה את הקבוצה הפתוחה \( \mathbb{R} \) אל הקטע הסגור \( \left[0,1\right] \) אבל היא בבירור רציפה בתור “הדבקה” של שלוש פונקציות רציפות שמסכימות זו עם זו בנקודות ההדבקה. אז מה השתבש כאן? השתבש שהפונקציה הרציפה “מועכת” את הקבוצה הפתוחה שהיא מקבלת ויוצרת בה קצוות סגורים. אלא ש”מעיכה” כזו מונעת מהפונקציה להיות חד-חד-ערכית - אנחנו חיביים שכמה ערכים שונים יימעכו ביחד לאותו פלט. לכן בסיטואציה שלנו, שבה הפונקציה היא חד-חד-ערכית, יש לנו תקווה שזה יעבוד.
כפי שהזהרתי, אני הולך להשתמש בכמה תעלולים מטופולוגיה קבוצתית בלי להוכיח אותם במפורש, ואני מקווה שתסלחו לי. ראשית, בואו ניקח \( b\in B \). המטרה שלנו היא למצוא \( \delta \) כך שהכדור הפתוח ברדיוס \( \delta \) סביב \( B \) מוכל כולו ב-\( B \), דהיינו לכל \( y \) שמקיים \( \left|y-b\right|<\delta \) מתקיים ש-\( y\in B \), כלומר שהוא תמונה של \( x \) כלשהו: \( y=F\left(x\right) \) עבור \( x\in A \).
לשם כך, ראשית כל בואו נסתכל על \( a=F^{-1}\left(b\right) \). ניקח כדור סגור \( Q \) שמכיל את \( a \) ומוכל כולו ב-\( A \) (זה אפשרי כי \( A \) פתוחה). השפה \( BdQ \) של הכדור היא קבוצה סגורה וחסומה, ולכן קומפקטית; פונקציה רציפה מעבירה קבוצה קומפקטית לקבוצה קומפקטית, ולכן \( F \) מעבירה את השפה של הכדור לקבוצה קומפקטית. הקבוצה הזו לא מכילה את \( b \) אחרת היינו מקבלים סתירה לחד-חד-ערכיות של \( F \) (הרי \( a \) לא נכלל בשפה של הכדור שמקיף את \( A \)). לכן אפשר למצוא \( \delta \) כך שהכדור הפתוח סביב \( b \) ברדיוס \( 2\delta \) זר ל-\( F\left(BdQ\right) \). מצאנו את ה-\( \delta \) שלנו; מה שצריך להראות הוא שאם \( c \) היא נקודה כלשהי שרחוקה מ-\( b \) עד כדי \( \delta \) (בנורמה הרגילה ולא בנורמת הסופרמום), אז קיים \( x\in A \) כך ש-\( F\left(x\right)=c \).
בואו נגדיר פונקציה שאומרת כמה \( x \) “מפספס” את \( c \): \( \phi\left(x\right)=\|F\left(x\right)-c\|^{2} \). מכיוון ש-\( F \) ב-\( C^{r} \), כך גם \( \phi \), ומכיוון ש-\( Q \) קומפקטית, קיים ל-\( \phi \) מינימום מעל \( Q \), ונסמן ב-\( d \) את הנקודה שבה מתקבל המינימום הזה, שאנחנו רוצים להראות כמובן שהוא 0.
ראשית אני רוצה להראות שהמינימום הזה חייב להתקבל בנקודה פנימית של \( Q \) ולא על השפה של \( Q \). נקודות על השפה מקיימות, כמובן, ש-\( \|F\left(x\right)-b\|\ge\delta \), כי הסכמנו כבר שהכדור הפתוח ברדיוס \( 2\delta \) סביב \( b \) זר לתמונה של השפה, זה האופן שבו בחרנו את \( \delta \). אם כן, הערך שנקודות על השפה מחזירות הוא “יחסית גדול”. מצד שני, \( \phi\left(a\right)=\|F\left(a\right)-c\|^{2}=\|b-c\|^{2}<\delta^{2} \) כי הנחת המוצא שלנו הייתה שהמרחק בין \( b \) ל-\( c \) הוא פחות מ-\( \delta \). מכיוון שאנחנו תמיד יכולים לבחור \( \delta<1 \) הרי ש-\( \delta^{2}<\delta \), ומכאן שעבור \( a \) הערך המוחזר הוא “יחסית קטן”, ולכן המינימום חייב להחזיר ערך עוד יותר קטן ולכן הוא לא יכול להתקבל על השפה.
החשיבות של כך שהמינימום לא מתקבל על השפה היא שזה מראה כי מדובר על מינימום מקומי, כלומר יש סביבה של הנקודה שבה המינימום מתקבל שבה כל הנקודות מחזירות ערך גדול יותר. ראינו בפוסט הקודם שהמשמעות של זה היא שהנגזרת של \( \phi \) בנקודה הזו מתאפסת. אז בואו נכתוב את \( \phi \) באופן מפורש, ונגזור אותה:
\( \phi\left(x\right)=\sum_{i=1}^{n}\left(F_{i}\left(x\right)-c_{i}\right)^{2} \)
נגזרת חלקית של פונקציה כזו, זה קל:
\( D_{j}\phi\left(x\right)=\sum_{i=1}^{n}2\left(F_{i}\left(x\right)-c_{i}\right)D_{j}F_{i}\left(x\right) \)
וכל הנגזרות החלקיות צריכות להתאפס ב-\( d \). כלומר נקבל \( \sum_{i=1}^{n}\left(F_{i}\left(d\right)-c_{i}\right)D_{j}F_{i}\left(d\right)=0 \). את הדבר הזה אפשר לתאר בתור מכפלה סקלרית של שני וקטורים: וקטור ה”טעויות”, \( v=\left[F_{1}\left(d\right)-c_{1},\dots,F_{n}\left(d\right)-c_{n}\right] \), והוקטור שמתאים לנגזרת ה-\( j \)-ית של \( F \), \( D_{j}F \). יש לנו \( n \) משוואות כאלו, אחת לכל נגזרת חלקית של \( F \), ואם נאחד את כולן נקבל את המשוואה הבאה של מכפלת וקטור במטריצה: \( v\cdot DF=0 \). אחת מההנחות שלנו, כזכור, היא ש-\( DF \) היא הפיכה, ולכן על ידי כפל בהופכית שלה נקבל ש-\( v=0 \), והמסקנה היא ש-\( F_{i}\left(d\right)=c_{i} \) לכל \( i \), כלומר \( F\left(d\right)=c \), וזה מה שרצינו.
סיכום ביניים: הייתה לנו פונקציה \( F:A\to\mathbb{R}^{n} \). הראינו קבוצה פתוחה \( B \) כך ש-\( F:A\to B \) היא חח”ע ועל, כלומר הפיכה; אני אסמן את הההופכית ב-\( G \). המטרה שלנו היא להראות ש-\( G \) גזירה. נעשה את זה בשני שלבים - קודם נוכיח שהיא רציפה, ואז נעבור לגזירות. רציפות זה קל למדי ונובע בחינם ממה שכבר עשינו: בטופולוגיה קבוצתית רואים שהגדרה שקולה לרציפות של \( G \) היא שלכל קבוצה פתוחה \( U\subseteq A \), המקור \( G^{-1}\left(U\right) \) הוא קבוצה פתוחה. אבל \( G^{-1}\left(U\right)=F\left(U\right) \), ולכן אפשר לחזור על כל הטירוף שהתבססנו עליו עד כה כדי להוכיח ש-\( B \) פתוחה בהינתן ש-\( A \) פתוחה, כדי להוכיח ש-\( F\left(U\right) \) פתוחה בהינתן ש-\( U \) פתוחה. קיבלנו ש-\( G \) רציפה. תודה לארדש, נותר רק להוכיח שהיא גזירה. וזה יהיה החלק הכי טכני פה.
אנחנו כמובן יודעים מה הנגזרת הולכת להיות: כבר ראינו בפוסט קודם שמכלל השרשרת נובע שאם \( G \) גזירה בנקודה \( b=F\left(a\right) \), אז בהכרח הנגזרת שלה היא \( \left(DF\left(a\right)\right)^{-1} \), כלומר ההופכית של הנגזרת של \( F \) באותה נקודה. הבעיה היחידה היא שלא מובטח לנו שהנגזרת של \( F \) אכן הפיכה בכל \( A \) - בניסוח המקורי של המשפט אנחנו רק דורשים שתהיה נקודה כלשהי שבה הנגזרת הפיכה, ואז המשפט מבטיח שתהיה לנקודה הזו סביבה פתוחה שבה הפונקציה תהיה הפיכה עם נגזרת נחמדה של הפונקציה ההפוכה. מכאן שייתכן שנצטרך לצמצם את \( A \) לסביבה קטנה ביותר, בהתאם לשאלה איפה \( DF \) אינה הפיכה; אבל הרציפות של \( DF \) מבטיחה שתהיה סביבה כזו (זה נובע מכך שטרנספורמציה לינארית היא הפיכה אם ורק אם הדטרמיננטה שלה היא אפס, ושדטרמיננטה היא פונקציה רציפה).
אם כן, הצטמצמנו לנקודות שבהן הנגזרת של \( F \) הפיכה. אם נסמן את הנגזרת הזו ב-\( E=DF\left(a\right) \) אז אנחנו רוצים להראות ש-\( E^{-1} \) היא הנגזרת ב-\( b=F\left(a\right) \). נחזור להגדרה: זה אומר שצריך להראות ש-
\( \lim_{k\to0}\frac{G\left(b+k\right)-G\left(b\right)-E^{-1}k}{\left|k\right|}=0 \)
כרגיל, הטריק הוא בלדעת לפרק את המפלצת הזו לכמה חלקים שאנחנו יודעים לטפל בכל אחד מהם בנפרד. ראשית כל נסמן \( \Delta\left(k\right)=G\left(b+k\right)-G\left(b\right) \), כלומר הגבול שלנו הוא של הביטוי \( \frac{\Delta\left(k\right)-E^{-1}k}{\left|k\right|} \). כעת נכפול ונחלק ב-\( \left|\Delta\left(k\right)\right| \) ונוציא את \( E^{-1} \) החוצה ונקבל את הביטוי
\( -E^{-1}\left[\frac{k-E\cdot\Delta\left(k\right)}{\left|\Delta\left(k\right)\right|}\right]\frac{\left|\Delta\left(k\right)\right|}{\left|k\right|} \)
קיבלנו מכפלה של שלושה ביטויים. \( -E^{-1} \) הוא קבוע ולכן לא משפיע על הגבול. מה שנשאר לנו להראות הוא שהגורם האמצעי שואף לאפס, והגורם הימני “לא מפריע”, כלומר הוא חסום כאשר \( k \) שואף לאפס.
הטריק בביטוי האמצעי הוא להראות שהוא שואף לאפס בגלל שהביטוי המתאים לנגזרת של \( F \) שואף לאפס. זאת משום ש-
\( b+k=F\left(G\left(b+k\right)\right)=F\left(G\left(b\right)+\Delta\left(k\right)\right)=F\left(a+\Delta\left(k\right)\right) \)
או במילים אחרות, \( k=F\left(a+\Delta\left(k\right)\right)-F\left(a\right) \). לכן הביטוי שבסוגריים הוא בעצם
\( \frac{F\left(a+\Delta\left(k\right)\right)-F\left(a\right)-E\cdot\Delta\left(k\right)}{\left|\Delta\left(k\right)\right|} \)
ומהגדרת הנגזרת, כאשר \( \Delta\left(k\right) \) שואף לאפס, הביטוי הזה שואף לאפס. מכיוון שכאשר \( k \) שואף לאפס כך גם \( \Delta\left(k\right) \), קיבלנו את מה שרצינו.
כל ההוכחה מתרכזת כעת, כמו שקורה המון באנליזה, בלהראות שאיזה שהוא ביטוי הוא חסום - הביטוי \( \frac{\left|\Delta\left(k\right)\right|}{\left|k\right|} \), כאשר \( k\to0 \).
אם תחזרו לתחילת הסעיף הזה תזכרו שהוכחנו שקיימת סביבה של \( a \), נקרא לה \( C \), ו-\( \alpha>0 \), כך שלכל שתי נקודות \( x_{0},x_{1}\in C \) מתקיים \( \left|F\left(x_{0}\right)-F\left(x_{1}\right)\right|\ge\alpha\left|x_{0}-x_{1}\right| \). בואו נסתכל עכשיו על \( F\left(C\right) \), שהיא סביבה של \( b \), ורק על ערכי \( \left|k\right| \) קטנים דיו ש-\( b+k \) מוכלת ב-\( F\left(C\right) \) לכל \( k \) כזה. במקרה הזה נבחר \( x_{0}=G\left(b+k\right) \) ו-\( x_{1}=G\left(b\right) \), ונפעיל את אי השוויון למעלה עליהם, תוך שימוש בכך ש-\( F \) מבטל את \( G \). כלומר, נקבל \( \left|k\right|=\left|b+k-b\right|\ge\alpha\left|G\left(b+k\right)-G\left(b\right)\right|=\alpha\left|\Delta\left(k\right)\right| \). כלומר קיבלנו ש-\( \frac{\left|\Delta\left(k\right)\right|}{\left|k\right|}\le\frac{1}{\alpha} \), וזה מה שרצינו.
נשאר רק דבר אחד לסיום, שבו אנפנף טיפה בידיים אבל לא יותר מדי, וזה להראות שאם \( F \) שייכת למחלקה \( C^{r} \) (גזירה ברציפות \( r \) פעמים) כך גם \( G \). זה נראה כמו הדבר הכי כבד כאן, אבל מן הסתם את העבודה הקשה כבר עשינו ונשתמש בטיעון פשוט יחסית לצורך ההוכחה. הרעיון הוא שמכיוון שאנחנו יודעים איך לגזור את \( G \), אנחנו גם יודעים (על פי כלל השרשרת) בדיוק איך הנגזרת שלה תיראה:
\( DG\left(b\right)=\left[DF\left(G\left(b\right)\right)\right]^{-1} \)
או במילים אחרות, \( DG \) היא הרכבה של שלוש פונקציות: \( G \), שעליה מרכיבים את \( DF \), שעליה מרכיבים את האופרטור שמעתיק טרנספורמציה לינארית להופכית שלה. אפשר להראות שהאופרטור הזה הוא ב-\( C^{\infty} \) וש-\( F \) היא ב-\( C^{r} \), והרכבה של פונקציות ב-\( C^{r} \) היא ב-\( C^{r} \), ולכן כל מה שצריך לעשות הוא לדבר על \( G \) עצמה, במין טיעון אינדוקטיבי שקצת נראה כמו מישהו שמרים את עצמו על ידי משיכה בשרוכי הנעליים: אנחנו כבר יודעים ש-\( G \) רציפה כי הראינו זאת במפורש, ולכן גם \( DG \) רציפה, כהרכבה של שלוש פונקציות רציפות, ומכאן ש-\( G \) בעצם שייכת ל-\( C^{1} \); אבל אם \( G \) שייכת ל-\( C^{1} \) אז גם \( DG \) שייכת ל-\( C^{1} \) כהרכבה של שלוש פונקציות ב-\( C^{1} \), וכן הלאה באינדוקציה עד אשר אנחנו נתקעים ב-\( C^{r} \) כי ההרכבה שלנו כוללת גם את \( F \), שאנחנו לא מסוגלים להגיד עליה כלום מעבר לכך שהיא ב-\( C^{r} \).
זה טיעון יפהפה ששווה את נפנוף הידיים. גם בגלל ה”משיכה בשרוכי נעליים” וגם בגלל איך שפתאום אני מכניס לתמונה את האופרטור שלוקח פונקציה להופכית שלה ומשתמש בגזירות שלו כטיעון - זו מעין יציאה מהמסגרת שבה היינו עד עכשיו. אני רק מקווה שהצלחתם לשרוד עד לכאן כדי ליהנות מזה.
פרק שביעי, ובו אנו שובתים מכל מלאכה
טוב, זה היה מתיש, אין לי כוח לכתוב סיום מתחכם.
נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ: