החלפת משתנים בחשבון דיפרנציאלי ואינטגרלי - המשפט הכללי
אחרי פוסט המבוא בנושא, אנחנו רוצים להוכיח את משפט החלפת המשתנים הכללי בחדו”א, עבור אינטגרלים \( n \)-ממדיים. לפני הכל נתחיל בלהזכיר מה המשפט אומר: אם \( g:A\to B \) היא דיפאומורפיזם של קבוצות פתוחות ב-\( \mathbb{R}^{n} \) ו-\( f:B\to\mathbb{R} \) רציפה, אז \( f \) אינטגרבילית מעל \( B \) אם ורק אם \( \left(f\circ g\right)\left|\det Dg\right| \) אינטגרבילית מעל \( A \) ובמקרה זה מתקיים:
\( \int_{B}f=\int_{A}\left(f\circ g\right)\left|\det Dg\right| \)
מכיוון שטרם עשיתי זאת, הגיע הזמן להסביר מה זה דיפאומורפיזם. כמו כל שאר שלל ה”מורפיזמים” במתמטיקה, זה שם לפונקציה שמשמרת מבנה מסויים, רק שטרם הסברתי בשום שלב מה המבנה וגם עכשיו אני עדיין דוחה את זה; רק אומר למי שתוהה שזה מבנה של יריעה חלקה שיש ל-\( A,B \), אבל לא אסביר מה זו יריעה חלקה. פורמלית, \( g:A\to B \) היא דיפאומורפיזם מסדר \( r \) אם היא חד-חד-ערכית ועל, כלומר הפיכה, ואם גם \( g \) וגם \( g^{-1} \) הן ב-\( C^{r} \), כלומר גזירות ברציפות \( r \) פעמים. למי שמכיר את ההגדרה של הומיאומורפיזם בטופולוגיה, זו נראית מעין הרחבה של ההגדרה (בהומיאומורפיזם דורשים את הדרישה החלשה יותר ש-\( g \) ו-\( g^{-1} \) יהיו רציפות, ואז \( g \) משמרת את המבנה הטופולוגי של המרחב שהיא פועלת עליו). האינטואיציה למשפט, אם כן, היא זו: האינטגרל של \( f \) בקבוצה \( B \) ניתן לחישוב גם מעל הקבוצה \( A \) שהיא “פחות או יותר \( B \)”, אבל עדיין נדרש תיקון מסויים - התיקון הזה הוא ההכפלה ב-\( \left|\det Dg\right| \), שמתאר במובן מסויים עד כמה \( g \) “מעוותת” את המרחב (למשל, אם היא מנפחת את המרחב פי 2, כפי שעושה הפונקציה \( g\left(x\right)=2x \), ברור שנצטרך לכפול ב-2). שימו לב שהתיקון הזה הוא לא איזה קבוע שבו כופלים את הערך הכולל של האינטגרל וזהו - זה תיקון נקודתי. בכל נקודה \( a\in A \) אנחנו בודקים מהי הנגזרת של \( g \) בנקודה הזו, לוקחים את הערך המוחלט של הדטרמיננטה של המטריצה של הנגזרת בנקודה הזו, וזה ה”תיקון” שאנחנו מצמידים לערך ש-\( f \) מחזירה על \( g\left(a\right) \). זה שינוי של הפונקציה שעליה אנחנו מבצעים אינטגרציה, מ-\( f \)-מופעלת-על-התמונה-של-\( g \) למשהו קצת יותר מסובך.
עכשיו, משאנחנו מבינים את המשפט, אפשר לגשת להוכחה שלו. ההוכחה כבדה למדי, אבל זה לא אומר שהיא לא יפה או מעניינת. כמו כן, אני אנצל את העובדה שאני כותב פוסט לבלוג כדי להציג אותה בגישת Top-down, דהיינו קודם נציג את ההוכחה בלי להיכנס בהכרח לכל הפרטים ולהוכחה של טענות ספציפיות, שאותן נדחה להמשך או נוותר עליהן בכלל. בספרים בדרך כלל קודם כל מבצעים עבודת הכנה לא קטנה עד שניגשים להוכחת המשפט, וזה יכול להיות מעייף למדי (אם כי זו הדרך הנכונה לנקוט בה בספרי לימוד, לטעמי).
ראשית כל נשים לב לכך שהמשפט מנוסח בתור “אם ורק אם”, ולכן צריך להוכיח שני כיוונים: גם להוכיח שאם \( f \) אינטגרבילית מעל \( B \) אז \( \left(f\circ g\right)\left|\det Dg\right| \) אינטגרבילית מעל \( A \), וגם להוכיח שאם \( \left(f\circ g\right)\left|\det Dg\right| \) אינטגרבילית מעל \( A \) אז \( f \) אינטגרבילית מעל \( B \), וזאת לכל \( g \) שהיא דיפאומורפיזם. אלא שאם נוכיח את הכיוון הראשון, הכיוון השני מאוד קל כי אפשר לחשוב עליו בתור “המקרה הראשון” עבור \( g^{-1} \). פורמלית: \( g^{-1}:B\to A \) היא דיפאומורפיזם של קבוצות פתוחות, ונתונה לנו פונקציה \( F:B\to\mathbb{R} \) שהיא אינטגרבילית; זה אומר שגם \( \left(F\circ g^{-1}\right)\left|\det Dg^{-1}\right| \) אינטגרבילית מעל \( A \). אבל מהי \( F \) הזו? כמובן, \( F=\left(f\circ g\right)\left|\det Dg\right| \) - זו פונקציה רציפה מעל \( B \) שנתון לי שהיא אינטגרבילית (כי אני בכיוון השני של המשפט, שזה הנתון בו). עכשיו יש לנו סתם חשבון פשוט כדי לראות ש-\( \left(F\circ g^{-1}\right)\left|\det Dg^{-1}\right| \) זו דרך מפוצצת לכתוב \( f \):
\( \left(F\circ g^{-1}\right)\left|\det Dg^{-1}\right|\left(y\right)=F\left(g^{-1}\left(y\right)\right)\left|\det Dg^{-1}\left(y\right)\right|= \)
\( =f\left(g\left(g^{-1}\left(y\right)\right)\right)\cdot\left|\det Dg\left(g^{-1}\left(y\right)\right)\right|\cdot\left|\det Dg^{-1}\left(y\right)\right| \)
\( =f\left(y\right)\left|\det Dg^{-1}\left(y\right)\right|^{-1}\left|\det Dg^{-1}\left(y\right)\right|=f\left(y\right) \)
שימו לב למעבר \( \left|\det Dg\left(g^{-1}\left(y\right)\right)\right|=\left|\det Dg^{-1}\left(y\right)\right|^{-1} \) שעשוי לבלבל - זו תוצאה ישירה של הפעלת כלל השרשרת על פונקציות הפיכות; הראיתי את זה כאן.
סיימנו את הכיוון הזה. נשאר לנו רק העיקר - להראות שאם \( f \) אינטגרבילית, כך גם \( \left(f\circ g\right)\left|\det Dg\right| \), ושהאינטגרלים שווים. כדי לעשות לעצמנו את החיים קלים, משתמשים בשלוש טכניקות פישוט סטנדרטיות: ראשית, משתמשים באינדוקציה על המימד \( n \) של המרחב. מקרה הבסיס, כש-\( n=1 \), כבר טופל חלקית בפוסט על שיטת ההצבה; עוד מעט אסביר למה המקרה הזה בכל זאת כללי קצת יותר, ואראה איך מוכיחים אותו.
שנית, אנחנו מניחים ש-\( g \) היא מאוד נחמדה, במובן זה שהיא קבועה על הקואורדינטה ה-\( n \)-ית במרחב. דהיינו, \( g\left(x_{1},\dots,x_{n}\right)=\left(y_{1},\dots,y_{n-1},x_{n}\right) \). העובדה ש-\( g \) טריוויאלית לגמרי על הקואורדינטה ה-\( n \)-ית מאפשרת לנו להשתמש יחסית בקלות בהנחת האינדוקציה כדי להוכיח את הנדרש. לדיפאומורפיזם כזה שהוא קבוע על אחת מהקואורדינטות קוראים דיפאומורפיזם פרימיטיבי. אבל למה שאוכל להניח ש-\( g \) היא כזו? נדרשת לא מעט עבודה כדי להוכיח שכל דיפאומורפיזם ניתן להיבנות כהרכבה של של דיפאומורפיזמים פרימיטיביים (מכאן המילה “פרימיטיבי”), ושהרכבה כזו משמרת את נכונות המשפט על החלפת המשתנים. אבל נשמור את זה לאחר כך.
הדבר האחרון שאני מניח הוא שכדי להוכיח שהמשפט מתקיים עבור \( g:A\to B \) מספיק להוכיח שהוא מתקיים מקומית עבור \( g \) ועבור פונקציות \( f \) עם תומך קומפקטי, כאשר “תומך” כאן הוא הסגור הטופולוגי של קבוצת הנקודות עליהן \( f \) אינה מתאפסת (כלומר, קבוצת הנקודות הזו ועוד כל נקודות השפה שלה). המשמעות הפורמלית היא זו: אם לכל \( x\in A \) קיימת סביבה \( U \) של \( x \) (כלומר, קבוצה פתוחה \( U\subseteq A \) כך ש-\( x\in U \)) שנסמן את תמונתה בתור \( V=g\left(U\right) \), כך שלכל פונקציה \( f:V\to\mathbb{R} \) עם תומך קומפקטי המשפט מתקיים - אז המשפט מתקיים עבור \( f:B\to\mathbb{R} \) כלשהי. כאן המשמעות של “תומך קומפקטי” היא שקבוצת הערכים ב-\( V \) שעליהם \( f \) לא מתאפסת היא חסומה (קבוצה קומפקטית ב-\( \mathbb{R}^{n} \) אם ורק אם היא סגורה וחסומה, וכאן אנחנו לוקחים מראש את התומך להיות קבוצה סגורה). זה בעצם מחזיר אותנו למושג האינטגרל שממנו התחלנו - כזה של פונקציה שמוגדרת על קבוצה סגורה וחסומה, לפני שעברתי לדבר על אינטגרלים מוכללים.
הנה סיכום זריז של השלבים:
- נראה את נכונות המשפט עבור \( n=1 \) תוך שימוש בהנחה שמספיק להוכיח את המשפט מקומית.
- נראה איך נובעת מכך נכונות המשפט עבור \( n \) כלשהו תוך שימוש בהנחה שמספיק להוכיח את המשפט עבור \( g \) פרימיטיבית.
- נראה למה אם המשפט נכון עבור שני דיפאומורפיזמים הוא נכון גם להרכבה שלהם ונסביר למה כל דיפאומורפיזם ניתן לתיאור כהרכבת דיפאומורפיזמים פרימיטיביים, מה שיצדיק את ההנחה שלנו בשלב 2.
- נראה שמספיק להוכיח את המשפט מקומית, מה שיצדיק את ההנחה שלנו בשלב 1.
חלקים 1-2 מן הסתם כוללים את הלב הרעיוני של ההוכחה, בעוד שחלקים 3-4 הם יותר טכניים באופיים ולכן אני דוחה אותם לסוף, למרות שהסדר התקין יותר להצגה שלהם הוא בהתחלה.
אם תבקשו ממני לתת אינטואיציה כלשהי לאיך ההוכחה עובדת, אני חושש שגם עכשיו אין לי משהו טוב יותר מנפנוף הידיים המופרע הבא: “אם חותכים את המרחב כולו לפיסות קטנות קטנות קטנות קטנות קטנטנות ממש ממש ממש ממש אז בכל פיסה כזו נראה ש-\( g \) רק טיפה מכווצת או מותחת את המרחב בציר אחד ואז פשוט צריך לכפול בקבוע המתאים שמתקן את אפקט העיוות הזה”.
אני חושב שהפוסט הזה הוא דוגמה נפלאה לאופן שבו המתמטיקה מפרמלת את הצורה לטיעון מנופנף ידיים כזה.
שלב 1: בסיס האינדוקציה: n=1
השלב הזה הוא בבסיסו פשוט שיטת ההצבה שכבר הצגתי והוכחתי בפוסט קודם. שם ההוכחה התבססה על תותח כבד יחסית - המשפט היסודי של החדו”א - אבל כל זה הוא חומר של חדו”א בסיסי ולא של אנליזה וקטורית. עם זאת, בגלל האופן שבו ניסחתי את שיטת ההצבה הכללית עבור אינטגרלים מוכללים, ההוכחה ההיא לא מספיקה, כי היא מתייחסת רק לאינטגרלים רגילים שמוגדרים על קטעים, לא על קבוצות פתוחות. לכן משתמשים בכך שמספיק להוכיח את המשפט באופן מקומי. דהיינו, ניקח \( x\in A \) וניקח קטע סגור כלשהו \( I\subseteq A \) כך ש-\( x\in I \). התמונה של קטע סגור על ידי פונקציה ממשית רציפה גם היא קטע סגור (זה נובע ממשפט ערך הביניים עם עוד קצת עבודה) ולכן \( J=g\left(I\right) \) הוא קטע סגור ב-\( B \), ואז אפשר להשתמש במשפט החלפת המשתנים כדי לקבל ש-\( \int_{J}f=\int_{I}f\circ g\left|g^{\prime}\right| \), וזה בדיוק מה שאנחנו רוצים.
שלב 2: צעד האינדוקציה
גם כאן מתחילים מלפשט את מה שבכלל צריך להוכיח.מכיוון שמספיק להוכיח את המשפט מקומית, אז לוקחים נקודה \( x\in A \) ומחפשים סביבה “נחמדה” שלה: לוקחים תיבה \( Q\subseteq B \) שמכילה את \( g\left(x\right) \) ומסמנים ב-\( U=g^{-1}\left(Q\right) \) את המקור שלה, וזו תהיה הקבוצה הפתוחה שלנו; אם כן, די להוכיח את המשפט עבור \( f \) רציפה שמוגדרת על התיבה \( Q \) ויש לה תומך קומפקטי בתיבה הזו. מכיוון ש-\( f \) רציפה ויש לה תומך קומפקטי, היא אינטגרבילית על \( Q \), כלומר אפשר לדבר על \( \int_{Q}f \); ובאופן דומה גם \( g\circ f\left|\det Dg\right| \) היא פונקציה רציפה (כי הרכבה וכפל של פונקציות רציפות הם רציפים, ודטרמיננטה של הנגזרת היא פונקציה רציפה, וערך מוחלט הוא רציף) וגם לה יש תומך קומפקטי מעל \( U \) (המקור של התומך הקומפקטי של \( f \) על פי \( g \)), ולכן היא אינטגרבילית שם, כלומר \( \int_{U}\left(f\circ g\right)\left|\det Dg\right| \). האתגר הוא להוכיח ש-\( \int_{U}\left(f\circ g\right)\left|\det Dg\right|=\int_{Q}f \).
הרעיון עכשיו הוא מתבקש למדי: אנחנו לא באמת יודעים לחשב אינטגרלים על קבוצות במספר גדול של ממדים “בבת אחת”; אנחנו משתמשים במשפט פוביני כדי לחלק את האינטגרל ה”גדול” לאינטגרל חד-ממדי שמופעל על אינטגרל על קבוצה פחות במימד אחד פחות, שעליה אפשר להשתמש בהנחת האינדוקציה. פורמלית, בואו נסמן \( F=\left(f\circ g\right)\left|\det Dg\right| \), כלומר אנחנו רוצים להוכיח \( \int_{U}F=\int_{Q}f \), ונפרק את התיבה \( Q \) לתת-תיבה ממימד קטן ב-1 כפול קטע חד ממדי: \( Q=D\times I \). איך זה משפיע על \( U \)? כאן נכנסת לתמונה ההנחה שלנו ש-\( g \) היא פרימיטיבית, כלומר לא משנה את הקואורדינטה האחרונה; זה אומר ש-\( U\subseteq E\times I \) כאשר \( E \) היא תיבה ו-\( I \) הוא אותו קטע כמו ב-\( D\times I \).
המשוואה שאנחנו רוצים להוכיח כעת היא \( \int_{E\times I}F=\int_{D\times I}f \). את זה נפתח על פי משפט פוביני:
\( \int_{t\in I}\int_{y\in D}F\left(y,t\right)=\int_{t\in I}\int_{x\in E}f\left(x,t\right) \)
שני האינטגרלים הפנימיים הולכים לתת לנו פונקציה של \( t \). מכיוון שהאינטגרציה החיצונית היא על אותו קטע בדיוק, מספיק להראות ששני האינטגרלים הפנימיים שווים:
\( \int_{y\in D}F\left(x,t\right)=\int_{x\in E}f\left(y,t\right) \)
וזאת לכל \( t \), כשחושבים על \( t \) בתור פרמטר. כמובן, צריך להיות טיפה זהירים לפני שצועקים פה “הנחת האינדוקציה!” - ההנחה הזו תקפה עבור פונקציות במימד נמוך ב-1, ועדיין לא הצגנו אותן במפורש. אני יכול להגדיר \( h_{t}\left(x\right)=f\left(x,t\right) \) כדי לטפל באגף ימין, אבל מה בדיוק קורה באגף שמאל? שם יש לנו את \( g\left(x,t\right) \) שגם התחום שלה וגם התמונה שלה צריכים לרדת במימד שלהם. אז אני אגיד שמכיוון ש-\( g \) פרימיטיבית, ניתן לכתוב את התמונה שלה כך: \( g\left(x,t\right)=\left(r\left(x,t\right),t\right) \), ולכן אני יכול להגדיר \( k_{t}\left(x\right)=r\left(x,t\right) \). צריך להוכיח שזה דיפאומורפיזם, כמובן.
עכשיו, מהו \( Dk_{t} \)? זו פשוט תת-המטריצה של \( Dh \) שמתקבלת כשמעיפים את השורה והעמודה האחרונות. אני אסמן את זה בתור \( \frac{\partial r}{\partial x} \). עם הסימונים הללו אנחנו מגיעים סוף סוף לשימוש בהנחת האינדוקציה:
\( \int h_{t}\left(y\right)=\int h_{t}\left(k_{t}\left(x\right)\right)\left|\det\frac{\partial r}{\partial x}\right| \)
וכאן \( f\left(y,t\right)=h_{t}\left(y\right) \) ו-\( F\left(x,t\right)=h_{t}\left(k_{t}\left(x\right)\right) \), אז רק נשאר להבין למה \( \left|\det Dg\right|=\left|\det\frac{\partial r}{\partial x}\right| \). בשביל זה, בואו נכתוב במפורש את המטריצה של \( Dg \) בתור מטריצת בלוקים:
\( Dg=\left[\begin{array}{cc}\partial r/\partial x & \partial r/\partial t\\0\dots0 & 1\end{array}\right] \)
למי שזוכר איך מחשבים דטרמיננטות ברור שהדטרמיננטה של המטריצה הזו היא \( \det\frac{\partial r}{\partial x} \). אבל למה השורה האחרונה נראית כפי שהיא נראית? ובכן, בדיוק בגלל ש-\( g \) פרימיטיבית ולכן לינארית במשתנה האחרון (והנגזרת שלה היא 1 בו) וקבועה ביתר המשתנים (ולכן הנגזרת שלה היא 0 בהם).
אז סיימנו את השלב הזה, אבל כפי שאנחנו רואים, ההנחה ש-\( g \) פרימיטיבית היא חזקה מאוד ופחות או יותר חוסכת לנו את כל העבודה. לכן זה הדבר הבא שחייבים לדבר עליו.
שלב 3: מדיפאומורפיזמים פרימיטיביים לכלליים
הרעיון הכללי כאן הוא זה: ניקח דיפאומורפיזם כללי \( g \). נראה שאפשר לכתוב אותו בתור הרכבה של דיפאומורפיזמים \( g_{1},g_{2},\dots,g_{k} \) שהם כולם פרימיטיביים (פועלים כמו הזהות על קואורדינטה אחת), ונשתמש בכך שאם משפט החלפת המשתנים נכון עבור שני דיפאומורפיזמים, הוא נכון עבור ההרכבה שלהם. את הטענה האחרונה הזו על הההרכבה די קל לראות. נניח ש-\( g,h \) הם דיפאומורפיזמים שמקיימים את המשפט, אז זה אומר ש:
\( \int f=\int\left(f\circ g\right)\left|\det Dg\right|=\int\left(\left(f\circ g\right)\circ h\right)\left|\left(\det Dg\right)\circ h\right|\left|\det Dh\right| \)
כלומר, אני משתמש פה במשפט החלפת המשתנים פעמיים. פעם אחת עבור הדיפאומורפיזם \( g \) והפונקציה הרציפה \( f \), ובפעם השניה עבור הדיפאומורפיזם \( h \) והפונקציה הרציפה המסובכת יותר \( \left(f\circ g\right)\left|\det Dg\right| \). אם זה מבלבל, צריך לזכור מה \( \left(f\circ g\right)\left|\det Dg\right| \) אומר בכלל. זו פונקציה שלוקחת קלט \( x\in\mathbb{R}^{n} \) ועושה איתו שני דברים: ראשית, מחשבת את \( f\left(g\left(x\right)\right) \) ושומרת בצד את התוצאה; ושנית, מחשבת טרנספורמציה לינארית שהיא הדיפרנציאל של \( g \) בנקודה \( x \), ואז היא מחשבת את הערך המוחלט של הדטרמיננטה של הטרנספורמציה הלינארית הזו, וכופלת את התוצאה ב-\( f\left(g\left(x\right)\right) \) שחושב קודם.
אם אני לוקח את כל הפונקציה הזו ומרכיב אותה על \( h \), זה אומר שצריך להחליף את \( x \) בתיאור הקודם ב-\( h\left(x\right) \). כלומר, אני לוקח את הפונקציה שמחשבת ערך-מוחלט-של-דטרמיננטה-של-הדיפרנציאל של \( g \) ומרכיב אותה על \( h \). זה נראה קצת מבלבל בגלל האופן שבו אנחנו כותבים ערך מוחלט לא כפונקציה אלא בתור שני קווים, אבל זה בסדר גמור - העובדה ש-\( h \) נמצאת בתוך הקווים של הערך המוחלט מעידה על כך שהערך המוחלט פועל אחרון בפונקציה המורכבת שמקבלים.
מה אנחנו רוצים להראות? ש-\( \int f=\int f\circ\left(g\circ h\right)\left|\det D\left(g\circ h\right)\right| \). האסוציאטיביות של הרכבת פונקציות נותנת לנו מייד ש-\( f\circ\left(g\circ h\right)=\left(f\circ g\right)\circ h \); מה שחסר כאן הוא רק שוויון עבור קבוע ה”תיקון”, כלומר חסר להראות ש-
\( \left|\det D\left(g\circ h\right)\right|=\left|\left(\det Dg\right)\circ h\right|\left|\det Dh\right| \)
וזה כנראה מזכיר לכם כבר את כלל השרשרת שממנו התוצאה הזו נובעת מייד (יחד עם תכונת הכפליות של הדטרמיננטה, כמובן).
אם כן, האתגר האמיתי בשלב הזה הוא להראות שדיפאומורפיזם \( g \) כללי ניתן לכתיבה כהרבה של דיפאומורפיזמים פרימיטיביים. נתחיל מכך שזה כנראה לא אפשרי ואנחנו לא ננסה לעשות את זה: מה שנעשה הוא להראות שזה ניתן לביצוע באופן מקומי. כלומר, נקבע נקודה כלשהי \( a \) ונראה שקיימת סביבה \( U \) של \( a \) שבה \( g \) מתפרקת כך להרכבה של דיפאומורפיזמים פרימיטיביים (שתלויים ב-\( a \)). כזכור, אנחנו הולכים בהמשך לדבר על למה מספיק להוכיח את משפט החלפת המשתנים מקומית כדי שהוא יהיה נכון באופן כללי, ולכן אנחנו יכולים לעשות זאת. עדיין, גם באופן מקומי, איך מפרקים כך את \( g \)?
האינסטינקט הראשוני שלי הוא לכתוב את \( g \) בתור הרכבה של פונקציות שכל אחת מהן פועלת על רכיב בודד ולכן משמרת את כל היתר: למשל, אם \( g\left(x,y\right)=\left(2x+y,2y+x\right) \) אז נגדיר \( g_{1}\left(x,y\right)=\left(x,2y+x\right) \) ו-\( g_{2}\left(x,y\right)=\left(2x+\left(\frac{y-x}{2}\right),y\right) \). אבל שימו לב שזה היה קצת אד-הוקי - נאלצתי איכשהו “לשחזר” את \( y \) המקורי ב-\( g_{2} \). מי אומר שתמיד אפשר לעשות את זה? ואיך אפשר לוודא שהפירוקים שלנו יהיו דיפאומורפיזמים?
אז עושים את זה בשלבים. מתחילים מהמקרה הפרטי שבו \( g \) היא טרנספורמציה לינארית. זה זמן טוב עבורכם לעצור ולנסות להוכיח את הטענה בעצמכם עבור טרנספורמציות לינאריות כדי להרגיש מה בעצם אנחנו מנסים לעשות פה ולמה זה טיפה מאתגר. כאשר \( g \) היא טרנספורמציה לינארית שהיא דיפאומורפיזם המידע הנוסף שיש לנו עליה הוא שהיא הפיכה (כי דיפאומורפיזם חייב להיות הפיך) - הגזירות של \( g \) ושל ההופכית שלה נובעת מכך שכל טרנספורמציה לינארית היא גזירה. עכשיו, אחד הדברים הראשונים שרואים באלגברה לינארית הוא שכל טרנספורמציה לינארית אפשר להציג בתור הרכבה של טרנספורמציות לינאריות אלמנטריות - בשלב הזה עוד קוראים לטרנספורמציה לינארית “מטריצה” ומדברים על כך שכל מטריצה היא מכפלה של מטריצות אלמנטריות.
טרנספורמציה אלמנטרית שפועלת על וקטור \( \left(x_{1},\dots,x_{n}\right) \) עושה אחד משלושה דברים: או כופלת כניסה אחת (נאמר, את הראשונה, אבל באותה מידה אפשר גם את היתר) בסקלר, כלומר מקבלים את הוקטור \( \left(\lambda x_{1},x_{2}\dots,x_{n}\right) \); זו בבירור טרנספורמציה פרימיטיבית כי לא שינינו את שאר הכניסות. או שמוסיפים לאחת הכניסות את המכפלה של אחרת בסקלר, כלומר מקבלים את הוקטור \( \left(x_{1},x_{2}+\lambda x_{1},\dots,x_{n}\right) \), וגם פה לא שינינו את שאר הכניסות; או שמחליפים שתי כניסות, למשל מקבלים \( \left(x_{2},x_{1},\dots,x_{n}\right) \). כאן יכולה להיות בעיה אם \( n=2 \), אבל הנה תעלול נחמד! אפשר “לסמלץ” החלפה של שתי שורות גם בעזרת טרנספורמציות משני הסוגים הראשונים! בואו תראו את זה כך:
\( \left(a,b\right)\mapsto\left(a,b-a\right)\mapsto\left(b,b-a\right)\mapsto\left(b,-a\right)\mapsto\left(b,a\right) \)
אני מניח שתוכלו לנחש בעצמכם מה ביצעתי בכל שלב.
עכשיו, משאנחנו חמושים בנכונות של הטענה על הפירוק עבור טרנספורמציות לינאריות, בואו נוכיח אותן עבור איזומטריה פשוטה שאינה טרנספורמציה לינארית - הזזה. \( g\left(x\right)=x+c \) עם \( c \) קבוע; זו כנראה הפונקציה הפשוטה ביותר שאיננה טרנספורמציה לינארית שיש טעם לדבר עליה. וכמובן, די בבירור אפשר לפרק אותה כי פשוט נזיז לא בכל \( c \) בבת אחת אלא נחכה קצת עם אחד הצירים. דהיינו, אם \( c=\left(c_{1},\dots,c_{n}\right) \) בואו נגדיר \( g_{1}\left(x_{1},\dots,x_{n}\right)=\left(x_{1}+c_{1},x_{2}+c_{2},\dots,x_{n-1}+c_{n-1},x_{n}\right) \) ו-\( g_{2}\left(x_{1},\dots,x_{n}\right)=\left(x_{1},x_{2},\dots,x_{n-1},x_{n}+c_{n}\right) \), וקיבלנו ש-\( g \) היא הרכבה של שני דיפאומורפיזמים פרימיטיביים.
בשני המקרים הללו הפירוק היה גלובלי - לא הייתי צריך להתייחס לכך שאני מפרק בסביבה של נקודה \( a \) מסויימת ונעזר במה שאני יודע עליה. הסיבה שטרחתי להתעסק במפורש עם שני המקרים הללו היא שאני הולך להיעזר בהם כדי לקחת דיפאומורפיזם כללי ולהעביר אותו לצורה פשוטה יחסית, שבה אני יכול לטפל באופן מפורש. בואו נראה עכשיו את הצורה הזו: אני מניח ש-\( a=0 \) פשוט כדי שהסימונים יהיו פשוטים ככל הניתן, וש-\( g\left(0\right)=0 \) וש-\( Dg\left(0\right)=I \). תחת ההנחות הללו הרעיון האינטואיטיבי שנתתי קודם - שאפשר יהיה “לשחזר” קואורדינטות מתוך הפלט החלקי של \( g \) ולכן לבצע את \( g \) בשלבים - באמת עובד. בואו ונראה במפורש איך.
אני אתאר את \( g\left(x_{1},\dots,x_{n}\right) \) כאילו הוא מורכבת מ-\( n \) פונקציות ממשיות ב-\( n \) משתנים, כלומר \( g\left(x_{1},\dots,x_{n}\right)=\left(g_{1}\left(x_{1},\dots,x_{n}\right),\dots,g_{n}\left(x_{1},\dots,x_{n}\right)\right) \), ואראה שאפשר לפרק את \( g \) להרכבה \( g=k\circ h \). נתחיל עם \( h \), שתהיה פשוט הפעלה של \( g \) לכל הקואורדינטות מלבד האחרונה, שאותה משמרים. כלומר, \( h\left(x_{1},\dots,x_{n}\right)=\left(g_{1}\left(x_{1},\dots,x_{n}\right),\dots,g_{n-1}\left(x_{1},\dots,x_{n}\right),x_{n}\right) \). מכיוון שמשמרים את הקואורדינטה האחרונה הרי שאם \( h \) היא דיפאומורפיזם אז היא דיפאומורפיזם פרימיטיבי - אבל מאיפה לנו ש-\( h \) היא דיפאומורפיזם, כלומר גזירה, הפיכה ועם הופכית שגזירה כמו \( h \) עצמה?
גזירות זה קל - \( h \) גזירה אם ורק אם כל הקואורדינטות שלה גזירות, וכולן הן פונקציות מהצורה \( g_{i} \) שאנחנו יודעים שהן גזירות פרט לקואורדינטה האחרונה, שהיא פונקציית הזהות שהיא בוודאי גזירה. אם נגזור את \( h \) בנקודה כלשהי, נקבל מטריצה שכל השורות שלה פרט לאחרונה זהות לאלו של \( Dg \), ואילו השורה האחרונה בה תהיה פשוט \( \left[0,0,0,\dots,1\right] \) בנקודה \( a=0 \) אנחנו יודעים ש-\( Dg\left(0\right)=I \) ולכן נקבל גם ש-\( Dh\left(0\right)=I \). זה אומר שאנחנו עומדים בתנאי משפט הפונקציה ההפוכה: הנגזרת של \( h \) בנקודה 0 היא הפיכה, מה שאומר שקיימת סביבה \( U \) של \( 0 \) שבה קיים ל-\( h \) הופכי שהוא גזיר כמו \( h \). קיבלנו שבסביבה \( U \) הזו, \( h \) היא אכן דיפאומורפיזם.
זה המקום שבו כל עניין ה”סביבה” נכנס לתמונה, באופן מהותי: משפט הפונקציה ההפוכה לא נכון באופן גלובלי - הוא תמיד מבטיח לנו הפיכות רק בסביבה של הנקודה שבה הנגזרת הפיכה. בשל המגבלה הזו, נצטרך לבלות את החלק האחרון של הפוסט עם “הדבקה” של כל התוצאות הגלובליות יחד. אבל צעד צעד.
עכשיו נשאלת השאלה - איך להגדיר את \( k \) כך שנקבל \( g=h\circ k \)? בבירור, על \( n-1 \) הקואורדינטות הראשונות \( k \) לא תעשה כלום (ולכן תהיה בעצמה דיפאומורפיזם פרימיטיבי), אבל על האחרונה \( k \) צריכה להחזיר את \( g_{n}\left(x_{1},\dots,x_{n}\right) \), כשה”בעיה” שלה היא שהיא לא מקבלת כקלט את \( x_{1},\dots,x_{n} \) אלא את \( y=h\left(x_{1},\dots,x_{n}\right) \). לכן היא צריכה “לשחזר” את הקלט, ואת זה היא יכולה לעשות כי מקומית, \( h \) הפיכה. כלומר, \( k \) רוצה לחשב את \( g_{n}\left(h^{-1}\left(y\right)\right) \), וזו תהיה ההגדרה שלה:
\( k\left(y_{1},\dots,y_{n}\right)=\left(y_{1},\dots,y_{n-1},g_{n}\left(h^{-1}\left(y_{1},\dots,y_{n}\right)\right)\right) \)
כמובן, \( k \) מוגדרת רק על הסביבה \( U \) של \( a \) שבה \( h^{-1} \) קיימת, אבל זה לא מפריע לנו. צריך עדיין להראות שגם היא דיפאומורפיזם, אז מחשבים את \( Dk\left(0\right) \) ומקבלים מטריצה ש-\( n-1 \) השורות הראשונות בה יוצרות את מטריצת היחידה מסדר \( n-1 \), ואילו השורה האחרונה היא הנגזרת של \( g_{n}\left(h^{-1}\left(y_{1},\dots,y_{n}\right)\right) \). כלל השרשרת יתן לנו את המכפלה של הנגזרת של \( g_{n} \) ב-\( 0 \) עם הנגזרת של \( h^{-1} \) ב-\( 0 \); אבל הנגזרת של \( h^{-1} \) היא ההופכית של הנגזרת של \( h \), כלומר היא מטריצת היחידה. נשארנו עם הנגזרת של \( g_{n} \), שהיא פשוט הוקטור \( \left[0,0,0,\dots,1\right] \) כפי שאמרנו קודם (בזכות ההנחה שלנו שהנגזרת של \( g \) ב-\( 0 \) היא מטריצת היחידה) ולכן סיימנו (אני מחפף פה עבודה טכנית של למצוא את הקבוצה הפתוחה המדוייקת שעליה \( g \) מתפרקת).
עכשיו בואו נסיים עם החלק הזה. ניקח דיפאומורפיזם כללי \( g \) ונקודה כללית \( a \). עכשיו בואו נגדיר שלוש פונקציות כך:
\( t_{1}\left(x\right)=x+a \)
\( t_{2}\left(x\right)=x-g\left(a\right) \)
\( T\left(x\right)=C^{-1}x \) כאשר \( Dg\left(a\right)=C \)
ועכשיו בואו נגדיר דיפאומורפיזם חדש:
\( h=T\circ t_{2}\circ g\circ t_{1} \)
וכעת, מהו \( h\left(0\right) \)? קל לחשב: \( h\left(0\right)=C^{-1}\left(g\left(a\right)-g\left(a\right)\right)=C^{-1}0=0 \)
וכמו כן, על פי כלל השרשרת, \( Dh \) היא המכפלה של הנגזרות של ארבע הפונקציות הללו; הנגזרות של ההזזות הן מטריצות היחידה, אז מקבלים \( C^{-1}\cdot C=I \). כלומר, \( h \) עונה על התנאים שטיפלנו בהם לפני רגע. כל מה שנותר לעשות הוא לשים לב לכך ש-\( g=t_{2}^{-1}\circ T^{-1}\circ h\circ t^{-1} \) וסיימנו - זו הרכבה של דיפאומורפיזמים שכבר ראינו עבור כולם שניתן לפרק אותם להרכבה של דיפאומורפיזמים פרימיטיביים. זה מסייים את החלק הזה של ההוכחה.
שלב 4: ממקומי לגלובלי
טוב, אני מניח שבשלב הזה כבר ברור שקל העסק הזה לא יהיה, נכון? הסתמכנו כל כך חזק על הלוקליות שנדמה שיהיה צריך איזה שהוא נס כדי לעבור לטענה גלובלית - כדי “לתפור” את כל התעלולים המקומיים שאנחנו עושים למשהו שעובד בכל מקום. את ה”נס” הזה אני הולך לספק באמצעות כלי טכני שלא הזכרתי עד כה שנקרא חלוקת יחידה (Partition of Unity). בספרי הלימוד המושג הזה מוזכר ומוסבר לעומק הרבה לפני שמגיעים להוכחת משפט החלפת המשתנים, אבל זו בדיוק הבעיה המרכזית - לא ברור בשביל מה צריך את זה עד שלא מגיעים לשימוש כמו זה שלנו. ומכיוון שלהבין מה זו חלוקת יחידה, ולמה היא קיימת בכלל, זה לא הכי קל בעולם, מוטיבציה היא דבר מאוד חשוב כאן. אז אני הולך להציג את המושג הזה עכשיו ולהראות למה הוא מסיים לנו את ההוכחה, ואז בתור בונוס אני גם אוכיח שהוא בכלל קיים.
אז מה זו חלוקת יחידה? בואו נניח ש-\( A \) היא קבוצה פתוחה. חלוקת יחידה היא אוסף פונקציות רציפות \( \phi_{1},\phi_{2},\dots \) שכולן מ-\( A \) לממשיים בין אפס ואחד, \( \phi:A\to\left[0,1\right] \), וכמו כן מתקיימים התנאים הבאים:
- \( \sum\phi\left(x\right)=1 \) לכל \( x\in A \), כשהסכום נלקח על כל ה-\( \phi \) באוסף. זה מבהיר איפה פה ה"חלוקה" של היחידה.
- לכל נקודה של \( A \) קיימת סביבה שחותכת רק מספר סופי של תומכים של \( \phi \) מתוך החלוקה (כלומר, עבור כל ה-\( \phi \) בקבוצה פרט למספר סופי, הן מתאפסות על הנקודה הזו וכל הסביבה שלה).
מהכתיב שלי עשוי להתקבל הרושם שחלוקת יחידה חייבת להיות סדרה בת מניה של פונקציות. כך אמנם יהיה במקרה הנוכחי, אבל באופן כללי אפשר גם לדבר על קבוצות לא בנות מניה. זה עשוי להיראות מוזר במבט ראשון כי תנאי 1 עוסק בסכום שנלקח, לכאורה, על כל הפונקציות; אבל תנאי 2 מבטיח שכל האיברים בסכום הזה יהיו 0 פרט למספר סופי, כך שאין פה שום בעיה - אפילו אין צורך לדבר על התכנסות טורים של מספר בן מניה אינסופי של איברים.
בינתיים אין בהגדרה הזו שום דבר מרגש - אפילו הפונקציה \( \phi\left(x\right)=1 \) מקיימת את התכונה הזו לבדה. לכן בדרך כלל מוסיפים דרישות נוספות על חלוקת היחידה. בפרט, מגבילים את התומך של כל פונקציה \( \phi \), שהוא כזכור הסגור של אוסף הנקודות ש-\( \phi \) שונה מאפס עליהן. דרישה אפשרית אחת היא שהתומך יהיה קומפקטי (בהקשר שלנו, סגור וחסום), מה שלא מתקיים עבור \( \phi\left(x\right)=1 \) אם \( A \) אינה קבוצה קומפקטית; דרישה אפשרית נוספת צצה אם יש לנו הצגה של \( A \) כאיחוד של קבוצות פתוחות, והדרישה מחלוקת היחידה היא שהתומך של כל \( \phi \) יהיה מוכל כולו באחת מהקבוצות הפתוחות - על זה אומרים שהחלוקה נשלטת על ידי אוסף הקבוצות הפתוחות. אנחנו נדרוש את שתי הדרישות הללו, ובנוסף - כי אנחנו מתעסקים פה באנליזה - נדרוש גם שכל ה-\( \phi \) יהיו גזירות אינסוף פעמים.
השימושיות של חלוקת יחידה עבורנו כאן נובעת מכך שהיא מאפשרת לנו לפרק אינטגרל של פונקציה מורכבת לסכום אינטגרלים של פונקציות פשוטות יותר, באופן הבא: אם יש לנו חלוקת יחידה מעל \( A \) עם תומכים קומפקטיים, ואם \( f \) היא פונקציה ממשית רציפה מעל \( A \), אז האינטגרל של \( f \) קיים אם ורק אם האינטגרל \( \sum_{i=1}^{\infty}\int_{A}\phi_{i}\left|f\right| \) קיים, ובמקרה הזה מתקיים
\( \int_{A}f=\sum_{i=1}^{\infty}\int_{A}\phi_{i}f \)
כאשר הסכום נלקח על כל ה-\( \phi \)-ים בחלוקת היחידה - כאן כן הכרחי שהחלוקה תכיל רק מספר בן מניה של פונקציות או שלא היינו יכולים לבצע סכימה כזו.
נו, מה תגידו, הנה עוד טענה כבדת משקל שאני אדחה את ההוכחה שלה להמשך. קודם כל נראה איך היא עוזרת לנו.
כזכור, מה שאנחנו צריכים להוכיח כאן הוא את הדבר הבא: נתון לנו דיפאומורפיזם \( g:A\to B \). אנחנו יודעים שלכל נקודה \( x\in A \) קיימת סביבה \( U_{x} \), כך שמשפט החלפת המשתנים תקף עליה עבור כל פונקציה רציפה עם תומך קומפקטי. דהיינו, נסמן \( V_{x}=g\left(U_{x}\right) \), ניקח פונקציה \( f:V_{x}\to\mathbb{R} \) רציפה עם תומך קומפקטי, אז \( \int_{V_{x}}f=\int_{U_{x}}\left(f\circ g\right)\left|\det Dg\right| \).
זה הנתון, ומה שאנחנו רוצים להוכיח הוא שלכל \( f:B\to\mathbb{R} \) רציפה מתקיים \( \int_{B}f=\int_{A}\left(f\circ g\right)\left|\det Dg\right| \). הרעיון יהיה לחלק את \( f \) הזו בעזרת חלוקת היחידה להרבה תת-פונקציות פשוטות שעבור כל אחת מהן אפשר להשתמש במשפט החלפת המשתנים. כמובן, השלב הראשון הוא לומר איזו חלוקת יחידה אנחנו לוקחים בכלל; ניקח אחת עם תומכים קומפקטיים שנשלטת על ידי קבוצת ה-\( V_{x} \)-ים, כלומר שלכל פונקציה \( \phi \) בחלוקה, התומך שלה הוא תת-קבוצה של \( V_{x} \) עבור \( x\in A \) כלשהו.
בהינתן החלוקה הזו, וההנחה ש-\( f \) אינטגרבילית מעל \( B \), אפשר לכתוב
\( \int_{B}f=\sum_{i=1}^{\infty}\int_{B}\phi_{i}f \)
עכשיו, מכיוון ש-\( \phi_{i} \) היא בעלת תומך קומפקטי שמוכל ב-\( V_{x} \), כל מה שבאינטגרנד מתאפס לכל נקודה מחוץ ל-\( V_{x} \), ומכאן ש-\( \int_{B}\phi_{i}f=\int_{V_{x}}\phi_{i}f \). מכיוון ש-\( \phi_{i}f \) היא פונקציה רציפה אפשר להשתמש במשפט החלפת המשתנים (שימו לב! כאן זה השימוש בכל מה שעשינו עד כה!) ולקבל
\( \int_{V_{x}}\phi_{i}f=\int_{U_{x}}\left(\phi_{i}f\right)\circ g\left|\det Dg\right| \)
את אגף ימין יותר נוח לכתוב בתור
\( \int_{U_{x}}\left(\phi_{i}\circ g\right)\left(f\circ g\right)\left|\det Dg\right| \)
עכשיו, אני רוצה לטעון שהתומך של \( \phi_{i}\circ g \) מוכל כולו ב-\( U_{x} \). אם לא הייתי מניח כלום על \( g \) זה לא היה נכון, כי אמנם אני יודע שהתומך של \( \phi_{i} \) מוכל כולו ב-\( V_{x}=g\left(U_{x}\right) \) אבל זה לא אומר שאין נקודות מחוץ ל-\( U_{x} \) שהתמונה של \( g \) עליהן שייכת ל-\( V_{x} \). במקרה שלנו זה כן נכון, כי \( g \) היא דיפאומורפיזם ולכן בפרט חח”ע ועל - אין נקודות מחוץ ל-\( U_{x} \) שמחזירות נקודות בתוך \( V_{x} \).
מכיוון שהתומך של \( \phi_{i}\circ g \) מוכל כולו ב-\( U_{x} \) אפשר להרחיב את האינטגרל לכל \( A \):
\( \int_{A}\left(\phi_{i}\circ g\right)\left(f\circ g\right)\left|\det Dg\right| \)
ועכשיו תראו מה קיבלנו!
\( \int_{B}\phi_{i}f=\int_{A}\left(\phi_{i}\circ g\right)\left(f\circ g\right)\left|\det Dg\right| \)
התחלנו עם חתיכות של \( f \) שפזורות על חתיכות של \( B \); עכשיו אנחנו עדיין מדברים על חתיכות של \( f \) אבל הן מוגדרות על כל \( B \). כדי לחזור אל \( f \) המקורית, בואו נחבר את כל החתיכות:
\( \int_{B}f=\sum_{i=1}^{\infty}\int_{B}\phi_{i}f=\sum_{i=1}^{\infty}\int_{A}\left(\phi_{i}\circ g\right)\left(f\circ g\right)\left|\det Dg\right| \)
חסר לנו רק הצעד האחרון:
\( \sum_{i=1}^{\infty}\int_{A}\left(\phi_{i}\circ g\right)\left(f\circ g\right)\left|\det Dg\right|=\int_{A}\left(f\circ g\right)\left|\det Dg\right| \)
רגע, מה ההבדל בין זה ובין \( \int_{B}f=\sum_{i=1}^{\infty}\int_{B}\phi_{i}f \)? ובכן, שאנחנו עובדים עכשיו מעל \( A \) וה”חלוקה” שלנו היא לא הפונקציות \( \phi_{i} \) אלא הפונקציות \( \phi_{i}\circ g \). צריך להוכיח שהן מהוות חלוקת יחידה עבור \( A \), אבל זו הוכחה ישירה ופשוטה למדי למדי - החלק היחיד שאינו מיידי לחלוטין הוא ההוכחה שהתומכים של הפונקציות הללו הם קומפקטיים, וזה נובע מכך שהם המקורות של קבוצות קומפקטיות (התומכים של ה-\( \phi_{i} \)-ים המקוריים) על ידי הפונקציה הרציפה \( g \).
זה מסיים את משפט החלפת המשתנים, ומשאיר לנו רק לדבר עוד קצת על חלוקות יחידה.
שלב 5 (בונוס!): לדבר עוד קצת על חלוקות יחידה
נשארו שני דברים: להוכיח שקיימת חלוקת יחידה מהסוג שבה השתמשנו קודם, ולהוכיח שבאמת אפשר לפרק אינטגרלים איתה לסכומים, כפי שעשינו קודם.
עוד
נתחיל עם קיום, ועם בעיה פשוטה קצת יותר. נניח שמביאים לנו תיבה \( Q \) ב-\( \mathbb{R}^{n} \). האם אנחנו יודעים לבנות פונקציה אי-שלילית גזירה אינסוף פעמים שמתאפסת מחוץ ל-\( Q \) וגדולה מאפס בתוך \( Q \) למעט על השפה של \( Q \)? אם נצליח לבנות פונקציה כזו, יהיה קל לראות איך מקבלים מפונקציות כאלו את חלוקת היחידה שאנחנו רוצים - אחרי שנעשה עוד להטוט שבכלל לא מערב פונקציות.
בואו נתחיל אפילו יותר פשוט: פונקציה ב-\( \mathbb{R} \) שמתאפסת מחוץ לקבוצה קומפקטית כלשהי, והיא עדיין רציפה וגזירה כמה פעמים שנרצה. אם סתם ניקח פונקציה כמו \( f\left(x\right)=9-x^{2} \) שהיא אי שלילית בקבוצה \( \left[-3,3\right] \) ונגדיר אותה להיות 0 מחוץ לקבוצה הזו אמנם נקבל פונקציה רציפה אבל היא לא תהיה גזירה בקצוות - צריך משהו “חלק” יותר. אבל אין כאן רעיון גאוני במיוחד - מה שבדרך כלל עובד בסיטוציות כאלו הוא וריאציה כלשהי על אקספוננט. זה מה שנעשה כאן. נגדיר \( f\left(x\right)=\begin{cases}e^{-\frac{1}{x}} & x>0\\0 & x\le0\end{cases} \) ונקבל פונקציה אי שלילית שרציפה וגזירה בכל מקום והיא מתאפסת מחוץ לקטע \( \left(0,\infty\right) \). זה לא קטע קומפקטי, אז נגדיר \( g\left(x\right)=f\left(x\right)f\left(1-x\right) \) והופס - הפונקציה הזו עדיין נחמדה כמו \( f \), אבל מתאפסת בכל מקום מלבד הקטע \( \left(0,1\right) \) (ולכן היא אפס בכל מקום מלבד בתוך הקבוצה הקומפטית \( \left[0,1\right] \)).
עכשיו, זו פונקציה במשתנה יחיד. אנחנו רוצים משהו ב-\( \mathbb{R}^{n} \) שמתאפס מחוץ לתיבה \( Q=\left[a_{1},b_{1}\right]\times\dots\times\left[a_{n},b_{n}\right] \). זה ממש פשוט: בואו נגדיר \( \varphi\left(x\right)=g\left(\frac{x_{1}-a_{1}}{b_{1}-a_{n}}\right)\cdots g\left(\frac{x_{n}-a_{n}}{b_{n}-a_{n}}\right) \). מה הולך פה? כל גורם מהצורה \( \frac{x-a_{k}}{b_{k}-a_{k}} \) נע בין 0 ל-1 כאשר \( x_{k} \) נע מ-\( a_{k} \) אל \( b_{k} \), לכן אם \( x_{k}\notin\left[a_{k},b_{k}\right] \) אז ה-\( g \) של הגורם הזה יתאפס ולכן הפונקציה כולה. כלומר, \( \varphi\left(x\right) \) מתאפסת מחוץ ל-\( Q \). גזירות קל לבדוק והיא נובעת מהגזירות של \( g \), וכך גם אי-שליליות.
כל הפונקציות בחלוקת היחידה שלנו יוגדרו באמצעות \( \varphi \) כזו, פשוט על תיבות שונות ומשונות, ועם עוד נורמליזציה שנתייחס אליה בסוף שתבטיח שסכום הערכים של כולן יהיה 1 בכל מקום. לעת עתה השאלה שלנו היא בכלל אילו תיבות אני רוצה לבחור. הסיטואציה היא ש-\( A \) נתונה לנו כאיחוד של קבוצות פתוחות, \( A=\bigcup U_{\alpha} \) - זה אוסף קבוצות פתוחות שיכול גם להיות לא בן מניה בכלל. אנחנו רוצים למצוא מספר בן מניה של תיבות, \( Q_{1},Q_{2},\dots \) שאיחודן יכסה את כל \( A \), שכל אחת מהן תהיה מוכלת באחת מה-\( U_{\alpha} \) הללו, ושכל נקודה ב-\( A \) תהיה בעלת סביבה שחותכת רק מספר סופי של \( Q \)-ים מתוך הסדרה.
מה שהולך לקרות עכשיו יהיה גלישה זריזה לטופולוגיה פשוטה יחסית. נתחיל מכך שקל למצוא סדרה \( D_{1},D_{2},\dots \) של קבוצות קומפקטיות שהאיחוד שלהן נותן בדיוק את \( A \) וכל קבוצה מוכלת בפנים של הבאה אחריה - נבחר למשל את \( D_{n} \) להיות החיתוך בין הכדור הסגור (והחסום) ברדיוס \( n \) סביב הראשית, ובין אוסף הנקודות ב-\( A \)שמרחקן משפת \( A \) הוא לכל הפחות \( \frac{1}{n} \). זה חיתוך בין שתי קבוצות סגורות שאחת מהן חסומה, כך שזו קבוצה קומפקטית. פורמלית:
\( D_{n}=\left\{ x\in A\ |\ \left|x\right|\le n\wedge d\left(x,\mathbb{R}^{n}\backslash A\right)\ge\frac{1}{n}\right\} \)
דבר כזה נקרא Exhaustion by compact sets. עכשיו ניקח את ה-\( D \)-ים הללו ונתעלל בהן קצת עד שנקבל את התיבות שאנחנו רוצים. ראשית נקבל מהן קבוצות שמתארות רק את “הדברים החדשים שקיבלנו”:
\( B_{n}=D_{n}\backslash\mbox{Int}D_{n-1} \) (אני מסמן ב-\( D \) עם אינדקס שלילי את הקבוצה הריקה). שימו לב שזו בעצמה קבוצה קומפקטית. עכשיו, לא מובטח לנו שהיא זרה ל-\( D_{n-1} \) כי העפנו רק את הפנים של \( D_{n-1} \), אבל מובטח לנו שהיא כן זרה ל-\( D_{n-2} \), כי \( D_{n-2} \) היה מוכל כולו בפנים של \( D_{n-1} \). זה יהיה מספיק טוב עבורנו.
אפשר לדמיין את מה שהולך כאן כך: \( D_{n} \) הם עיגולים; \( B_{n} \) הן טבעות; ועכשיו נכסה כל טבעת על ידי אוסף סופי של תיבות קטנות. אז לכל \( x\in B_{n} \) ניקח תיבה כלשהי שמכילה את \( x \) בפנים שלה והיא קטנה מספיק כדי להיות מוכלת כולה ב-\( A \) (אפשרי, כי \( A \) קבוצה פתוחה) ולמעשה, היא קטנה מספיק כדי להיות מוכלת כולה באחת מהקבוצות \( U_{\alpha} \) שמכסות את \( A \) (שוב אפשרי, כי \( x \) שייך לפחות לאחת מהקבוצות הללו, ואלו קבוצות פתוחות) וכמו כן היא קטנה מספיק כדי להיות זרה ל-\( D_{n-2} \) (זה אפשרי כי \( x \) לא שייך ל-\( D_{n-2} \) ו-\( D_{n-2} \) היא קבוצה סגורה, כלומר המשלימה שלה פתוחה).
ועכשיו מגיע הקסם שבטופולוגיה. אמרנו שה-\( B_{n} \)-ים הללו הן קבוצות קומפקטיות. בשבילנו, המתעסקים ב-\( \mathbb{R}^{n} \), קומפקטיות זה כינוי נרדף ל”סגור וחסום”. אבל בעולם הטופולוגי הגדול, קומפקטיות פירושה “לכל כיסוי של הקבוצה באמצעות קבוצות פתוחות קיים תת-כיסוי סופי שעדיין מכסה את הקבוצה”. ב-\( \mathbb{R}^{n} \) התכונה הזו שקולה לסגירות וחסימות - זה מה שנקרא “משפט היינה-בורל”. אצלנו, הפנים של התיבות שלקחנו לכל \( x \) היווה כיסוי פתוח שכזה של \( B_{n} \) ולכן קיים לו תת-כיסוי סופי. לכן, אם ניקח את כל התיבות של כל תתי-הכיסויים הסופיים של כל ה-\( B_{n} \)-ים נקבל קבוצה בת מניה (איחוד בן מניה של קבוצות סופיות) של תיבות שהאיחוד של כולן מכסה את כל ה-\( B_{n} \)-ים ולכן את כל \( A \), וכל תיבה בו מוכלת ב-\( U_{\alpha} \) כלשהו, ורק צריך להסביר עוד למה תכונת החיתוכים הסופיים מתקיימת.
אם כן, ניקח \( x\in A \) כלשהו ונחפש סביבה פתוחה שלו שחותכת רק מספר סופי של תיבות. אנחנו יודעים ש-\( x\in B_{n} \) עבור \( n \) כלשהו. ניקח אם כן סביבה של \( x \) שמוכלת בפנים של \( B_{n} \). אנחנו גם יודעים שכל תיבה שמכסה את \( B_{k} \), עבור \( k\ge n+2 \), לא חותכת את \( B_{n} \) ולכן לא חותכת את הסביבה של \( x \) שלקחנו. מי אם כן התיבות ה”בעייתיות” מבחינתנו? כל התיבות שמכסות את \( B_{1},B_{2},\dots,B_{n},B_{n+1} \). אבל כפי שכבר אמרנו, לכל \( B_{k} \) שכזו לקחנו רק מספר סופי של תיבות, ויש לנו רק מספר סופי של \( B_{k} \)-ים בעייתיים, ולכן הסביבה של \( x \) חותכת רק מספר סופי של תיבות, וסיימנו.
רגע, מה סיימנו? איפה חלוקת היחידה? כבר שכחנו שהיה אמור להיות דבר כזה. כזכור, הראיתי קודם איך בהינתן תיבה \( Q_{i} \) אפשר להגדיר פונקציה \( \varphi_{i} \) שהיא חיובית על הפנים של \( Q_{i} \), אפס בכל מקום אחר, וגזירה כמה פעמים שרק נרצה. עכשיו, נתונה לנו קבוצה \( A \) שאנחנו רוצים למצוא חלוקת יחידה עבורה, ו-\( A \) מכוסה על ידי קבוצות פתוחות \( U_{\alpha} \) שאנחנו רוצים שישלטו על חלוקת היחידה שלנו, אז ניקח את ה-\( Q_{i} \)-ים שלנו להיות כמו שהראיתי למעלה, וניקח את ה-\( \varphi_{i} \) המתאימים, והדבר הזה הוא כבר כמעט חלוקת יחידה: לכל \( \varphi_{i} \) התומך של \( \varphi_{i} \) הוא \( Q_{i} \) שמוכל באחת מהקבוצות \( U_{\alpha} \), ולכל \( x\in A \) קיימת ל-\( x \) סביבה שחותכת רק מספר סופי של \( Q_{i} \), כלומר רק מספר סופי של תומכים של פונקציות בחלוקת היחידה. הדבר היחיד שבינתיים לא עובד הוא שיתקיים \( \sum_{i=1}^{\infty}\varphi_{i}\left(x\right)=1 \) לכל \( x\in A \). הסכום הזה אמנם מוגדר היטב תמיד, כי תכונת החיתוך הסופי אומרת שהוא כולל רק מספר סופי של מחוברים ששונים מאפס, אבל הוא לאו דווקא שווה ל-1. אז מה עושים? מנרמלים. נגדיר פונקציה \( \lambda\left(x\right)=\sum_{i=1}^{\infty}\varphi_{i}\left(x\right) \), וכעת נגדיר \( \phi_{i}\left(x\right)\triangleq\frac{\varphi_{i}\left(x\right)}{\lambda\left(x\right)} \). כמובן, צריך להשתכנע ש-\( \lambda\left(x\right)\ne0 \) לכל \( x \); זה נובע מכך שאנחנו יודעים שהפנים של ה-\( Q_{i} \)-ים מכסים את \( A \) ולכן \( x \) שייך לפנים של לפחות \( Q_{i} \) אחד ומכאן ש-\( \varphi_{i}\left(x\right)\ne0 \) (וכל ה-\( \varphi_{i} \) הן אי-שליליות ולכן לא יכולות לאפס זו את זו).
קצת
הגענו סוף סוף אל הדבר האחרון בפוסט: הראינו שחלוקת יחידה קיימות, ועכשיו נשאר להראות שאפשר להשתמש בהן לפירוק אינטגרלים לסכומים.
כזכור, מה שאנחנו רוצים להוכיח הוא זה: אם \( \phi_{1}\phi_{2},\dots \) היא חלוקת יחידה עם תומכים קומפקטיים של קבוצה פתוחה \( A \), ויש לנו פונקציה \( f:A\to\mathbb{R} \) שהיא רציפה, אז היא אינטגרבילית מעל \( A \) אם ורק אם הטור \( \sum_{i=1}^{\infty}\int_{A}\phi_{i}\left|f\right| \) מתכנס, ובמקרה זה מתקיים ש-\( \int_{A}f=\sum_{i=1}^{\infty}\int_{A}\phi_{i}f \).
כמו שקורה לפעמים באינטגרלים, ההוכחה תתחיל בלהתעסק בפונקציות \( f \) שהן אי-שליליות ואחר כך תתרחב בהתאם.
אם \( f \) היא אי-שלילית מעל \( A \), אז \( \left|f\right|=f \) ולכן בעצם כל מה שצריך להראות הוא את השוויון \( \int_{A}f=\sum_{i=1}^{\infty}\int_{A}\phi_{i}f \) משני הכיוונים. נעשה את זה בצורה קצת מתחכמת. ראשית, נניח שהטור באגף ימין מתכנס, ונוכיח שהאינטגרל באגף שמאל מתכנס, ושערכו חסום מלמעלה על ידי אגף ימין. אחר כך נניח שאגף שמאל מתכנס ונוכיח שאגף ימין מתכנס ושערכו חסום מלמעלה על ידי אגף שמאל. שני אלו ביחד נותנים לנו את הטענה כולה.
נתחיל עם אגף ימין. כלומר, נניח שהטור \( \sum_{i=1}^{\infty}\int_{A}\phi_{i}f \) מתכנס (שימו לב לכך ש-\( \int_{A}\phi_{i}f \) תמיד קיים כי \( \phi_{i}f \) היא פונקציה רציפה בעלת תומך קומפקטי, וראינו שפונקציות כאלו הן תמיד אינטגרביליות, כך שהסכום תמיד מוגדר היטב והשאלה היחידה היא האם הוא מתכנס). נוכיח ש-\( f \) אינטגרבילית מעל \( A \) והאינטגרל שלה קטן או שווה לסכום הזה. לשם כך, בואו נזכור איך הוגדר אינטגרל מוכלל \( \int_{A}f \): זה הסופרמום של \( \int_{D}f \) על כל הקבוצות \( D\subseteq A \) שהן קומפקטיות ומדידות ז’ורדן. תהא \( D \) קבוצה כזו. כעת נשתמש בקסם של חלוקת יחידה: לכל נקודה \( x\in D \) קיימת סביבה שבה מתאפסות כל ה-\( \phi_{i} \) פרט למספר סופי. איחוד כל הסביבות הללו מכסה את \( D \), ומכיוון ש-\( D \) קומפקטית, אפשר לקחת מספר סופי שלהן שעדיין יכסה את \( D \). קיבלנו אוסף סופי של סביבות כך שלכל סביבה רק מספר סופי של \( \phi_{i} \)-ים הוא לא זהותית אפס, ומכאן שעל כל \( D \) רק מספר סופי של \( \phi_{i} \)-ים אינו זהותית אפס. כלומר, קיים איזה שהוא \( N \) טבעי כך שלכל \( i>N \) מתקיים \( \phi_{i}\left(x\right)=0 \) לכל \( x\in A \). דהיינו, \( \sum_{i=1}^{N}\phi_{i}\left(x\right)=1 \) ולכן \( f\left(x\right)=\sum_{i=1}^{N}f\left(x\right)\phi_{i}\left(x\right) \). הסופיות של הסכום הזה מאפשרת לנו להשתמש בתכונה נחמדה מאוד של אינטגרלים - לינאריות. לא הוכחתי את זה בפוסטים הללו, אבל לא קשה לראות ש-\( \int_{A}\left(\alpha f+\beta g\right)=\alpha\int_{A}f+\beta\int_{A}g \) עבור \( f,g \) פונקציות ו-\( \alpha,\beta\in\mathbb{R} \) סקלרים - זה נובע ישירות מההגדרות. כמובן, אם זה עובד עבור שני מחוברים, זה עובד עבור כל מספר סופי של מחוברים, ולכן:
\( \int_{D}f=\int_{D}\sum_{i=1}^{N}\phi_{i}f=\sum_{i=1}^{N}\int_{D}\phi_{i}f \)
עכשיו, לא קשה לראות ש-\( \int_{D}\phi_{i}f\le\int_{A}\phi_{i}f \), פשוט כי אנחנו מרחיבים את התחום שעליו אנחנו מבצעים אינטגרציה לפונקציה אי-שלילית (מ-\( D \) אל כל \( A \) - או ליתר דיוק, אל כל התומך של \( \phi_{i}\left(x\right) \) ב-\( A \)). לכן נקבל:
\( \int_{D}f\left(x\right)\le\sum_{i=1}^{N}\int_{A}\phi_{i}f\le\sum_{i=1}^{\infty}\int_{A}\phi_{i}f \)
כלומר, קיבלנו שלכל \( D \), \( \int_{D}f \) הוא חסום; מכאן בפרט שלקבוצה של כל ה-\( \int_{D}f \) הללו קיים חסם עליון ולכן \( \int_{A}f \) מוגדר, ושווה לו. אנחנו גם יודעים שהחסם העליון הזה הוא לכל היותר \( \sum_{i=1}^{\infty}\int_{A}\phi_{i}f \), כלומר קיבלנו את הכיוון הראשון שרצינו.
בכיוון השני, אנחנו מניחים ש-\( f \) (עדיין אי שלילית) אינטגרבילית ורוצים להוכיח ש-\( \sum_{i=1}^{\infty}\int_{A}\phi_{i}f \) מתכנס וחסום על ידי \( \int_{A}f \); מן הסתם מכיוון שזה טור אי-שלילי מספיק להוכיח את החסימות. שוב, התעלול הוא לעבור לדבר על סכום סופי - מספיק אם נוכיח ש-\( \sum_{i=1}^{N}\int_{A}\phi_{i}f\le\int_{A}f \) לכל \( N \) טבעי. בהינתן \( N \) כזה, אפשר להסתכל על איחוד כל התומכים של \( \phi_{1},\dots,\phi_{N} \) - זה איחוד סופי של קבוצות קומפקטיות ולכן הוא בעצמו קבוצה קומפקטית, \( D\subseteq A \). מן הסתם מספיק להוכיח ש-\( \sum_{i=1}^{N}\int_{A}\phi_{i}f\le\int_{D}f \).
כעת, \( \sum_{i=1}^{N}\int_{A}\phi_{i}f=\sum_{i=1}^{N}\int_{D}\phi_{i}f \) (כי מחוץ ל-\( D \) ממילא כל ה-\( \phi_{i} \) הרלוונטיות מתאפסות), ומלינאריות נקבל \( \sum_{i=1}^{N}\int_{D}\phi_{i}f=\int_{D}\sum_{i=1}^{N}\phi_{i}f \). מכיוון שלכל \( x \) מתקיים \( \sum_{i=1}^{N}\phi_{i}f\left(x\right)\le f\left(x\right) \) נקבל ש-\( \int_{D}\sum_{i=1}^{N}\phi_{i}f\le\int_{D}f \), וזה מה שרצינו.
זה מסיים את הוכחת טענת האם-ורק-אם. כי למשל, אם נניח ש-\( \int_{A}f \) קיים, אז נקבל מייד ש-\( \sum_{i=1}^{\infty}\int_{A}\phi_{i}f\le\int_{A}f \) וכמו כן ש-\( \sum_{i=1}^{\infty}\int_{A}\phi_{i}f \) מתכנס. אבל אם \( \sum_{i=1}^{\infty}\int_{A}\phi_{i}f \) מתכנס אז נובע מהכיוון השני של ההוכחה ש-\( \int_{A}f\le\sum_{i=1}^{\infty}\int_{A}\phi_{i}f \) ולכן קיבלנו ששני האגפים שווים.
נשאר רק לטפל בפונקציה \( f \) כללית, לאו דווקא אי שלילית. זה דווקא השלב הפשוט ביותר שמבוסס על תעלול שכבר ראינו בפוסט הקודם - כותבים את \( f \) בתור הפרש של שתי פונקציות אי-שליליות, \( f=f_{+}-f_{-} \), כאשר \( f_{-}\left(x\right)=\max\left\{ -f\left(x\right),0\right\} \), וכעת:
\( \int_{A}f=\int_{A}f_{+}-\int_{A}f_{-} \)
זוהי, כזכור, ההגדרה של אינטגרל מוכלל עבור פונקציות כלליות. עכשיו נשתמש במה שכבר ראינו ונקבל
\( \int_{A}f_{+}-\int_{A}f_{-}=\sum_{i=1}^{\infty}\int_{A}\phi_{i}f_{+}-\sum_{i=1}^{\infty}\int_{A}\int_{A}\phi_{i}f_{-}=\sum_{i=1}^{\infty}\int_{A}\phi_{i}\left(f_{+}-f_{-}\right)=\sum_{i=1}^{\infty}\int_{A}\phi_{i}f \)
כאשר המעבר האמצעי, מהפרש שני סכומים לסכום בודד, דורש כמובן הצדקה - אפשר לבצע חיבור כזה רק אם שני הסכומים מתכנסים. הדרישה הכללית לכך שהטור \( \sum_{i=1}^{\infty}\int_{A}\phi_{i}\left|f\right| \) מבטיחה בדיוק את זה, ובכך מסתיימת הוכחת החלק הזה, והוכחת כל מה שרציתי להוכיח בפוסט הזה.
דברי סיכום ופרידה
הפוסט הזה היה ארוך מאוד כי התעקשתי לדחוף לתוכו אינסוף דברים שונים, שבספרי לימוד לרוב מקבלים כמה פרקים משל עצמם ולא רציתי להקדיש להם פוסטים נפרדים. עדיין, אני חושב שלא כל כך קשה לראות את התמונה הגדולה פה, אלא שאלו הפרטים הקטנים שעושים את המשפט הזה. זה לי מרגיש כמו מכונה ענקית שבה כל רגע משהו עלול להתרסק וברגע האחרון אנחנו ניצלים מחורבן גמור כי היי תראו! קומפקטיות אומרת שהופס הנה יש לנו כיסוי סופי ובדיוק בנקודה של הקצה של הצ’ופצ’יק פה אנחנו חייבים שמשהו יהיה סופי!
אז תשמעו, ככה זה. אם הולכים מספיק רחוק במתמטיקה, בכל כיוון שהוא, מגיעים למשפטים כאלו - והמשפט הזה הוא יחסית פשוט. אני חושב שהפרטים הטכניים כאן מעניינים, אבל מן הסתם אם מישהו לא מצליח לצלוח את כולם, אפשר להסתדר גם בלעדיהם. בינתיים.
נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ: