החלפת משתנים בחשבון דיפרנציאלי ואינטגרלי (“שיטת ההצבה”)

היעד הנוכחי של סדרת הפוסטים שלי על אנליזה וקטורית הוא משפט כבד למדי - משפט החלפת המשתנים. אבל לפני שנצלול למעמקים הטכניים שלו, בואו נחזור לרגע לחדו”א של משתנה יחיד ונדבר על איך משפט החלפת המשתנים נראה שם, גם כי זה נותן לנו נקודת אחיזה למשפט הכללי והמסובך יותר, וגם כי מעולם לא כתבתי על המשפט הבסיסי פוסט והגיע הזמן. במשתנה יחיד הניסוח של המשפט פשוט וההוכחה פשוטה (יחסית) גם כן, כך שזהו מבוא מוצלח.

אבל לפני שנדבר על חדו”א, בואו ננסה להבין מה זו בכלל “החלפת משתנים” עם דוגמה יותר פשוטה - משוואות פולינומיות. בואו נסתכל במשוואה \( x^{4}-5x^{2}+4=0 \) - מה הפתרונות שלה? איך מוצאים אותם? ובכן, יש נוסחה לפתרון משוואות ממעלה ארבע, אבל היא מסובכת מאוד. האם יש דרך יותר פשוטה? ובכן, שימו לב שבמשוואה הזו מופיעות רק חזקות זוגיות של \( x \) - החזקות 4, 2 ו-0. זה אומר לנו שבעצם יש פה משוואה ריבועית ב”תחפושת”. כדי להוריד את התחפושת, אנחנו מבצעים החלפת משתנים: מגדירים משתנה חדש, \( t \), כך ש-\( t=x^{2} \), ואז המשוואה לעיל הופכת להיות המשוואה \( t^{2}-5t+4=0 \) שקל לפתור בדרכים סטנדרטיות לפתרון משוואה ריבועית (נוסחת השורשים או טרינום). מקבלים שהפתרונות הם \( t=1,4 \). מכאן קל לקבל פתרונות למשוואה המקורית: מכיוון ש-\( t=x^{2} \) קיבלנו שהמשוואות \( x^{2}=1 \) ו- \( x^{2}=4 \) נותנות פתרונות למשוואה המקורית, ובסך הכל נקבל שלמשוואה המקורית יש ארבעה פתרונות: \( x=1,-1,2,-2 \).

אם כן, מהי בעצם החלפת משתנים? אנחנו מנסים לפשט ביטוי כלשהו על ידי כך שאנחנו מגדירים משתנה חדש, שהוא פונקציה של המשתנה הישן. בואו נחדד את זה על ידי כך שנעבור לטרמינולוגיה של חדו”א, שמשתמשת בפונקציות. ראשית כל הייתה לנו פונקציה \( h\left(x\right)=x^{4}-5x^{2}+4 \) וביקשו מאיתנו לפתור את המשוואה \( h\left(x\right)=0 \). זה היה קשה, אבל אז שמנו לב לכך שאפשר לחשוב על \( h \) בתור הרכבה של שתי פונקציות פשוטות יותר: \( f\left(t\right)=t^{2}-5t+4 \) ו-\( g\left(x\right)=x^{2} \). דהיינו, קיבלנו ש-\( h\left(x\right)=f\left(g\left(x\right)\right) \), או בסימון מקובל אחר, \( h=f\circ g \). כעת השתמשנו בכך שיותר קל לנו לפתור משוואות שמערבות את \( f,g \) בנפרד כדי לפתור את המשוואה המקורית עבור \( h \).

בואו נעבור עכשיו לדוגמה שקשורה לאינטגרלים לא מסויימים. ראשית כל נזכיר לכם אינטגרל אחד נחמד שאנחנו יודעים לפתור יפה: \( \int\frac{1}{x}dx \). האינטגרל הזה שווה ל-\( \ln x+C \) (לא ניכנס עכשיו להסבר מדוע). עכשיו בואו נסתכל על אינטגרל דומה: \( \int\frac{1}{1-x}dx \). למה הוא שווה? האינטואיציה היא שאפשר לבצע פה החלפת משתנים: להגדיר משתנה חדש \( y=1-x \) ואז לקבל את האינטגרל \( \int\frac{1}{y}dy \), לבצע את האינטגרציה ולקבל \( \ln y+C \), ואז להציב מחדש את המשתנה ולקבל \( \ln\left(1-x\right)+C \). ואיך נבדוק את עצמנו? נגזור: אחרי גזירה מקבלים \( \frac{1}{1-x}\cdot\left(1-x\right)^{\prime}=\frac{1}{1-x}\cdot\left(-1\right)=-\frac{1}{1-x} \). אוקיי, משהו לא עבד פה. קיבלנו מינוס של התוצאה הנכונה.

עוד לא השתכנעתם שיש פה בעיה? אז שימו לב שאפשר היה לנקוט באותו תעלול גם עבור \( \int\frac{1}{1+x^{2}}dx \) ולקבל את ה”פתרון” \( \ln\left(1+x^{2}\right)+C \). אבל הפתרון הזה בבירור לא נכון, כי הנגזרת יוצאת בכלל \( \frac{2x}{1+x^{2}} \), ואם אתם זוכרים קצת אינטגרציה אתם זוכרים ש-\( \int\frac{1}{1+x^{2}}dx=\arctan x+C \). וזו פונקציה שונה לגמרי. בקיצור, משהו פה משתבש (וזה לא מפתיע; הרי לא הוכחתי עד עכשיו כלום, אני סתם הולך לפי אינטואיציה עיוורת). התחושה היא שמה שמשתבש הוא שחסר לי בביטוי המקורי את הנגזרת של הביטוי שאני מחליף - זה מסביר את המינוס 1 במקרה הראשון (הנגזרת של \( 1-x \)) ואת ה-\( 2x \) במקרה השני (הנגזרת של \( 1+x^{2} \)). משפט החלפת המשתנים בחדו”א הוא בדיוק מה שמקבלים כשמתחשבים גם בעניין הזה.

הנה דוגמת צעצוע שבה הנגזרת של הביטוי הפנימי יוצאת 1 ולכן אין צורך בתיקון: \( \int\frac{1}{2+x}dx \). במקרה הזה נגדיר \( y=2+x \) ואכן נקבל בסופו של דבר \( \ln\left(2+x\right)+C \) בתור הפתרון. אבל גם במקרה הזה עדיין יש בעיה אחרת שצריך להתחשב בה וצצה כשאנחנו מנסים לחשב אינטגרל מסויים (כלומר, אינטגרל שבו יש גבולות אינטגרציה ואנחנו מחפשים את ערך האינטגרל ביניהם, ולא אינטגרל שבו אנחנו מחפשים פונקציה קדומה). נניח שאנחנו מחשבים את \( \int_{-1}^{1}\frac{1}{2+x}dx \). בבירור אין שום בעיה עם האינטגרל הזה, כי כאשר \( x \) רץ ממינוס 1 אל 1, הביטוי \( 2+x \) רץ מ-1 אל 3, ולכן \( \frac{1}{2+x} \) מוגדר בכל הקטע \( \left[-1,1\right] \). לעומת זאת, אם נבצע “סתם” החלפת משתנה \( y=2+x \) נקבל את האינטגרל \( \int_{-1}^{1}\frac{1}{y}dy \) שהוא כמובן בעייתי כי עבור \( y=0 \) שממש באמצע הקטע \( \left[-1,1\right] \) נקבל ביטוי לא מוגדר (וזו לא בעיה נקודתית; האינגטרל “מתפוצץ” סביב הנקודה הזו). אם כן, כשמבצעים החלפת משתנים באינטגרל מסויים, גם גבולות האינטגרציה צריכים להשתנות בהתאם.

עכשיו משברור לנו מה שני ה”תיקונים” שצריך לעשות (כפל בנגזרת של מה שמחליפים, ותיקון גבולות אינטגרציה בהתאם) אפשר ממש לנסות ולחפש את הניסוח המדויק של משפט החלפת המשתנים באופן עצמאי, אבל זה קצת מעייף, אז אני פשוט אביא את הניסוח הנקי:

בהינתן פונקציה \( g:\left[a,b\right]\to\mathbb{R} \) (זו הפונקציה שמבצעת את “החלפת המשתנים”) שהיא ב-\( C^{1} \) (כלומר - גזירה, והנגזרת רציפה) ו-\( g^{\prime}\left(x\right)\ne0 \) לכל \( x\in\left(a,b\right) \), ובהינתן פונקציה \( f \) רציפה שמוגדרת על התמונה של \( g \), מתקיים:

\( \int_{g\left(a\right)}^{g\left(b\right)}f\left(y\right)dy=\int_{a}^{b}\left(f\circ g\right)\left(x\right)g^{\prime}\left(x\right)dx \)

בכתיב טיפה יותר חסכוני:

\( \int_{g\left(a\right)}^{g\left(b\right)}fdy=\int_{a}^{b}\left(f\circ g\right)g^{\prime}dx \)

ואם נסמן \( I=\left[a,b\right] \) ו-\( J=g\left(I\right) \) ונוותר על ה-\( dx \)-ים, כפי שעשינו עם הגדרת האינטגרל הכללי באנליזה וקטורית, אפילו אפשר לכתוב

\( \int_{J}f=\int_{I}\left(f\circ g\right)\left|g^{\prime}\right| \)

כאשר הערך המוחלט צץ לו כדי לקזז את העובדה שעכשיו אין לנו גבולות אינטגרציה עליונים ותחתונים אלא פשוט אינטגרציה על קטע; אסביר את זה עוד מעט. ראשית כל בואו נוכיח את המשפט הזה.

זה שעשוע נחמד לחשוב מאיפה צצו כל ההנחות המוזרות של המשפט, עם ה-\( C^{1} \) וכאלה (טוב, יש עוד שעשועים נחמדים כמו לנסוע ברכבת הרים וכדומה, אבל אני מניח שאם שרדתם עד פה גם מבחינתכם זה שעשוע נחמד). אין כאן משהו מסובך במיוחד - ראשית, אנחנו רוצים ש-\( g \) תהיה מונוטונית עולה או יורדת בכל \( I=\left[a,b\right] \), כך שהיא בפרט תהיה חד חד ערכית על הקטע הזה. מכיוון ש-\( g^{\prime}\left(x\right)\ne0 \) בתוך הקטע, בשילוב עם העובדה ש-\( g^{\prime} \) רציפה, נקבל שלא ייתכן ש-\( g^{\prime} \) מחליפה סימן בתוך הקטע (אם הייתה מחליפה סימן, אז על פי משפט ערך הביניים היא הייתה מתאפסת בתוך הקטע). עכשיו, אם \( g \) היא פונקציה יורדת, זה אומר ש-\( g\left(a\right)>g\left(b\right) \), אז בואו ניזכר מה זה אומר מבחינת הסימון \( \int_{g\left(a\right)}^{g\left(b\right)}f \); המוסכמה היא שאם באינטגרל הגבול העליון קטן מהגבול התחתון, הוא שווה למינוס האינטגרל עם הגבולות “בסדר הנכון”, כלומר \( \int_{g\left(a\right)}^{g\left(b\right)}f=-\int_{g\left(b\right)}^{g\left(a\right)}f \). זו בסך הכל מוסכמת סימון, לא יותר מכך. בלעדיה הייתי צריך להגיד יותר פעמים “נפריד למקרים”. זה גם מסביר את הערך המוחלט בניסוח השני של המשפט - \( \int_{J}f \) מניח תמיד שהגבולות ב-\( J \) הם “בסדר הנכון” ולכן אם \( g \) יורדת, כלומר אם \( g^{\prime} \) שלילית, מקזזים את המינוס החסר באגף שמאל על ידי כך שמוחקים אותו גם מאגף ימין - זו המשמעות היחידה של הערך המוחלט על \( g^{\prime} \).

טוב ויפה, אבל איך מוכיחים את המשפט? ובכן, משתמשים בתותח כבד - במשפט היסודי של החדו"א. בואו ניזכר מה המשפט אומר (בגרסה קצת פחות כללית ממה שאפשר לסחוט): אם \( f \) היא פונקציה רציפה על הקטע \( \left[ c,d\right] \) אז ניתן להגדיר פונקציה \( F\left(x\right)=\int_{c}^{x}f\left(t\right)dt \), ונקבל ש-\( F \) גזירה ומתקיים \( F^{\prime}\left(x\right)=f\left(x\right) \) לכל \( x\in\left[ c,d\right] \). אם תזכרו, נובע מכך די בקלות ש-\( \int_{c}^{d}f\left(x\right)dx=F\left(d\right)-F\left(c\right) \).

עכשיו נשתמש בטריק שאפשר להמציא עם קצת הינדוס לאחור: נגדיר \( H\left(x\right)=F\left(g\left(x\right)\right) \), ונגזור באמצעות כלל השרשרת. נקבל ש-\( H^{\prime}\left(x\right)=F^{\prime}\left(g\left(x\right)\right)g^{\prime}\left(x\right)=f\left(g\left(x\right)\right)g^{\prime}\left(x\right) \). דהיינו, מצאנו את הפונקציה הקדומה של כל הביטוי \( \left(f\circ g\right)g^{\prime} \), מה שמאפשר לנו להשתמש במשפט היסודי של החדו”א פעמיים כדי לקבל את השוויון שרצינו:

\( \int_{a}^{b}\left(f\circ g\right)\left(x\right)g^{\prime}\left(x\right)dx=\int_{a}^{b}H^{\prime}\left(x\right)dx=H\left(b\right)-H\left(a\right)=F\left(g\left(b\right)\right)-F\left(g\left(a\right)\right)=\int_{g\left(a\right)}^{g\left(b\right)}f\left(y\right)dy \)

זה מסיים את ההוכחה, אבל לפני שנסיים את הפוסט, בואו נראה כמה שימושים של העסק הזה כדי שלא נהיה לחלוטין באוויר. מה שכדאי לזכור כשבאים להשתמש בהחלפת משתנים בפועל הוא שאפשר להשתמש במשפט בשני הכיוונים שלו. באחד מהם אנחנו לוקחים ביטוי מסובך שמופיע בתוך האינטגרל ומחליפים אותו במשתנה חדש, אבל כדי שהקסם הזה יעבוד אנחנו חייבים שהביטוי הזה יכלול גם את הנגזרת של מה שהמשתנה בא לייצג לבסוף - כלומר, צריך לזהות תבניות מאוד ספציפיות. בכיוון השני אנחנו פשוט מחליפים את \( x \) בביטוי מורכב יותר וה”עונש” שאנחנו משלמים על כך הוא שאנחנו צריכים לכפול בנגזרת של הביטוי המורכב הזה.

אני אתחיל דווקא עם דוגמה עבור הכיוון השני, כי טרם ראינו אותו בפעולה. בואו נחשב את האינטגרל \( \int_{0}^{1}\sqrt{1-x^{2}}dx \). זה נראה כמו אינטגרל מזעזע כי יש שם שורש ועניינים. אז משתמשים בתעלול מהסוג שכולנו אוהבים במתמטיקה - מכניסים מושג מתחום לכאורה לא קשור, שמפשט לנו את הבעיה. במקרה שלנו, טריגונומטריה. הזהות הבסיסית ביותר בטריגונומטריה היא \( \sin^{2}\alpha+\cos^{2}\alpha=1 \) (זה נובע ישירות ממשפט פיתגורס), ודרך אחרת לחשוב על זה היא בתור \( \sin\alpha=\pm\sqrt{1-\cos^{2}\alpha} \), שכבר נראה כמו הביטוי שאצלנו. אז נשתמש בהצבה שמחליפה את \( x \) בפונקציה טריגונומטרית; לטכניקה הזו קוראים “הצבה טריגונומטרית” והיא יעילה למדי בחישוב כל מני אינטגרלים שנראים אבודים.

במקרה הזה, \( f\left(x\right)=\sqrt{1-x^{2}} \) ואנחנו משתמשים ב-\( g\left(y\right)=\cos y \) כדי לעבור מ-\( \int f\left(x\right)dx \) אל \( \int f\left(g\left(y\right)\right)g^{\prime}\left(y\right)dy \). יש דרך ציורית לזכור את מה שמבצעים כאן - הביטו בביטוי \( \int\sqrt{1-x^{2}}dx \). כשאנחנו מבצעים את ההחלפה, אנחנו מחליפים את \( x \) ב-\( \cos y \), ואפשר לשחק ב”נדמה לי” שאנחנו מחליפים את \( dx \) בנגזרת של הביטוי בהחלפה, כלומר ב-\( d\left(\cos y\right) \). למה “נדמה לי”? כי ה-\( dx \) הזה, זכרו, הוא לא אובייקט פורמלי כלשהו, אלא רק צורת כתיב (יש דרך לתת לו משמעות פורמלית אבל אנחנו ממש לא שם כרגע). האינטואיציה היא ש-\( d\left(\cos y\right)=-\sin ydy \), כשה-\( dy \) הנוסף הגיע מכך שאנחנו “גוזרים את ה-\( y \) שבתוך ה-\( \cos \)”. עכשיו צריך לטפל גם בגבולות האינטגרציה; במקרה שלנו ה-\( \int_{0}^{1} \) שהתחלנו ממנו הוא כבר במשמעות של \( \int_{g\left(a\right)}^{g\left(b\right)} \) ולכן צריך להתאמץ קצת כדי למצוא את ה-\( a,b \): \( 0=\cos a \) ו-\( 1=\cos b \) מובילים אותנו לבחור \( a=\frac{\pi}{2} \) ו-\( b=0 \). נקבל, אם כן:

\( \int_{0}^{1}\sqrt{1-x^{2}}dx=\int_{\pi/2}^{0}-\sqrt{1-\cos^{2}y}\sin ydy=\int_{0}^{\pi/2}\sin^{2}ydy \)

אינטגרל של סינוס בריבוע נראה כמו עניין כואב, אבל למזלנו יש לנו את הזהות הטריגונומטרית \( \sin^{2}y=\frac{1-\cos2y}{2} \), כך שבעצם קיבלנו פה שני אינטגרלים קלים יחסית:

\( \int_{0}^{\pi/2}\sin^{2}ydy=\int_{0}^{\pi/2}\frac{dy}{2}-\frac{1}{2}\int_{0}^{\pi/2}\cos2ydy= \)

\( =\left[\frac{y}{2}\right]_{0}^{\pi/2}-\frac{1}{2}\left[\frac{\sin2y}{2}\right]_{0}^{\pi/2}=\frac{\pi}{4} \)

כשכל החלק ה”טריגונומטרי” (המחובר הימני) מתאפס.

שימו לב לתוצאה המעניינת שקיבלנו - באינטגרל המקורי לא היה זכר לטריגונומטריה, אבל התוצאה המספרית שלנו יצאה \( \frac{\pi}{4} \). כנראה שהבחירה ללכת בדרך הטריגונומטריה אכן הייתה מוצדקת במובן כלשהו (פרט למובן של “היי, תראו, זה פתר את זה!”)

בואו נעבור עכשיו לדוגמה מהסוג השני. נניח שאנחנו רוצים לחשב את \( \int_{0}^{1}\left(x^{3}+2\right)^{2}x^{2}dx \). הביטוי נראה מזעזע, אבל אנחנו חדי עין ורואים שה-\( x^{2} \) שמחוץ לסוגריים נראה בערך כמו הנגזרת של הביטוי בתוך הסוגריים. זה נותן לנו אינטואיציה לגבי הצבה שכדאי להשתמש כאן כדי לפשט את המפלצת הזו - הצבה שתעלים לנו את ה-\( x^{2} \) שבחוץ ותהפוך את מה שבסוגריים לפשוט: \( t=x^{3}+2 \).

שימו לב להבדל. כאן אני מגדיר משתנה חדש \( t \) בתור פונקציה של \( x \), ואילו קודם כתבתי את \( x \) בתור פונקציה של משתנה חדש. זו הסיבה שקודם אני כפלתי ב-\( g^{\prime} \) ואילו עכשיו אני “בולע” את ה-\( g^{\prime} \). אצלי כל הביטוי \( \left(x^{3}+2\right)^{2}x^{2}dx \) הופך להיות \( \frac{1}{3}t^{2}dt \). שימו לב ל-\( \frac{1}{3} \) הזה; הוא לא צץ משום מקום. אם \( t=x^{3}+2 \) אז (שוב, זה סימון נוח, אין פה משמעות פורמלית מעבר לכך) \( dt=3x^{2}dx \) ולכן \( x^{2}dx=\frac{1}{3}dt \). ואיך משתנים הגבולות? הפעם אני פשוט מציב את הגבולות בנוסחה \( t=x^{3}+2 \):

\( \int_{0}^{1}\left(x^{3}+2\right)^{2}x^{2}dx=\frac{1}{3}\int_{2}^{3}t^{2}dt=\frac{1}{3}\left[\frac{t^{3}}{3}\right]_{2}^{3}=\frac{27-8}{9}=\frac{19}{9} \)

זהו זה עם הדוגמאות. אבל לפני שנסיים, אני בטוח שכולכם מצפים בכליון עיניים לראות את משפט החלפת המשתנים הכללי עבור אינטגרלים מעל \( \mathbb{R}^{n} \). אז הנה הניסוח, כדי שנוכל להתרשם כמה הוא דומה לניסוח של המשפט הבסיסי: אם \( g:A\to B \) היא דיפאומורפיזם של קבוצות פתוחות ב-\( \mathbb{R}^{n} \) ו-\( f:B\to\mathbb{R} \) רציפה, אז \( f \) אינטגרבילית מעל \( B \) אם ורק אם \( \left(f\circ g\right)\left|\det Dg\right| \) אינטגרבילית מעל \( A \) ובמקרה זה מתקיים:

\( \int_{B}f=\int_{A}\left(f\circ g\right)\left|\det Dg\right| \)

מה השתנה, בעצם? ראשית, במקום שיהיה כתוב \( \left|g^{\prime}\right| \) כתוב \( \left|\det Dg\right| \), אבל היינו יכולים להשתמש באותו כתיב גם במקרה החד-ממדי; במקרה החד-ממדי המספר הנגזר בנקודה מסויימת הוא בדיוק הדטרמיננטה של הנגזרת (במובן הרב-ממדי של הנגזרת - קירוב לינארי) באותה נקודה. הדבר השני שהשתנה הוא שבמקום כל מני הנחות על \( g \) אנחנו אומרים שהיא “דיפאומורפיזם”, שזה מושג שבכלל לא הגדרתי, אבל אין בו משהו מיוחד - זו פונקציה \( g:A\to B \) שהיא חד-חד-ערכית ועל, כך שגם \( g \) וגם \( g^{-1} \) שייכות ל-\( C^{r} \) עבור \( r\ge1 \) כלשהו. כפי שניתן לנחש מכך שיש להן שם מיוחד, פונקציות שהן דיפאומורפיזמים הן בעלות חשיבות כללית באנליזה וקטורית, לא רק עבור משפט החלפת המשתנים.

אם כן, זה המשפט בגרסתו הכללית, אבל איך מוכיחים אותו בגרסה הזו? או, טוב ששאלתם. זה ידרוש עוד לא מעט עבודה.

נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ: