אנליזה וקטורית - תכונות בסיסיות של הנגזרת

אז הכרנו את הנגזרת של פונקציה \(f:\mathbb{R}^{n}\to\mathbb{R}^{m}\) וראינו איך אפשר לחשב אותה באמצעות נגזרות חלקיות. בואו נעבור עכשיו לכמה תוצאות תיאורטיות כלליות וקלות יחסית, כדי שנתרגל; עד סוף הפוסט נגיע להצגת תוצאה לא טריוויאלית ושימושית - משפט הפונקציה ההפוכה. אבל נתחיל מהבסיס.

נתחיל בתכונה אחת שנובעת כמעט מייד מכך שפונקציה היא גזירה אבל טרם הראיתי זאת במפורש, והגיע הזמן כי נשתמש בה בהמשך: רציפות. נזכיר ש-\(f\) היא פונקציה רציפה ב-\(a\) אם \(\lim_{x\to a}f\left(x\right)=f\left(a\right)\) - או, באופן שקול, אם \(\lim_{h\to0}f\left(a+h\right)-f\left(a\right)=0\). זו תכונה מאוד מאוד מועילה במקרים רבים כי היא מבטיחה ש-\(f\) לא יכולה "להתפרע" יותר מדי כשמתקרבים לנקודה כלשהי. עכשיו, אם \(f\) גזירה ב-\(a\) היא גם רציפה שם. למה? כי נניח ש-\(\lim_{h\to0}\frac{f\left(a+h\right)-f\left(a\right)-Df\left(a\right)h}{\left|h\right|}=0\) ועכשיו ננסה לכתוב את \(\lim_{h\to0}f\left(a+h\right)-f\left(a\right)\) בעזרת הגבול ההוא:

\(\lim_{h\to0}f\left(a+h\right)-f\left(a\right)=\lim_{h\to0}\left|h\right|\left[\frac{f\left(a+h\right)-f\left(a\right)-Df\left(a\right)\cdot h}{\left|h\right|}\right]+Df\left(a\right)\cdot h\)

ומה קיבלנו פה? גבול שמערב כמה חלקים. ה-\(\left|h\right|\) שואף כמובן לאפס. ה-\(\left[\frac{f\left(a+h\right)-f\left(a\right)-Df\left(a\right)\cdot h}{\left|h\right|}\right]\) גם, כי הנחנו שהפונקציה גזירה. לכן כל המחובר השמאלי שואף לאפס. במחובר הימני אנחנו מקבלים מטריצה קבועה כפול וקטור ששואף לאפס - קל לראות שזה שואף לאפס (טפלו בכל רכיב בנפרד; זו פונקציה רציפה חד ממדית), וזה מסיים את ההוכחה.

עכשיו בואו נעבור לטפל בכללי גזירה שונים ומשונים. ככה זה עובד: הגדרנו פעולה של גזירה על פונקציות. מייד אנו תוהים - מה מניבה הגזירה עבור פונקציות פשוטות יחסית? כמו כן - על פונקציות מוגדרות כל מני פעולות - חיבור, כפל, הרכבה וכדומה. האם קל לדעת את הנגזרת של חיבור פונקציות, אם יודעים את הנגזרת של הפונקציות שמחברים?

פונקציה פשוטה במיוחד היא פונקציה קבועה: \(f\left(x\right)=c\) עבור \(c\in\mathbb{R}^{m}\) קבוע כלשהו. מכיוון שעבור פונקציה ממשית קבועה הנגזרת היא 0, נקבל כאן שהנגזרות החלקיות בכל מקום הן 0. אלו נגזרות חלקיות רציפות, ולכן \(f\) המקורית גזירה והנגזרת שלה היא מטריצת אפסים, כלומר \(Df\left(a\right)=0\) כשכאן 0 היא טרנספורמציית האפס. עוד פונקציה פשוטה במיוחד היא טרנספורמציה לינארית \(T:\mathbb{R}^{n}\to\mathbb{R}^{m}\). כאן אפילו אין טעם לדבר על נגזרות חלקיות כשההגדרה הבסיסית עובדת מייד ומראה לנו ש-\(T\) היא (כמובן) הדיפרנציאל של עצמה: \(\lim_{h\to0}\frac{T\left(a+h\right)-T\left(a\right)-T\left(h\right)}{h}=\lim_{h\to0}\frac{T\left(a+h-a-h\right)}{h}=\lim_{h\to0}\frac{T\left(0\right)}{h}=0\). דוגמה לטרנספורמציה לינארית פשוטה שכזו היא חיבור: \(s\left(x,y\right)=x+y\) (זו פונקציה \(s:\mathbb{R}^{2}\to\mathbb{R}\)), אז אנחנו יודעים לגזור גם אותה.

ומה על כפל? \(p:\mathbb{R}^{2}\to\mathbb{R}\) המוגדרת על ידי \(p\left(x,y\right)=xy\)? גזירה חלקית מראה שהנגזרת בנקודה \(\left(a,b\right)\) היא \(\left(b,a\right)\), כלומר הדיפרנציאל הוא \(bx+ay\).

מה שנחמד בפונקציות החיבור והכפל הללו הוא שהן יאפשרו לנו לטפל בחיבור וכפל של פונקציות סקלריות כלליות. למשל, אם \(f,g:\mathbb{R}^{n}\to\mathbb{R}\) ואנחנו מגדירים \(h=f+g\), אז \(h=s\left(f,g\right)\). יש לנו כאן הרכבה של פונקציה \(\mathbb{R}^{n}\to\mathbb{R}^{2}\) שבנויה על הזוג \(\left(f,g\right)\), עם הפונקציה \(s:\mathbb{R}^{2}\to\mathbb{R}\). אם נדע איך לגזור הרכבה, נדע לגזור גם חיבור וכפל של פונקציות, בלי שום מאמץ מחשבתי נוסף מצידנו. אז זו הבעיה שאפתור עכשיו.

הכלל שמתאר את העובדה שהרכבה של פונקציות גזירות הוא גזיר ונותן את הנוסחה לביצוע הגזירה נקרא כלל השרשרת. אתם בוודאי מכירים את הגרסה שלו עבור פונקציות ממשיות. בואו נתחיל מלראות אותה. מאוד קל לזכור את הגרסה הזו אם משתמשים בסימון של לייבניץ לגזירת פונקציות: אם \(f\left(x\right)\) היא פונקציה עם המשתנה היחיד \(x\), אז במקום לכתוב \(f^{\prime}\) (בערך הכתיב שבו ניוטון השתמש), אפשר לכתוב \(\frac{df}{dx}\). אחת הסיבות לכתיב הזה היא שקל לזכור את כלל השרשרת בעזרתו.

אם \(y:\mathbb{R}\to\mathbb{R}\) היא פונקציה, ואנחנו מסתכלים על ההרכבה \(f\left(y\left(x\right)\right)\), אז הנגזרת שלה היא \(\frac{df}{dx}=\frac{df}{dy}\frac{dy}{dx}\). הבעיה היא - וזה משהו שאני מרגיש ביתר שאת עכשיו, כשאני מנסה לכתוב את הפוסט הזה בצורה מסודרת - שזה כתיב מאוד לא פורמלי שקל לאבד בו דקויות. בואו נסתכל שוב על המשוואה \(\frac{df}{dx}=\frac{df}{dy}\frac{dy}{dx}\). כאן נראה ש-\(f\) היא פונקציה של שני משתנים שונים: המשתנה \(x\), באגף שמאל; והמשתנה \(y\), באגף ימין. אבל הרי \(y\) הוא לא באמת משתנה; הוא פונקציה. ומה שמופיע באגף ימין הוא בעצם לא \(f\), הוא פונקציה מסובכת יותר שמתקבלת מהרכבת \(f\) על \(y\). בקיצור, הסימון הזה יכול להיות מועיל אבל הוא גם מסוכן למי שלא שולט בו, ואני אישית לא אוהב אותו. וזה בלי שניכנס בכלל לתלונות על כך שמתרחש פה משהו שנקרא כמו "צמצום דיפרנציאלים" - משהו שבוודאי אין לו משמעות פורמלית עבור רמת החומר שבדרך כלל נלמדת באינפי 1.

אז הנה העסק בכתיב ניוטוני. נניח ש-\(f,g;\mathbb{R}\to\mathbb{R}\) ונגדיר \(h\left(x\right)=f\left(g\left(x\right)\right)\) (לפעמים זה מסומן ב-\(f\circ g\) ולפעמים ב-\(g\circ f\), תלוי איזה ספר אתם קוראים, ויש הגיון מאחורי שתי שיטות הסימון; לכן אני שונא גם את הסימון הזה). אז כלל השרשרת אומר לנו ש-\(h^{\prime}\left(x\right)=f^{\prime}\left(g\left(x\right)\right)g^{\prime}\left(x\right)\). כלומר, הנגזרת ב-\(x\) שווה למכפלה של הנגזרת של \(g\) ב-\(x\), כפול הנגזרת של \(f\), אבל לא ב-\(x\) אלא בנקודה שאליה \(g\) מעביר את \(x\) (ההבחנה הזו היא עניין מבלבל). למשל, אם \(g\left(x\right)=x^{2}\) ו-\(f\left(x\right)=\sin x\) אז \(h\left(x\right)=\sin\left(x^{2}\right)\) ולכן \(h^{\prime}\left(x\right)=\cos\left(x^{2}\right)\cdot2x\) (ולא \(\cos\left(x\right)\cdot2x\)).

האינטואיציה מאחורי ההוכחה של המקרה החד ממדי די פשוטה. ראשית, בואו ניזכר בכך שאפשר לכתוב את הנגזרת גם בצורה קצת שונה, אולי קצת יותר טבעית:

\(h^{\prime}\left(a\right)=\lim_{t\to0}\frac{h\left(a+t\right)-h\left(a\right)}{t}=\lim_{x\to a}\frac{h\left(x\right)-h\left(a\right)}{x-a}\)

תוך שימוש בניסוח הזה, פשוט מפרקים את הביטוי של הנגזרת למכפלה של שני ביטויי נגזרת מתאימים על ידי כפל וחילוק ב-\(g\left(x\right)-g\left(a\right)\):

\(h^{\prime}\left(a\right)=\lim_{x\to a}\frac{h\left(x\right)-h\left(a\right)}{x-a}=\lim_{x\to a}\frac{f\left(g\left(x\right)\right)-f\left(g\left(a\right)\right)}{g\left(x\right)-g\left(a\right)}\frac{g\left(x\right)-g\left(a\right)}{x-a}=f^{\prime}\left(g\left(a\right)\right)g^{\prime}\left(a\right)\)

כמובן, צריך להיות זהירים פה ולהסביר יותר במדויק למה \(\lim_{x\to a}\frac{f\left(g\left(x\right)\right)-f\left(g\left(a\right)\right)}{g\left(x\right)-g\left(a\right)}=f^{\prime}\left(g\left(a\right)\right)\); הרי יכולות לצוץ כל מני בעיות משונות בגלל ש-\(g\) יכולה להתנהג מוזר (מה קורה אם \(g\left(x\right)=g\left(a\right)\) עבור \(x\ne a\) כלשהו?). אני מביא את חצי ההוכחה הזו כדי שנרגיש מאיפה הנוסחה מגיעה בכלל. הוכחה מלאה ומדוייקת אני אתן עכשיו למשפט הכללי, עבור פונקציות וקטוריות כלליות; מן הסתם נקבל את כלל השרשרת המקורי בתור מקרה פרטי.

אז איך בכלל מנוסח המשפט הכללי? אם אני רוצה להרכיב את \(f\) על \(g\) אני צריך שהטווח של \(g\) יהיה מאותו מימד כמו התמונה של \(f\), כלומר \(g:\mathbb{R}^{n}\to\mathbb{R}^{k}\) ואילו \(f:\mathbb{R}^{k}\to\mathbb{R}^{m}\). שימו לב ל-\(k\) המשותף הזה. עכשיו נגדיר \(h\left(x\right)=f\left(g\left(x\right)\right)\) וקיבלנו פונקציה \(h:\mathbb{R}^{n}\to\mathbb{R}^{m}\) נטולת \(k\). בהינתן \(a\in\mathbb{R}^{n}\) אנחנו רוצים לדעת מהי \(Dh\left(a\right)\); זוהי מטריצה \(m\times n\) (זוכרים? כל שורה של המטריצה היא גרדיאנט של אחד מהרכיבים של \(h\); יש ל-\(h\) \(m\) רכיבים והאורך של כל גרדיאנט הוא \(n\)). אם נרצה פשוט לקחת את הנוסחה של כלל השרשרת החד ממדי ולכתוב אותה מחדש, נקבל את הדבר הבא:

\(Dh\left(a\right)=Df\left(g\left(a\right)\right)\cdot Dg\left(a\right)\)

מה יש לנו כאן? ובכן, \(Df\left(g\left(a\right)\right)\) היא מטריצה \(m\times k\) ואילו \(Dg\left(a\right)\) היא מטריצה \(k\times n\). לכן המכפלה שלהן - ובסדר הזה, הנגזרת של \(f\) משמאל והנגזרת של \(g\) מימין - נותנת לנו באמת מטריצה \(m\times n\). כך שנראה שהנוסחה עובדת! רק יהיה צריך להוכיח אותה. הבעיה היא שמייד ברור שההוכחה האלגנטית של המקרה החד ממדי לא תעבוד. כי אנחנו כבר לא עובדים עם ביטוי נחמד כמו \(\lim_{x\to a}\frac{h\left(x\right)-h\left(a\right)}{x-a}\) אלא עם המפלצת \(\lim_{t\to0}\frac{h\left(a+t\right)-h\left(a\right)-Dh\left(a\right)t}{\left|t\right|}\) שבה \(t\) הוא בכלל וקטור והמטרה שלנו היא לא להראות שהגבול קיים אלא שהוא אפס. לכו תפתחו את זה למכפלה של שני גבולות שונים, שבהם מה ששואף לאפס שייך למרחבים ממימד אחר, והדיפרנציאלים המעורבים הם ממימדים שונים, וכו' וכו' וכו'. בקיצור, זה הולך להיות יותר טכני. בשורה התחתונה מה שנעשה הוא פשוט לבוא עם פטיש גדול ולהתחיל לדפוק על ההוכחה עד שזה יסתדר - אין כאן חוכמה גדולה ובעיקר יש טיפול שנראה קצת משמים בכל מני ביטויים. סביר להניח שחלקכם יאבדו אותי כאן ויכולים פשוט לקפוץ אל "עכשיו אפשר לשכוח מכל המהומה הטכנית" שאחר כך; מי שבאמת רוצה להבין, אני ממליץ על כתיבת ההוכחה בעצמכם במקביל אלי (הדרך היחידה שבה אני ממש מבין את ההוכחה היא על ידי כך שאני כותב אותה).

בתור התחלה, אנחנו לא מניחים ש-\(f,g\) בהכרח מוגדרות לכל \(\mathbb{R}^{n}\) ו-\(\mathbb{R}^{k}\), בהתאמה (הרבה פעמים אנחנו רוצים להשתמש בכלל השרשרת גם לפונקציות שמוגדרות רק עבור חלק מהתחום הזה). כל מה שאנחנו מניחים הוא ש-\(g\) היא גזירה ב-\(a\) ו-\(f\) גזירה ב-\(g\left(a\right)\). מכך אני רוצה להסיק ש-\(h\) גזירה ב-\(a\) ולמצוא את הנגזרת שלה. לצורך כך אני רוצה להיות מסוגל לדבר על ערכים של \(h\) בסביבה של \(a\), כי זה מה שמופיע בהגדרת הנגזרת - כלומר, על ערכים מהצורה \(h\left(a+t\right)\) עבור \(t\) קטן. הטענה היא שעבור \(t\) קטן מספיק (כלומר, \(\left|t\right|<\delta\) עבור \(\delta>0\) מסויים), הביטוי \(h\left(a+t\right)\) יהיה מוגדר. עכשיו, מכיוון שאנחנו יודעים ש-\(f\) רציפה ב-\(g\left(a\right)\) בפרט קיים \(\varepsilon>0\) כך ש-\(f\) מוגדרת לכל \(y\) כך ש-\(\left|y-g\left(a\right)\right|<\varepsilon\). מהרציפות של \(g\) עולה שקיים \(\delta>0\) כך ש-שאם \(\left|x-a\right|<\delta\) אז \(g\) מוגדרת ב-\(x\) ומתקיים \(\left|g\left(x\right)-g\left(a\right)\right|<\varepsilon\) (זו ההגדרה של רציפות, כשפותחים אותה לאפסילון-דלתא). קיבלנו את ה-\(\delta\) שרצינו.

אם כן, בואו ניקח \(t\) כך ש-\(\left|t\right|<\delta\). זה אומר ש-\(\left|g\left(a+t\right)-g\left(a\right)\right|<\varepsilon\) ולכן \(f\) מוגדרת ב-\(g\left(a+t\right)\). כעת, מכיוון ש-\(f\) גזירה, זה אומר שמתקיים הגבול הבא:

\(\lim_{s\to0}\frac{f\left(g\left(a\right)+s\right)-f\left(g\left(a\right)\right)-Df\left(g\left(a\right)\right)s}{\left|s\right|}=0\)

בואו נרשום את הביטוי שבתוך הגבול בתור פונקציה של \(s\): \(F\left(s\right)=\frac{f\left(g\left(a\right)+s\right)-f\left(g\left(a\right)\right)-Df\left(g\left(a\right)\right)s}{\left|s\right|}\). הפונקציה הזו מוגדרת לכל \(s\) כך ש-\(0<\left|s\right|<\varepsilon\) (עבור \(s\)-ים גדולים יותר לא מובטח ש-\(f\left(g\left(a\right)+s\right)\) תהיה מוגדרת) ומה שאני רוצה לעשות הוא להציב במקום \(s\) את \(g\left(a+t\right)-g\left(a\right)\) (שראינו לפני רגע שאכן קטן בערכו המוחלט מאפסילון), בערך כמו מה שעושים בהוכחת כלל השרשרת הרגיל. ההצבה הזו מועילה לי במיוחד בטיפול בגורם \(f\left(g\left(a\right)+k\right)\): כרגע הוא לא משהו שאני יכול לכתוב עם \(h\), הפונקציה שאני רוצה בסופו של דבר לגזור; אבל אחרי ההצבה הזו נקבל את \(f\left(g\left(a+t\right)\right)=h\left(a+t\right)\).

אם כן, בואו ניקח את המשוואה שהגדירה את \(F\left(s\right)\) ונטפל בה קצת - נכפול ב-\(\left|s\right|\), נעביר אגפים ונקבל

\(f\left(g\left(a\right)+s\right)-f\left(g\left(a\right)\right)=\left|s\right|F\left(k\right)+Df\left(g\left(a\right)\right)s\)

לעת עתה אשתמש בקיצור \(\Delta g=g\left(a+t\right)-g\left(a\right)\) כי זה יחסוך לי כתיבה. אם כן, אחרי הצבת \(s=\Delta g\) אני מקבל

\(h\left(a+t\right)-h\left(a\right)=\left|\Delta g\right|F\left(\Delta g\right)+Df\left(g\left(a\right)\right)\cdot\Delta g\)

בואו ונסתכל על הגורם הכי ימני במשוואה הזו: \(Df\left(g\left(a\right)\right)\cdot\Delta g\). זה קצת מזכיר לנו את מה שאנחנו מצפים שיופיע בנוסחה הסופית: \(Df\left(g\left(a\right)\right)\cdot Dg\left(a\right)\). כך שהשלב המתבקש הבא הוא לנסות ולמצוא תיאור נחמד יותר עבור \(\Delta g\). אפשר לשכוח לרגע מהמשוואה שקיבלנו ולהתמקד בניתוח שלו.

לצורך כך, בואו ניזכר בכך שגם \(g\) היא פונקציה גזירה, ולכן אפשר לכתוב עבורה פונקציה דומה לזו שכתבנו עבור \(f\), רק פשוטה יותר:

\(G\left(t\right)=\frac{g\left(a+t\right)-g\left(a\right)-Dg\left(a\right)t}{\left|t\right|}\)

הפונקציה הזו מוגדרת לכל \(0<\left|t\right|<\delta\), ואפשר להגדיר \(G\left(0\right)=0\) ונקבל ש-\(G\) הזו גם רציפה לכל \(\left|t\right|<\delta\). ושוב, על ידי כפל והעברת אגפים נקבל

\(\Delta g=\left|t\right|G\left(t\right)+Dg\left(a\right)t\)

קיבלנו את התיאור עבור \(\Delta g\) שרצינו. עכשיו, בואו נחזור אל \(h\). המטרה שלנו, כזכור, היא לחשב את הגבול הבא:

\(\frac{h\left(a+t\right)-h\left(a\right)-Dh\left(a\right)t}{\left|t\right|}\)

כאשר ההימור שלנו למועמדת לתפקיד \(Dh\left(a\right)\) היא \(Df\left(g\left(a\right)\right)\cdot Dg\left(a\right)\). במילים אחרות, אנחנו רוצים לחשב את הגבול של

\(\frac{h\left(a+t\right)-h\left(a\right)-Df\left(g\left(a\right)\right)\cdot Dg\left(a\right)\cdot t}{\left|t\right|}\)

(שימו לב שאני כותב את \(Df\left(g\left(a\right)\right)\cdot Dg\left(a\right)\cdot t\) בלי סוגריים; זה תקין, מכיוון שכפל מטריצות הוא אסוציאטיבי).

עכשיו, נחליף את \(h\left(a+t\right)-h\left(a\right)\) בתיאור שמצאנו למעלה, ונקבל:

\(\frac{\left|\Delta g\right|F\left(\Delta g\right)+Df\left(g\left(a\right)\right)\cdot\Delta g-Df\left(g\left(a\right)\right)\cdot Dg\left(a\right)\cdot t}{\left|t\right|}\)

ועכשיו נציב את ה-\(\Delta g\) שמצאנו, ונקבל:

\(\frac{\left|\Delta g\right|F\left(\Delta g\right)+\left|t\right|Df\left(g\left(a\right)\right)G\left(t\right)+Df\left(g\left(a\right)\right)\cdot Dg\left(a\right)\cdot t-Df\left(g\left(a\right)\right)\cdot Dg\left(a\right)\cdot t}{\left|t\right|}\)

שני הגורמים האחרונים מבטלים זה את זה, כך שאנחנו נשארים עם הביטוי היחסית פשוט

\(\frac{\left|\Delta g\right|F\left(\Delta g\right)}{\left|t\right|}+Df\left(g\left(a\right)\right)G\left(t\right)\)

ואנחנו רוצים להראות שהוא שואף לאפס כאשר \(t\) שואף לאפס. מה שיש כאן הוא חשבון מכולת סטנדרטי של אינפי - מראים שיש לנו סכום של גורמים כך שכל גורם כולל חלק ששואף לאפס, וחלק שהוא חסום ולכן "לא מפריע" לו. נתחיל עם \(Df\left(g\left(a\right)\right)G\left(t\right)\). כאן \(Df\left(g\left(a\right)\right)\) הוא מספר קבוע בעוד ש-\(G\left(t\right)\) שואפת כמובן לאפס (למה "כמובן"? בטח איבדתם אותי לגמרי כבר; \(G\left(t\right)\) היא הפונקציה שמתארת את הגבול שמגדיר את הגזירות של \(g\)). הביטוי \(\frac{\left|\Delta g\right|}{\left|t\right|}F\left(\Delta g\right)\) מאתגר קצת יותר. מכיוון ש-\(g\) רציפה, הרי ש-\(\Delta g=g\left(a+t\right)-g\left(a\right)\) שואפת לאפס כאשר \(t\) שואף לאפס, ומכיוון ש-\(F\) שואפת לאפס כשהקלט שלה שואף לאפס (מאותה סיבה של \(G\)) קיבלנו ש-\(F\left(\Delta g\right)\) שואפת לאפס. נשאר רק להראות ש-\(\frac{\left|\Delta g\right|}{\left|t\right|}\) חסומה.

לצורך כך, זכרו שראינו כי \(\Delta g=\left|t\right|G\left(t\right)+Dg\left(a\right)t\). ניקח נורמה בשני האגפים ונקבל

המעבר האחרון עשוי להיות קצת מבלבל עבור מי שלא מכיר. זכרו ש-\(Dg\left(a\right)\) היא מטריצה מסדר \(k\times n\) . לכן הביטוי \(\left|Dg\left(a\right)\right|\) עבורה שונה מאשר עבור, נאמר \(\left|t\right|\) - כאן זו נורמה של מטריצה. במקרה שלנו, ההגדרה של הנורמה הזו פשוטה - חשבו על המטריצה בתור וקטור ארוך, וקחו את הנורמה הרגילה שלה. כעת, \(Dg\left(a\right)\cdot t\) זו מכפלה שלוקחת וקטור מגודל \(n\) ומחזירה וקטור מגודל \(k\), שהכניסות שלו הן מכפלות סקלריות של \(t\) עם \(k\) שורות \(Dg\left(a\right)\). קל לראות, באמצעות שימוש באי-שוויון המשולש, שמתקיים \(\left|Dg\left(a\right)\cdot t\right|\le k\left|Dg\left(a\right)\right|\left|t\right|\), ומכאן המעבר שלי.

קיבלנו ש-\(\frac{\left|\Delta g\right|}{\left|t\right|}=\left|G\left(t\right)\right|+k\left|Dg\left(a\right)\right|\). כעת, \(G\left(t\right)\) רציפה ושואפת לאפס ולכן גם \(\left|G\left(t\right)\right|\), ולכן היא בוודאי חסומה; ואילו \(k\left|Dg\left(a\right)\right|\) הוא קבוע. זה מסיים את ההוכחה.

עכשיו אפשר לשכוח מכל המהומה הטכנית הזו ולקטוף באלגנטיות את הפירות. ראינו שהדיפרנציאל של \(s\left(x,y\right)=x+y\) בכל נקודה הוא \(s\) עצמה. כעת, נניח שיש לנו שתי פונקציות \(f:\mathbb{R}^{n}\to\mathbb{R}\) ו-\(g:\mathbb{R}^{n}\to\mathbb{R}\) ואנחנו רוצים לגזור את \(f+g\), מה עושים? נשים לב לכך ש-\(h\left(x\right)=\left(f+g\right)\left(x\right)=s\left(f,g\right)\left(x\right)\) (כאן \(f,g\) זו בעצם דרך לתאר פונקציה מ-\(\mathbb{R}^{n}\) אל \(\mathbb{R}^{2}\) ש-\(f,g\) הם רכיביה), ולכן נגזור על פי כלל השרשרת ונקבל

\(Dh\left(a\right)=Ds\left(f\left(a\right),g\left(a\right)\right)D\left(f\left(a\right),g\left(a\right)\right)=s\left(Df\left(a\right),Dg\left(a\right)\right)=Df\left(a\right)+Dg\left(a\right)\)

לא מפתיע, כמובן, אבל נחמד מאוד שזה מתקבל כך. קצת יותר מעניין יהיה לעשות את אותו דבר עבור כפל. שם הדיפרנציאל של \(xy\) בנקודה \(\left(a,b\right)\) היה \(bx+ay\). אצלנו, הנקודה \(\left(a,b\right)\) היא בעצם \(\left(f\left(a\right),g\left(a\right)\right)\) ולכן נקבל מכלל השרשרת בסופו של דבר את \(g\left(a\right)Df\left(a\right)+f\left(a\right)Dg\left(a\right)\).

אם כן, אנחנו יודעים כעת איך מחשבים את הנגזרת של פונקציות מורכבות יחסית - כאלו שמתקבלות מפונקציות פשוטות על ידי חיבור, כפל והרכבה. מה עם חיסור וחילוק? אפשר להרכיב את הפונקציה \(g\left(x\right)=-x\) על כל פונקציה שנרצה ולקבל בקלות ש-\(D\left(-f\right)=-Df\), ולכן \(D\left(f-g\right)=Df-Dg\).

חילוק, כמובן, יהיה בעייתי יותר, כי לא ניתן לחלק באפס. אנחנו רוצים להרכיב את \(g\left(x\right)=\frac{1}{x}\) (שהנגזרת שלה היא \(-\frac{1}{x^{2}}\), על פי כללי הגזירה הרגילים) על הפונקציה \(f\), אבל בשביל זה אנחנו צריכים לדרוש ש-\(f\) תהיה שונה מאפס בנקודה שבה אנחנו מחשבים את הנגזרת. כלומר, אם \(f\left(a\right)\ne0\) אז \(D\frac{1}{f}\left(a\right)=D\left(g\left(f\right)\right)\left(a\right)=-\frac{1}{f^{2}\left(a\right)}Df\left(a\right)\).

מכאן גם אפשר לקבל את הנגזרת הכללית של מנת שתי פונקציות: \(D\frac{h}{f}=D\left(\frac{1}{f}\cdot h\right)=D\frac{1}{f}h+\frac{1}{f}Dh=-\frac{hDf}{f^{2}}+\frac{1}{f}Dh=\frac{fDh-hDf}{f^{2}}\) - שוב, תחת ההנחה שאנחנו מחשבים את הפונקציות הללו רק בנקודות שבהן \(f\) שונה מאפס.

כל אלו הן תוצאות נחמדות, כי הן לא שונות, בעצם, ממה שקורה באינפי רגיל במשתנה יחיד, למרות שאצלנו \(Df\) זה יצור הרבה יותר מסובך מאשר הנגזרת הרגילה. זה בהחלט עוזר להרגיש ש"הצלחנו" בהגדרה שלנו. אם כן, הבה ונמשיך במיטב המסורת של אינפי, ונעבור אל הבניה האחרונה שלנו, שגם היא מוכללת בצורה טבעית, אבל הסיפור שלה אצלנו יהיה מסובך הרבה יותר - נגזרת הפונקציה ההפוכה.

נניח שיש לנו פונקציה \(f:\mathbb{R}^{n}\to\mathbb{R}^{n}\) (שימו לב - כאן גם התחום וגם הטווח הם מאותו מימד \(n\)). אז \(g:\mathbb{R}^{n}\to\mathbb{R}^{n}\) היא הפונקציה ההפוכה ל-\(f\) אם \(f\left(g\left(x\right)\right)=g\left(f\left(x\right)\right)=x\) לכל \(x\in\mathbb{R}^{n}\). לא תמיד קיימת כזו, כמובן (חשבו על \(f\left(x\right)=0\)). אם קיימת, מסמנים אותה לרוב ב-\(f^{-1}\). יותר מזה, לעתים קרובות לא קיימת ל-\(f\) הופכית על כל \(\mathbb{R}^{n}\), אבל אם נגביל את התחום של \(f\) לתת-קבוצה \(A\subseteq\mathbb{R}^{n}\) נקבל משהו הפיך. דוגמה קלאסית היא הפונקציה \(f\left(x\right)=x^{2}\); היא לא חד-חד-ערכית על הממשיים כי \(f\left(x\right)=f\left(-x\right)\); מצד שני, על הממשיים האי-שליליים היא כן חד-חד-ערכית והפיכה; ההופכית שלה היא \(g\left(x\right)=\sqrt{x}\) (המוסכמה הרגילה היא ש-\(\sqrt{x}\) כאשר \(x\) ממשי מחזיר את השורש האי-שלילי אם קיימים שני שורשים).

נניח שגם \(f\) וגם \(f^{-1}\) הן גזירות, ונניח שאנחנו יודעים מה הנגזרת של \(f\); האם אפשר למצוא ממנה את הנגזרת של \(f^{-1}\)? למשל, אנחנו יודעים שהנגזרת של \(\sin x\) היא מאוד פשוטה: \(\cos x\). אבל איך אפשר לקבל מזה את הנגזרת של \(\arcsin x\)? אני ממש לא זוכר את הנגזרת הזו בעל פה; בואו נראה אם נצליח לפתח אותה מחדש (כמובן, אנחנו מדברים פה על המקרה של אינפי בסיסי, אבל לא יהיה הבדל אמיתי בינו ובין המקרה הכללי).

הטריק הוא להשתמש בכלל השרשרת. אם \(f\left(f^{-1}\right)=I\) כאשר \(I\) היא פונקציית הזהות \(I\left(x\right)=x\), אז מצבנו טוב כי אנחנו יודעים בדיוק מהו \(DI\): כבר אמרנו שהנגזרת של פונקציה לינארית היא היא עצמה, כלומר \(DI\left(a\right)=I\) לכל \(a\). נסמן \(b=f^{-1}\left(a\right)\) ועכשיו אפשר להשתמש בכלל השרשרת ולקבל ש-\(I=Df\left(b\right)Df^{-1}\left(a\right)\). היינו רוצים עכשיו "לחלק" ב-\(Df\left(b\right)\), אבל צריך להיזהר פה: זה לא מספר שאפשר סתם לחלק בו. זו טרנספורמציה לינארית. "לחלק" בהקשר של טרנספורמציות לינאריות פירושו לכפול בהופכי. לכן אני צריך להניח ש-\(Df\left(b\right)\) הפיכה בכלל, וזה שקול לכך ש-\(\det Df\left(b\right)\ne0\) (מי שלא מכיר את \(\det\) - נו נו נו! אמרתי שצריך אלגברה לינארית. הנה הפוסט שלי על דטרמיננטות). במקרה שבו זה נכון, אז נקבל ש-\(Df^{-1}\left(a\right)=\left(Df\left(b\right)\right)^{-1}\) - אלגנטי ויפה.

כדי להבין את הנוסחה הזו, בואו נפעיל אותה במקרה של \(\text{arcsin}\). עבור פונקציות במשתנה יחיד, זכרו שמה שאנחנו קוראים לו \(Df\left(a\right)\) הוא בעצם הפונקציה הלינארית \(f^{\prime}\left(a\right)x\). הפונקציה הזו הפיכה אם ורק אם \(f^{\prime}\left(a\right)\ne0\) ואז ההופכית שלה היא פשוט \(\frac{1}{f^{\prime}\left(a\right)}x\). כלומר, הנוסחה במקרה הזה הופכת להיות \(\left(f^{-1}\right)^{\prime}\left(a\right)=\frac{1}{f^{\prime}\left(b\right)}\). לכן קיבלנו ש-\(\arcsin^{\prime}\left(a\right)=\frac{1}{\sin^{\prime}\left(\arcsin a\right)}=\frac{1}{\cos\left(\arcsin a\right)}\). כאן אנחנו לכאורה נתקעים, כי איך מחשבים קוסינוס של ארקסינוס? אבל מספיק לזכור את הזהות הבסיסית ביותר שקשורה לסינוסים וקוסינוסים - שהם מתארים נקודה על מעגל היחידה, ולכן \(\cos^{2}x+\sin^{2}x=1\) לכל \(x\). מכאן אפשר לחלץ ולקבל ש-\(\cos x=\sqrt{1-\sin^{2}x}\) עבור \(-\frac{\pi}{2}\le x\le\frac{\pi}{2}\) (עבור ערכי \(x\) אחרים צריך לפעמים לקחת את השורש השלילי). כלומר, \(\cos\left(\arcsin\left(a\right)\right)=\sqrt{1-\sin^{2}\left(\arcsin a\right)}=\sqrt{1-a^{2}}\). מסקנה: \(\arcsin^{\prime}\left(a\right)=\frac{1}{\sqrt{1-a^{2}}}\).

משהו כאן בבירור לא עובד כאשר \(a=\pm1\), כלומר כאשר הקלט ל-\(\sin\) הוא כזה שיחזיר 1 או \(-1\), כלומר \(\pm\frac{\pi}{2}\), כלומר הנגזרת שמצאנו עובדת רק עבור \(-\frac{\pi}{2}<a<\frac{\pi}{2}\) ואילו בשתי נקודות הקצה הללו משהו "מתפוצץ" (מה שמסביר, מנקודת מבט שונה, למה נאלצתי להצטמצם לתחום הזה). מה בעצם השתבש? אלו הן בדיוק נקודות המקסימום והמינימום של \(\sin\); אחרי \(\frac{\pi}{2}\), למשל, היא מתחילה "ליפול" בעוד שקודם היא עלתה. זה אומר שהיא כבר לא תהיה חד-חד-ערכית ולכן לא הפיכה, ולכן מראש היינו חייבים להצטמצם עם \(\arcsin\) לקטע הזה. עכשיו, דרך נחמדה לדמיין פונקציה הופכית במימד אחד היא לקחת את הגרף של הפונקציה ולסובב אותו ב-90 מעלות נגד כיוון השעון, ואז לשקף ביחס לציר \(y\); אם אתם לא מאמינים תנסו לעשות את זה עם \(f\left(x\right)=x^{2}\). מן הסתם כשעושים דבר כזה, אז נקודה שבה המשיק של \(\sin x\) היה אופקי (שיפוע 0) תהפוך לנקודה שבה המשיק של \(\arcsin x\) יהיה אנכי (שיפוע "אינסוף"), מה שמסביר את הפיצוץ הזה.

אם כן, למדנו דבר מעניין - שאם \(\det Df\left(a\right)\ne0\) אז הנגזרת של \(f^{-1}\) ב-\(a\) שווה ל-\(\left[Df\left(f^{-1}\left(a\right)\right)\right]^{-1}\). אבל שימו לב לשלוש ההנחות שיש לנו כאן:

\(Df\left(a\right)\) הפיכה.
\(f^{-1}\) קיימת.
\(f^{-1}\) גזירה.

אם שלוש ההנחות הללו התקיימו, אנחנו יודעים לחשב את הנגזרת של \(f^{-1}\). אבל האמת היא שמתקיים פה קסם - אם \(f\) היא גזירה ברציפות (כלומר, בעלת נגזרת רציפה) אז די בכך ש-\(Df\left(a\right)\) תהיה הפיכה על מנת להבטיח שקיימת ל-\(f\) הופכית בסביבה של \(a\), ושההופכית הזו תהיה גזירה (למעשה, אם \(f\) גזירה ברציפות \(r\) פעמים, כך גם הנגזרת של ההופכית). הקסם הזה, שנקרא משפט הפונקציה ההפוכה, הוא המשפט הלא טריוויאלי הראשון שאנחנו הולכים לראות, ומייד אחר כך נראה שימוש יפה שלו - משפט הפונקציות הסתומות. מכיוון שזה לא הולך להיות קצר או פשוט, נחכה עם זה (כולל הניסוח הפורמלי) עד לפוסט הבא. לעת עתה, טיזר - בואו נבין אינטואיטיבית למה זה עובד כמעט מייד בפונקציות \(f:\mathbb{R}\to\mathbb{R}\). אם \(f^{\prime}\left(a\right)\ne0\) והנגזרת רציפה, זה אומר שיש סביבה של \(a\) שבה \(f^{\prime}\left(a\right)\) נמצאת כולה מעל 0 או מתחת ל-0. במקרה הראשון זה אומר ש-\(f\) עולה בסביבה הזו, ובמקרה השני - שהיא יורדת. בכל מקרה, היא מונוטונית. פונקציה מונוטונית היא, כמובן, הפיכה (עדיין צריך להוכיח שהיא גזירה, אבל לא נדבר על זה פה). כמובן שעבור פונקציות במימד גבוה יותר העסק כבר לא יהיה כל כך פשוט כי זה שהנגזרת היא טרנספורמציה לינארית הפיכה לא יגרור שהפונקציה היא מונוטונית; בפוסט הבא ניכנס לפרטים המלוכלכים.