אנליזה וקטורית - נגזרת ונגזרת חלקית

אחרי פוסט המבוא שבו הבטחתי גדולות ונצורות, בואו נעבור לאקשן. כאמור, אני מניח ידע קודם אצל הקוראים, הן באינפי של פונקציות ממשיות והן באלגברה לינארית (עד וכולל מכפלות פנימיות) כך שלא אציג מחדש את המושגים הללו. אלא אם יש ערך מוסף כלשהו בלהציג אותם מחדש. כמו למשל עכשיו! אני רוצה שנדבר שוב על מהי נגזרת של פונקציה ממשית.

האינטואיציה הסטנדרטית מאחורי נגזרת של פונקציה \( f:\mathbb{R}\to\mathbb{R} \) היא למצוא את “קצב השינוי הרגעי” של פונקציה בנקודה מסויימת \( a\in\mathbb{R} \). אינטואיציה סטנדרטית נוספת היא למצוא את המשיק לגרף הפונקציה באותה נקודה - קו ישר שבנקודה הזו הכיוון שלו הוא כמו הכיוון של הפונקציה. את “קצב השינוי הרגעי” לוקחים על ידי חישוב של קצב השינוי הממוצע לאורך פרק זמן, ואז מקטינים את פרק הזמן כך שהוא שואף לאפס; את המשיק מוצאים על ידי כך שמחשבים את המיתר בין גרף הפונקציה ב-\( a \) ונקודה נוספת \( b \), קרובה אליה, ואז אנחנו משאיפים את \( b \) אל \( a \). עבור האינטואיציה הראשונה, מה שאנחנו מוצאים הוא מספר ממשי; עבור האינטואיציה השניה מה שאנחנו מוצאים הוא פונקציה לינארית (קו ישר). הקשר בין השניים מיידי: המספר הממשי (המספר הנגזר) הוא השיפוע של הפונקציה הלינארית, שבתורה מכונה הדיפרנציאל של הפונקציה.

הפורמליזם של האינטואיציה הראשונה הוא זה:

\( f^{\prime}\left(a\right)=\lim_{h\to0}\frac{f\left(a+h\right)-f\left(a\right)}{h} \)

הביטוי \( \frac{f\left(a+h\right)-f\left(a\right)}{h} \) הוא בדיוק השינוי הממוצע בין ערך הפונקציה ב-\( a \) וערכה בנקודה אחרת \( b \), רק שבמקום לכתוב \( \frac{f\left(b\right)-f\left(a\right)}{b-a} \) יותר קל לסמן \( b=a+h \) ולהמשיך משם.

את הביטוי הזה באופן די ברור אי אפשר להכליל כמו שהוא. בואו ניקח פונקציה \( F:\mathbb{R}^{n}\to\mathbb{R}^{m} \) וננסה לכתוב את הביטוי הזה עבורה:

\( \lim_{h\to0}\frac{F\left(a+h\right)-F\left(a\right)}{h} \)

מה נשבר כאן? ובכן, \( h \) היא חלק מהקלט של \( F \), ולכן \( h\in\mathbb{R}^{n} \) היא וקטור. במונה אנחנו מקבלים את הפלט של \( F \), גם כן וקטור, רק שב-\( \mathbb{R}^{m} \). אנחנו לא יודעים איך לאכול את הביטוי הזה מבחינה מתמטית; אין לנו דרך לחלק וקטורים אלו באלו, למעט במקרה שבו \( n=1 \) (וכפי שנראה בהמשך, המקרה שבו \( n=1 \) הוא אכן פשוט במיוחד, גם אם \( m>1 \)). אגב, כאן אנחנו מתפצלים מהאנליזה המרוכבת; שם מה שקורה הוא שמחלקים במספר מרוכב, שמצד אחד אמנם נראה כמו וקטור דו ממדי של מספרים ממשיים, ומצד שני במרוכבים כן ידוע לנו איך לבצע את החלוקה.

דרך אפשרית להתמודד עם הבעיה הזו היא לא לחלק ב-\( h \) אלא בנורמה של \( h \), כלומר ב-\( \left|h\right| \). בדרך הזו נקבל “נגזרת” שהיא וקטור ב-\( \mathbb{R}^{m} \) ולא לגמרי ברור מה היא אומרת - חסרה לנו אינטואיציה.

אז בואו נעבור להגדרה השניה, עם המשיק. אמרנו ש-\( f^{\prime}\left(a\right) \) הוא השיפוע של המשיק, כלומר המשיק הוא הפונקציה \( f^{\prime}\left(a\right)\left(x-a\right)+f\left(a\right) \) (זו גאומטריה אנליטית: אם יש לנו ישר עם שיפוע \( m \) שעובר דרך \( \left(a,b\right) \) אז משוואותו היא \( y=m\left(x-a\right)+b \)). החלק שמעניין אותנו במשיק הוא הפונקציה \( T\left(x\right)=f^{\prime}\left(a\right)x \) - זו טרנספורמציה לינארית (המשיק עצמו איננו טרנספורמציה לינארית באופן כללי כי הוא לא עובר דרך ראשית הצירים). לחלק הזה אנחנו קוראים הדיפרנציאל של \( f \) בנקודה \( a \). כדי לראות למה הוא מעניין, בואו נחזור אל הנוסחה:

\( f^{\prime}\left(a\right)=\lim_{h\to0}\frac{f\left(a+h\right)-f\left(a\right)}{h} \)

נעביר אגפים:

\( \lim_{h\to0}\frac{f\left(a+h\right)-f\left(a\right)}{h}-f^{\prime}\left(a\right)=0 \)

נעלה למונה:

\( \lim_{h\to0}\frac{f\left(a+h\right)-f\left(a\right)-f^{\prime}\left(a\right)h}{h}=0 \)

וקיבלנו:

\( \lim_{h\to0}\frac{f\left(a+h\right)-f\left(a\right)-T\left(h\right)}{h}=0 \)

אז הנה הגדרה אלטרנטיבית: הדיפרנציאל של \( f \) הוא הטרנספורמציה הלינארית \( T \) שעבורה הגבול לעיל שווה לאפס. אפשר עם קצת עבודה להוכיח שאם קיימת טרנספורמציה לינארית כזו, אז היא יחידה, כך שההגדרה הגיונית.

את ההגדרה הזו אפשר להכליל בצורה פשוטה לפונקציות כלליות: אם \( F:\mathbb{R}^{n}\to\mathbb{R}^{m} \) אז הדיפרנציאל של \( F \) בנקודה \( a \), אם הוא קיים, הוא הטרנספורמציה הלינארית היחידה שמקיימת

\( \lim_{h\to0}\frac{f\left(a+h\right)-f\left(a\right)-T\left(h\right)}{\left|h\right|}=0 \)

אם הדיפרנציאל קיים, אז אומרים ש-\( f \) גזירה בנקודה \( a \). במילה נגזרת משתמשים כדי לתאר או את \( T \) או את המטריצה המייצגת שלה; זה לא כל כך משנה כי ברור לנו שבמובנים המהותיים זה בדיוק אותו דבר. אם כן, עבור פונקציות ממשיות רגילות, הנגזרת היא בעצם מטריצה \( 1\times1 \)!

הסימון המקובל לנגזרת של \( f \) בהקשר הזה הוא \( Df\left(a\right) \) (אם רוצים, אפשר לחשוב על \( D \) בתור אופרטור שלוקח את \( f \) ומחזיר פונקציה שלכל \( a \) מחזירה מטריצה/טרנספורמציה). שימו לב לאופן שבו כללי המשחק השתנו קצת ממה שהיה עם פונקציות ממשיות: בפונקציות ממשיות, \( Df \) הוא פונקציה ממשית (שמקבלת \( a \) ומחזירה את המטריצה \( 1\times1 \) שדיברתי עליה, שגם היא מספר ממשי) ולכן אפשר היה לגזור שוב ושוב ושוב. כאן בבירור זה לא עובד ואין משמעות לסימון \( DDf \), מה שאולי מעלה אצלכם את התהיה אם אי אפשר להגדיר גם נגזרות “רגילות” על פונקציות שכאלו.

אז בואו נתחיל עם דוגמה פשוטה ככל הניתן. פונקציה סקלרית (שמחזירה סקלר, כלומר הטווח שלה הוא ממימד 1) על המישור, \( f:\mathbb{R}^{2}\to\mathbb{R} \). למשל, \( f\left(x,y\right)=x\sin y \). אין לנו מושג כרגע איך למצוא לה את הנגזרת, אבל כל אחד מאיתנו שמיומן בגזירה כן יודע להתעלל בביטוי \( x\sin y \): אם נחשוב לרגע על \( y \) כפרמטר ועל \( x \) בתור משתנה, ברור לנו איך אפשר לגזור את הביטוי הזה. פורמלית, אם אני אסמן \( f_{y}\left(x\right)=x\sin y \) אז קל לי לחשב את \( f_{y}^{\prime}\left(x\right)=\sin y \). קל גם לחשב את \( f_{x}^{\prime}\left(y\right)=x\cos y \). הנגזרות הללו נקראות נגזרות חלקיות של \( f \), כי במובן מסויים אנחנו גוזרים רק חלק מ-\( f \). עבור פונקציות במספר קטן של משתנים, נהוג להשתמש בסימן \( \partial \) לתיאור נגזרת חלקית, כמו שמשתמשים ב-\( d \) לתיאור נגזרת של פונקציה ממשית: דהיינו, אם מסמנים \( \frac{df}{dx} \) בתור הנגזרת של הפונקציה \( f\left(x\right) \), אז מסמנים \( \frac{\partial f}{\partial x},\frac{\partial f}{\partial y} \) לתיאור שתי הנגזרות החלקיות של \( f\left(x,y\right) \). זה סימון מאוד ידוע ופופולרי, אבל אני בקושי אשתמש בו, כי עבור פונקציות בעלות מספר שרירותי הוא הופך למסורבל. נאמר ש-\( F\left(x_{1},\dots,x_{n}\right) \) היא פונקציה סקלרית . אז במקום לכתוב \( \frac{\partial F}{\partial x_{i}} \) כבר יותר קל לכתוב \( D_{i}F \) וחסל.

אז בואו נדבר על נגזרות חלקיות של פונקציה כללית, אבל לא כללית עד הסוף - אני אמשיך לדבר על פונקציות סקלריות, שהטווח שלהן הוא ממימד אחד. באופן כללי, אם \( F:\mathbb{R}^{n}\to\mathbb{R}^{m} \), אז נהוג לפרק אותה לרכיבים: לסמן \( F=\left(f_{1},\dots,f_{m}\right) \) כך ש-\( f_{i}:\mathbb{R}^{n}\to\mathbb{R} \) היא פונקציה סקלרית. את רוב התוצאות שנדבר עליהן אפשר לתאר עבור פונקציה סקלרית, ודי מובן מאליו איך “להרכיב” אותן עבור פונקציה כללית - עוד נעשה את זה, אבל כאמור, בואו נדבר רק על פונקציות סקלריות לרגע.

מצד אחד, אין דבר טבעי יותר מנגזרת חלקית עבור פונקציה בכמה משתנים. מצד שני, זו הגדרה שנראית צרה באופן כמעט שרירותי. הרי נגזרת חלקית היא מה שמקבלים כאשר מסתכלים על הפונקציה במקום על כל המרחב שבו היא מוגדרת, רק על ישר אחד, שבו היא נראית כמו פונקציה במשתנה יחיד עם פרמטרים - או ציר \( x \), או ציר \( y \) וכדומה. אבל אפשר להסתכל עליה גם על כל ישר אחר. זה מוביל אותנו להגדרה של נגזרת מכוונת: אם \( 0\ne u\in\mathbb{R}^{n} \) הוא וקטור כלשהו שונה מאפס ב-\( \mathbb{R}^{n} \) ו-\( F:\mathbb{R}^{n}\to\mathbb{R} \) היא פונקציה, אז אפשר להגדיר את הנגזרת המכוונת של \( F \) עבור \( u \) בנקודה \( a \) בתור

\( \lim_{h\to0}\frac{F\left(a+hu\right)-F\left(a\right)}{h} \)

כאשר כאן \( h\in\mathbb{R} \) הוא סקלר. הנגזרות החלקיות הן מקרה פרטי של נגזרות מכוונות, עבור וקטורי הבסיס \( e_{i}=\left(0,\dots,1,\dots,0\right) \) של המרחב \( \mathbb{R}^{n} \) (שימו לב ש-\( u \) הוא חשוב, ולא רק הכיוון שלו; הכפלה של \( u \) בסקלר כלשהו תשפיע גם על הנגזרת המכוונת שהוא מגדיר. לכן לפעמים דורשים ש-\( u \) יהיה מנורמה 1).

עכשיו אפשר לחבר את כל המושגים הללו ביחד. ניקח \( F:\mathbb{R}^{n}\to\mathbb{R} \). אם \( F \) גזירה, אז כל הנגזרות המכוונות שלה קיימות, וקל מאוד לקבל אותן - הנגזרת המכוונת בכיוון \( u \) בנקודה \( a \) היא בדיוק \( DF\left(a\right)\cdot u \) - כלומר, לוקחים את המטריצה שמייצגת את \( DF \) בנקודה \( a \) ומכפילים סקלרית ב-\( u \) (מטילים על \( u \)). כלומר, \( DF \) מקודדת איכשהו את המידע על כל הנגזרות המכוונות של \( F \). מצד שני, זה אומר שעכשיו ברור לגמרי איך לחשב את \( DF \): אנחנו יודעים ש-\( DF\left(a\right) \) הוא וקטור ב-\( \mathbb{R}^{n} \) (מטריצה \( 1\times n \)) ולכן ניתן להצגה כצירוף לינארי \( \sum_{i=1}^{n}\lambda_{i}e_{i} \), כאשר המקדמים נתונים בדיוק על ידי \( \left(a\right)\cdot e_{i} \)\( \lambda_{i}=DF \). מסקנה: \( DF\left(a\right)=\left(D_{1}F\left(a\right),\dots,D_{n}F\left(a\right)\right) \). הוקטור הזה כל כך חשוב שנותנים לו עוד סימון ושם: הוא נקרא הגרדיאנט של \( F \) ומסומן \( \nabla F \) (למשולש הזה קוראים נבלה, אם רציתם לדעת).

ההוכחה של הטענה הזו היא קלה למדי ומראה כמה היא מתבקשת. נניח ש-\( F \) גזירה ויהא \( u \) וקטור שונה מאפס כלשהו. אנחנו רוצים להראות ש-\( \lim_{h\to0}\frac{F\left(a+hu\right)-F\left(a\right)}{h}=DF\left(a\right)\cdot u \). כזכור, על פי הגדרת הנגזרת, \( \lim_{t\to0}\frac{F\left(a+t\right)-F\left(a\right)-DF\left(a\right)\cdot t}{\left|t\right|}=0 \) (בהוכחה הזו \( h \) הוא סקלר ו-\( t \) הוא וקטור). מכיוון שהגבול הזה נכון עבור השאפה של \( t \) כללי לאפס, הוא נכון גם אם משאיפים את \( t \) לאפס רק לאורך ציר מסויים, הציר שמגדיר \( u \) (למי שלא מאמין, פשוט תפתחו את הגדרת האפסילון-דלתא ותראו). כלומר, אנחנו מקבלים את הגבול

\( \lim_{h\to0}\frac{F\left(a+hu\right)-F\left(a\right)-DF\left(a\right)\cdot\left(hu\right)}{\left|hu\right|}=0 \)

נכפול את שני האגפים בקבוע \( \left|u\right| \), נשתמש בהומוגניות של מכפלה סקלרית ושל נורמה, ונקבל

\( \lim_{h\to0}\frac{F\left(a+hu\right)-F\left(a\right)}{\left|h\right|}-\frac{h}{\left|h\right|}DF\left(a\right)\cdot u=0 \)

אם \( h \) שואף לאפס מימין, אנחנו מקבלים בדיוק את מה שרצינו: \( \lim_{h\to0^{+}}\frac{F\left(a+hu\right)-F\left(a\right)}{h}-DF\left(a\right)\cdot u=0 \); אחרת, נכפול במינוס 1 ונקבל \( \lim_{h\to0^{-}}\frac{F\left(a+hu\right)-F\left(a\right)}{h}-DF\left(a\right)\cdot u=0 \). המסקנה הסופית היא שאכן מתקיים \( \lim_{h\to0}\frac{F\left(a+hu\right)-F\left(a\right)}{\left|h\right|}=DF\left(a\right)\cdot u \).

אם כן, אם \( F \) היא גזירה, אז הנגזרת שלה נתונה בדיוק באמצעות הנגזרות החלקיות, מה שאומר שיש לנו עכשיו טכניקה פרקטית לחישוב נגזרת כללית על ידי רדוקציה לבעיה של חישוב נגזרת רגילה. מה שמפתיע הוא שההפך אינו נכון - ייתכן שכל הנגזרות החלקיות יהיו קיימות (או אפילו יותר מכך, כל הנגזרות המכוונות יהיו קיימות) ועדיין \( F \) לא תהיה גזירה. הגרדיאנט עדיין יהיה קיים, כמובן, אבל הוא לא יגדיר טרנספורמציה לינארית שמקרבת את \( F \) בצורה מוצלחת. הפתולוגיה הזו היא בדיוק הסיבה שבגללה הגדרנו נגזרת בצורה מוזרה שכזו במקום להתחיל מנגזרות חלקיות - התנאי של גזירות יותר חזק מהתנאי של קיום הנגזרות החלקיות. ההכללה לפונקציה \( F:\mathbb{R}^{n}\to\mathbb{R}^{m} \) קלה: \( F \) גזירה אם ורק אם כל הרכיבים שלה גזירים, ואם היא גזירה אז הנגזרת שלה היא המטריצה \( m\times n \) שהשורות שלה הן הגרדיאנטים של הרכיבים.

בואו נראה דוגמה לפונקציה \( f:\mathbb{R}^{2}\to\mathbb{R} \) שהגרדיאנט שלה קיים אבל היא לא גזירה:

\( f\left(x,y\right)=\begin{cases}0 & x=y=0\\\frac{x^{2}y}{x^{4}+y^{2}} & \mbox{else}\end{cases} \)

הרעיון כאן הוא ש-0 היא נקודה בעייתית עבור הפונקציה - הגדרנו את ערכה להיות 0 שם כי אם נקפיא את \( x \) או את \( y \) להיות 0 ונלך על הציר של המשתנה השני נקבל כל הזמן את הערך 0; אבל באותה מידה יכלנו להגדיר אותו להיות חצי, כי לאורך העקום \( \left(t,t^{2}\right) \) הערך של הפונקציה הוא \( \frac{1}{2} \). כלומר, אין דרך טובה להגדיר את \( f \) כך שתהיה רציפה בראשית הצירים, ולא קשה לראות שכמו עבור פונקציות ממשיות, גם במקרה שלנו גזירות של פונקציה בנקודה גוררת רציפות שלה בנקודה.

מצד שני, אפשר לחשב כל נגזרת מכוונת ב-\( \left(0,0\right) \) בלי קושי של ממש. בואו נעשה את זה לפי הגדרה. ניקח \( u=\left(a,b\right) \), ונחשב:

\( \lim_{h\to0}\frac{f\left(0+hu\right)-f\left(0\right)}{h}=\lim_{h\to0}\frac{\left(ha\right)^{2}\left(hb\right)}{\left(ha\right)^{4}+\left(hb\right)^{2}}\frac{1}{h}=\lim_{h\to0}\frac{a^{2}b}{h^{2}a^{4}+b^{2}}=\frac{a^{2}}{b} \)

כמובן, בהנחה ש-\( b\ne0 \), אחרת נקבל \( 0 \). בפרט ברור שהנגזרות החלקיות בנקודה הזו הן 0. אז על פניו טרנספורמציית האפס אמורה להיות הנגזרת של הפונקציה; אבל מן הסתם היא לא עובדת, ולכן הפונקציה לא גזירה למרות שהנגזרות החלקיות קיימות. הלקח כאן הוא שהסתכלות “חד ממדית” על הפונקציה מפספסת אינפורמציה חשובה - אפשר לקחת פונקציה שהיא כמו הפיל בסיפור על הפיל והעיוורים; שאם נסתכל עליה מכיוון מסויים, נראה משהו אחד, אבל אם נסתכל עליה מכיוון אחר נראה משהו שונה לחלוטין, וכך גם עבור כל כיוון הסתכלות חד ממדי אפשרי. חייבים להסתכל על הכל “בבת אחת” כדי לא לפספס.

חישבתי את הנגזרות החלקיות בנקודה 0, אבל עבור נקודות אחרות אני יכול לחשב אותן על פי חוקי הגזירה של פונקציות ממשיות: נאמר, כדי לגזור את \( \frac{x^{2}y}{x^{4}+y^{2}} \) לפי \( x \) אני חושב על \( y \) בתור קבוע ומשתמש בכללי הגזירה של מנת פונקציות. אני מקבל \( \frac{2xy\left(x^{4}+y^{2}\right)-x^{2}y\left(4x^{3}\right)}{\left(x^{4}+y^{2}\right)^{2}}=\frac{2x^{5}y+2xy^{3}-4x^{5}y}{\left(x^{4}+y^{2}\right)^{2}}=\frac{2xy^{3}-2x^{5}y}{\left(x^{4}+y^{2}\right)^{2}}=\frac{2xy\left(y^{2}-x^{4}\right)}{\left(x^{4}+y^{2}\right)^{2}} \).

כששואפים ל-0 על צירי \( x,y \) מקבלים 0, אבל על הציר \( \left(2t,t^{2}\right) \) נקבל \( \frac{4t^{3}\left(t^{4}-16t^{4}\right)}{\left(3t^{4}\right)^{2}}=-5\frac{t^{7}}{t^{8}}=-\frac{5}{t} \)

והיצור הזה מתפוצץ כש-\( t \) שואף לאפס, כך שקיבלנו נגזרת חלקית לא רציפה. זה מרמז לנו מה בעייתי פה - נגזרות לא רציפות הן יצורים שמתנהגים בצורה מעצבנת. ואכן, מסתבר שתנאי מספיק לגזירות של פונקציה הוא שהנגזרות החלקיות שלה יהיו קיימות ורציפות. פונקציה כזו נקראת “גזירה ברציפות”, ואומרים שהיא שייכת למחלקה \( C^{1} \) (באופן כללי, \( C^{k} \) היא מחלקת הפונקציות שגזירות \( k \) פעמים והנגזרות רציפות; ו-\( C^{\infty} \) היא מחלקת הפונקציות שגזירות מספר כלשהו של פעמים והנגזרות, מן הסתם, רציפות). לעתים קרובות נוח לנו מראש להגביל את הדיון רק לפונקציות שהן \( C^{1} \) ואז הכל מתנהג נחמד; אבל באופן כללי קיימים מקרים פתולוגיים שצריך להיות מודעים אליהם.

אז אם לסכם: אם \( F \) גזירה, אז נובע שכל הנגזרות החלקיות שלה קיימות - אבל זה לא אומר שהן רציפות. אם לעומת זאת כל הנגזרות החלקיות קיימות ורציפות, אז מובטח ש-\( F \) גזירה, אבל רק קיום הנגזרות החלקיות לא גורר רציפות. אם כן, הכרנו את הגיבורים של החלק הדיפרנציאלי של אנליזה וקטורית - הנגזרת והנגזרות החלקיות והמכוונות; וזמן טוב לעצור את הפוסט הזה הוא בדיוק אחרי ההוכחה שקיום נגזרות חלקיות רציפות גורר גזירות, כי זו לא הוכחה טריוויאלית.

פורמלית, הטענה שאני אוכיח היא זו: אם \( A\subseteq\mathbb{R}^{n} \) היא קבוצה פתוחה כך שלכל \( a\in A \) הנגזרות החלקיות של \( F \) קיימות ב-\( a \) ורציפות בה, אז \( F \) גזירה בכל נקודה של \( A \). “קבוצה פתוחה” היא קבוצה \( A \) כך שלכל \( a\in A \) קיים “כדור פתוח” סביב \( a \) שמוכל כולו ב-\( A \), כלומר יש \( \varepsilon>0 \) כך ש\( \left|x-a\right|<\varepsilon \) גורר ש-\( x\in A \).

הרעיון הבסיסי פשוט: אם כל הנגזרות החלקיות של \( F \) קיימות, אנחנו יודעים בדיוק איך \( DF\left(a\right) \) אמור להיראות: \( DF\left(a\right)=\left(D_{1}F\left(a\right),\dots,D_{n}F\left(a\right)\right) \). לכן, בהינתן \( h\in\mathbb{R}^{n} \) כלשהו, \( DF\left(a\right)\cdot h=\sum D_{i}F\left(a\right)h_{i} \). היעד שלנו הוא להוכיח שמתקיים \( \lim_{h\to0}\frac{F\left(a+h\right)-F\left(a\right)-\sum D_{i}F\left(a\right)h_{i}}{\left|h\right|}=0 \). אנחנו לא חייבים לטפל בכל \( h \) - מספיק לטפל בכל \( h \) שהוא קטן דיו כך שהכדור הפתוח ברדיוס \( h \) סביב \( a \) מוכל כולו ב-\( A \).

לשם כך אני ארצה לקבל תיאור אחר של \( F\left(a+h\right)-F\left(a\right) \), כזה שמשתמש בנגזרות החלקיות. האם זה מזכיר לכם משהו? זו סיטואציה דומה לזו של אחד מהמשפטים החשובים ביותר באינפי - משפט הערך הממוצע של לגראנז’. מכיוון שאני הולך להשתמש בו בהמשך, בואו נזכיר אותו. יש לנו פונקציה \( f:\left[a,b\right]\to\mathbb{R} \) שהיא גזירה לכל הפחות ב-\( \left(a,b\right) \) ורציפה על כל \( \left[a,b\right] \). השינוי הממוצע של \( f \) בכל הקטע הזה שווה בדיוק ל-\( \frac{f\left(b\right)-f\left(a\right)}{b-a} \). נגזרת, כזכור, היא תיאור של שינוי רגעי, ולכן כל עוד \( a,b \) מרוחקים זה מזה, לא מובטח שהנגזרת בנקודות הללו (אם היא בכלל קיימת) תתאר את השינוי הממוצע הזה. הקסם (ובעיני זה באמת קסם) הוא שקיימת בקטע נקודה שעבורה זה כן עובד: קיימת נקודה \( c\in\left(a,b\right) \) כך ש-\( \frac{f\left(b\right)-f\left(a\right)}{b-a}=f^{\prime}\left(c\right) \). דרך אחרת לחשוב על כך היא זו:\( f\left(b\right)-f\left(a\right)=\left(b-a\right)f^{\prime}\left(c\right) \), כלומר גודל השינוי של הפונקציה בקטע כולו יכול להיגזר מהשינוי הרגעי שלה ברגע נתון אחד - אבל כמובן, צריך לדעת איזה רגע.

הבעיה היא ש-\( F\left(a+h\right)-F\left(a\right) \) הוא לא ביטוי שאפשר להפעיל עליו ישירות את לגראנז’, כי אנחנו לא ב-\( \mathbb{R} \) אלא ב-\( \mathbb{R}^{n} \). אבל כרגיל, אפשר לבצע מעין רדוקציה ל-\( \mathbb{R} \) על ידי פירוק הביטוי הזה לטור טלסקופי של איברים שכל אחד מהם יהיה חד-ממדי באופיו (טור טלסקופי הוא טור שכל האיברים בו מצמצמים זה את זה למעט הראשון והאחרון; למשל, אם נפתח את המכפלה \( \left(1+q+q^{2}+\dots q^{n}\right)\left(q-1\right) \) נקבל טור טלסקופי שאחרי צמצום יישאר ממנו רק \( q^{n+1}-1 \), והופס קיבלנו את הנוסחה \( 1+q+\dots+q^{n}=\frac{q^{n+1}-1}{q-1} \) לטור הנדסי).

בואו נכתוב את \( h \) במפורש רגע: \( h=\left(h_{1},h_{2},\dots,h_{n}\right) \). אפשר לתאר את \( h \) כסכום לפי הבסיס הסטנדרטי: \( h=\sum_{i=1}^{n}h_{i}e_{i} \). יהיה נוח לסמן “סכומים חלקיים” של \( a+h \) באופן הבא: \( p_{i}=a+\sum_{j=1}^{i}h_{j}e_{j} \) (כאשר \( p_{0}=a \), עם המוסכמה שלפיה הסכום הוא “ריק” אם האינדקס למעלה גדול מהערך ההתחלתי למטה). עכשיו קל לראות שמתקיים

\( F\left(a+h\right)-F\left(a\right)=F\left(p_{n}\right)-F\left(p_{n-1}\right)+F\left(p_{n-1}\right)-\dots-F\left(p_{1}\right)+F\left(p_{1}\right)-F\left(p_{0}\right) \)

זה טור טלסקופי שבו כל זוג של מחובר חיובי ואז שלילי, כלומר משהו מהצורה \( F\left(p_{i}\right)-F\left(p_{i-1}\right) \) מתאים לשני וקטורים שהם זהים, פרט לכך שקואורדינטה אחת במחובר החיובי היא \( h_{i} \) בעוד שמקבילתה במחובר השלילי היא 0; חשבו על כך כאילו אנחנו הולכים מהנקודה \( h \) אל הנקודה \( 0 \) “ציר אחד בכל פעם”. אם אתם לא רואים את זה, ציירו את הנקודות \( \left(1,1,1\right),\left(0,1,1\right),\left(0,0,1\right),\left(0,0,0\right) \) והסתכלו על המסלול שעובר דרכן בסדר זה: תראו שקיבלנו קוביה שאנחנו הולכים על צלעות שלה. בואו נכתוב את הטור שוב, בסימון מקוצר:

אני הולך להשתמש בלגראנז’ על \( F\left(p_{i}\right)-F\left(p_{i-1}\right) \), אבל מכיוון שהסימון אולי עדיין מבלבל, אני אכתוב את הכל במפורש בתור פונקציות ממשיות. נשתמש ב-\( t \) בתור משתנה שמייצג מספר ממשי. נגדיר \( f_{i}\left(t\right)=F\left(p_{i-1}+te_{i}\right) \) (כלומר, הרכיב ה-\( i \)-י הוא \( t \)). נסתכל על הקטע \( \left[0,h_{i}\right] \) (אם \( h_{i} \) שלילי אז צריך לכתוב את הקטע \( \left[h_{i},0\right] \), אבל זה לא באמת משנה). בגלל שבחרנו את \( h \) להיות קטן מספיק כך שהסביבה של \( a \) ברדיוס \( h \) מוכלת ב-\( A \), נקבל ש-\( F\left(p_{i-1}+te_{i}\right) \) מוגדרת לכל \( t\in\left[0,h_{i}\right] \), ומהנתון לגבי הנגזרות החלקיות, \( f_{i} \) היא גם גזירה ברציפות שם - כאן זה קריטי לחלוטין ש-\( f_{i} \) מקפיאה את כל הרכיבים למעט אחד.

עכשיו אפשר להשתמש בלגראנז’ על \( f_{i} \) ולקבל שקיימת נקודה \( c_{i}\in\left[0,h_{i}\right] \) כך ש-\( f_{i}\left(h_{i}\right)-f_{i}\left(0\right)=h_{i}f_{i}^{\prime}\left(c_{i}\right) \). בואו נסמן ב-\( q_{i} \) את הנקודה המתאימה עבור \( F \), כלומר \( q_{i}=p_{i-1}+c_{i}e_{i} \). אז נקבל ש-\( F\left(p_{i}\right)-F\left(p_{i-1}\right)=D_{i}F\left(q_{i}\right)h_{i} \). הנה קיבלנו את הלגראנז’ שלנו. אם נחזור אל הטור הטלסקופי ממקודם, קיבלנו ש-

\( F\left(a+h\right)-F\left(a\right)=\sum_{i=1}^{n}F\left(p_{i}\right)-F\left(p_{-1}\right)=\sum_{i=1}^{n}D_{i}F\left(q_{i}\right)h_{i} \)

נחזור עכשיו אל הגבול שאנחנו רוצים להוכיח:

\( \lim_{h\to0}\frac{F\left(a+h\right)-F\left(a\right)-\sum D_{i}F\left(a\right)h_{i}}{\left|h\right|}=0 \)

נציב בו את מה שקיבלנו, ונקבל:

\( \lim_{h\to0}\frac{\sum D_{i}F\left(q_{i}\right)h_{i}-\sum D_{i}F\left(a\right)h_{i}}{\left|h\right|}=0 \)

או, יותר פשוט

\( \lim_{h\to0}\sum\left(D_{i}F\left(q_{i}\right)-D_{i}F\left(a\right)\right)\frac{h_{i}}{\left|h\right|}=0 \)

הנקודות \( q_{i} \) תלויות ב-\( h \); כאשר \( h \) שואף לאפס, הנקודות הללו שואפות ל-\( a \) (הוכיחו!). ומכיוון ש-\( D_{i}F \) רציפה, אז \( \lim_{q_{i}\to a}D_{i}F\left(q_{i}\right)=D_{i}F\left(a\right) \), כלומר הביטוי \( D_{i}F\left(q_{i}\right)-D_{i}F\left(a\right) \) שואף לאפס. הוא מוכפל בביטוי \( \frac{h_{i}}{\left|h\right|} \), שהוא כמובן חסום בערכו המוחלט על ידי \( 1 \) (כי \( \left|h\right| \) גדול מהערך המוחלט של כל אחד מהרכיבים של \( h \)). לכן קיבלנו שהגבול הוא אכן אפס, וזה מה שרצינו.

לסיכום, הכרנו את הנגזרת, ולמדנו איך לבדוק שהיא קיימת ולחשב אותה בצורה פשוטה יחסית, עבור מחלקה גדולה ויפה של פונקציות (\( C_{1} \)). בפוסט הבא נראה עוד דברים מגניבים שקשורים אליה.


נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ:

Buy Me a Coffee at ko-fi.com