אז מה זו נגזרת?
בעיית ה”מכונית שנוסעת מתל אביב לחיפה” נשחקה עד לזרא בבתי הספר, ולכן אני מקווה שתסלחו לי על כך שאני משתמש בה - רכב מנצח לא מחלפים. אם כן, המרחק מתל אביב לחיפה הוא 100 קילומטרים. מכונית יוצאת מתל אביב לחיפה ומגיעה לשם תוך שעתיים. מה הייתה מהירותה בדרך?
ובכן, אין לשאלה הזו שום תשובה חד משמעית. מהירות היא לא דבר קבוע - היא משתנה כל הזמן. אפשר להניח שבאיזור תל אביב המכונית נקלעה לפקקים שבהם לתקופות ארוכות היא לא זזה כלל, ובתקופות אחרות זזה לאט מאוד. אחר כך, כשהגיעה סוף סוף לכביש המהיר היא ככל הנראה נסעה במהירות גבוהה, עד שנתקלה בתאונת דרכים באמצע הדרך ועצרה לסייע. אולי היא אפילו הסיעה אנשים לבית החולים הקרוב ולשם כך חזרה על עקבותיה ונסעה במהירות “שלילית”. כל מה שאנחנו יכולים להגיד הוא שהיא עברה מרחק כולל של 100 קילומטרים בשעתיים, ולכן מהירותה הממוצעת הייתה 50 קילומטרים בשעה.
מה בא הממוצע לתאר כאן? ובכן, נניח שהרכב היה נוסע במהירות קבועה. המהירות הממוצעת היא בדיוק המהירות בה הרכב היה צריך לנסוע באופן קבוע למשך כל הנסיעה כדי שיגיע בדיוק באותו הזמן שבו הגיע הרכב שלנו. היא בעצם מתארת את דרך הנסיעה ה”משעממת” ביותר, או ה”פשוטה” ביותר, תלוי איך אתם רוצים להסתכל על זה.
מושג הנגזרת - אחד משני המושגים המרכזיים בחשבון הדיפרנציאלי והאינטגרלי (יחד עם מושג האינטגרל) הוא בסך הכל הכללה לא מסובכת של הרעיון הזה - במקום לדבר על המהירות הממוצעת לאורך זמן, הוא מדבר על המהירות הממוצעת ברגע זמן נתון. לכאורה אין שום משמעות למה שאמרתי כרגע - ממוצע צריך להימדד לאורך זמן. הוא תמיד נמדד ביחס לשני פרקי זמן שונים - התחלה וסוף. איך אפשר לדבר עליו בנקודה מסויימת? מבחינה מתמטית, אם בזמן \( t_{1} \) אני במיקום \( x_{1} \) ובזמן \( t_{2} \) אני במיקום \( x_{2} \), אז המהירות הממוצעת שלי היא \( \frac{x_{2}-x_{1}}{t_{2}-t_{1}} \); אבל אם \( t_{1}=t_{2} \), כלומר אני באותו זמן בשני המקרים, ועל כן גם \( x_{2}=x_{1} \) (כי לא “הספקתי לזוז”) הרי ש-\( \frac{x_{2}-x_{1}}{t_{2}-t_{1}}=\frac{0}{0} \) ואפס חלקי אפס הוא מה שאוהבים לקרוא לו בח”מ - ביטוי חסר משמעות. זו אכן הבעיה; ולכן מושג הנגזרת הוא כל כך קסום - הוא מצליח לתת משמעות, ועוד משמעות הגיונית, טבעית ומתבקשת, לאותו בח”מ.
הרעיון הוא כזה: אמנם, אם נסתכל רק בתמונה קפואה אחת של הרכב בנקודת זמן מסויימת לא נוכל להגיד כלום על המהירות שלה; אבל אם ייתנו לנו סרטון קצר של הרכב בתנועה שמתחיל באותה נקודת זמן נוכל להסיק ממנו מה הייתה מהירות הרכב בערך באותה נקודת זמן. איך? פשוט נחשב באמצעות הסרטון מה היה המרחק שעבר הרכב במהלך הסרטון, וכמה זמן חלף (זהו אורכו של הסרטון), ובעזרת נתונים אלו נחשב את המהירות הממוצעת של הרכב במהלך הסרטון. אם אנו מניחים שהרכב לא ביצע שינוי דרסטי במהירות שלו בזמן הסרטון (מה שלא סביר אם הסרטון קצר), הרי שהמהירות הממוצעת של הרכב שנמדדה בסרטון קרובה למדי למהירות האמיתית של הרכב.
כאן אנחנו עדיין מדברים על קירוב; הרעיון העמוק של החשבון האינפיניטסימלי הוא שאפשר לעבור מדיבורים על קירובים לדיבורים על דברים מדוייקים לגמרי על ידי כך שמקטינים את רזולוציית המדידה לאינסוף. זה רעיון שיחזור על עצמו שוב גם כאשר נעסוק באינטגרלים. כאן מה שאנו אומרים הוא - לא צריך את כל הסרט; בואו נקצוץ את הזמן שלו בחצי, ונבצע את החישוב של המהירות הממוצעת בזמן זה. אנחנו נקבל קירוב שהוא מדויק יותר מהקירוב הקודם, כי השלכנו את החצי השני של הסרט שהיה לא רלוונטי בכלל לשאלה מה הייתה המהירות של הרכב בתחילת הסרט.
אבל למה לעבוד עם חצי סרט? אפשר לעבוד עם הרבע הראשון; והשמינית הראשונה; והמאית הראשונה, וכן הלאה וכן הלאה. בכל פעם שאנו קוצצים חלק מיותר נוסף מהסרט אנחנו מקבלים קירוב טוב יותר למהירות ה”רגעית” של הרכב בתחילת הסרט. בשום שלב של הקיצוצים הללו אנחנו לא נפטרים מכל הסרט פרט לפריים הראשון; אבל באופן שנראה לא אינטואיטיבי, ככל שאנחנו זורקים יותר מידע לפח, כך הקירוב שלנו משתפר (זה לא כל כך מפתיע בהתחשב בכך שכל המידע שנזרק לפח הוא מיותר).
בעולם האמיתי שיטת העבודה הזו בלתי אפשרית כי יש גבול לכמה שניתן לקצץ את הסרט; בסופו של דבר יוותרו בידינו רק שני פריימים של הסרט - הראשון, וזה שבא מייד אחריו. אבל כאשר אנו עוסקים בפונקציות מתמטיות מהממשיים לממשיים, אפשר לבצע את שיפור הקירוב הזה עוד ועוד, “עד לאינסוף”; הדרך הפורמלית להגדיר זאת היא באמצעות מושג הגבול שהצגתי בעבר.
פורמלית, נניח שיש לנו פונקציה \( f\left(x\right) \), ונקודה \( x_{0} \). חשבו על \( f \) כמייצגת פונקציה של מיקום הרכב כתלות בזמן הנוכחי \( x \). אנו רוצים לדעת מה הייתה “המהירות הרגעית” של הרכב בזמן \( x_{0} \). הדרך לעשות זאת, כאמור, הייתה באמצעות מהירות ממוצעת. אם \( x\ne x_{0} \) היא נקודה אחרת בזמן, אז המהירות הממוצעת בין הזמן שבו \( f \) ב-\( x_{0} \) והזמן שבו \( f \) ב-\( x \) היא \( \frac{f\left(x\right)-f\left(x_{0}\right)}{x-x_{0}} \) (הנוסחה הזו עובדת גם כאשר \( x>x_{0} \) וגם כאשר \( x<x_{0} \)). ישנה דרך קצת יותר פשוטה לסמן את הדבר הזה - בואו נסמן את \( x-x_{0} \) באות \( h \). אז \( x=x_{0}+h \), ולכן המהירות הממוצעת ניתנת לכתיבה בתור \( \frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h} \). ככל ש-\( h \) יותר קרוב ל-0, כך הרזולוצייה של המדידה שלנו יותר מדויקת - יותר קשה להכניס פנימה סיפורי מעשיות כגון “נתקעתי עם הרכב באמצע הכביש וחזרתי אחורה לתחנת הדלק”. ומכאן ההגדרה שלנו: \( f^{\prime}\left(x_{0}\right)=\lim_{h\to0}\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h} \). במילים: הערך של הנגזרת של \( f \) בנקודה \( x_{0} \) הוא הגבול של המהירות הממוצעת של \( f \) בנקודה \( x_{0} \) ובנקודה קרובה \( x_{0}+h \) כאשר משאיפים את המרחק בין שתי הנקודות לאפס.
מכיוון שלכל נקודה \( x \) אפשר לדבר על “ערך הנגזרת של \( f \) בנקודה \( x \)”, עולה שגם הנגזרת של \( f \) היא בעצמה פונקציה, ומכאן הסימון - \( f^{\prime} \) (“\( f \) תג” בעברית). אותה \( f^{\prime} \) נקראת “הפונקציה הנגזרת של \( f \)” או פשוט הנגזרת שלה, ולפעמים קוראים ל-\( f^{\prime}\left(x_{0}\right) \) בשם “המספר הנגזר של \( f \) בנקודה \( x_{0} \)”. כל אלו הם עניינים טרמינולוגיים לא חשובים עד כדי כך.
דבר אחד שמתמטיקאי צריך לעשות אחרי שהוא נתקל במושג חדש הוא לרחרח סביבו בחשדנות - האם המושג בכלל בעל משמעות? האם הוא מתקיים תמיד? למי הוא לא מתקיים? כשהוא כן מתקיים, עבור מי הוא מתקיים? ולכן אני רוצה לפתוח באכזבה - לא לכל פונקציה יש נגזרת, וגם אם יש - לא תמיד היא מוגדרת בכל מקום.הדוגמה הקלאסית ביותר היא פונקציית הערך המוחלט - \( f\left(x\right)=\left|x\right| \). עבור \( x>0 \) הפונקציה מתנהגת בדיוק כמו \( f\left(x\right)=x \); ועבור \( x<0 \) היא מתנהגת בדיוק כמו \( f\left(x\right)=-x \), ולשתי הפונקציות הללו יש נגזרת (נדבר על כך בעתיד. אולי). אבל בנקודה \( x=0 \) הכל מתרסק. בואו נראה את זה פורמלית: \( f\left(0\right)=0 \) במקרה הזה, ולכן עבור \( h>0 \) נקבל \( \frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}=\frac{f\left(h\right)-f\left(0\right)}{h}=\frac{h}{h}=1 \), ואילו עבור \( h<0 \) נקבל \( \frac{f\left(h\right)-f\left(0\right)}{h}=\frac{-h}{h}=-1 \). במילים אחרות, אם נסתכל רק על תמונות מהצילומים של \( f\left(x\right) \) מהרגע שלפני \( x=0 \), נקבל את הרושם שהמהירות היא \( -1 \); ואם נסתכל רק על הרגע שאחרי, נקבל את הרושם שהמהירות היא \( 1 \); אבל אז, מה המהירות באמצע? יש לנו שני קירובים שונים וסותרים. המסקנה היא שאי אפשר לדבר על המהירות ברגע הזה באופן משביע רצון, ואנחנו מסתפקים באמירה שהנגזרת של \( f \) לא מוגדרת בנקודה הזו; ש-\( f \) לא גזירה בנקודה הזו. באופן כללי אנחנו נוהגים לסווג את הפונקציות בעולם לגזירות ולא גזירות (ואם לא גזירות, היכן), ולמזלנו - רוב הפונקציות המעניינות גזירות.
בואו נעזוב את סיפור המכונית ונעבור לדוגמה אחרת לגמרי שבה יש משמעות לנגזרת - משיקים. במילה “משיק” במשמעותה המתמטית-גאומטרית נתקלים לרוב בבית הספר בהקשר של משיק למעגל בנקודה מסויימת. במקרה זה המשיק הוא קו ישר שנוגע במעגל באותה נקודה, ובנקודה זו בלבד (כלומר, הוא לא חותך את המעגל אלא רק “מלטף” אותו). אנחנו רוצים לדבר על משיק ליצורים גאומטריים אחרים - גרפים של פונקציות. אלא שכאן יש לנו בעיה - בהינתן גרף של פונקציה ונקודה כלשהי עליו ייתכן שיש הרבה ישרים שאפשר להעביר ולא חותכים את הגרף בשום נקודה אחרת; וגרוע מכך, ייתכן שהישר ש”מרגיש לנו נכון” בקשר להיותו משיק בנקודה מסויימת דווקא כן חותך את גרף הפונקציה בנקודות אחרות. אז מה עושים?
מה שצריך לעשות הוא לזנוח את ההגדרה המקורית של משיק ולנסות להבין על מה אנחנו באמת מדברים כשאנו מדברים על משיק. משיק לנקודה מסויימת בעקום הוא קו ישר שהכיוון שלו זהה ל”כיוון של העקום” בנקודה זו. מי שמכיר טיפה מכניקה יכול לחשוב על זה כך: העקום מתאר תנועה של גוף בהשפעת כוח מטורלל כלשהו. המשיק בנקודה כלשהי מתאר את מסלול התנועה של הגוף מנקודה זו והלאה אם הכוח המטורלל היה עוזב אותו לנפשו שם והוא היה ממשיך בתנועתו ללא הפרעה, על פי החוק הראשון של ניוטון. ההגדרה הזו תופסת היטב את המשיק ה”קלאסי” למעגל, אבל היא טובה בהרבה מההגדרה האחרת - ובפרט, ניתן לתאר אותה באמצעות הנגזרת.
אם כן, נניח שיש לנו עקום שמתואר בתור הגרף של הפונקציה \( f\left(x\right) \) (כלומר, זה אוסף הנקודות במישור מהצורה \( \left(x,f\left(x\right)\right) \)). אמנם, אנחנו לא יכולים לתאר כך את כל העקומים (בפרט לא מעגל…) אבל לעת עתה זה מספיק לנו; אפשר בשיטות קצת יותר כלליות לטפל בכל סוגי העקומים. מה שאנחנו רוצים לדעת היא מה המשוואה של המשיק לגרף הפונקציה בנקודה \( x_{0} \). המשיק הוא קו ישר; אלו מכם שמכירים גאומטריה אנליטית יודעים שקו ישר ניתן לתאר באמצעות המשוואה \( y=mx+n \), כאשר המספר \( m \) מכונה השיפוע של הישר, ובא לציין כמה הישר נוטה באלכסון ביחס לציר ה-\( x \) (פורמלית, אם הזווית שהישר יוצר עם ציר ה-\( x \) היא \( \theta \), אז \( m=\tan\theta \)). עוד אתם אולי יודעים שאם נתון לנו השיפוע של ישר, ונקודה אחת שדרכה הישר עובר, הישר נקבע כך באופן יחיד. נקודה אחת שבה המשיק עובר אנחנו יודעים - זוהי בדיוק הנקודה \( \left(x_{0},f\left(x_{0}\right)\right) \). כל מה שעלינו לגלות כעת הוא את השיפוע שלו.
אם אנחנו יודעים שתי נקודות שדרכן עובר ישר, ניתן לגלות את השיפוע שלו בקלות. נניח שאלו הן הנקודות \( \left(x_{1},y_{1}\right) \) ו-\( \left(x_{2},y_{2}\right) \). אז נקבל את שני השוויונות \( y_{1}=mx_{1}+n \) ו-\( y_{2}=mx_{2}+n \). נחסר את שני השוויונות זה מזה ונקבל \( y_{2}-y_{1}=m\left(x_{2}-x_{1}\right) \), ובמילים אחרות, \( m=\frac{y_{2}-y_{2}}{x_{2}-x_{1}} \). נראה מוכר?
אם כן, כדי לחשב את השיפוע בנקודה \( x_{0} \), מה שנעשה הוא פשוט: עבור ערכים הולכים וקטנים של \( h \) נעביר ישר בין הנקודה \( \left(x_{0},f\left(x_{0}\right)\right) \) והנקודה \( \left(x_{0}+h,f\left(x_{0}+h\right)\right) \) ונחשב את השיפוע שלו. נקבל קבוצה של “קירובים טובים לישר”, שהולכת ונראית כמו הישר ככל ש-\( h \) קטן יותר; ונקבל קבוצה של “קירובים טובים לשיפוע” שהולכת ונראית כמו שיפוע הישר ככל ש-\( h \) קטן יותר. פורמלית, נקבל ש-\( m=\lim_{h\to0}\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h} \) - וזוהי בדיוק ההגדרה שלנו לנגזרת. במילים אחרות, הנגזרת של \( f \) בנקודה \( x_{0} \) היא שיפוע הישר שמשיק לגרף של \( f \) בנקודה זו. זוהי הדרך לתת משמעות גאומטרית לנגזרת. יותר מכך - על הקו המשיק הזה אפשר לחשוב בתור “קירוב מסדר ראשון” של הפונקציה בנקודה \( x_{0} \) - פונקציה פשוטה (קו ישר) שמהווה “קירוב טוב ל-\( f \)” בסביבה קטנה של הנקודה \( x_{0} \).
מבחינה היסטורית, אלו שתי הבעיות שהולידו את מושג הנגזרת - הנסיון לתאר שינוי רגעי, והנסיון למצוא את המשיק לעקומים. מיותר אך הכרחי לציין שמאז הנגזרת התגלתה כשימושית באינספור הקשרים אחרים - זהו ללא ספק אחד מהמושגים הנפוצים ביותר במתמטיקה, וכל אדם בעל השכלה מתמטית מינימלית צריך להכיר אותו. הפוסט הזה הוא רק השלב הראשון.
נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ: