אז מה זו נגזרת?

בעיית ה"מכונית שנוסעת מתל אביב לחיפה" נשחקה עד לזרא בבתי הספר, ולכן אני מקווה שתסלחו לי על כך שאני משתמש בה – רכב מנצח לא מחלפים. אם כן, המרחק מתל אביב לחיפה הוא 100 קילומטרים. מכונית יוצאת מתל אביב לחיפה ומגיעה לשם תוך שעתיים. מה הייתה מהירותה בדרך?

ובכן, אין לשאלה הזו שום תשובה חד משמעית. מהירות היא לא דבר קבוע – היא משתנה כל הזמן. אפשר להניח שבאיזור תל אביב המכונית נקלעה לפקקים שבהם לתקופות ארוכות היא לא זזה כלל, ובתקופות אחרות זזה לאט מאוד. אחר כך, כשהגיעה סוף סוף לכביש המהיר היא ככל הנראה נסעה במהירות גבוהה, עד שנתקלה בתאונת דרכים באמצע הדרך ועצרה לסייע. אולי היא אפילו הסיעה אנשים לבית החולים הקרוב ולשם כך חזרה על עקבותיה ונסעה במהירות "שלילית". כל מה שאנחנו יכולים להגיד הוא שהיא עברה מרחק כולל של 100 קילומטרים בשעתיים, ולכן מהירותה הממוצעת הייתה 50 קילומטרים בשעה.

מה בא הממוצע לתאר כאן? ובכן, נניח שהרכב היה נוסע במהירות קבועה. המהירות הממוצעת היא בדיוק המהירות בה הרכב היה צריך לנסוע באופן קבוע למשך כל הנסיעה כדי שיגיע בדיוק באותו הזמן שבו הגיע הרכב שלנו. היא בעצם מתארת את דרך הנסיעה ה"משעממת" ביותר, או ה"פשוטה" ביותר, תלוי איך אתם רוצים להסתכל על זה.

מושג הנגזרת – אחד משני המושגים המרכזיים בחשבון הדיפרנציאלי והאינטגרלי (יחד עם מושג האינטגרל) הוא בסך הכל הכללה לא מסובכת של הרעיון הזה – במקום לדבר על המהירות הממוצעת לאורך זמן, הוא מדבר על המהירות הממוצעת ברגע זמן נתון. לכאורה אין שום משמעות למה שאמרתי כרגע – ממוצע צריך להימדד לאורך זמן. הוא תמיד נמדד ביחס לשני פרקי זמן שונים – התחלה וסוף. איך אפשר לדבר עליו בנקודה מסויימת? מבחינה מתמטית, אם בזמן $latex t_{1}$ אני במיקום $latex x_{1}$ ובזמן $latex t_{2}$ אני במיקום $latex x_{2}$, אז המהירות הממוצעת שלי היא $latex \frac{x_{2}-x_{1}}{t_{2}-t_{1}}$; אבל אם $latex t_{1}=t_{2}$, כלומר אני באותו זמן בשני המקרים, ועל כן גם $latex x_{2}=x_{1}$ (כי לא "הספקתי לזוז") הרי ש-$latex \frac{x_{2}-x_{1}}{t_{2}-t_{1}}=\frac{0}{0}$ ואפס חלקי אפס הוא מה שאוהבים לקרוא לו בח"מ – ביטוי חסר משמעות. זו אכן הבעיה; ולכן מושג הנגזרת הוא כל כך קסום – הוא מצליח לתת משמעות, ועוד משמעות הגיונית, טבעית ומתבקשת, לאותו בח"מ.

הרעיון הוא כזה: אמנם, אם נסתכל רק בתמונה קפואה אחת של הרכב בנקודת זמן מסויימת לא נוכל להגיד כלום על המהירות שלה; אבל אם ייתנו לנו סרטון קצר של הרכב בתנועה שמתחיל באותה נקודת זמן נוכל להסיק ממנו מה הייתה מהירות הרכב בערך באותה נקודת זמן. איך? פשוט נחשב באמצעות הסרטון מה היה המרחק שעבר הרכב במהלך הסרטון, וכמה זמן חלף (זהו אורכו של הסרטון), ובעזרת נתונים אלו נחשב את המהירות הממוצעת של הרכב במהלך הסרטון. אם אנו מניחים שהרכב לא ביצע שינוי דרסטי במהירות שלו בזמן הסרטון (מה שלא סביר אם הסרטון קצר), הרי שהמהירות הממוצעת של הרכב שנמדדה בסרטון קרובה למדי למהירות האמיתית של הרכב.

כאן אנחנו עדיין מדברים על קירוב; הרעיון העמוק של החשבון האינפיניטסימלי הוא שאפשר לעבור מדיבורים על קירובים לדיבורים על דברים מדוייקים לגמרי על ידי כך שמקטינים את רזולוציית המדידה לאינסוף. זה רעיון שיחזור על עצמו שוב גם כאשר נעסוק באינטגרלים. כאן מה שאנו אומרים הוא – לא צריך את כל הסרט; בואו נקצוץ את הזמן שלו בחצי, ונבצע את החישוב של המהירות הממוצעת בזמן זה. אנחנו נקבל קירוב שהוא מדויק יותר מהקירוב הקודם, כי השלכנו את החצי השני של הסרט שהיה לא רלוונטי בכלל לשאלה מה הייתה המהירות של הרכב בתחילת הסרט.

אבל למה לעבוד עם חצי סרט? אפשר לעבוד עם הרבע הראשון; והשמינית הראשונה; והמאית הראשונה, וכן הלאה וכן הלאה. בכל פעם שאנו קוצצים חלק מיותר נוסף מהסרט אנחנו מקבלים קירוב טוב יותר למהירות ה"רגעית" של הרכב בתחילת הסרט. בשום שלב של הקיצוצים הללו אנחנו לא נפטרים מכל הסרט פרט לפריים הראשון; אבל באופן שנראה לא אינטואיטיבי, ככל שאנחנו זורקים יותר מידע לפח, כך הקירוב שלנו משתפר (זה לא כל כך מפתיע בהתחשב בכך שכל המידע שנזרק לפח הוא מיותר).

בעולם האמיתי שיטת העבודה הזו בלתי אפשרית כי יש גבול לכמה שניתן לקצץ את הסרט; בסופו של דבר יוותרו בידינו רק שני פריימים של הסרט – הראשון, וזה שבא מייד אחריו. אבל כאשר אנו עוסקים בפונקציות מתמטיות מהממשיים לממשיים, אפשר לבצע את שיפור הקירוב הזה עוד ועוד, "עד לאינסוף"; הדרך הפורמלית להגדיר זאת היא באמצעות מושג הגבול שהצגתי בעבר.

פורמלית, נניח שיש לנו פונקציה $latex f\left(x\right)$, ונקודה $latex x_{0}$. חשבו על $latex f$ כמייצגת פונקציה של מיקום הרכב כתלות בזמן הנוכחי $latex x$. אנו רוצים לדעת מה הייתה "המהירות הרגעית" של הרכב בזמן $latex x_{0}$. הדרך לעשות זאת, כאמור, הייתה באמצעות מהירות ממוצעת. אם $latex x\ne x_{0}$ היא נקודה אחרת בזמן, אז המהירות הממוצעת בין הזמן שבו $latex f$ ב-$latex x_{0}$ והזמן שבו $latex f$ ב-$latex x$ היא $latex \frac{f\left(x\right)-f\left(x_{0}\right)}{x-x_{0}}$ (הנוסחה הזו עובדת גם כאשר $latex x>x_{0}$ וגם כאשר $latex x<x_{0}$). ישנה דרך קצת יותר פשוטה לסמן את הדבר הזה – בואו נסמן את $latex x-x_{0}$ באות $latex h$. אז $latex x=x_{0}+h$, ולכן המהירות הממוצעת ניתנת לכתיבה בתור $latex \frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}$. ככל ש-$latex h$ יותר קרוב ל-0, כך הרזולוצייה של המדידה שלנו יותר מדויקת – יותר קשה להכניס פנימה סיפורי מעשיות כגון "נתקעתי עם הרכב באמצע הכביש וחזרתי אחורה לתחנת הדלק". ומכאן ההגדרה שלנו: $latex f^{\prime}\left(x_{0}\right)=\lim_{h\to0}\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}$. במילים: הערך של הנגזרת של $latex f$ בנקודה $latex x_{0}$ הוא הגבול של המהירות הממוצעת של $latex f$ בנקודה $latex x_{0}$ ובנקודה קרובה $latex x_{0}+h$ כאשר משאיפים את המרחק בין שתי הנקודות לאפס.

מכיוון שלכל נקודה $latex x$ אפשר לדבר על "ערך הנגזרת של $latex f$ בנקודה $latex x$", עולה שגם הנגזרת של $latex f$ היא בעצמה פונקציה, ומכאן הסימון – $latex f^{\prime}$ ("$latex f$ תג" בעברית). אותה $latex f^{\prime}$ נקראת "הפונקציה הנגזרת של $latex f$" או פשוט הנגזרת שלה, ולפעמים קוראים ל-$latex f^{\prime}\left(x_{0}\right)$ בשם "המספר הנגזר של $latex f$ בנקודה $latex x_{0}$". כל אלו הם עניינים טרמינולוגיים לא חשובים עד כדי כך.

דבר אחד שמתמטיקאי צריך לעשות אחרי שהוא נתקל במושג חדש הוא לרחרח סביבו בחשדנות – האם המושג בכלל בעל משמעות? האם הוא מתקיים תמיד? למי הוא לא מתקיים? כשהוא כן מתקיים, עבור מי הוא מתקיים? ולכן אני רוצה לפתוח באכזבה – לא לכל פונקציה יש נגזרת, וגם אם יש – לא תמיד היא מוגדרת בכל מקום.הדוגמה הקלאסית ביותר היא פונקציית הערך המוחלט – $latex f\left(x\right)=\left|x\right|$. עבור $latex x>0$ הפונקציה מתנהגת בדיוק כמו $latex f\left(x\right)=x$; ועבור $latex x<0$ היא מתנהגת בדיוק כמו $latex f\left(x\right)=-x$, ולשתי הפונקציות הללו יש נגזרת (נדבר על כך בעתיד. אולי). אבל בנקודה $latex x=0$ הכל מתרסק. בואו נראה את זה פורמלית: $latex f\left(0\right)=0$ במקרה הזה, ולכן עבור $latex h>0$ נקבל $latex \frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}=\frac{f\left(h\right)-f\left(0\right)}{h}=\frac{h}{h}=1$, ואילו עבור $latex h<0$ נקבל $latex \frac{f\left(h\right)-f\left(0\right)}{h}=\frac{-h}{h}=-1$. במילים אחרות, אם נסתכל רק על תמונות מהצילומים של $latex f\left(x\right)$ מהרגע שלפני $latex x=0$, נקבל את הרושם שהמהירות היא $latex -1$; ואם נסתכל רק על הרגע שאחרי, נקבל את הרושם שהמהירות היא $latex 1$; אבל אז, מה המהירות באמצע? יש לנו שני קירובים שונים וסותרים. המסקנה היא שאי אפשר לדבר על המהירות ברגע הזה באופן משביע רצון, ואנחנו מסתפקים באמירה שהנגזרת של $latex f$ לא מוגדרת בנקודה הזו; ש-$latex f$ לא גזירה בנקודה הזו. באופן כללי אנחנו נוהגים לסווג את הפונקציות בעולם לגזירות ולא גזירות (ואם לא גזירות, היכן), ולמזלנו – רוב הפונקציות המעניינות גזירות.

בואו נעזוב את סיפור המכונית ונעבור לדוגמה אחרת לגמרי שבה יש משמעות לנגזרת – משיקים. במילה "משיק" במשמעותה המתמטית-גאומטרית נתקלים לרוב בבית הספר בהקשר של משיק למעגל בנקודה מסויימת. במקרה זה המשיק הוא קו ישר שנוגע במעגל באותה נקודה, ובנקודה זו בלבד (כלומר, הוא לא חותך את המעגל אלא רק "מלטף" אותו). אנחנו רוצים לדבר על משיק ליצורים גאומטריים אחרים – גרפים של פונקציות. אלא שכאן יש לנו בעיה – בהינתן גרף של פונקציה ונקודה כלשהי עליו ייתכן שיש הרבה ישרים שאפשר להעביר ולא חותכים את הגרף בשום נקודה אחרת; וגרוע מכך, ייתכן שהישר ש"מרגיש לנו נכון" בקשר להיותו משיק בנקודה מסויימת דווקא כן חותך את גרף הפונקציה בנקודות אחרות. אז מה עושים?

תמונה של משיק לעקום

מה שצריך לעשות הוא לזנוח את ההגדרה המקורית של משיק ולנסות להבין על מה אנחנו באמת מדברים כשאנו מדברים על משיק. משיק לנקודה מסויימת בעקום הוא קו ישר שהכיוון שלו זהה ל"כיוון של העקום" בנקודה זו. מי שמכיר טיפה מכניקה יכול לחשוב על זה כך: העקום מתאר תנועה של גוף בהשפעת כוח מטורלל כלשהו. המשיק בנקודה כלשהי מתאר את מסלול התנועה של הגוף מנקודה זו והלאה אם הכוח המטורלל היה עוזב אותו לנפשו שם והוא היה ממשיך בתנועתו ללא הפרעה, על פי החוק הראשון של ניוטון. ההגדרה הזו תופסת היטב את המשיק ה"קלאסי" למעגל, אבל היא טובה בהרבה מההגדרה האחרת – ובפרט, ניתן לתאר אותה באמצעות הנגזרת.

אם כן, נניח שיש לנו עקום שמתואר בתור הגרף של הפונקציה $latex f\left(x\right)$ (כלומר, זה אוסף הנקודות במישור מהצורה $latex \left(x,f\left(x\right)\right)$). אמנם, אנחנו לא יכולים לתאר כך את כל העקומים (בפרט לא מעגל…) אבל לעת עתה זה מספיק לנו; אפשר בשיטות קצת יותר כלליות לטפל בכל סוגי העקומים. מה שאנחנו רוצים לדעת היא מה המשוואה של המשיק לגרף הפונקציה בנקודה $latex x_{0}$. המשיק הוא קו ישר; אלו מכם שמכירים גאומטריה אנליטית יודעים שקו ישר ניתן לתאר באמצעות המשוואה $latex y=mx+n$, כאשר המספר $latex m$ מכונה השיפוע של הישר, ובא לציין כמה הישר נוטה באלכסון ביחס לציר ה-$latex x$ (פורמלית, אם הזווית שהישר יוצר עם ציר ה-$latex x$ היא $latex \theta$, אז $latex m=\tan\theta$). עוד אתם אולי יודעים שאם נתון לנו השיפוע של ישר, ונקודה אחת שדרכה הישר עובר, הישר נקבע כך באופן יחיד. נקודה אחת שבה המשיק עובר אנחנו יודעים – זוהי בדיוק הנקודה $latex \left(x_{0},f\left(x_{0}\right)\right)$. כל מה שעלינו לגלות כעת הוא את השיפוע שלו.

אם אנחנו יודעים שתי נקודות שדרכן עובר ישר, ניתן לגלות את השיפוע שלו בקלות. נניח שאלו הן הנקודות $latex \left(x_{1},y_{1}\right)$ ו-$latex \left(x_{2},y_{2}\right)$. אז נקבל את שני השוויונות $latex y_{1}=mx_{1}+n$ ו-$latex y_{2}=mx_{2}+n$. נחסר את שני השוויונות זה מזה ונקבל $latex y_{2}-y_{1}=m\left(x_{2}-x_{1}\right)$, ובמילים אחרות, $latex m=\frac{y_{2}-y_{2}}{x_{2}-x_{1}}$. נראה מוכר?

אם כן, כדי לחשב את השיפוע בנקודה $latex x_{0}$, מה שנעשה הוא פשוט: עבור ערכים הולכים וקטנים של $latex h$ נעביר ישר בין הנקודה $latex \left(x_{0},f\left(x_{0}\right)\right)$ והנקודה $latex \left(x_{0}+h,f\left(x_{0}+h\right)\right)$ ונחשב את השיפוע שלו. נקבל קבוצה של "קירובים טובים לישר", שהולכת ונראית כמו הישר ככל ש-$latex h$ קטן יותר; ונקבל קבוצה של "קירובים טובים לשיפוע" שהולכת ונראית כמו שיפוע הישר ככל ש-$latex h$ קטן יותר. פורמלית, נקבל ש-$latex m=\lim_{h\to0}\frac{f\left(x_{0}+h\right)-f\left(x_{0}\right)}{h}$ – וזוהי בדיוק ההגדרה שלנו לנגזרת. במילים אחרות, הנגזרת של $latex f$ בנקודה $latex x_{0}$ היא שיפוע הישר שמשיק לגרף של $latex f$ בנקודה זו. זוהי הדרך לתת משמעות גאומטרית לנגזרת. יותר מכך – על הקו המשיק הזה אפשר לחשוב בתור "קירוב מסדר ראשון" של הפונקציה בנקודה $latex x_{0}$ – פונקציה פשוטה (קו ישר) שמהווה "קירוב טוב ל-$latex f$" בסביבה קטנה של הנקודה $latex x_{0}$.

מבחינה היסטורית, אלו שתי הבעיות שהולידו את מושג הנגזרת – הנסיון לתאר שינוי רגעי, והנסיון למצוא את המשיק לעקומים. מיותר אך הכרחי לציין שמאז הנגזרת התגלתה כשימושית באינספור הקשרים אחרים – זהו ללא ספק אחד מהמושגים הנפוצים ביותר במתמטיקה, וכל אדם בעל השכלה מתמטית מינימלית צריך להכיר אותו. הפוסט הזה הוא רק השלב הראשון.

21 תגובות בנושא “אז מה זו נגזרת?”

  1. אבל… יש פה הגדרה מעגלית של מהירות:
    "נניח שהרכב היה נוסע במהירות קבועה" – מה היא אותה "מהירות" שצריכה להישאר "קבועה"?

    כן, אני יודע שאני מתחכם, ושזה לא גורע כהוא זה מהדיוק של הטיעון המתמטי.

  2. אין שם הגדרה מעגלית של מהירות בגלל שאין שם הגדרה, אלא הסבר אינטואיטיבי שעושה שימוש במושג שברור לנו אינטואיטיבית.

    אם אתה יודע שאתה מתחכם, אז בשביל מה, בעצם…? זה מעייף למדי, לקרוא ולענות לתגובות מתחכמות/שמנסות לצאת חכמות על חשבוני (לא ספציפית שלך, שאינה כה בעייתית).

  3. פוסט יפה מאוד, כרגיל. בהיר ומעניין.
    בכמה מימדים ניתן לגזור?
    ובפועל האם יש בכלל משמעויות שמישות לנגזרות של הרבה מימדים? למשל כמו בתורת המיתרים ששם יש 10 או 11 מימדים. האם ישנן דיסציפלינות שבפרקטיקה שלהן מקובל לגזור במימדים נוספים?

  4. יש שתי דרכים עיקריות להכליל נגזרות לכמה ממדים. דרך אחת היא "להקפיא" את השינוי בכל הממדים חוץ מאחד ואז להשתמש במושג הנגזרת החד ממדית שראינו כאן – זה מוביל למושג של "נגזרת חלקית". דרך אחרת היא להרחיב את הרעיון של "קירוב מסדר ראשון" לפונקציה – אם במימד אחד היה מדובר על ישר משיק שמקרב את הפונקציה, בשני ממדים (כלומר, פונקציה דו ממדית שמתארת "גובה פני שטח") יהיה מדבר על *מישור* משיק שמקרב את הפונקציה. זה מוביל למושג של "דיפרנציאביליות". שני המושגים הללו תקפים למרחב ממשי מכל מימד אפשרי.

  5. כמה שאלות קטנות שאשמח לשמוע תשובות עליהן.. אני בן 15 ככה שאני מתנצל על חוסר ידע מתמטי.

    בשתי נקודות קרובות במידה "אינסופית" בפונקציה ההפרש בין שתיהן לאורך הישר של ציר ה x והישר של ציר ה y שניהם קטנים לאינסוף.. ועדיין נראה שיש משמעות כלשהי ליחס בניהם? אשמח להבהרות..

    ודבר שני – משיק למעגל עובר רק דרך נקודה אחת על המעגל, וזאת משום שהוא מאונך לרדיוס.. ואילו היינו מעבירים ישר דרך שתי נקודות שקרובות במידה אינסופית, האם הישר הזה היה שונה מהמשיק באותה נקודה? אני יודע שכנראה הבעיות פה הן של אינטואיציה ואני יודע שלא משתמשים באינפיניטיסמלים בחשבון דיפרנציאלי של ימינו אבל עדיין אשמח לתשובות כלשהן.. שיעזרו לי להרגיש פחות מבולבל. דבר אחרון הוא זה – נניח שאנו לוקחים את שתי הנקודות הקרובות במידה אינסופית, לדוגמא בפונקציה x^2, ומגלים שהשיפוע בניהן הוא 2x + n כאשר n הוא אינפיניטיסימל, ואז אנחנו נתעלם ממנו כי "הוא קטן לאינסוף" ונתייחס לשיפוע הרגעי בתור 2n.. השאלה שלי היא האם כאשר השיפוע הרגעי משפיע אינסוף פעמים, כמו בנגזרת, האם לא יכולה להיות השפעה כלשהי לאותו גודל קטן לאינסוף? מה בכלל המשמעות של גודל קטן לאינסוף??? האם יש בכלל מרחק כלשהו מינימלי בין שתי נקודות על ישר, מרחק קטן לאינסוף, או שיש נקודה בין כל שתי נקודות ואז האם יש נקודות שהן "צמודות"??

    סליחה על חוסר הידע אם יש כזה, ועל זה שכנראה רוב הבלבול הינו מאינטואיציה ובכלל זה שלא הגדרתי ממש את רוב המושגים שהשתמשתי בהם כמו נקודות "צמודות", שאני מקווה שתוכלו בעזרת האינטואיציה שלכם להבין אותם ולעזור לי לצאת מהבלבול..

  6. שלום תומר. לב העניין בחדו"א מודרני הוא שאנחנו עובדים רק עם מספרים ממשיים. במספרים ממשיים, אין דבר כזה שני מספרים שונים שהם קרובים "במידה אינסופית" – ההפרש ביניהם הוא תמיד מספר ממשי גדול מאפס. אם יש לנו *סדרה* של נקודות, אז אפשר להגיד דברים כמו "ההפרש בין אברי הסדרה שואף לאפס" – הפורמליזם של אמירה כזו היא שלכל אפסילון גדול מאפס קיים מקום בסדרה כך שההפרש בין כל שני איברים בסדרה החל ממקום זה והלאה קטן מאפסילון (לסדרה כזו יש שם: "סדרת קושי").

    מכיוון שאין דבר כזה שתי נקודות קרובות "במידה אינסופית", זה די מנטרל את השאלות שלך ברמה הפורמלית שלהם. עם זאת, אני עדיין מבין מה אתה מנסה לשאול, וההמלצה שלי לך היא שתנסה לקרוא על מושג הגבול (או שתקרא שוב אם כבר עשית זאת – זה מושג קשה) – הוא מצליח לתאר בצורה פורמלית ונטולת בעיות מתמטיות בדיוק את הדברים הלכאורה-לא-ברורים שאתה מתאר כאן.

  7. שלום,
    אשמח לדעת האם יש הסבר למה קוראים לנגזרת נגזרת?
    האם יש לזה משמעות? למה בחרו דווקא בשם הזה?
    תודה

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *