אז איך פותרים משוואות לינאריות?

לטעמי נקודת הפתיחה הטובה ביותר לדיון על אלגברה לינארית היא לתאר מערכות של משוואות לינאריות ואיך פותרים אותן. ראשית, כי זו בעיה קונקרטית ובסיסית במתמטיקה; שנית, כי יש לה פתרון מושלם; שלישית, כי מבחינה טכנית הרבה מאוד מהבעיות שצצות בהקשר הרחב יותר של אלגברה לינארית (מרחבים וקטוריים) מצטמצמות לבסוף לפתרון של מערכת משוואות לינארית, ולכן זה גם הבסיס הטכני שצריך בשביל המשך הדרך (כדי לחסוך לנו עבודה בהמשך הדרך; שנוכל לומר “אה, ומכאן זה סתם לפתור משוואות לינאריות ואת זה אנחנו יודעים שאפשר לעשות), ורביעית - כי כבר בעיסוק בבעיה הקונקרטית הזו צצים ועולים אל פני השטח הרעיונות והמושגים הכלליים יותר של האלגברה הלינארית. ולבסוף, כי משוואות לינאריות הן דרך נפלאה להציג מטריצות - מהאובייקטים הבסיסיים והחשובים ביותר במתמטיקה כולה.

אבל לפני כל המהומה הזו, בואו נתחיל בקטן. מהי משוואה לינארית? משוואה היא ביטוי מהצורה “כך וכך שווה לכך וכך”. \( 2+3=5 \) היא דוגמה למשוואה, וגם \( e^{i\pi}+1=0 \) היא דוגמה למשוואה, וגם \( \mbox{P=NP} \) היא “משוואה”. אבל אנחנו מתעניינים במה שנקרא “פתרון משוואות”. במקרה הזה לא כל האיברים שמופיעים במשוואה ידועים לנו, ואנו רוצים לגלות מה הם. למשל, \( 2+x=5 \) היא משוואה שבה הפתרון פירושו לגלות את הערך של \( x \). אז מהצצה חטופה ב-\( 2+3=5 \) ברור לנו שכנראה \( x=3 \) (ליתר דיוק: ש-\( x=3 \) הוא פתרון של המשוואה אבל אולי יש אחרים - במקרה הספציפי הזה אין), אבל מה הדרך השיטתית לפתור משוואות?

התשובה הקצרה היא - אין דרך כללית. אבל, אם המשוואות הן פשוטות יחסית, כן יש דרכים כלליות. ה”פשטות” מתבטאת בכמה שאנחנו מתעללים ב-\( x \): ברור לנו שמשוואה כמו \( 2^{x}+\frac{\log^{3}x}{x^{x+\sin x}}=\int_{0}^{x}e^{t^{2}}dt \) היא כנראה מסובכת מהותית יותר מ-\( 2+x=5 \), שבה אין שום התעללות ב-\( x \) והוא פשוט מופיע כמו שהוא. משוואות לינאריות הן משוואות שבהן זה בערך מה שקורה - אם משתנה מופיע, הוא מופיע כמות שהוא, כשלכל היותר כופלים אותו במספר (לעת עתה נניח שזה מספר ממשי) כלשהו. אני רוצה להדגיש כבר עכשיו שבמשוואה יכולים להופיע כמה משתנים: אז \( 2+x=5 \) היא משוואה לינארית, וגם \( 5x+7=22 \) היא משוואה לינארית, וגם \( x+y+z=3 \) היא משוואה לינארית, אבל \( x^{2}=1 \) איננה משוואה לינארית כי \( x \) כבר מופיע בחזקה גבוהה מ-1; וגם \( \sqrt{x}=4 \) אינה משוואה לינארית, ובוודאי שלא משהו כמו \( e^{x}=\cos x \). אז אם המשוואות המוזרות הללו (שאין לי מושג איך לפתור או אם בכלל אפשר לפתור) מפחידות אתכם, זה לא חשוב - אנחנו הולכים לדבר רק על משוואות פשוטות.

משוואה לינארית תמיד אפשר לפשט חיש קל כדי להביא אותה לצורה מאוד פשוטה. למשל, אם \( 2+x+3=8 \) היא משוואה, אפשר קודם כל לשים לב לכך שאפשר להחליף את הסדר בין \( x \) ושאר המחוברים, כלומר לקבל \( x+2+3=8 \) (זה שימוש של כלל החילוף החיבורי; אני משתמש כאן במובלע גם בכלל הקיבוץ שפירושו ש-\( \left(2+x\right)+3 \) ו-\( 2+\left(x+3\right) \) הם אותו דבר ולכן בכלל לא צריך סוגריים). כעת, \( 2+3=5 \) ולכן אפשר לכתוב \( x+5=8 \). הדרך לפשט הלאה משוואה שכזו היא לשים לב לכך שהשוויון נשמר גם אם מחסרים משני האגפים את אותו המספר: \( x+5-5=8-5 \), ולכן \( x=3 \). זו המחשה לעקרון הכללי: בכל משוואה, ניתן לחבר לשני האגפים את אותו מספר ולכפול את שני האגפים באותו מספר והשוויון עדיין יישמר.

לכן ברור שלא משנה איזו משוואה לינארית עם משתנה בודד \( x \) תביאו לי, אני אוכל על ידי חיסור מתאים של מספר משני האגפים לקבל משוואה מהצורה \( ax=b \). אם \( a=0 \) אז זה אומר ש-\( x \) לא הופיע במשוואה מלכתחילה ולכן זו לא משוואה שיש לנו מה לפתור בה בכלל; אחרת, אפשר לכפול את שני אגפי המשוואה ב-\( \frac{1}{a} \) (שימו לב! אני מעדיף לא לומר “אפשר לחלק ב-\( a \)”; לטעמי עדיף לחשוב על חילוק כעל “כפל בהופכי”) ולקבל \( x=\frac{b}{a} \). זה הכל - ראינו כעת איך פותרים משוואה ממעלה ראשונה ולא משנה מה.

תיאוריה זה נחמד, אבל מה קורה בפועל? בואו נראה דוגמה שמצאתי אי שם - המשוואה \( 1+\frac{1-2x}{3}-\frac{3x-1}{7}=6-2x \). ממבט ראשון היא נראית נורא מפחידה, אבל בעצם אין כאן כלום. יש שתי דרכים לתקוף משוואה כזו - אחת מסודרת ושיטתית והשניה מהירה יותר. בדרך המסודרת והשיטתית קודם כל נפריד את המשוואה למחוברים:

\( 1+\frac{1}{3}-\frac{2}{3}x-\frac{3}{7}x+\frac{1}{7}=6-2x \)

עכשיו נעביר אגפים:

\( 2x-\frac{2}{3}x-\frac{3}{7}x=6-1-\frac{1}{3}-\frac{1}{7} \)

ולסיום נוציא \( x \) כגורם משותף באגף שמאל:

\( \left(2-\frac{2}{3}-\frac{3}{7}\right)x=6-1-\frac{1}{3}-\frac{1}{7} \)

והנה אנחנו במשוואה מהצורה \( ax=b \), רק שצריך עוד להשתמש בכללי החשבון כדי להבין מהו בדיוק \( a \) ומהו בדיוק \( b \). מקבלים ש-\( a=\frac{42-14-9}{21}=\frac{19}{21} \) ו-\( b=\frac{126-21-7-3}{21}=\frac{103}{21} \) ולכן \( x=\frac{\frac{103}{21}}{\frac{19}{21}}=\frac{95}{19}= \)

בדרך השניה פשוט עוברים בצעד אחד מהיר מהמשוואה \( 1+\frac{1-2x}{3}-\frac{3x-1}{7}=6-2x \) אל המשוואה

\( 2x+\frac{7-14x-9x+3}{21}=5 \)

ומשם אל

\( 2x+\frac{10-23x}{21}=5 \)

וכופלים ב-21 ומקבלים

\( 42x-23x=105-10 \)

כלומר \( 19x=95 \)

כלומר \( x=\frac{95}{19} \)

זו דוגמה למשוואה מגעילה, מגעילה. זה תרגיל טכני מתיש וחסר טעם וזה לא משהו שאנחנו רוצים לעשות ביום יום. לגלות לכם סוד? כשפתרתי את המשוואה קיבלתי בשיטה הראשונה דווקא \( x=\frac{103}{19} \). איך? סתם טעות מפגרת אי שם במכנה המשותף של \( b \). מה לעשות - כשעושים עבודה של מחשב, קורות טעויות וצריך לבדוק את עצמך בשבע עיניים. זה לא מה שאנחנו רוצים להתעסק בו כאן. לכן מכאן ואילך אני אניח שאם יש לנו משוואה לינארית, היא כבר נתונה בצורה המפושטת שלה (במילים אחרות, המתמטיקה מתחילה כשהחישוב הטכני נגמר).

בואו נעבור עכשיו למשהו קצת יותר מסובך - משוואה עם שני נעלמים. למשל, \( x+y=0 \). מה הפתרון למשוואה הזו? ובכן, \( x=0,y=0 \) הוא בוודאי פתרון. אבל גם \( x=1,y=-1 \) הוא פתרון, וגם \( x=17,y=-17 \) הוא פתרון; בעצם, לכל מספר שנציב ב-\( x \), אם נציב את אותו המספר עם סימן הפוך ב-\( y \) נקבל פתרון; את זה אפשר לכתוב גם כ-\( y=-x \) (זו עדיין משוואה, אבל כאן יותר מובהק האופן שבו ערכו של \( y \) נקבע אחרי שקבענו את ערכו של \( x \)). בקיצור, מה שאנחנו רואים כאן, וזה לא מובן מאליו כלל, הוא שלמשוואה לינארית עם שני משתנים יכולים להיות אינסוף פתרונות. למעשה, תמיד יש לה אינסוף פתרונות, כל עוד אני יכול להציב מספרים ממשיים כלשהם במשתנים והמשוואה לא “מנוונת”, כלומר שני המשתנים באמת מופיעים בה עם מקדם שונה מאפס.

אינסוף פתרונות זה כבר מעניין. מצד אחד, זו קבוצה אינסופית; מצד שני, די בבירור היא לא כוללת את הכל: למשל, \( x=1,y=1 \) הוא לא פתרון של המשוואה \( x+y=0 \). אם כן, לאוסף הפתרונות הזה יש אולי מבנה מעניין שמושרה עליו מעצם העובדה שכל האיברים בו מתוארים על ידי אותה משוואה. אחת ההבחנות המרתקות ביותר במתמטיקה לטעמי היא שיש לאוסף הפתרונות הזה מבנה גאומטרי (ובהכללה, שלאוספי פתרונות של משוואות, גם מסדרים גבוהים יותר, יש מבנה גאומטרי באופן כללי; זה הבסיס של הגאומטריה האלגברית שהיא תחום מתקדם מאוד במתמטיקה). עבור משוואות לינאריות בשני נעלמים המבנה הגאומטרי הוא מהפשוטים שניתן להעלות על הדעת - קו ישר; ועם זאת, כדאי לדבר עליו כמה שיותר מהר גם כי זה פשוט יפה, וגם כי זה יהיה מועיל לאינטואיציה בהמשך, למשל כשנדבר על מערכות של כמה משוואות לינאריות.

לא אוכיח כרגע שאוסף הפתרונות הוא אכן קו ישר, אבל בואו ננסה להבין קצת את האופן שבו המשוואה משפיעה על התכונות של הקו. משוואה לינארית כללית בשני משתנים היא מהצורה \( ax+by=c \) כאשר \( a,b,c \) הם מספרים ממשיים כלשהם, והקו הישר הוא אוסף הנקודות \( \left(x,y\right) \) שהן פתרון של המשוואה. אם \( b\ne0 \) לרוב נוהגים “לנרמל” את המשוואה על ידי חלוקה במקדם של \( y \) והעברת אגפים ואז מקבלים את המשוואה \( y=mx+n \), שבה יש למספרים \( m,n \) משמעות מובהקת למדי: \( m \) הוא השיפוע של הישר (פורמלית, זהו טנגנס הזווית שהישר יוצר עם ציר ה-\( x \)) ו-\( n \) היא נקודת החיתוך של הישר עם ציר \( y \). אם במשוואה המקורית \( b=0 \), כלומר המשוואה היא בעצם מהצורה \( ax=c \), אז עדיין קיבלנו תיאור של ישר: כל זוג \( \left(x,y\right) \) שבו \( x=\frac{c}{a} \) ו-\( y \) הוא בעל ערך כלשהו פותר את המשוואה, ולכן יש לנו כאן ישר אנכי (עם “שיפוע אינסופי” כפי שאוהבים לומר לפעמים). זו הסיבה שלכתוב \( ax+by=c \) זה יותר נוח כשרוצים לעשות טיפול כללי במשוואה, כולל במקרים “מנוונים” שבהם המקדם של \( y \) הוא 0 (זה הופך להיות חשוב יותר כשעוברים לדבר על מערכות של משוואות שבהן לא כל משתנה חייב להופיע בכל המשוואות).

עוד נקודה מעניינת היא ש-\( \left(0,0\right) \) (“ראשית הצירים”) היא פתרון של המשוואה \( ax+by=c \) אם ורק אם \( c=0 \) למשוואה מהצורה \( ax+by=0 \) - כזו שאין בה מספר שונה מאפס שמתרוצץ חופשי ואינו צמוד לאף משתנה - קוראים משוואה הומוגנית. המשוואות הללו יהיו חשובות לנו במיוחד בקרוב.

עכשיו, מצויידים באינטואיציה הגאומטרית הזו, בואו נעבור לנושא שגם הוא עדיין נלמד בבית הספר - מערכת של שתי משוואות בשני נעלמים. כאן נתונות שתי משוואות, והמטרה היא למצוא האם קיים פתרון שנכון עבור שתי המשוואות בו זמנית. דרך החשיבה הגרפית שלנו מקלה מאוד על ההבנה של “מה הולך כאן” - אמרתי כבר שכל משוואה מגדירה קו ישר כלשהו; אז מה שבעצם מבקשים מאיתנו הוא זה - בהינתן שני קווים ישרים, למצוא את נקודות החיתוך שלהם.

אם נלך עם האינטואיציה הגאומטרית, תכף ומייד מתברר שיש רק שלושה מקרים אפשריים: או שהקווים כלל לא נחתכים (הם מקבילים), או שהם בעצם אותו הקו, אולי בתיאור קצת שונה; או שיש בדיוק נקודת חיתוך אחת ויחידה (לא קשה להוכיח פורמלית ששני ישרים שאינם זהים נחתכים לכל היותר בנקודה אחת, כי די בשתי נקודות שדרכן עובר קו כדי לקבוע אותו בצורה יחידה).

דוגמה לשתי משוואות שמגדירות את אותו הקו בתחפושת היא זו:

\( x+y=1 \)

\( 2x+2y=2 \)

המשוואה השניה היא בסך הכל הכפלה של המשוואה הראשונה ב-2, וברור שכל מה שפותר את אחת מהמשוואות יפתור גם את השניה (אם אינם מאמינים, הציבו ותראו מה קורה). למעשה, אם נעביר אגפים ונחלק במקדם של \( y \) נקבל לבסוף עבור שתי המשוואות בדיוק את אותה משוואת ישר: \( y=-x+1 \). כלומר, שתי המשוואות מגדירות ישר שהשיפוע שלו הוא \( -1 \) ונקודת החיתוך שלו עם ציר \( y \) היא 1.

בואו נעבור לדבר על ישרים מקבילים. מה מאפיין ישרים שכאלו? העובדה שהשיפוע שלהם זהה, אך נקודת החיתוך שלהם עם ציר \( y \) (או עם ציר \( x \), אם מדובר על ישרים בעלי שיפוע “אינסופי”) אינה זהה. דוגמה היא במערכת המשוואות הבאה:

\( x+y=0 \)

\( x+y=1 \)

שתי המשוואות מגדירות ישר עם שיפוע \( -1 \), אבל הראשון עובר דרך ראשית הצירים והשני לא. מבט חטוף במשוואה הזו מסייע לנו להבין בקלות שאין לה פתרון - איך ייתכן שהסכום של \( x,y \) יהיה בו זמנית גם 0 וגם 1? אבל לפעמים המצב הוא יותר טריקי מכך.

לסיום, הנה מערכת שבה כל משוואה מגדירה ישר אחר:

\( 2x+y=4 \)

\( x+2y=6 \)

ועכשיו נשאלת השאלה - איך פותרים את זה?

דרך אחת היא ממש לשרטט את הישרים שמתאימים לשתי המשוואות, למצוא את נקודת החיתוך שלהם, ולבדוק מה הקוארדינטות שלה. זו דרך פעולה לגיטימית, אבל קצת מסורבלת. לכן האופן שבו פותרים משוואות כאלו הוא לרוב אלגברי - מבצעים מניפולציה של סמלים, שמתבטאת בפעולות כמו “מעבירים אגף”, “מציבים” וכו’. בואו נתחיל מהצבה, שהיא שיטה שפותרת גם משוואות כלליות יותר (למשל, משוואות ממעלה שניה) ולא ממש נשתמש בה בהמשך: הרעיון בהצבה הוא “לבודד” את אחד המשתנים, כפי שבודדנו את \( y \) עד כה כשרצינו לקבל משוואות של ישרים, ואז להציב את הערך שמצאנו בתוך המשוואה השניה ולפתור אותה כשם שפותרים משוואה במשתנה יחיד. כך למשל, על ידי העברת אגפים מקבלים מהמשוואה הראשונה ש-\( y=4-2x \), ואחרי הצבה במשוואה השניה מקבלים \( x+2\left(4-2x\right)=6 \), שהופך ל-\( x+8-4x=6 \), שהופך ל-\( -3x=-2 \), שהופך ל-\( x=\frac{2}{3} \). עכשיו אפשר להציב את \( x \) חזרה בנוסחה \( y=4-2x \) ולקבל \( y=4-\frac{4}{3}=\frac{8}{3} \). זו שיטה לגיטימית ויעילה מאוד.

השיטה השניה, שאציג עכשיו, היא הרבה יותר “מובנית”. האבחנה שבבסיסה היא זו: אם יש לנו משוואה לינארית כלשהי (לא משנה עם כמה נעלמים), אז אוסף הפתרונות שלה נותר זהה גם אם כופלים את המשוואה במספר קבוע; ואם יש לנו שתי משוואות לינאריות כלשהן, אז כל פתרון עבור שתי המשוואות בו זמנית הוא גם פתרון עבור הסכום של שתי המשוואות. אני לא אומר זאת כרגע במפורש (טוב, בעצם כן) אבל שתי הפעולות הללו - כפל בקבוע, וחיבור שני איברים - הן הפעולות שמגדירות מרחב וקטורי, שהוא האובייקט המרכזי באלגברה לינארית.

בואו נראה איך האבחנה הזו עוזרת לנו. ניקח את המערכת שהצגתי לפני רגע, נכפול את המשוואה הראשונה בה ב-\( -\frac{1}{2} \), ונקבל את המערכת החדשה:

\( -x-\frac{1}{2}y=-2 \)

\( x+2y=6 \)

מובטח לי שהפתרונות של המערכת הזו זהים לפתרונות של המערכת הקודמת. כעת אחבר את שתי המשוואות הללו ואקבל משוואה חדשה:

\( \frac{3}{2}y=4 \)

שממנה נובע מייד ש-\( y=\frac{8}{3} \) והנה כבר פתרתי.

כדי לעשות את החיים קלים יותר, לרוב משלבים את שני השלבים שתיארתי כרגע לשלב אחד: לוקחים את אחת מהמשוואות, ופשוט מחברים לה את המשוואה השניה כשאותה משוואה כבר מוכפלת בקבוע כלשהו. כך למשל אני יכול לפתור את המערכת של קודם על ידי כך שאכפול את המשוואה התחתונה דווקא במינוס 2 ואחבר אותה למשוואה העליונה. אקבל:

\( 0x-3y=-8 \)

\( x+2y=6 \)

עכשיו אפשר לכפול את המשוואה הראשונה בקבוע מתאים ולקבל:

\( 0x+y=\frac{8}{3} \)

\( x+2y=6 \)

ועכשיו אפשר להוסיף למשוואה השניה את המשוואה הראשונה כשהיא מוכפלת במינוס 2, ולקבל:

\( 0x+y=\frac{8}{3} \)

\( x+0y=\frac{2}{3} \)

מה שמעניין כאן (וניסיתי להדגיש עם ה-\( 0x \) וה-\( 0y \) שמופיעים שם) הוא שמבחינה רעיונית, עדיין יש לי כאן מערכת משוואות ולא “פתרון” - על ידי הפעולה החדשה שהמצאתי, של “להוסיף לשורה אחת כפולה של השורה השניה” אני מקבל סדרה של מערכות של משוואות, שכולן בעלות התכונה שיש להן בדיוק את אותו הפתרון. פשוט למרבה המזל, המערכת האחרונה היא ממש, ממש פשוטה ואפשר לקרוא את הפתרון ישר מתוכה.

דרך אחרת לתאר את מה שעשיתי כאן היא זו: הצגתי תהליך שמאפשר להמיר מערכת של משוואות במערכת שקולה, ובסוף התהליך תמיד מגיעים למערכת קנונית פשוטה שבה הפתרון מובן מאליו. השיטה הזו (בכפוף לתיאור קצת יותר פורמלי ומדויק שיבוא בפוסט הבא) נקראת אלימינציה גאוסית וקשה להמעיט בחשיבותה; העובדה שניתן לבצע אותה בפועל מאוד ביעילות היא הבסיס לקלות החישובית של בעיות רבות באלגברה לינארית. לסיום אני רק רוצה להעיר שטרם אמרתי זאת במפורש, אבל באופן שהצגתי לעיל אפשר לפתור מערכת של מספר כלשהו של משוואות לינאריות במספר כלשהו של משתנים; אבל הפירוט יחכה להמשך.

נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ: