טרנספורמציות לינאריות

עד עכשיו בפוסטים על אלגברה לינארית דיברתי על מרחבים וקטוריים, כלומר על אובייקט מתמטי שמקיים תכונות מסויימות. השלב הבא במתמטיקה הוא לרוב לבדוק אילו מניפולציות אפשר להפעיל על האובייקט הזה שעדיין מותירות את הסדר הפנימי בו על כנו במובן מסויים. באלגברה לינארית המניפולציות הללו נקראות טרנספורמציות לינאריות. לפני שאתן את ההגדרה, הכי פשוט להציג את הדוגמה הקלאסית: חשבו על \(\mathbb{R}^{3}\), עליו ניתן לחשוב גם פשוט בתור המרחב האוקלידי התלת-ממדי הרגיל. מניפולציות שאפשר לעשות על המרחב הזה הן סיבוב בזווית כלשהי סביב ציר, שיקוף ביחס לציר כלשהו, ניפוח או כיווץ של המרחב, והזזה. אני מדבר על מניפולציות על כל המרחב, אבל הן מן הסתם ישפיעו באותו האופן גם על תת-קבוצה שלו, כך שאם יש לנו במרחב רק דגם של בית, ואנחנו מסובבים את כל המרחב, גם הדגם של הבית יסתובב בהתאם. זה מה שקורה בתוכנות גרפיקה תלת-ממדיות: עובדים עם איזו גרסה סופית של \(\mathbb{R}^{3}\) ומפעילים עליה בדיוק את הטרנספורמציות שתיארתי לעיל. עם זאת, כמובן שבפועל המצב קצת יותר בעייתי - נראה בהמשך הפוסט שהזזה היא לא באמת טרנספורמציה לינארית על פי ההגדרה שלנו.

אם כן, מהי טרנספורמציה לינארית? בראש ובראשונה זוהי פונקציה: פונקציה \(f\) מקבוצה \(A\) אל קבוצה \(B\) (מה שמסומן לרוב ב-\(f:A\to B\)) היא התאמה שלכל איבר ב-\(A\) (שנקרא התחום של הפונקציה) מחזירה איבר ב-\(B\) (שנקרא הטווח של הפונקציה). למשל, הפונקציה \(f:\mathbb{R}\to\mathbb{R}\) שמוגדרת על ידי הכלל \(f\left(x\right)=x^{2}\), כלומר היא מעלה בריבוע את המספר שהיא מופעלת עליו. מכיוון שריבוע של מספר ממשי הוא תמיד אי שלילי, אפשר היה לכתוב אותה גם כ-\(f:\mathbb{R}\to\mathbb{R}^{+}\) כאשר \(\mathbb{R}^{+}\) מתאר רק את הממשיים האי שליליים.

הדוגמה הזו מצביעה על כך שהטווח של פונקציה הוא מושג "גמיש" - הוא יכול להיות קבוצה שכוללת גם איברים שהפונקציה כלל לא מעבירה אליהם אף איבר של התחום. הקבוצה של כל האיברים בטווח שאכן מופיעים כפלט של הפונקציה עבור קלט כלשהו מהתחום נקראת התמונה של הפונקציה ומסומנת לרוב בתור \(\text{Im}f\) (\(\text{Im}\) מלשון Image). אם הטווח של פונקציה שווה לתמונה שלה אומרים שהפונקציה היא על. כלומר, \(f\left(x\right)=x^{2}\) היא על אם חושבים עליה כפונקציה \(f:\mathbb{R}\to\mathbb{R}^{+}\), אבל היא לא על אם חושבים עליה כפונקציה \(f:\mathbb{R}\to\mathbb{R}\). קצת מבלבל, אני יודע.

בואו נראה עוד דוגמה: \(f:\mathbb{R}^{2}\to\mathbb{R}^{2}\) שמוגדרת על ידי \(f\left(\left(x,y\right)\right)=\left(x,-y\right)\) היא פונקציה שלכל נקודה ב-\(\mathbb{R}^{2}\) מחזירה את השיקוף שלה ביחס לציר \(x\). הפונקציה הזו היא די בבירור על (נסו להוכיח זאת לעצמכם). עוד דוגמה היא הפונקציה \(f:\mathbb{R}\to\mathbb{N}\) שמוגדרת על ידי \(f\left(x\right)=\left[\left|x\right|\right]\) - לוקחים את הערך המוחלט של \(x\) (עבור ממשיים זה פשוט \(x\) בלי סימן המינוס אם היה כזה), ואז לוקחים את הערך השלם של התוצאה - המספר השלם הקרוב ביותר ל-\(\left|x\right|\). הסיבה שאני מביא את הפונקציה הזו היא כדי להמחיש שהתחום והטווח יכולים להיות שונים.

עם זאת, גם הדוגמה שלמעלה לא מבהירה עד כמה התחום והטווח יכולים להיות שונים, כי הטבעיים הם בכל זאת תת קבוצה של הממשיים. אז בואו נחשוב על פונקציית הגימטריה: פונקציה שלוקחת מילה (רצף סופי של תווים מהא"ב העברי) ומחזירה מספר שהוא הערך הגימטרי שלו. כאן התחום הוא "קבוצת כל המחרוזות הסופיות עם תווים בעברית" והטווח הוא \(\mathbb{N}\). הסיבה שאני מדגיש שהתחום והטווח יכולים להיות שונים באופיים היא שעוד מעט נדבר בדיוק על טרנספורמציות לינאריות בין מרחבים וקטוריים שונים באופיים, לכאורה.

הפונקציות שהצגתי עד כה היו "חופשיות" למדי באופיין - לא באמת דרשתי מהן דרישות אלא רק אמרתי מה הן עושות. טרנספורמציה לינארית היא פונקציה \(T:V\to W\) (השימוש ב-\(T,S\) וכדומה עבור טרנספורמציות לינאריות הוא סטנדרטי) עם הדרישות הנוספות ש-\(V,W\) יהיו שניהם מרחבים וקטוריים מעל אותו שדה \(\mathbb{F}\), וש-\(T\) "תכבד" את הפעולות של \(V,W\). פורמלית זה אומר שצריך להתקיים:

\(T\left(v+u\right)=T\left(v\right)+T\left(u\right)\) לכל \(v,u\in V\).
\(T\left(\lambda v\right)=\lambda T\left(v\right)\) לכל \(v\in V\) ו-\(\lambda\in\mathbb{F}\).

מה קורה כאן? התנאי הראשון, בניסוח מילולי, אומר "נניח שיש לך שני איברים ב-\(V\): זה לא משנה אם קודם תחבר אותם ואז תפעיל את \(T\) על התוצאה, או אם קודם תפעיל את \(T\) עליהם בנפרד ואז תחבר את התוצאות", והתנאי השני אומר "נניח שיש לך איבר ב-\(V\): זה לא משנה אם קודם תכפול אותו בסקלר ואז תפעיל את \(T\) על התוצאה או אם קודם תפעיל את \(T\) עליו ואז תכפול את התוצאה באותו סקלר". במובן מסויים זה אומר ש-\(T\) מתחלפת עם הפעולות של חיבור ושל כפל בסקלר.

בואו נראה דוגמה פשוטה - ראינו כבר כי המרחב \(\mathbb{R}_{2}\left[x\right]\) של פולינומים ממעלה קטנה מ-2 עם מקדמים ממשיים "נראה כמו" המרחב \(\mathbb{R}^{2}\), וכעת אפשר לתת לכך משמעות מדוייקת: נגדיר טרנספורמציה \(T:\mathbb{R}_{2}\left[x\right]\to\mathbb{R}^{2}\) שמוגדרת על ידי \(T\left(ax+b\right)=\left(a,b\right)\), ולא קשה לראות שתכונות 1 ו-2 אכן מתקיימות על ידה. אמרתי בשעתו ש-\(T\) היא לא יותר מאשר "לשנות את הסימון" - במקום לסמן איבר ב-\(ax+b\) אני מסמן אותו ב-\(\left(a,b\right)\), אבל המהות נותרת זהה: חיבור שני פולינומים וחיבור שני וקטורים ב-\(\mathbb{R}^{2}\) זה אותו הדבר, וזה נובע מכך ש-\(T\) מכבד את פעולת החיבור.

ועכשיו בואו נראה למה "הזזה" אינה טרנספורמציה לינארית: הזזה לדוגמה היא פונקציה \(f:\mathbb{R}^{2}\to\mathbb{R}^{2}\) שמוגדרת על ידי \(f\left(\left(a,b\right)\right)=\left(a+2,b\right)\). כלומר, אנחנו מזיזים ב-2 יחידות בכיוון החיובי של ציר \(x\). חיש קל רואים איך הכל מתרסק: \(f\left(0\cdot\left(0,0\right)\right)=\left(2,0\right)\), אבל \(0\cdot f\left(\left(0,0\right)\right)=0\), כך שהזזה לא מקיימת את תכונה 2 (ואם נטרח לבדוק נראה שגם תכונה 1 לא מתקיימת). יש מובן כלשהו שבו הזזה היא "כמעט" טרנספורמציה לינארית אבל לא ניכנס אליו כעת.

בדוגמה שנתתי למעלה עם הפולינומים יש עוד שתי תכונות חשובות ש-\(T\) מקיימת: היא על, והיא גם חד-חד ערכית (חח"ע). חד-חד ערכית פירושו ש-\(T\) מעבירה קלטים שונים לפלטים שונים: אין שני קלטים של \(T\) שנותנים את אותו הפלט. שתי התכונות הללו מבטיחות שניתן יהיה להפוך את \(T\): שקיימת טרנספורמציה \(T^{-1}:\mathbb{R}^{2}\to\mathbb{R}_{2}\left[x\right]\) שמבצעת בדיוק את הפעולה ההפוכה לפעולת \(T\). במקרה שלנו הטרנספורמציה הזו היא פשוט \(T^{-1}\left(\left(a,b\right)\right)=ax+b\). טרנספורמציה לינארית שהיא גם הפיכה נקראת איזומורפיזם של התחום והטווח שלה: היא מעידה על כך שהתחום והטווח הם בעצם אותו מרחב וקטורי עד כדי הסימונים שאנו משתמשים בהם.

בואו נראה למה התכונות של על וחח"ע כל כך חשובות לנו כאן. נתבונן בטרנספורמציה \(T:\mathbb{R}^{2}\to\mathbb{R}^{3}\) שמוגדרת על ידי \(T\left(\left(a,b\right)\right)=\left(a,b,0\right)\). לא קשה לראות שתכונות 1+2 מתקיימות (ומכאן ואילך אפסיק לומר את זה; אם אני נותן טרנספורמציה בלי נימוק, תוכיחו לעצמכם שהיא אכן טרנספורמציה) והיא גם חח"ע, אבל אינה על, כי את \(\left(0,0,1\right)\) אי אפשר לקבל, למשל, ולכן גם אין לנו מושג לאן להעביר אותו אם נרצה להגדיר טרנספורמציה הפוכה ל-\(T\). התחושה היא שב-\(\mathbb{R}^{3}\) יש "יותר אינפורמציה" או "יותר חופש" מאשר ב-\(\mathbb{R}^{2}\), אם כי עדיין לא הגענו לשלב שבו אפשר לנסח במדויק מה הולך כאן (טוב, בעצם אפשר - המימד של \(\mathbb{R}^{3}\) גדול מהמימד של \(\mathbb{R}^{2}\) ועוד מעט נראה שאיזומורפיזם משמר מימד).

בכיוון השני, הנה טרנספורמציה אחרת, \(T:\mathbb{R}^{3}\to\mathbb{R}^{2}\) שמוגדרת על ידי \(T\left(\left(a,b,c\right)\right)=\left(a,b\right)\). כאן אנחנו פשוט מוחקים את הקואורדינטה השלישית; זה גורר מייד שהטרנספורמציה אינה חח"ע כי למשל \(T\left(\left(0,0,0\right)\right)=T\left(\left(0,0,1\right)\right)=\left(0,0\right)\). העובדה ש-\(T\) אינה חח"ע אומרת שאנחנו "מאבדים מידע" כשאנו מפעילים אותה; והיא אינה הפיכה כי הפעם אין לנו מושג לאן להעביר את \(\left(0,0\right)\) כי יש לנו יותר מדי אפשרויות ולא ברור במי מהן לבחור (אם נבחר שרירותית להעביר את \(\left(0,0\right)\) אל \(\left(0,0,0\right)\) אז נקבל שאם מפעילים את \(T\) על \(\left(0,0,1\right)\) ואז מפעילים את ה"הופכית" על התוצאה, מקבלים את \(\left(0,0,0\right)\), כלומר לא חזרנו לאיבר שממנו התחלנו).

כל הדיון עד כה היה כללי למדי - במתמטיקה לעתים קרובות מגדירים פונקציה בין שני מבנים ומתעניינים בשאלה אם היא חח"ע ועל. כעת אפשר להכניס לתמונה תוצאה יפהפיה שהיא כולה אלגברה לינארית וקושרת בין "כמה הטרנספורמציה רחוקה מלהיות חח"ע" ובין "כמה הטרנספורמציה היא על".

לצורך כך, הגדרות: \(T\) תהיה טרנספורמציה לינארית \(T:V\to W\). נגדיר את התמונה שלה להיות\(\text{Im}T=\left\{ T\left(x\right)|x\in V\right\} \) (כבר הזכרתי זאת), ונגדיר את הגרעין שלה להיות כל האיברים של \(V\) שהולכים לאפס (לאיבר האפס של \(W\)), \(\ker T=\left\{ x\in V|T\left(x\right)=0\right\} \). שימו לב ש-\(\text{Im}T\) היא תת-קבוצה של \(W\) בעוד \(\ker T\) היא תת-קבוצה של \(V\), ויותר מכך: שתיהן הן תתי-מרחבים של המרחבים שמכילים אותן (גם כאן ההוכחה פשוטה ואותיר אותה לכם). אם הן תתי-מרחבים, אז יש להן מימד, והמשפט אומר בפשטות שאם \(V\) הוא מרחב סוף-ממדי אז מתקיים הקשר הבא:

\(\dim V=\dim\text{Im}T+\dim\ker T\)

כלומר, המימד של התחום \(V\) שווה לסכום ממדי התמונה והגרעין של \(T\), לכל טרנספורמציה לינארית \(T\) ש-\(V\) הוא התחום שלה. אפשר ואולי גם כדאי לחשוב על כך באופן הזה: \(\dim V\) הוא כמות המידע (או חופש) שיש במרחב שמתחילים בו, \(V\). \(\dim\ker T\) הוא כמות המידע ש"הולך לאיבוד" (חשבו על 0 בתור פח זבל שכזה - תכף יתברר למה), ואחרי שזרקנו חלק מהמידע לזבל \(\dim\text{Im}T\) מתאר את כמות המידע שנותר לנו בתמונה. זה הסבר בנפנוף ידיים; כאן ההוכחה היא אחד מהמקרים שבהם מה שנראה אולי מסובך במבט ראשון הופך לטריוויאלי ומובן מאליו. אבל לפני שנוכיח, בואו נבין טרנספורמציות לינאריות קצת יותר טוב.

ראשית, בואו נשכנע אתכם שהגרעין של \(T\) מודד במובן מסויים כמה \(T\) רחוקה מלהיות חח"ע. אם \(u,v\) הם שני וקטורים ששוברים את החח"ע של \(T\) אז מתקיים \(T\left(u\right)=T\left(v\right)\). נעביר אגפים ונקבל \(T\left(u\right)-T\left(v\right)=0\), ובגלל ש-\(T\) היא טרנספורמציה לינארית קיבלנו ש-\(T\left(u-v\right)=0\), כלומר \(u-v\) הוא איבר בגרעין של \(T\). אם "נקפיא" את \(u\) נקבל שקבוצת כל ה-\(v\)-ים כך ש-\(T\left(u\right)=T\left(v\right)\) היא בדיוק הקבוצה \(\left\{ u+k|k\in\ker T\right\} \), כלומר היא בדיוק "הזזה" של הגרעין של \(T\) על ידי חיבור \(u\) אליו. בגלל ש-\(u\) היה וקטור שרירותי לחלוטין, התוצאה מתקיימת לכל איבר במרחב \(V\). מכאן שהחח"ע של \(T\) מופרת בדיוק באותו האופן לכל איבר במרחב, והגרעין של \(T\) מתאר בדיוק את האופן הזה.

לחלקכם הדיון הזה עשוי להישמע מוכר באופן חשוד, ולא במקרה - זה בדיוק מה שדיברנו עליו כשאמרתי שפתרון למערכת משוואות כלשהי ניתן באמצעות חיבור של פתרון פרטי כלשהו של המערכת עם הפתרונות של המשוואה ההומוגנית. עכשיו כבר אפשר לגלות שאם \(A\) היא מטריצה מסדר \(n\times m\) מעל \(\mathbb{F}\) אז היא בפרט מגדירה טרנספורמציה לינארית \(T_{A}:\mathbb{F}^{m}\to\mathbb{F}^{n}\) על ידי \(T_{A}\left(v\right)=A\cdot v\), ו"מרחב הפתרונות של המשוואה ההומוגנית המוגדרת על ידי \(A\)" הוא בדיוק "הגרעין של \(T_{A}\)". העובדה הזו תהיה חשובה למדי בהמשך.

עכשיו הגענו לנקודה שבה אפשר לחבר את מושג הבסיס שעליו דיברנו בפוסט הקודם לטרנספורמציות לינאריות. הפאנץ' הוא שאם יש לנו בסיס \(\left\{ v_{1},\dots,v_{n}\right\} \) למרחב \(V\), אז כדי לדעת איך טרנספורמציה \(T:V\to W\) פועלת על המרחב כולו מספיק לנו לדעת איך היא פועלת על איברי הבסיס ותו לא. הנימוק פשוט, כמעט טריוויאלי: אם \(v\in V\) הוא איבר כלשהו במרחב, אז קיימת לו הצגה יחידה כצירוף לינארי של אברי הבסיס, \(v=\sum\lambda_{i}v_{i}\). מתכונות הטרנספורמציה הלינארית נקבל ש-\(T\left(v\right)=T\left(\sum\lambda_{i}v_{i}\right)=\sum T\left(\lambda_{i}v_{i}\right)=\sum\lambda_{i}T\left(v_{i}\right)\). כלומר, מספיק לדעת את \(T\left(v_{1}\right),\dots,T\left(v_{n}\right)\), ואז התמונה של איבר ב-\(V\) היא צירוף לינארי עם אותם מקדמים שמגדירים את האיבר ב-\(v\), רק שהצירוף הלינארי שמגדיר את התמונה הוא לא על אברי הבסיס אלא על התמונות שלהם.

בואו נראה דוגמה לא טריוויאלית. נתבונן במרחב \(\mathbb{R}^{3}\left[x\right]\) ונגדיר עליו טרנספורמציה לינארית של גזירה \(D:\mathbb{R}^{3}\left[x\right]\to\mathbb{R}^{2}\left[x\right]\): מי שמכיר חדו"א יודע שהנגזרת של הפולינום \(ax^{2}+bx+c\) היא \(2ax+b\). מצד שני, אפשר להגיע לנוסחה גם כך: בסיס ל-\(\mathbb{R}^{3}\left[x\right]\) הוא הקבוצה \(\left\{ 1,x,x^{2}\right\} \), ואת פעולת הנגזרת על האיברים הללו קל לדעת: \(D\left(x^{2}\right)=2x\) ו-\(D\left(x\right)=1\) ו-\(D\left(1\right)=0\). כעת, \(ax^{2}+bx+c\) הוא בעצם צירוף לינארי של שלושת אברי הבסיס, עם המקדמים \(a,b,c\), ולכן \(D\left(ax^{2}+bx+c\right)=aD\left(x^{2}\right)+bD\left(x\right)+cD\left(1\right)=a\cdot2x+b\cdot1+c\cdot0=2ax+b\).

בואו נעבור לדוגמה גאומטרית - סיבוב ב-90 מעלות עם כיוון השעון של \(\mathbb{R}^{2}\). לחשוב איך זה עובד עבור וקטור כללי יכול להיות כאב ראש; אבל די קל לחשוב איך זה עובד עבור שני וקטורים ספציפיים. הראשון, \(\left(1,0\right)\), הוא אופקי לגמרי ומצביע "ימינה", ולכן אחרי סיבוב של 90 מעלות הוא יהיה אנכי לגמרי ויצביע "למטה", ולכן \(T\left(1,0\right)=\left(0,-1\right)\); ואילו השני, \(\left(0,1\right)\), הוא אנכי לגמרי ומצביע "למעלה", ולכן אחרי סיבוב של 90 מעלות הוא יהיה אופקי לגמרי ויצביע "ימינה", כלומר \(T\left(0,1\right)=\left(1,0\right)\).

כעת אפשר לראות את הפעולה הכללית של \(T\): \(T\left(a,b\right)=aT\left(1,0\right)+bT\left(0,1\right)=\left(0,-a\right)+\left(b,0\right)=\left(b,-a\right)\). קיבלנו את הנוסחה הכללית עבור \(T\) באמצעות זה שידענו את פעולת \(T\) על שני וקטורים ספציפיים (שלמרבה המזל מהווים בסיס).

כמו רוב הדברים באלגברה לינארית, גם התוצאה הזו היא דו-צדדית, ועדיין לא הצגתי את הצד המעניין. מצד אחד, זה מגניב ביותר שכל טרנספורמציה לינארית ניתנת לתיאור רק באמצעות פעולתה על אברי הבסיס; אבל מה שבאמת חזק כאן הוא שכל פונקציה ששולחת את אברי הבסיס לתוך מרחב לינארי ניתנת להרחבה יחידה לטרנספורמציה לינארית על \(V\)! שתי התוצאות הללו יחד בעצם מסווגות לנו את כל הטרנספורמציות הלינאריות שיכולות בכלל להתקיים מ-\(V\) לתוך מרחב \(W\) נתון. בואו ננסח את זה פורמלית:

אם \(V\) הוא מרחב עם בסיס \(\left\{ v_{1},\dots,v_{n}\right\} \), אז לכל קבוצה \(\left\{ w_{1},\dots,w_{n}\right\} \) של איברים במרחב \(W\) קיימת טרנספורמציה לינארית יחידה \(T\) כך ש-\(T\left(v_{i}\right)=w_{i}\) לכל \(1\le i\le n\). הטרנספורמציה הזו מוגדרת לכל \(v\in V\) באופן הצפוי הבא: \(v\) ניתן לכתיבה באופן יחיד כ-\(\sum\lambda_{i}v_{i}\) ולכן \(T\left(v\right)=\sum\lambda_{i}w_{i}\). כדאי לחשוב על כך כאילו התחלנו את הגדרת \(T\) מכך שהגדרנו אותה על אברי הבסיס, ואז הרחבנו באופן לינארי את ההגדרה. זה רעיון בסיסי ומהותי במתמטיקה: מגדירים מחלקה מסויימת של פונקציות, ואז מראים שקיימת קבוצה בסיסית כלשהי במרחב כך שדי בהיכרות עם פעולת הפונקציה עליה כדי לדעת איך היא מתנהגת בכל המרחב. דוגמה בלתי קשורה בעליל מגיעה מאנליזה מרוכבת, שם פונקציה אנליטית נקבעת באופן יחיד ("המשכה אנליטית") על בסיס ערכיה על קבוצה פתוחה במרחב.

כעת אפשר להוכיח את המשפט המרכזי של הפוסט. כזכור, הוא אומר שמתקיים \(\dim V=\dim\text{Im}T+\dim\ker T\). אם כן, תהא \(T\) טרנספורמציה לינארית \(T:V\to W\). כדי להבין את \(T\) נרצה לקחת בסיס ל-\(V\), אבל לא סתם בסיס; נבחר את הבסיס שיהיה הכי טוב עבורנו. נתחיל מ-\(\ker T\): הוא תת-מרחב של \(V\) ולכן גם לו יש בסיס \(u_{1},\dots,u_{r}\) (כאן \(r=\dim\ker T\)). כעת, את הבסיס הזה, שהוא קבוצה בלתי תלויה לינארית ב-\(V\), אפשר להשלים לבסיס \(\left\{ u_{1},\dots,u_{r},v_{1},\dots,v_{m}\right\} \) של \(V\), ומתקיים הקשר \(r+m=\dim V\) (הרי \(\dim V\) הוא בדיוק גודל של בסיס), כלומר \(\dim V=\dim\ker T+m\). כל מה שנשאר לעשות, אם כן, הוא להשתכנע שמימד התמונה של \(T\) הוא בדיוק \(m\). לצורך כך די להוכיח ש-\(T\left(v_{1}\right),\dots,T\left(v_{m}\right)\) מהווים בסיס לתמונה של \(T\).

איך מראים שקבוצה היא בסיס? צריך להראות שהיא בלתי תלויה, ושהיא פורשת. זה שהיא פורשת זה די מובן מאליו: איבר כללי בתמונה של \(T\) הוא מהצורה \(T\left(v\right)\) כך ש-\(v\in V\). את אותו \(v\) אפשר לכתוב כ-\(v=\sum_{i=1}^{r}\tau_{i}u_{i}+\sum_{j=1}^{m}\lambda_{j}v_{j}\) (זה צירוף לינארי של אברי הבסיס, אבל אני מבדיל בין אותם אברי בסיס שהיו שייכים במקור לגרעין וכל היתר). כעת, \(T\left(u_{i}\right)=0\) לכל ה-\(u_{i}\)-ים ולכן \(T\left(v\right)=\sum\tau_{i}T\left(u_{i}\right)+\sum\lambda_{j}T\left(v_{j}\right)=\sum\lambda_{j}T\left(v_{j}\right)\). במילים אחרות, \(T\left(v\right)\) הוא צירוף לינארי של \(T\left(v_{j}\right)\) בלבד; כל ה-\(u_{i}\)-ים נזרקים לזבל. הם הולכים לאפס, שלא משפיע על התוצאה הסופית. זו הנקודה שבה האינפורמציה הולכת לאיבוד.

נשאר להראות ש-\(T\left(v_{1}\right),\dots,T\left(v_{m}\right)\) היא קבוצה בלתי תלויה, ולשם כך מספיק להראות שאם \(\sum\lambda_{j}T\left(v_{j}\right)=0\) אז כל המקדמים הם אפס. מכיוון ש-\(\sum\lambda_{j}T\left(v_{j}\right)=T\left(\sum\lambda_{j}v_{j}\right)\), הרי שאם \(\sum\lambda_{j}T\left(v_{j}\right)=0\) נובע מכך ש-\(\sum\lambda_{j}v_{j}\) הוא איבר בגרעין של \(T\). מצד שני, אם הוא איבר בגרעין אז יש לו גם הצגה בתור \(\sum\tau_{i}u_{i}\), כי ה-\(u\)-ים הם בסיס לגרעין; ומכיוון שכל איבר ניתן להצגה יחידה כצירוף לינארי של אברי הבסיס, אז בהכרח \(\sum\lambda_{j}v_{j}\) ו-\(\sum\tau_{i}u_{i}\) היא אותה ההצגה. אבל בהצגה \(\sum\lambda_{j}v_{j}\) המקדמים של ה-\(u\)-ים הם אפס, ובהצגה \(\sum\tau_{i}u_{i}\) המקדמים של ה-\(v\)-ים הם אפס, ולכן כל המקדמים הם אפס, ובפרט ה-\(\lambda\)-ים הם כאלו, כנדרש.

אפשר לתאר את ההוכחה הזו בדרך קצת יותר מובנית, על ידי הכנסת מושג חדש לתמונה. אם \(V\) הוא מרחב וקטורי ו-\(U_{1},U_{2}\) הם שני תת-מרחבים שלו, אפשר להגדיר תת-מרחב חדש \(U_{1}+U_{2}=\left\{ u_{1}+u_{2}|u_{1}\in U_{1},u_{2}\in U_{2}\right\} \) - כלומר, תת-המרחב שכל איבר בו הוא סכום של איבר מ-\(U_{1}\) ואיבר מ-\(U_{2}\) (למה זה תת מרחב?). במקרה שבו האיבר היחיד שמשותף ל-\(U_{1}\) ו-\(U_{2}\) הוא 0 (מסמנים זאת \(U_{1}\cap U_{2}=\left\{ 0\right\} \)) נהוג לסמן את \(U_{1}+U_{2}\) בסימון \(U_{1}\oplus U_{2}\) ולדבר על הסכום הישר של \(U_{1},U_{2}\). סכום ישר גם הוא מושג שחוזר על עצמו רבות במתמטיקה אך לא אביא הגדרה כללית יותר שלו כאן.

החשיבות של סכום ישר כאן היא שכל איבר של \(U_{1}\oplus U_{2}\) ניתן להצגה יחידה (היחידות הזו צצה בכל מקום...) כסכום של איבר מ-\(u_{1}\) ואיבר מ-\(u_{2}\); כדי לראות זאת, נניח ש-\(u_{1}+u_{2}=v_{1}+v_{2}\) הן שתי הצגות שונות כסכום של אותו איבר. אז \(u_{1}-v_{1}=v_{2}-u_{2}\). כעת, \(U_{1}\) הוא תת מרחב שכולל את \(u_{1},v_{1}\) ולכן גם \(u_{1}-v_{1}\) שייך ל-\(U_{1}\); בדומה, \(v_{2}-u_{2}\) שייך ל-\(U_{2}\), ומכיוון שבשני המקרים מדובר על אותו איבר בדיוק, קיבלנו שהוא שייך הן ל-\(U_{1}\) והן ל-\(U_{2}\) ולכן הוא אפס, ולכן \(u_{1}-v_{1}=0\) כלומר \(u_{1}=v_{1}\) ובדומה \(u_{2}=v_{2}\). הנה עוד דוגמה להוכחה מקסימה שבה הכל פשוט מסתדר מעצמו.

לא קשה לראות שהמימד של \(U_{1}\oplus U_{2}\) הוא סכום הממדים של \(U_{1}\) ו-\(U_{2}\); בסיס ל-\(U_{1}\oplus U_{2}\) יהיה פשוט איחוד של הבסיסים של \(U_{1}\) ו-\(U_{2}\), והעובדה שזה בסיס נובעת בקלות מעניין ההצגה היחידה שהוכחתי למעלה.

כעת, את מה שעשיתי בהוכחה למעלה אפשר לתאר כך: כתבתי את \(V\) בתור \(V=\ker T\oplus U\) כאשר \(U\) הוא תת מרחב של \(V\) שהוא איזומורפי ל-\(\text{Im}T\) (שהוא תת-מרחב של \(W\)). עם מה שמכונה Abuse of Notation (כלומר, שימוש בסימון שגוי כדי לתאר רעיון נכון) אפשר לומר שהראיתי ש-\(V=\ker T\oplus\text{Im}T\), ולכן, ממה שאמרתי על מימד של סכום ישר, מובן מאליו מייד ש-\(\dim V=\dim\ker T+\dim\text{Im}T\); אבל כאמור, זו לא הוכחה פורמלית אלא דרך לזכור ולהבין את האינטואיציה.

בפוסט הבא נמשיך לדבר על טרנספורמציות לינאריות, כשהפעם אחתור למה שהוא כבר באמת גביע קדוש - העובדה שטרנספורמציות לינאריות ומטריצות זה בעצם אותו הדבר בדיוק.