ערכים עצמיים - ועכשיו ברצינות

בפוסט הקודם נתתי הקדמה ומוטיבציה כלשהם לנושא של ערכים עצמיים ולכן עכשיו אני מרשה לעצמי לצלול ישר למים. בכל הדיון שלנו אנחנו הולכים לדבר על מרחב וקטורי \( V \) ממימד סופי מעל שדה כלשהו \( \mathbb{F} \). הסופיות של \( V \) היא קריטית כאן; במרחבים ממימד לא סופי הסיפור מסובך פי כמה וכמה ושייך כבר לתחום האנליזה הפונקציונלית. אנחנו מתעניין באופרטורים לינאריים על \( V \) - טרנספורמציות לינאריות \( T:V\to V \). אם עבור וקטור \( v\in V \) שונה מאפס (עוד מעט נבין למה שונה מאפס) וסקלר \( \lambda\in\mathbb{F} \) מתקיים \( T\left(v\right)=\lambda v \) (הפעולה של \( T \) על \( v \) היא פשוט כפל של \( v \) בסקלר \( \lambda \)) אז \( \lambda \) נקרא ערך עצמי של \( T \), ו-\( v \) נקרא וקטור עצמי של \( T \) השייך לערך העצמי \( \lambda \).

אם נקבע בסיס כלשהי \( B \) של \( V \), אפשר להסתכל על המטריצה \( \left[T\right]_{B} \) שמייצגת את \( T \) בבסיס זה. מטריצה זו תקיים \( \left[T\right]_{B}\cdot\left[v\right]_{B}=\lambda\left[v\right]_{B} \), ומכיוון שעבודה עם מטריצות יותר נוחה מעבודה עם טרנספורמציות, זה מוביל אותנו להגדרה הבאה: אם \( A \) מטריצה מעל שדה \( \mathbb{F} \) ו-\( v\in\mathbb{F}^{n} \) הוא וקטור כך ש-\( Av=\lambda v \) עבור \( \lambda\in\mathbb{F} \) כלשהו אז \( \lambda \) הוא ערך עצמי של \( A \) ו-\( v \) הוא וקטור עצמי שלה. זו אותה הגדרה בדיוק כמו עבור \( T \) כללי, אבל עכשיו הדיון הרבה יותר קונקרטי - יש לנו מטריצה \( A \) מסדר \( n\times n \) ווקטור ב-\( \mathbb{F}^{n} \) ומספיק להבין מה קורה איתם כדי להבין את התורה של ערכים עצמיים באופן כללי. אגב, שימו לב שמטריצות לא ריבועיות (כמו גם טרנספורמציות כלליות \( T:V\to W \)) מחוץ למשחק שלנו מלכתחילה כי כדי שפעולה על \( v \) תיתן את \( v \) כפול סקלר אנחנו צריכים להישאר באותו מרחב שממנו התחלנו.

השלב הראשון שלנו הוא זה - נתונה \( A \), מה בכלל הערכים \( \lambda \) שיכולים להיות ערכים עצמיים שלה? האם כל \( \lambda\in\mathbb{F} \) הוא מועמד פוטנציאלי? האם יש אינסוף מהם? התשובה היא פשוטה ויפה - אם \( A \) היא מסדר \( n\times n \) אז יש לה לכל היותר \( n \) ערכים עצמיים, ויש להם אפיון תאורטי פשוט.

התעלול הוא כזה: אם \( Av=\lambda v \) אז על ידי העברת אגפים נקבל \( Av-\lambda v=0 \), ואת המשוואה הזו אפשר לכתוב גם כ-\( \left(A-\lambda I\right)v=0 \) )כאשר \( \lambda I \) היא מטריצה שיש בה \( \lambda \) בכל האלכסון הראשי ואפס בכל מקום אחר; לא קשה לראות ש-\( \left(\lambda I\right)v=\lambda v \)). במילים אחרות, לכל ערך עצמי \( \lambda \) של \( A \), הוקטורים העצמיים שמתאימים ל-\( \lambda \) הם בדיוק הפתרונות של המשוואה ההומוגנית שמוגדרת על ידי \( A-\lambda I \) (ובאופן שקול, הגרעין של הטרנספורמציה שמוגדרת על ידי \( A-\lambda I \)). ובכן, \( v=\overline{0} \) הוא תמיד פתרון למשוואה הזו, בלי קשר ל-\( \lambda \) או ל-\( A \) או לשום דבר (\( A\overline{0}=\overline{0}=\lambda\cdot\overline{0} \)) אז ברור שאנו חייבים לחדד את ההגדרה של ערך עצמי ווקטור עצמי כך ש-\( \overline{0} \) בכלל לא יהיה במשחק; לכן בהגדרה שלמעלה אני דורש שוקטור עצמי יהיה שונה מאפס.

עכשיו, מתי יש למשוואה \( \left(A-\lambda I\right)v=0 \) פתרון שונה מאפס? אם ורק אם המטריצה \( A-\lambda I \) היא לא הפיכה (אם הייתה הפיכה על ידי כפל של המשוואה בהופכי שלה היינו מקבלים \( v=\overline{0} \)). באופן מקרי לחלוטין, לפני פוסט או שניים נתתי קריטריון שמבוסס על דטרמיננטות לכך שמטריצה תהיה לא הפיכה: מטריצה היא לא הפיכה אם ורק אם הדטרמיננטה שלה היא 0. לכן אנו מסיקים ש-\( \left|A-\lambda I\right|=0 \). באותה המידה גם \( \left|\lambda I-A\right|=0 \), ואעדיף לעבוד עם המטריצה הזו מסיבה טכנית קטנה שתתברר בקרוב. כעת, זכרו את המשוואה שהגדירה דטרמיננטה: \( \left|A\right|=\sum_{\sigma}\mbox{sgn}\left(\sigma\right)\prod_{i=1}^{n}A_{i\sigma\left(i\right)} \). לא חייבים להבין לעומק את המשוואה הזו, אלא רק את השורה התחתונה: הדטרמיננטה היא סכום של מכפלות של הכניסות של \( A \). במקרה שלנו, היא סכום של מכפלות של הכניסות של \( \lambda I-A \). יותר מכך - כל מכפלה היא של בדיוק \( n \) כניסות של המטריצה. מכך אפשר להסיק שדרך אחת לכתוב את \( \left|\lambda I-A\right| \) היא בתור פולינום ב-\( \lambda \) ממעלה לכל היותר \( n \): \( \left|\lambda I-A\right|=t_{n}\lambda^{n}+t_{n-1}\lambda^{n-1}+\dots+t_{1}\lambda+t_{0} \).

למעשה, אם חושבים על זה קצת, הפולינום הזה חייב להיות מתוקן, כלומר \( t_{n}=1 \); הסיבה לכך היא שכדי לקבל \( \lambda^{n} \) אנחנו חייבים לכפול את כל המופעים של \( \lambda \) במטריצה \( \left|\lambda I-A\right| \) ולכל המופעים הללו יש מקדם 1 (במטריצה \( A-\lambda I \) יש לכולם מקדם \( -1 \) ולכן עשוי להתקבל \( t_{n}=-1 \) ולכן העדפתי לא להתעסק איתה, למרות שזה לא משנה כלום).

כעת, אם \( \left|\lambda I-A\right|=0 \) זה אומר שמתקיים \( \lambda^{n}+t_{n-1}\lambda^{n-1}+\dots+t_{1}\lambda+t_{0}=0 \), כלומר \( \lambda \) היא פתרון של משוואה פולינומית ממעלה \( n \). מכיוון שהמקדמים במשוואה הזו לא תלויים בכלל ב-\( \lambda \) אלא נקבעים מתוך \( A \) עצמה, אפשר לחשוב על זה כך - \( \lambda \) היא שורש של הפולינום \( p_{A}\left(x\right)=x^{n}+t_{n-1}x^{n-1}+\dots+t_{1}x+t_{0} \). הפולינום הזה נקרא הפולינום האופייני של \( A \), ואפשר פשוט להגדיר אותו בתור \( \left|xI-A\right| \), כלומר לוקחים את הסימבול \( x \) (לא חושבים עליו בתור איבר של \( \mathbb{F} \)), מקבלים את המטריצה \( xI-A \) שהיא ערבוב של אברי \( \mathbb{F} \) והסימבול \( x \), ומפתחים את הדטרמיננטה של זה. מבחינה מתמטית זוהי פעולה חוקית לחלוטין, אם כי בקורס ראשון באלגברה עוד לא ברור עד הסוף מה זה בכלל אומר “הסימבול \( x \)” או זה שהוא אינו שייך ל-\( \mathbb{F} \). זה לא חשוב במיוחד כרגע אז לא אכנס לכך.

הבה ונשים לב לתוצאה שראינו: אם \( \lambda \) הוא ערך עצמי של \( A \), אז \( \lambda \) הוא שורש של הפולינום האופייני \( p_{A}\left(x\right) \). כעת, \( p_{A}\left(x\right) \) הוא פולינום ממעלה \( n \) מעל השדה \( \mathbb{F} \) (מקדמיו הם איברים של \( \mathbb{F} \)), ולכן אפשר לשלוף מהשרוול משפט בסיסי באלגברה: לפולינום ממעלה \( n \) מעל שדה יש לכל היותר \( n \) שורשים. ההוכחה מתבססת על כך שאם \( a \) הוא שורש של \( p\left(x\right) \) אז הפולינום ממעלה ראשונה \( x-a \) מחלק את \( p\left(x\right) \), כלומר \( p\left(x\right)=\left(x-a\right)q\left(x\right) \) כאשר \( q\left(x\right) \) ממעלה קטנה ב-1 ממעלת \( p\left(x\right) \), ואפשר להמשיך כך את ההוכחה באינדוקציה. אם אנחנו לא מעל שדה אז לא מובטח ש-\( x-a \) יחלק את \( p\left(x\right) \), אבל גם לזה לא ניכנס כאן.

מסקנה: למטריצה \( A \) מסדר \( n\times n \) יכולים להיות לכל היותר \( n \) ערכים עצמיים - ובקרוב נראה דוגמאות לכך שלא תמיד יש אפילו את זה, כי לפולינום ממעלה \( n \) לא חייבים להיות \( n \) שורשים שונים. לפני שנראה דוגמאות בואו רק נשלים את הכיוון השני: כל שורש של הפולינום האופייני \( p_{A}\left(x\right) \) חייב להיות ערך עצמי של \( A \), כי כל שורש \( \lambda \) כזה מקיים \( \left|\lambda I-A\right|=0 \) ולכן מובטח שלמשוואה \( \left(A-\lambda I\right)v=0 \) יהיה פתרון לא טריוויאלי.

בקיצור, הראינו כבר תוצאה מעניינת: הערכים העצמיים של \( A \) הם בדיוק השורשים של פולינום מסויים \( p_{A} \) שנקרא “הפולינום האופייני של \( A \)”. מצאנו גם דרך יעילה לחשב את אותו פולינום באמצעות מושג הדטרמיננטה. כעת בואו ונראה כמה דוגמאות במטריצות \( 2\times2 \) שבהן חישוב דטרמיננטה הוא טריוויאלי.

נתחיל מהמטריצה הכי פשוטה: \( I=\left[\begin{array}{cc}1 & 0\\0 & 1\end{array}\right] \). אנחנו יודעים ש-\( Iv=v \) לכל \( v \) ולכן 1 הוא ערך עצמי של \( I \) והוא גם הערך העצמי היחיד שלה. מהו הפולינום האופייני? זהו בדיוק \( \left|\begin{array}{cc}x-1 & 0\\0 & x-1\end{array}\right|=\left(x-1\right)^{2}=x^{2}-2x+1 \). למעשה, דרך ההצגה של \( \left(x-1\right)^{2} \) יותר טובה לנו מזו של \( x^{2}-2x+1 \) כי בה ברור מייד ש-1 הוא שורש של הפולינום, ושהוא השורש היחיד למרות שהפולינום הוא ממעלה 2. בעצם, נראה ש-1 הוא “פעמיים” שורש של \( x^{2}-2x+1 \); את זה אפשר לנסח פורמלית. אומרים ש-\( a \) הוא שורש מריבוי \( k \) של הפולינום \( p\left(x\right) \) אם \( p\left(x\right)=\left(x-a\right)^{k}q\left(x\right) \) כך ש-\( a \) אינו שורש של \( q\left(x\right) \). בניסוח שקול, \( \left(x-a\right)^{k} \) הוא הגורם המקסימלי של \( p\left(x\right) \) מהצורה \( x-a \) בחזקת משהו. בהקשר של ערכים עצמיים, אם \( \lambda \) הוא שורש מריבוי \( k \) של הפולינום האופייני של \( A \) אומרים ש-\( \lambda \) הוא בעל ריבוי אלגברי \( k \). הסיבה לתוספת של “אלגברי” היא שתכף ייכנס לתמונה גם ריבוי גיאומטרי ויש להבדיל בין השניים.

בואו נעבור למטריצה מחוכמת קצת יותר - זו שמייצגת סיבוב ב-90 מעלות. מצאנו בעבר שזוהי המטריצה \( \left[\begin{array}{cc}0 & 1\\-1 & 0\end{array}\right] \), ולכן נקבל את הפולינום האופיניי \( \left|\left[\begin{array}{cc}x & -1\\1 & x\end{array}\right]\right|=x^{2}+1 \). טוב ויפה, מהם השורשים של \( x^{2}+1 \)? ובכן… אה… המ… זה מסובך.

בואו נחשוב רגע על סיבוב ב-90 מעלות של \( \mathbb{R}^{2} \). האם בכלל יש לו וקטורים עצמיים? ודאי שלא. וקטור עצמי פירושו נקודה ב-\( \mathbb{R}^{2} \) שלאחר שמפעילים עליה את הטרנספורמציה עדיין נמצאת על אותו ישר שחיבר אותה קודם לראשית הצירים, רק במרחק שונה, אולי. אבל כאן כל נקודה שאיננה ראשית הצירים בעצמה מסובבת באכזריות 90 מעלות ולכן בוודאי שלא תהיה על אותו ישר אלא ההפך, על ישר שמאונך לישר הקודם (השתמשנו בזה בפוסט הקודם כדי למצוא את המטריצה שמייצגת שיקוף). המסקנה היא שלטרנספורמציה הזו אין בכלל וקטורים עצמיים, וזה משתלב טוב עם ההבחנה שלפולינום האופייני של המטריצה שמייצגת אותה אין שורשים מעל \( \mathbb{R} \).

אלא מה, בואו נזכור ש-\( \mathbb{R} \) הוא שדה שחי בתוך שדה גדול יותר שנקרא \( \mathbb{C} \), המרוכבים, ובתוך השדה הזה יש ל-\( x^{2}+1 \) שורשים: \( i \) ו-\( -i \). פורמלית, \( x^{2}+1=\left(x+i\right)\left(x-i\right) \). אז אם מסתכלים על המטריצה \( \left[\begin{array}{cc}0 & 1\\-1 & 0\end{array}\right] \) לא כמטריצה מעל השדה \( \mathbb{R} \) אלא כמטריצה מעל השדה \( \mathbb{C} \), יש לה שני ערכים עצמיים מריבוי אלגברי 1: \( i \) ו-\( -i \). ואכן, \( \left[\begin{array}{cc}0 & 1\\-1 & 0\end{array}\right]\left[\begin{array}{c}1\\i\end{array}\right]=\left[\begin{array}{c}i\\-1\end{array}\right]=i\left[\begin{array}{c}1\\i\end{array}\right] \) ו-\( \left[\begin{array}{cc}0 & 1\\-1 & 0\end{array}\right]\left[\begin{array}{c}1\\-i\end{array}\right]=\left[\begin{array}{c}-i\\-1\end{array}\right]=-i\left[\begin{array}{c}1\\-i\end{array}\right] \) מה שמראה שאלו אכן ערכים עצמיים, עם וקטורים עצמיים \( \left[\begin{array}{c}i\\-1\end{array}\right] \) ו-\( \left[\begin{array}{c}-i\\-1\end{array}\right] \) בהתאמה. באופן לא מפתיע, הוקטורים העצמיים אינם ממשיים, כלומר אינם איברים של \( \mathbb{R}^{2} \); אם מצמצמים את נקודת המבט שלנו ל-\( \mathbb{R}^{2} \) אכן לא קיימים וקטורים עצמיים.

כעת אתם אולי שואלים את עצמכם איך מצאתי את הוקטורים העצמיים שהתאימו ל-\( i,-i \). אם אנחנו כבר יודעים ש-\( \lambda \) הוא ערך עצמי של \( A \), אז מציאת הוקטורים העצמיים היא פשוטה למדי: הרי אלו בדיוק הוקטורים שהם פתרונות לא טריוויאליים למערכת המשוואות \( \left(\lambda I-A\right)x=0 \), ולפתור מערכת משוואות כזו - זה היה הדבר הראשון שעליו דיברנו באלגברה לינארית. זה גם בדיוק האופן שבו מצאתי את הוקטורים העצמיים שלעיל: למשל, עבור הערך העצמי \( i \), התבוננתי במטריצה \( \left[\begin{array}{cc}i & -1\\1 & i\end{array}\right] \), דירגתי אותה וקיבלתי \( \left[\begin{array}{cc}1 & i\\0 & 0\end{array}\right] \) ומכאן שהפתרון הכללי הוא מהצורה \( \left(-it,t\right) \); על ידי הצבת \( t=i \) מקבלים את הפתרון \( \left[\begin{array}{c}1\\i\end{array}\right] \) שבו השתמשתי, אבל באותה מידה גם \( \left[\begin{array}{c}-i\\1\end{array}\right] \) יהיה וקטור עצמי עבור הערך העצמי \( i \).

באופן כללי, לכל ערך עצמי \( \lambda \), אוסף כל הוקטורים העצמיים שמתאימים ל-\( \lambda \) מהווה תת-מרחב וקטורי של \( \mathbb{F}^{n} \). זה נובע מכך שזהו בדיוק אוסף הפתרונות של מערכת משוואות הומוגנית, אבל אפשר גם לראות את זה ישירות מההגדרה (אם \( Av=\lambda v \) וגם \( Au=\lambda u \) אז \( A\left(\tau v+\rho u\right)=\tau Av+\rho Au=\lambda\left(\tau v+\rho u\right) \)). המרחב הזה נקרא המרחב העצמי השייך לערך העצמי \( \lambda \). בדוגמאות של מטריצת הסיבוב המרחבים העצמיים היו ממימד 1, אבל בדוגמה של מטריצת היחידה, למרות שלא אמרתי זאת במפורש, המרחב הוא ממימד 2 (הוא נפרש על ידי איזה שני וקטורים בלתי תלויים שרק תרצו, כי כולם וקטורים עצמיים של \( I \)). עבור ערך עצמי \( \lambda \), המימד של המרחב העצמי שמתאים ל-\( \lambda \) נקרא הריבוי הגיאומטרי של \( \lambda \). למה גיאומטרי? כי מרחבים וקטוריים ומימד וכל זה הם, או לפחות אמורים להיות, מושגים גיאומטריים באופיים (ריבוי אלגברי מגיע מדרגה של פולינום, ריבוי גיאומטרי ממימד של מרחב).

יפה, אז ל-\( \lambda \) יש גם ריבוי אלגברי וגם ריבוי גיאומטרי, ולכן נשאלת מייד השאלה מה הקשר ביניהם. התשובה היא שהריבוי האלגברי של \( \lambda \) הוא תמיד גדול או שווה לריבוי הגיאומטרי, אבל בהחלט ייתכן מצב שבו הם לא שווים. בואו נראה דוגמה - המטריצה \( \left[\begin{array}{cc}1 & 1\\0 & 1\end{array}\right] \). חישוב מהיר מוצא שהפולינום האופייני שלה הוא \( \left|\begin{array}{cc}x-1 & -1\\0 & x-1\end{array}\right|=\left(x-1\right)^{2} \) ולכן 1 הוא ערך עצמי מריבוי אלגברי 2, בדיוק כמו עם מטריצת היחידה; אבל המרחב העצמי שמתאים ל-1 הוא מרחב הפתרונות של המשוואה \( \left[\begin{array}{cc}0 & 1\\0 & 0\end{array}\right]\left[\begin{array}{c}x\\y\end{array}\right]=\left[\begin{array}{c}0\\0\end{array}\right] \) שהוא ממימד אחד: \( \left(t,0\right) \) הוא הפתרון הכללי של המשוואה, ואין פתרונות מצורה אחרת. במילים אחרות, המימד הגיאומטרי של הערך העצמי 1 הוא 1.

תכף נראה איך מוכיחים את המשפט על הקשר בין הריבוי האלגברי והגיאומטרי, אבל קודם כל בואו נחזור לדבר על טרנספורמציות לינאריות. כל הדיון שהתקיים עד כה תקף באותה המידה בשבילן: יש להן ערכים עצמיים, ווקטורים עצמיים, ולכל ערך עצמי יש ריבוי גאומטרי ואלגברי וכן הלאה. דרך פשוטה לגלות את הערכים העצמיים של טרנספורמציה לינארית \( T \) היא פשוט לקחת בסיס כלשהו \( B \), להסתכל על המטריצה \( \left[T\right]_{B} \), ולמצוא את הערכים העצמיים והוקטורים העצמיים שלה. די בבירור \( v \) הוא וקטור עצמי של \( T \) אם ורק אם \( \left[v\right]_{B} \) הוא וקטור עצמי של \( \left[T\right]_{B} \) עם אותו ערך עצמי; למשל, אם נניח ש-\( v \) הוא וקטור עצמי של \( T \) אז \( \left[T\right]_{B}\left[v\right]_{B}=\left[Tv\right]_{B}=\left[\lambda v\right]_{B}=\lambda\left[v\right]_{B} \) ומכאן עולה ש-\( \left[v\right]_{B} \) הוא אכן וקטור עצמי של \( \left[T\right]_{B} \) עם אותו ערך עצמי, וגם הכיוון ההפוך זהה.

מבלי לשים לב, בעצם אנחנו אומרים כאן משהו לא טריוויאלי עד כדי כך - לכל המטריצות שמייצגות את אותה טרנספורמציה לינארית \( T \) יש בדיוק את אותם ערכים עצמיים! ובאופן דומה - לכל הטרנספורמציות שמיוצגות בידי אותה מטריצה יש בדיוק אותם ערכים עצמיים. שימו לב שאותם ערכים עצמיים לא אומר שאלו גם אותם וקטורים עצמיים; זאת מכיוון שהוקטורים העצמיים של המטריצות שמתאימות ל-\( T \) הם וקטורי הקואורדינטות של הוקטורים העצמיים של \( T \), ולכן תלויים בבסיס ובבסיסים שונים יתקבלו וקטורי קואורדינטות שונים.

אפשר גם לשכוח לרגע מ-\( T \) ולנסח את הטענה כך: למטריצות דומות יש אותם ערכים עצמיים. כזכור, \( A,B \) דומות אם קיימת מטריצה הפיכה \( P \) כך ש-\( P^{-1}AP=B \). בעזרת התכונה הזו גם קל להוכיח שלמטריצות דומות יש למעשה אותו פולינום אופייני; זה פשוט החישוב הבא:

\( \left|xI-B\right|=\left|P^{-1}xIP-P^{-1}AP\right|=\left|P^{-1}\left(xI-A\right)P\right|=\left|P^{-1}\right|\left|xI-A\right|\left|P\right|=\left|xI-A\right| \)

כאן אנו משתמשים בכך ש-\( xI=P^{-1}xIP \) כי מטריצת היחידה מתחלפת בכפל עם כל מטריצה אחרת, כמו גם בכך ש-\( \left|P^{-1}\right|=\left|P\right|^{-1} \).

כעת, כאשר התעסקנו בפוסט הקודם עם הטרנספורמציה של שיקוף התחלנו מכך שמצאנו שני וקטורים עצמיים של הטרנספורמציה, ואז שמנו לב שבבסיס שכולל את הוקטורים העצמיים הללו, המטריצה שמייצגת את הטרנספורמציה היא פשוטה במיוחד. זה נכון באופן כללי. בואו נתחיל מהאבחנה הבאה: אם \( B=\left\{ v_{1},\dots,v_{n}\right\} \) הוא בסיס כלשהו ל-\( V \) כך ש-\( v_{i} \) הוא וקטור עצמי של \( T \) שמתאים לערך העצמי \( \lambda \), מהי העמודה ה-\( i \) במטריצה \( \left[T\right]_{B} \)? העמודה הזו היא וקטור הקואורדינטות של \( T\left(v_{i}\right) \) על פי הבסיס \( B \), אבל מכיוון ש-\( T\left(v_{i}\right)=\lambda v_{i} \) קיבלנו ש-\( \lambda v_{i} \) היא בדיוק ההצגה של \( T\left(v_{i}\right) \) בבסיס \( B \), כלומר העמודה הזו כוללת \( \lambda \) בשורה ה-\( i \) ואפס בכל מקום אחר. ומכאן שאם \( B \) הוא בסיס שכולו מורכב מוקטורים עצמיים של \( T \), אז המטריצה שמייצגת את \( T \) בבסיס הזה היא אלכסונית, כשהאיברים על האלכסון הם בדיוק הערכים העצמיים של \( T \). ובניסוח עבור מטריצות: אם עבור מטריצה \( A \) קיים בסיס ל-\( \mathbb{F}^{n} \) שמורכב כולו מוקטורים עצמיים של \( A \), אז \( A \) דומה למטריצה אלכסונית שאברי האלכסון שלה הם הערכים העצמיים של \( A \).

די מובן מאליו שגם הכיוון השני נכון, כלומר אם ל-\( T \) יש בסיס שבו היא מיוצגת על ידי מטריצה אלכסונית אז הערכים על האלכסון הם הערכים העצמיים של \( T \) ווקטורי הבסיס הם הוקטורים העצמיים המתאימים (למה? ובכן, פשוט כפלו את המטריצה המייצגת הזו בוקטורי הקואורדינטות שמתאימים לבסיס ותראו מה קורה). זה אומר שמצאנו קריטריון שמכסה את כל המקרים שבהם \( T \) מיוצגת על ידי מטריצה אלכסונית; הקריטריון הזה קשור קשר הדוק למושגי הערכים והוקטורים העצמיים - “ל-\( V \) יש בסיס של וקטורים עצמיים של \( T \)”. נותר להבין מתי קיים בסיס כזה.

עכשיו אפשר להוכיח שהריבוי האלגברי של ערך עצמי תמיד גדול או שווה לריבוי הגאומטרי שלו. נניח של-\( T \) יש ערך עצמי \( \lambda \) עם ריבוי גיאומטרי \( k \). אז יש וקטורים \( v_{1},\dots,v_{k} \) שכולם בלתי תלויים לינארית וכולם וקטורים עצמיים שמתאימים ל-\( \lambda \). כעת אפשר להשלים את הקבוצה \( v_{1},\dots,v_{k} \) לבסיס \( v_{1},\dots,v_{n} \) של המרחב \( V \) כולו. המטריצה שמייצגת את \( T \) בבסיס הזה מקיימת את התכונה ש-\( k \) העמודות הראשונות שלה כוללות \( \lambda \) על האלכסון ותו לא. לכן, אם ניקח את המטריצה הזו ונחשב את הפולינום האופייני שלה, נחשב דטרמיננטה של מטריצה שבה \( k \) העמודות הראשונות כוללות \( x-\lambda \) על האלכסון ותו לא. לכן אם נפתח את הדטרמיננטה על פי עמודות (קודם הראשונה, אז השנייה וכן הלאה) נקבל שהפולינום האופייני הוא מכפלה של \( \left(x-\lambda\right)^{k} \) בעוד משהו; בפרט זה מצביע על כך שהריבוי האלגברי של \( \lambda \) הוא לפחות \( k \), מה שמסיים את ההוכחה.

נותרה לנו רק עוד אבחנה אחת לפני שנגיע לפאנץ’: וקטורים עצמיים המתאימים לערכים עצמיים שונים הם בלתי תלויים לינארית. למה הכוונה? לכך שאם מתקיים \( v_{1}+\dots+v_{k}=0 \), כאשר כל \( v_{i} \) מקיים \( T\left(v_{i}\right)=\lambda_{i} \) וכל ה-\( \lambda_{i} \) שונים אלו מאלו, אז \( v_{1}=\dots=v_{k}=0 \) (אפשר גם לנסח את הקריטריון באופן שקול עם צירוף לינארי רגיל עם מקדמים וכדומה אבל זה מיותר - למה?)

האינטואיציה הראשונית היא לומר “אוקיי, בואו נפעיל את \( T \) על שני אגפי השוויון”. מה שמקבלים הוא \( \sum\lambda_{i}v_{i}=0 \) (כי \( T\left(0\right)=0 \)) אבל זה לא ממש עוזר לנו. מצד שני, מה יש לנו לעשות חוץ מלהפעיל את \( T \) על סכום הוקטורים? ובכן, אנחנו יכולים לעשות דבר כזה - להפעיל את \( T \) כמה פעמים; לכפול את המשוואה שנקבל בסקלר; ולחבר משוואות כאלו. את כל זה אפשר לתאר באופן הקומפקטי הבא: אם \( p \) הוא פולינום כלשהו מעל \( \mathbb{F} \), אז אפשר להגדיר טרנספורמציה לינארית חדשה \( p\left(T\right) \) שמתקבלת מ”הצבה” של \( T \) בפולינום. למשל, אם \( p\left(x\right)=x^{3}+3x-1 \) אז \( p\left(T\right)=T^{3}+3T-I \). כעת זה תרגיל פשוט להראות שאם \( v_{i} \) הוא וקטור עצמי של \( T \) עם ערך עצמי \( \lambda_{i} \) אז \( p\left(T\right)\left(v_{i}\right)=p\left(\lambda_{i}\right)v_{i} \). מסקנה: לכל פולינום \( p \) שרק נרצה, נוכל לקבל את המשוואה \( \sum p\left(\lambda_{i}\right)v_{i}=0 \).

כעת משתמשים בתעלול חזק ונפוץ ביותר במתמטיקה: לכל \( i \) נמצא פולינום \( p_{i} \) שמקיים \( p_{i}\left(\lambda_{j}\right)=\delta_{ij} \), כלומר הוא 1 על \( \lambda_{i} \) ו-0 על \( \lambda_{j} \) לכל \( j\ne i \) (מבין המספר הסופי של הערכים העצמיים הקיימים; אם היו אינסוף ערכים עצמיים כל הטענה הזו הייתה הולכת לעזאזל). הדרך למצוא פולינום כזה היא באמצעות אינטרפולציה - בנייה של פולינום על בסיס כמה נקודות ספציפיות שלו שידועות. מבלי להיכנס כרגע לאופן שבו מבצעים אינטרפולציות באופן כללי, הנה פולינום שכזה: \( p_{i}\left(x\right)=\prod_{j\ne i}\frac{x-\lambda_{j}}{\lambda_{i}-\lambda_{j}} \). כעת, אם נשתמש במשוואה \( \sum p\left(\lambda_{i}\right)v_{i}=0 \) עם \( p=p_{i} \) נקבל מייד \( v_{i}=0 \) לכל \( i \), כפי שרצינו.

ועכשיו אני יכול לנסח חד משמעית את המשפט האחרון והמרכזי בפוסט הזה: מטריצה \( A \) היא לכסינה (ובהתאמה, טרנספורמציה לינארית \( T \) היא בעלת ייצוג שהוא מטריצה אלכסונית) מעל שדה \( \mathbb{F} \) אם ורק אם כל הערכים העצמיים שלה נמצאים ב-\( \mathbb{F} \), והריבוי האלגברי של כל אחד מהם שווה לריבוי הגיאומטרי שלו. למי ש”כל הערכים העצמיים שלה נמצאים בשדה” נשמע לו מעורפל מדי, אפשר להחליף אותו ב”סכום הריבויים האלגבריים של כל הערכים העצמיים הוא \( n \)”, כאשר \( n \) הוא סדר המטריצה או מימד המרחב שעליו \( T \) פועלת.

את זה שאם מטריצה היא לכסינה התכונה הזו מתקיימת כבר ראינו (וגם אם לא, להוכיח את מה שלא אמרתי במפורש זה קל מאוד ומהווה אימון טוב). נשאר רק לקשר בין זה שהריבוי הגיאומטרי שווה לריבוי האלגברי ובין זה שיש למרחב כולו בסיס של וקטורים עצמיים. אבל זה כמעט מיידי: אם לכל ערך עצמי \( \lambda_{i} \) מריבוי \( k_{i} \) יש \( k_{i} \) וקטורים עצמיים בלתי תלויים לינארית ומתקיים \( \sum k_{i}=n \), אז אפשר לבנות למרחב כולו בסיס שמורכב מאיחוד קבוצות של וקטורים עצמיים בלתי תלויים עבור כל אחד מה-\( \lambda_{i} \). זו תהיה קבוצה מגודל \( n \). עכשיו, ברשותכם, קצת אינדקסים: נסמן ב-\( \left\{ v_{1}^{i},\dots,v_{k_{i}}^{i}\right\} \) קבוצה של \( k_{i} \) וקטורים עצמיים בלתי תלויים של \( \lambda_{i} \). אנחנו רוצים לראות שאיחוד כל הקבוצות הללו הוא בלתי תלוי לינארית, אז בואו ניקח צירוף לינארי ששווה לאפס של כולם: \( \sum_{i=1}^{t}\sum_{j=1}^{k_{i}}\tau_{ij}v_{j}^{i}=0 \). כעת, שימו לב ש-\( u_{i}=\sum_{j=1}^{k_{i}}\tau_{ij}v_{j}^{i} \) הוא גם כן וקטור עצמי של \( \lambda_{i} \) (כי צירופים לינאריים של וקטורים עצמיים השייכים לאותו ערך עצמי הם וקטורים עצמיים של אותו ערך עצמי) ולכן אפשר לכתוב את הסכום הזה כ-\( \sum_{i=1}^{t}u_{i}=0 \), והוכחנו זה עתה שנובע מכך ש-\( u_{1}=\dots=u_{t}=0 \). כעת, אם \( \sum_{j=1}^{k_{i}}\tau_{ij}v_{j}^{i}=0 \) אז \( \tau_{ij}=0 \) לכל \( \tau_{ij} \) שכן לכל \( \lambda_{i} \) לקחנו אוסף וקטורים שהם עצמם בלתי תלויים לינארית. זהו זה.

דרך קצת יותר ציורית לתאר את המשפט הזה היא זו: מטריצה היא לכסינה אם יש לה מספיק ערכים עצמיים ב-\( \mathbb{F} \) (סכום הריבויים האלגבריים שווה \( n \)) ומספיק וקטורים עצמיים בלתי תלויים ב-\( \mathbb{F}^{n} \) (סכום הריבויים הגיאומטריים הוא \( n \)). אם נעצור ונסתכל אחורה נראה שעברנו בפוסט הזה כברת דרך לא קטנה, אבל הסיפור רק מתחיל.

נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ: