השילוש הקדוש, הפולינום המינימלי ומשפט קיילי-המילטון

השילוש הקדוש

בפוסט הקודם דיברנו על ערכים עצמיים ווקטורים עצמיים וראינו שהם קשורים קשר בל ינתק למושג של לכסון מטריצות. אם \( A \) היא מטריצה ריבועית כלשהי, אומרים ש-\( A \) ניתנת ללכסון או לכסינה אם היא דומה למטריצה אלכסונית \( D \) (מטריצה אלכסונית היא מטריצה ריבועית שבה רק הכניסות שעל האלכסון הראשי שונות מאפס), כלומר רק אם יש מטריצה הפיכה \( P \) כך ש-\( P^{-1}AP=D \). ראינו קריטריון שאומר ש-\( A \) היא לכסינה אם ורק אם יש לה “מספיק ערכים עצמיים ומספיק וקטורים עצמיים” - אם ורק אם סכום הריבויים האלגבריים והגיאומטריים של הערכים העצמיים שלה היה \( n \), כש-\( n \) הוא סדר המטריצה.

מכאן ואילך אני רוצה לדבר רק על המקרה שבו סכום הריבויים האלגבריים של הערכים העצמיים הוא \( n \); כזכור, זה קורה אם ורק אם כל הערכים העצמיים של \( A \) נמצאים בתוך השדה \( \mathbb{F} \) שמעליו עובדים. הנקודה החשובה כאן היא שאם יש ל-\( A \) ערכים עצמיים שאינם ב-\( \mathbb{F} \), אפשר להרחיב את השדה \( \mathbb{F} \) על ידי הוספת הערכים העצמיים אליו, ואז הסתכלות על \( A \) מעל השדה הגדול יותר הזה. אחרי שמבינים מה קורה ל-\( A \) מעל השדה הגדול יותר אפשר, אם יש צורך בכך, לחשוב איך אפשר להפיק מהתוצאה הזו מידע על \( A \) מעל \( \mathbb{F} \) בלבד, אבל לא ניכנס לכך כעת. לרוב מניחים כדי למנוע את הדיון הזה על הרחבת שדות ש-\( \mathbb{F} \) הוא מה שנקרא שדה סגור אלגברית - כזה שבו לכל פולינום ממעלה ראשונה ומעלה יש שורש.

יפה. אם כן, מה שמפריע ל-\( A \) להיות לכסינה מעל שדה סגור אלגברית הוא רק זה שאולי אין לה מספיק וקטורים עצמיים בלתי תלויים לינארית. ראינו את הדוגמה של \( \left[\begin{array}{cc}1 & 1\\0 & 1\end{array}\right] \) שמרחב הוקטורים העצמיים שלה הוא ממימד 1. נשאלת השאלה - אם \( A \) לא לכסינה, מה כן אפשר להגיד עליה? האם עדיין יש צורה “כמעט אלכסונית” ש-\( A \) דומה לה? התשובה חיובית (מעל שדה סגור אלגברית!) - \( A \) תמיד דומה למטריצה שהיא כמעט אלכסונית במובן זה שהמקומות היחידים שאינם אפס הם האלכסון הראשי, והאלכסון שמעליו, שבו יכולים להופיע גם 1-ים. לצורה הזו של המטריצה קוראים צורת ז'ורדן שלה. יש לא מעט דרכים להוכיח את המשפט (הלא טריוויאלי) הזה; הדרך המועדפת עלי מבין אלו שאני מכיר מתבססת בכלל על משפט כבד יותר - משפט המבנה של מודולים נוצרים סופית מעל תחומים ראשיים - ומטבע הדברים אני לא הולך להיכנס עכשיו לתורת המודולים. לכן אנסה להראות דווקא הוכחה שהיא קונקרטית ככל האפשר וכמעט ולא דורשת ידע כללי יותר; המחיר של הוכחות כאלו הוא כמעט תמיד סיבוכים טכניים.

הדבר הראשון שאני רוצה להתחיל ממנו הוא לשכנע אתכם בטענה קצת יותר פשוטה מהמשפט של ז’ורדן - כל \( A \) מעל שדה סגור אלגברית דומה למטריצה משולשית עליונה. מטריצה משולשית עליונה היא כזו שבה כל האיברים מתחת לאלכסון הראשי הם 0 (פורמלית, \( A_{ij}=0 \) אם \( i>j \)). המשפט הזה הוא שימושי למדי כי מטריצות משולשיות הן שימושיות - כך למשל חישוב דטרמיננטה שלהן הוא פשוט לכפול את אברי האלכסון הראשי (כי חשבו מה קורה אם מפתחים את הדטרמיננטה לפי העמודה הראשונה, ואז השניה, ואז השלישית וכדומה).

ההוכחה יחסית פשוטה. הרעיון הוא להשתמש בכך שמעל שדה סגור אלגברית, לכל מטריצה \( A \) יש לפחות ערך עצמי אחד (כי לפולינום האופייני של \( A \) יש לפחות שורש אחד). אם יש ל-\( A \) וקטור עצמי \( v \) עם ערך עצמי \( \lambda \), אז אם נשלים את הקבוצה \( \left\{ v\right\} \) לבסיס של \( \mathbb{F}^{n} \), נקבל שהטרנספורמציה ש-\( A \) מייצגת בבסיס הסטנדרטי של \( \mathbb{F}^{n} \) מיוצגת בבסיס שבו \( v \) הוא הוקטור הראשון על ידי מטריצה מהצורה \( B=\left[\begin{array}{cc}\lambda & u\\0 & A^{\prime}\end{array}\right] \), כלומר \( B \) הזו דומה ל-\( A \) (\( P^{-1}AP=B \) עבור \( P \) הפיכה). אני משתמש כאן בצורת סימון קצרנית למדי, אז אל תתבלבלו: \( B \) היא מטריצה מסדר \( n\times n \). ה-0 שכתוב שם הוא בעצם וקטור עמודה מאורך \( n-1 \), ה-\( u \) הוא בעצם וקטור שורה מאורך \( n-1 \), ואילו \( A^{\prime} \) היא מטריצה מסדר \( \left(n-1\right)\times\left(n-1\right) \). כעת אפשר להשתמש באינדוקציה על הסדר של \( A \) (הבסיס ברור) ולקבל ש-\( A^{\prime} \) דומה למטריצה משולשית עליונה \( B^{\prime} \), כלומר \( S^{-1}A^{\prime}S=B^{\prime} \) עבור \( S \) הפיכה מסדר \( \left(n-1\right)\times\left(n-1\right) \).

האינטואיציה אומרת שעכשיו כדי לעבור מ-\( A \) למטריצה משולשית עליונה עלינו לעבור מ-\( A \) אל \( B \), ואז מ-\( B \) אל מטריצה שאיכשהו תשנה את הרכיב של \( A^{\prime} \) שבתוך \( B \) ל-\( B^{\prime} \) המשולשית. אי אפשר סתם להצמיד את \( B \) על ידי \( S \) כי \( S \) בכלל לא מאותו סדר כמו \( B \) (\( B \) מסדר \( n\times n \)), אבל אין בעיה להגדיר את המטריצה \( Q=\left[\begin{array}{cc}1 & 0\\0 & S\end{array}\right] \) (כלומר - לקחנו את \( S \) והוספנו לה עוד שורה ועמודה בהתחלה שבהן הכל 0 פרט לכניסה שעל האלכסון הראשי שהיא 1). כל מה שנשאר עכשיו הוא לחשב מה מקבלים אם מצמידים את \( A \) על ידי \( PQ \), כלומר מהו \( \left(PQ\right)^{-1}A\left(PQ\right)=Q^{-1}P^{-1}APQ \).

נתחיל עם \( P^{-1}AP \) שבאמצע - על פי הגדרה, זהו \( B \). אז עכשיו צריך להבין מהו \( Q^{-1}BQ \).

ראשית, שימו לב לכך ש-\( Q^{-1}=\left[\begin{array}{cc}1 & 0\\0 & S^{-1}\end{array}\right] \) (אין כאן משהו מחוכם - חשבו את הכפל ותראו שזה עובד). כעת,

\( Q^{-1}BQ=\left[\begin{array}{cc}1 & 0\\0 & S^{-1}\end{array}\right]\left[\begin{array}{cc}\lambda & u\\0 & A^{\prime}\end{array}\right]\left[\begin{array}{cc}1 & 0\\0 & S\end{array}\right]=\left[\begin{array}{cc}\lambda & v\\0 & S^{-1}A^{\prime}S\end{array}\right]=\left[\begin{array}{cc}\lambda & v\\0 & B^{\prime}\end{array}\right] \)

וזה בדיוק מה שרצינו (\( v \) כאן הוא וקטור כלשהו - הערכים שלו לא מעניינים אותנו). זה מסיים את ההוכחה ואפשר להתקדם לדברים מורכבים יותר.

הפולינום המינימלי

כעת אני רוצה לדבר על מושג הפולינום המינימלי של מטריצה ריבועית \( A \). נתחיל מכך שמרחב המטריצות מסדר \( n\times n \) הוא מרחב וקטורי ממימד \( n^{2} \) (אברי הבסיס הן בדיוק המטריצות שיש להן 1 בכניסה \( ij \) לכל \( 1\le i,j\le n \) ו-0 בכל מקום אחר). בפרט, אם נתבונן בחזקות \( I=A^{0},A^{1},A^{2},\dots,A^{n^{2}} \), נקבל \( n^{2}+1 \) וקטורים (לא בהכרח שונים זה מזה) במרחב הוקטורי של המטריצות מסדר \( n\times n \) - מכיוון שזו קבוצה גדולה יותר ממימד המרחב היא חייב להיות תלויה לינארית, כלומר \( \sum_{i=0}^{n^{2}}\lambda_{i}A^{i}=0 \) עבור מקדמים כלשהם \( \lambda_{0},\lambda_{1},\dots,\lambda_{n^{2}} \). בניסוח אחר זה אומר שאם מציבים את \( A \) במקום \( x \) בפולינום \( \lambda_{n^{2}}x^{n^{2}}+\dots+\lambda_{1}x+\lambda_{0} \) מקבלים 0 (0 כאן הוא מטריצת האפס). כלומר, \( A \) היא שורש של הפולינום \( \lambda_{n^{2}}x^{n^{2}}+\dots+\lambda_{1}x+\lambda_{0} \). זה רעיון קצת קשה לעיכול למי שהתרגל עד היום שבפולינומים מציבים רק מספרים, אבל למה להגביל את עצמנו? כל מה שנדרש ממשהו כדי שאפשר יהיה להציב אותו בתור \( x \) הוא שיהיה עבורו מושג של חיבור, של כפל בסקלר (המקדמים של \( x \) הם סקלרים), ומושג של חזקה (שבמקרה של מטריצות מושג בזכות זה שאפשר לכפול מטריצה בעצמה). בדיוק באותה שיטה אפשר גם להציב טרנספורמציה לינארית בפולינום.

העובדה שכל מטריצה מאפסת פולינום כלשהו היא לא טריוויאלית בכלל, למרות שכפי שראינו ההוכחה הייתה טריוואלית. כדי להבין עד כמה זה לא מובן מאליו כדאי לזכור שלמספרים ממשיים כמו \( \pi \) ו-\( e \) יש את התכונה המעניינת לפיה הם לא מאפסים אף פולינום במקדמים רציונליים - הם טרנסנדנטיים מעל הרציונליים (גם זו טענה לא טריוויאלית, ולמרבה הצער גם ההוכחה לא טריוויאלית). משראינו שכל מטריצה ריבועית מאפסת פולינום כלשהו, אפשר בהינתן \( A \) לדבר על אוסף כל הפולינומים ש-\( A \) מאפסת. זו קבוצה כלשהי של פולינומים ב-\( \mathbb{F}\left[x\right] \) (חוג הפולינומים במשתנה יחיד עם מקדמים מ-\( \mathbb{F} \)) וראינו שהיא לא ריקה. את מה שקורה עכשיו אפשר לתאר על ידי רצף הקללות שמוכרות לכל מי שלמד קצת על חוגים: \( \mathbb{F}\left[x\right] \) הוא תחום ראשי ואוסף כל הפולינומים ש-\( A \) מאפסת הוא אידאל לא טריוויאלי ולכן נוצר על ידי פולינום מתוקן יחיד \( p\left(x\right) \); לפולינום הזה קוראים הפולינום המינימלי של \( A \). ועכשיו נעבור להסבר בעברית עבור מי שמה שאמרתי לו כרגע נשמע כמו ג’יבריש.

ראשית, לפולינומים שמקדמיהם נלקחים מתוך שדה יש תכונה יפהפיה - אפשר לחלק אותם עם שארית בדיוק כמו שמחלקים מספרים שלמים עם שארית. בשלמים זה הולך ככה: אם \( a,b \) הם שלמים אז קיימים \( q,r \) שלמים (\( q \) הוא המנה ו-\( r \) הוא השארית) כך ש-\( a=bq+r \), כך ש-\( 0\le r<\left|b\right| \) (השארית תמיד קטנה מהמספר שבו מחלקים). עבור פולינומים זה אותו הדבר: אם \( a\left(x\right),b\left(x\right) \) הם שני פולינומים אז \( a\left(x\right)=b\left(x\right)q\left(x\right)+r\left(x\right) \) כך ש-\( r\left(x\right) \) הוא פולינום מדרגה קטנה יותר מדרגת \( b\left(x\right) \).

כעת, הבה וניקח את \( p\left(x\right) \) להיות פולינום שונה מפולינום האפס שמאפס את \( A \) והוא בעל הדרגה המינימלית מבין כל הפולינומים שמאפסים את \( A \) (הדרגה יכולה להיות רק מספר טבעי ולכן תמיד יש מינימום שכזה - לכל היותר \( n^{2} \)). בנוסף נדרוש שהוא יהיה מתוקן - המקדם של החזקה הגבוהה ביותר בפולינום יהיה 1. את זה תמיד אפשר להשיג כשאנחנו מעל שדה: אם \( \lambda_{k}x^{k}+\dots+\lambda_{1}x+\lambda_{0} \) הוא פולינום ו-\( \lambda_{k}\ne0 \) (והוא שונה מאפס, אחרת למה כתבנו אותו מלכתחילה? זה שהפולינום מדרגה \( k \) פירושו ש-\( x^{k} \) היא החזקה המקסימלית שהמקדם שלה איננו אפס) אז אפשר לחלק ב-\( \lambda_{k} \) ולקבל פולינום מתוקן \( x^{k}+\dots+\frac{\lambda_{1}}{\lambda_{k}}x+\frac{\lambda_{0}}{\lambda_{k}} \). חישוב פשוט מראה שאם הפולינום אופס קודם על ידי \( A \), אז גם אחרי החלוקה ב-\( \lambda_{k} \) \( A \) עדיין יאפס אותו. מסקנה: קיים \( p\left(x\right) \) שהוא פולינום מתוקן מדרגה מינימלית שמאפס את \( A \).

כעת שימו לב לקסם הבא: ניקח את \( t\left(x\right) \) להיות פולינום אחר כלשהו שמאפס את \( A \), ונחלק אותו ב-\( p\left(x\right) \). נקבל ש-\( t\left(x\right)=p\left(x\right)q\left(x\right)+r\left(x\right) \), כך שמעלת \( r\left(x\right) \) קטנה ממעלת \( p\left(x\right) \). אם נציב את \( A \) בתור \( x \) ונשתמש בכך ש-\( t\left(A\right)=0 \) וגם \( p\left(A\right)=0 \) נקבל ש-\( r\left(A\right)=0 \), כלומר \( r\left(x\right) \) הוא פולינום מדרגה קטנה מזו של \( p\left(x\right) \) שגם כן מאופס על ידי \( A \). מכיון שבחרנו את \( p\left(x\right) \) להיות בעל דרגה מינימלית מבין הפולינומים שאינם פולינום האפס שמאופסים על ידי \( A \), בהכרח \( r\left(x\right) \) הוא פולינום האפס. במילים אחרות - אין שארית. במילים אחרות - \( p\left(x\right) \) מחלק כל פולינום אחר שמאופס על ידי \( A \). זה גורר מייד ש-\( p\left(x\right) \) הוא הפולינום היחיד שהוא גם מתוקן וגם מדרגה מינימלית שמאפס את \( A \): אם \( t\left(x\right) \) מאותה דרגה כמו \( p\left(x\right) \) אז מכך ש-\( t\left(x\right)=p\left(x\right)q\left(x\right) \) ומשוויון הדרגות של \( t\left(x\right),p\left(x\right) \) עולה שבהכרח \( q\left(x\right) \) הוא פולינום ממעלה אפס, כלומר קבוע, כלומר \( t\left(x\right) \) מתקבל על ידי כפל בקבוע של פולינום מתוקן, ולכן \( t\left(x\right) \) לא יכול להיות פולינום מתוקן בעצמו.

ובכן, ל-\( p\left(x\right) \) המדובר קוראים הפולינום המינימלי של \( A \). זה כבר הפולינום השני שאנחנו רואים שמוגדר עבור מטריצה \( A \) - הראשון היה הפולינום האופייני של \( A \). קל לראות שהפולינום המינימלי נותן לנו יותר מידע במובן מסויים: למשל, למטריצות \( \left[\begin{array}{cc}1 & 0\\0 & 1\end{array}\right] \) ו-\( \left[\begin{array}{cc}1 & 1\\0 & 1\end{array}\right] \) (שאחת מהן לכסינה והשניה לא) יש את אותו פולינום אופייני, \( \left(x-1\right)^{2} \); עם זאת, קל לראות בבדיקה ישירה שהפולינום המינימלי של המטריצה הראשונה הוא \( \left(x-1\right) \) והפולינום המינימלי של המטריצה השניה הוא \( \left(x-1\right)^{2} \). הפולינום המינימלי הוא אכן כלי חשוב בהמשך הניתוח של צורות פשוטות שבהן ניתן להציג טרנספורמציות (או מטריצות פשוטות שאליהן מטריצה מסויימת דומה); למשל, נראה בהמשך שמטריצה היא לכסינה אם ורק אם הפולינום המינימלי שלה מורכב רק מגורמים לינאריים שונים, כלומר אין בו גורם מהצורה \( \left(x-\lambda\right)^{k} \) עבור \( k>1 \).

את הפולינום האופייני קל לחשב; לעומת זאת אין שיטה פשוטה לחישוב הפולינום המינימלי. עם זאת, אנחנו לא מגששים לגמרי בעלטה, בזכות משפט חשוב ומאוד לא טריוויאלי - משפט קיילי-המילטון. משפט זה אומר כי \( A \) מאפסת את הפולינום האופייני שלה - אם מציבים את \( A \) בתוך הפולינום האופייני מקבלים אפס. תכף נדבר על איך מוכיחים אותו, ובינתיים בואו נשים לב למסקנה מיידית ממנו (שהיא שקולה לו עצמו ולעתים קרובות מובאת בתור ניסוח המשפט) - הפולינום המינימלי מחלק את הפולינום האופייני. מכאן נובע שאם הפולינום האופייני הוא \( \left(x-\lambda_{1}\right)^{k_{1}}\cdots\left(x-\lambda_{r}\right)^{k_{r}} \) אז הפולינום המינימלי הוא \( \left(x-\lambda_{1}\right)^{t_{1}}\cdots\left(x-\lambda_{r}\right)^{t_{r}} \) כאשר \( t_{i}\le k_{i} \) לכל \( i \) (אותם שורשים, אולי עם ריבויים אלגבריים קטנים יותר). זה נותן לנו מייד אלגוריתם, לא הכי יעיל בעולם, למציאת הפולינום המינימלי: חשבו את הפולינום האופייני ואז תתחילו לעבור על פולינומים מהצורה \( \left(x-\lambda_{1}\right)^{t_{1}}\cdots\left(x-\lambda_{r}\right)^{t_{r}} \) ותציבו בהם את \( A \) (אפשר לעשות את המעבר הזה בצורה חכמה שתדרוש רק \( k_{1}+k_{2}+\dots+k_{r} \) בדיקות לכל היותר - איך?).

עם זאת, שימו לב שהאלגוריתם הזה מניח שאנחנו כבר יודעים לפרק לגורמים את הפולינום האופייני, או במילים אחרות - שאנחנו כבר יודעים מהם הערכים העצמיים. בסיטואציות אמיתיות זו לרוב הבעיה האמיתית; עבור פולינומים ממעלה חמישית ומעלה אין נוסחה שנותנת את כל השורשים ולרוב צריך להשתמש בשיטות מאנליזה נומרית (דוגמת ניוטון-רפסון) כדי למצוא קירובים לערכים העצמיים. אבל נעזוב את הדיון הזה לבינתיים.

משפט קיילי-המילטון

יפה. עכשיו אני רוצה להוכיח לכם שכל מטריצה מאפסת את הפולינום האופייני שלה. זה משפט שבמבט ראשון נראה טריוויאלי להוכחה: הפולינום האופייני של \( A \) הוא \( \left|xI-A\right| \), אז נציב \( x=A \) ונקבל מייד \( \left|AI-A\right|=\left|A-A\right|=\left|0\right|=0 \). פשוט, לא? הו, לא, כל כך לא. ה”הוכחה” הזו שגויה לחלוטין, אבל היא מאוד, מאוד קורצת. קוראי הפוסט שחשבו בשלב זה או אחר של חייהם שהיא נכונה (בין אם כשלמדו לראשונה אלגברה לינארית ובין אם כרגע כשראו את המשפט לראשונה) מתבקשים להודיע על כך בתגובות.

טוב, למה ההוכחה הזו לא נכונה? ובכן, כי בביטוי \( \left|xI-A\right| \) ה-\( x \) הוא לא משתנה שמציבים בתוכו מטריצה, אלא משתנה שמציבים בתוכו סקלר. \( xI \) היא לא “מה שמקבלים כשמכפילים את המטריצה שמוצבת ב-\( x \) ב-\( I \)” אלא “המטריצה שבה על האלכסון הראשי נמצא הסקלר שמציבים במקום \( x \) וכל שאר הכניסות הן אפס”. אם היינו מציבים את \( A \) ב-\( x \) אז \( xI-A \) היה “מטריצה שבה כל כניסה על האלכסון הראשי מכילה עותק של \( A \), פחות \( A \) עצמה” והביטוי הזה, שאנחנו לכאורה מצפים שיהיה שווה לאפס, בכלל לא היה מוגדר כי שתי המטריצות לא היו מאותו סדר. בקיצור, בלאגן. אז ההוכחה הנאיבית לא עובדת; מה כן עובד?

יש כמה הוכחות אפשריות שאני יכול לנקוט בהן כאן, ואני מעדיף את זו שלא דורשת הרבה ידע מוקדם. כפי שכבר אמרתי, המחיר של הוכחות כאלו הוא כמעט תמיד סיבוכים טכניים, אבל עברנו את פרעה ונעבור גם את זה.

לצורך ההוכחה נוח יותר לעבוד עם טרנספורמציה לינארית ולא עם מטריצה. תהא \( T:V\to V \) טרנספורמציה לינארית כלשהי ו-\( p\left(x\right) \) הפולינום האופייני שלה; אני רוצה להוכיח ש-\( p\left(T\right) \) היא טרנספורמציית האפס. זה בפרט מוכיח את המשפט לכל מטריצה, כי כל מטריצה מגדירה טרנספורמציה לינארית.

כעת אסמן ב-\( K \) את קבוצת כל הפולינומים ב-\( T \) מעל \( \mathbb{F} \), כלומר כל היצורים שמקבלים כשלוקחים פולינום ב-\( \mathbb{F}\left[x\right] \) ומציבים בו את \( T \). שימו לב שאפשר לחבר ולכפול איברים בקבוצה הזו בדיוק כפי שעושים זאת עם פולינומים; במתמטית אומרים שהקבוצה הזו היא חוג. מבחינתנו במקרה הזה זה אומר ש-\( K \) היא “כמעט שדה”, פרט לכך שאי אפשר לחלק (אין הפיכים כפליים); באופן כללי חוגים יכולים להיות שונים עד מאוד משדות. כאן, בגלל ש-\( K \) היא כמעט שדה, חלק לא מבוטל ממה שעשינו באלגברה לינארית מעל שדות עדיין עובד, אבל דברים כמו פתרון משוואות לינאריות כבר לא.

טוב, אקשן. בואו ניקח בסיס \( B=\left\{ v_{1},\dots,v_{n}\right\} \) למרחב \( V \) ונסמן \( A=\left[T\right]_{B} \). אז על פי הגדרה, \( T\left(v_{i}\right)=\sum_{j=1}^{n}A_{ji}v_{i} \) (זוכרים? העמודה ה-\( i \) של \( A \) היא וקטור הקואורדינטות של \( T\left(v_{i}\right) \) בבסיס \( B \)). את המשוואה הזו אפשר לכתוב גם כך: \( \sum_{j=1}^{n}\left(\delta_{ij}T-A_{ji}I\right)v_{j}=0 \). כאן \( \delta_{ij} \) היא הדלתא של קרונקר (שווה ל-1 רק אם \( i=j \) ואחרת שווה ל-0), ואנחנו חושבים על כפל של \( T \) ב-\( v_{i} \) פשוט כהפעלה של \( T \) על \( v_{i} \).

את המשוואה שלעיל קיבלנו לכל \( 1\le i\le n \), כך שבעצם יש לנו \( n \) משוואות. את כל זה אפשר לאגד למטריצה שחיה ב-\( K_{n\times n} \): \( C_{ij}=\delta_{ij}T-A_{ji}I \). הטענה הבסיסית היא ש-\( \det C=p\left(T\right) \), כאשר \( p\left(x\right) \) הוא הפולינום האופייני של \( T \); לא קשה לראות את זה אם מסתכלים על \( C_{ij} \) שבה כל מופע של \( T \) מוחלף ב-\( x \) - הדטרמיננטה של זה היא בדיוק \( \left|xI-A\right| \), כלומר הפולינום האופייני של \( A \), שהיא מטריצה מייצגת של \( T \). במילים אחרות, כל מה שעשינו עד כה היה להסביר באופן פורמלי איך “להציב את \( T \) ב-\( x \)”, מה שמניב את המטריצה \( C \). אנחנו עדיין רוצים לראות שהדטרמיננטה של \( C \) היא אפס, אבל צריך להיות זהירים כאן. הדטרמיננטה של \( C \) היא לא סקלר. היא פולינום ב-\( T \). צריך לחדד את זה: \( C \) מוגדרת לא מעל שדה \( \mathbb{F} \) אלא מעל \( K \), שהוא אוסף הפולינומים ב-\( T \) מעל \( \mathbb{F} \). לכן אי אפשר להשתמש מהשרוול בטענות שהוכחנו על דטרמיננטות כמו “אם המטריצה לא הפיכה אז הדטרמיננטה היא אפס”; צריך גישה קצת שונה.

הכלי שבו נשתמש כדי להגיע לדטרמיננטה יהיה המטריצה הצמודה, \( \mbox{adj}C \). כזכור, הוכחנו משפט (“כלל קרמר”) שהראה כי \( \left(\mbox{adj}C\right)\cdot C=\left(\det C\right)I \). אם תקראו בזהירות את ההוכחה, תראו ששם אני לא מניח מאום על חלוקה בשדה שמעליו המטריצה מוגדרת; ההוכחה עובדת היטב גם מעל \( K \) (עם זאת, ניסוח אחר שכתבתי בעבר, של \( C^{-1}=\frac{\mbox{adj}C}{\left|C\right|} \) כבר לא עובד - שימו לב כמה זהירים אנחנו צריכים להיות).

כעת, מה שצריך לזכור הוא ש-\( \det C \) יהיה בסופו של דבר פולינום ב-\( T \), ולכן טרנספורמציה לינארית מ-\( V \) ל-\( V \). כדי להראות שטרנספורמציה היא טרנספורמציית האפס, די להראות שהיא מאפסת את כל האיברים של בסיס מסויים, למשל הבסיס \( B \). כלומר, די יהיה אם נראה ש-\( \det C\left(v_{k}\right)=0 \) לכל \( k \). זכרו שעל פי הבניה שלה, \( C \) מקיימת \( \sum_{j=1}^{n}C_{ij}v_{j}=0 \) לכל \( i \). המשוואה הזו תיוותר נכונה גם אם נכפול אותה באיבר הקבוע \( \left(\mbox{adj}C\right)_{ki} \), כלומר \( \sum_{j=1}^{n}\left(\mbox{adj}C\right)_{ki}C_{ij}v_{j}=0 \). עכשיו, אם נסכום את כל המשוואות שקיבלנו, לכל \( i \), נקבל:

\( \sum_{i=1}^{n}\sum_{j=1}^{n}\left(\mbox{adj}C\right)_{ki}C_{ij}v_{j}=0 \)

ועם שינוי קטן של סדר הסכימה, זה אומר ש-

\( \sum_{j=1}^{n}\left(\sum_{i=1}^{n}\left(\mbox{adj}C\right)_{ki}C_{ij}\right)v_{j}=0 \)

אבל מה זה \( \sum_{i=1}^{n}\left(\mbox{adj}C\right)_{ki}C_{ij} \) אנחנו יודעים: זה בדיוק \( \left(\left(\mbox{adj}C\right)C\right)_{kj} \), ומכיוון ש-\( \left(\mbox{adj}C\right)C=\det C\cdot I \), הרי ש-\( \left(\left(\mbox{adj}C\right)C\right)_{kj}=\delta_{kj}\det C \). במילים אחרות, קיבלנו ש:

\( \sum_{j=1}^{n}\left(\delta_{kj}\det C\right)v_{j}=0 \)

כלומר

\( \det C\left(v_{k}\right)=0 \)

וזה לכל \( k \), וזה בדיוק מה שרצינו. לכן \( \det C \) היא טרנספורמציית האפס וההוכחה נסתיימה. למרות שבמבט ראשון ההוכחה נראית כבדה משהו, היא בעצם פשוטה למדי וממחישה יפה את הכוח שמושג הצמוד מעניק לנו (שלא לדבר על הכוח שהדואליות בין מטריצות וטרנספורמציות מעניקה לנו).

לאן עכשיו? לפני שמגיעים לצורת ז’ורדן, הצעד הראשון הוא משפט הפירוק הפרימרי. המשפט הזה והרעיונות שמובילים אליו הם הכללה נאה של מושגי המרחבים העצמיים שכבר ראינו; נגיע לכך בפוסט הבא.

נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ: