צורת ז’ורדן והצורה הרציונלית - התיאוריה

הקדמה מרגשת

הפוסט הזה מיועד לסגור את שרשרת הפוסטים שלי על אלגברה לינארית שעוסקים בנושא של צורות קנוניות - וככזה, כמובן שלא יהיה ניתן להבין ממנו כמעט כלום בלי לקרוא את הפוסטים הקודמים או בלי להכיר אלגברה לינארית. בכל זאת, בואו נתחיל עם מבוא ידידותי שמזכיר לנו מה בעצם אנחנו עושים כאן ולמה. אני עדיין מניח שאתם מכירים אלגברה לינארית ברמת המה-זו-מטריצה ומה-זו-טרנספורמציה-לינארית.

הרעיון הבסיסי הוא שיש לנו מרחב וקטורי \( V \) סוף-ממדי שמוגדרת מעליו טרנספורמציה לינארית \( T:V\to V \) (“מעליו”, כלומר מהמרחב לעצמו; כל הנושא של צורות קנוניות לא מתעסק בטרנספורמציות בין שני מרחבים שונים) ואנחנו מחפשים ל-\( V \) בסיס שבו המטריצה שמייצגת את \( T \) היא שני דברים: פשוטה וקנונית. ל”פשוטה” אין הגדרה פורמלית כל כך - בפוסט הזה נראה שתי גישות שונות לעניין הזה - אבל “קנונית” זה משהו יותר ברור: זה אומר קיום ויחידות. מרגע שהחלטנו על סוג מסויים של צורה קנונית (למשל, צורת ז’ורדן), לכל טרנספורמציה \( T \) תהיה קיימת מטריצה מייצגת ששייכת לצורה הזו, והמטריצה המייצגת הזו תהיה יחידה - לא יהיה לנו חופש בחירה בין כמה מטריצות מייצגות שונות.

הדבר דומה לפירוק היחיד למכפלת ראשוניים שיש למספרים טבעיים: אפשר לכתוב את 30 בתור כל מני מכפלות, למשל \( 30=1\cdot30 \) או \( 30=2\cdot15 \) או \( 30=15\cdot2 \) וכדומה, אבל יש רק דרך אחת לכתוב אותו בתור מכפלה של מספרים שכולם ראשוניים (בפרט, 1 לא משתתף במכפלה כי הוא לא נחשב ראשוני) והראשוניים ממויינים לפי גודלם. כלומר, המכפלה היא \( 30=2\cdot3\cdot5 \). לכל מספר טבעי חיובי קיימת הצגה כזו (עבור 1 אומרים שזו “המכפלה הריקה”).

אני מדבר כאן על טרנספורמציות לינאריות, אבל מכיוון שבאלגברה לינארית סוף-ממדית יש קשר הדוק בין טרנספורמציות לינאריות ומטריצות, אפשר לנסח את כל הדיון גם עבור מטריצות. אם \( A,B \) מייצגות את הטרנספורמציה \( T \) בבסיסים שונים אז פירוש הדבר הוא שקיימת מטריצה הפיכה \( P \) כך ש-\( A=P^{-1}BP \) (\( P \) היא מטריצת מעבר בין הבסיסים; הרעיון הוא שבהינתן וקטור בבסיס של \( A \), \( P \) מעבירה את הוקטור לבסיס של \( B \), ואז מפעילים את \( B \), ואז חוזרים עם \( P^{-1} \) לבסיס של \( A \)). על מטריצות \( A,B \) כאלו שקיימת \( P \) הפיכה כך ש-\( A=P^{-1}BP \) אומרים שהן דומות. דמיון מטריצות כזה הוא יחס שקילות ולכן אפשר לדבר על נציגים קנוניים למחלקות השקילות, וחזרנו שוב לאותו סיפור. מכאן ואילך אני הולך לדבר על מטריצות ועל טרנספורמציות בצורה חופשית לחלוטין, לפי מה שנוח לי באותה שניה.

הדוגמה הבסיסית ביותר לצורה קנונית שרואים באלגברה לינארית היא מטריצה אלכסונית. הבעיה כאן היא שלא כל מטריצה דומה למטריצה אלכסונית - אנחנו מצמצמים מראש את הדיון למטריצות לכסינות. מה שברור מייד הוא שאם טרנספורמציה מיוצגת על ידי מטריצה אלכסונית, אז מה שנמצא על האלכסון של המטריצה ההיא הם הערכים העצמיים של הטרנספורמציה. כלומר, כל הסקלרים \( \lambda \) כך שקיים וקטור \( v\ne0 \) עבורו \( Tv=\lambda v \). האבחנה הזו היא גם מה שהנחה את האופן שבו בודקים אם מטריצה היא לכסינה - מוצאים את הערכים העצמיים שלה, שהם השורשים של פולינום מסויים שנקרא הפולינום האופייני של המטריצה, ואז בודקים אם יש “מספיק” וקטורים עצמיים עבור הערכים העצמיים הללו - אם אנחנו מוצאים בסיס למרחב כולו שמורכב מוקטורים עצמיים. אם יש, גמרנו. אם אין, אפשר לשכוח מכך שהמטריצה תהיה דומה למטריצה אלכסונית.

ה”פתרון” לבעיה של “אין מספיק וקטורים עצמיים” הוא צורת ז’ורדן. צורת ז’ורדן היא מטריצה “כמעט-אלכסונית” - הערכים העצמיים עדיין יושבים על האלכסון הראשי, אבל באלכסון שמעליו יכולים להופיע פה ושם 1-ים. אם להיות יותר מדויקים, צורת ז’ורדן היא מטריצה בלוקים, כשכל בלוק הוא תת-מטריצה בעצמו שאנחנו “שותלים” על האלכסון הראשי. בלוק ז’ורדן שכזה בנוי ממטריצה סקלרית (כלומר, כזו שיש על האלכסון הראשי שלה ערך קבוע יחיד) ו-1-ים בכל האלכסון שמעל האלכסון הראשי. משהו כזה:

\( \left(\begin{array}{ccc}\lambda & 1 & 0\\0 & \lambda & 1\\0 & 0 & \lambda\end{array}\right) \)

זו דוגמה לבלוק ז’ורדן מגודל 3. על מטריצה אלכסונית אפשר לחשוב כאילו היא מורכבת כולה מבלוקי ז’ורדן מגודל 1, כך שצורת ז’ורדן מכלילה את הלכסון הרגיל. אם כן, האם הגענו אל המנוחה ואל הנחלה? כמעט. בשביל שלמטריצה כלשהי תהיה צורת ז’ורדן, צריך שכל הערכים העצמיים שלה יהיו בשדה שמעליו עובדים. מה זה אומר? קחו את הפולינום \( x^{2}+1 \) בתור דוגמה. השורשים של הפולינום הזה הם מספרים מדומים: \( i \) ו-\( -i \). הם שייכים לשדה \( \mathbb{C} \) אבל לא לשדה \( \mathbb{R} \). זה אומר שאם יש מטריצה שהפולינום האופייני שלה הוא \( x^{2}+1 \), היא תהיה לכסינה מעל \( \mathbb{C} \) אבל לא מעל \( \mathbb{R} \). למה? כי ה-\( P \) המלכסנת תהיה חייבת להיות עם מקדמים שהם לא ממשיים (או באופן שקול, הבסיס שבו הטרנספורמציה הרלוונטית תיוצג על ידי מטריצה אלכסונית יהיה עם וקטורים שהכניסות שלהם לא כולן ממשיות).

זה מביא אותנו אל הצורה הרציונלית שחומקת גם מהבעיה הזו. כל מטריצה דומה למטריצה בצורה הרציונלית. בלי תלות בשאלות כמו לכסינה/לא לכסינה. בלי תלות בשאלות כמו האם כל השורשים בשדה או לא. תמיד. המחיר שאנחנו משלמים? זו לא צורה עד כדי כך פשוטה; היא בוודאי פחות אינפורמטיבית מאשר צורת ז’ורדן.

בואו נטפל קודם כל בצורה הרציונלית, ואז בצורת ז’ורדן.

הצורה הרציונלית

מטריצה בצורה הרציונלית היא גם כן מטריצת בלוקים, כאשר כל בלוק הוא מטריצה מלווה של פולינום מסויים. מה זו מטריצה מלווה? בהינתן פולינום מתוקן \( x^{d}+a_{d-1}x^{d-1}+\dots+a_{1}x+a_{0} \), המטריצה המלווה שלו היא המטריצה

\( \left(\begin{array}{ccccc}0 & 0 & 0 & \cdots & -a_{0}\\1 & 0 & 0 & \cdots & -a_{1}\\0 & 1 & 0 & \cdots & -a_{2}\\\vdots & \vdots & \vdots & \ddots & \vdots\\0 & 0 & 0 & \cdots & -a_{d-1}\end{array}\right) \)

כלומר, מטריצה שכולה אפסים למעט האלכסון מתחת לאלכסון הראשי שכולו 1-ים, ולמעט הטור האחרון במטריצה שכולל את המקדמים של הפולינום, עם סימן מינוס עליהם. זה… זה לא נראה נחמד במיוחד, אני יודע. בטח נראה פחות נחמד מצורת ז’ורדן. עדיין, אני מקווה שנתיידד קצת עם היצור המוזר הזה בקרוב, אחרי שנבין מאיפה הצורה ה”מוזרה” שלו מגיעה.

מכיוון שכל בלוק שהוא מטריצה מלווה של פולינום נקבע באופן יחיד על פי הפולינום הזה, מה שמאפיין את הצורה הרציונלית הוא סדרת הפולינומים שמכתיבה את סדרת הבלוקים. כלומר, יש לנו סדרת פולינומים \( p_{1},p_{2},\dots,p_{k} \) שמגדירה באופן יחיד את מטריצת הבלוקים הרלוונטית. הדרישה שלנו מהצורה הרציונלית היא שבסדרת הפולינומים הזו, כל פולינום יחלק את קודמו. כלומר, \( p_{i+1} \) מחלק את \( p_{i} \) לכל \( 1\le i<k \).

אחדד את זה על ידי כך שאצטט במפורש את המשפט הרלוונטי: לכל מטריצה ריבועית \( A \), מעל כל שדה, קיימת מטריצה יחידה \( B \) כך ש-\( B=P^{-1}AP \) עבור \( P \) הפיכה כלשהי, ו-\( B \) היא בצורה רציונלית, דהיינו היא מטריצת בלוקים שבה הבלוקים הם מטריצות מלווות של סדרת פולינומים \( p_{1},p_{2},\dots,p_{k} \) שבה כל פולינום מחלק את קודמו:

\( B=\left(\begin{array}{cccc}B_{1}\\ & B_{2}\\ & & \ddots\\ & & & B_{k}\end{array}\right) \)

כך ש-\( B_{i} \) היא המטריצה המלווה של הפולינום \( p_{i} \).

אני רוצה לחדד עוד קצת את המשמעות של היחידה הזה: זה אומר שאם קיימת מטריצה \( C \) כך ש-\( C=Q^{-1}AQ \) עבור \( Q \) הפיכה כלשהי, ו-\( C \) היא בצורה רציונלית עם סדרת הפולינומים \( q_{1},\dots,q_{t} \) אז \( t=k \) ו-\( q_{i}=p_{i} \) לכל \( 1\le i\le k \).

יפה. עכשיו כשאנחנו מבינים מה זה אומר, בואו נבין איך מגיעים לזה. ראשית כל נבין מה הקטע הזה עם מטריצות בלוקים. הצורה הרציונלית זו מטריצת בלוקים. גם צורת ז’ורדן זו מטריצת בלוקים. בלוקים בלוקים בלוקים. למה זה? ובכן, זו תוצאה ישירה של כך שאנחנו מחלקים את המרחב הוקטור \( V \) שלנו לתתי-מרחבים אינווריאנטיים ביחס לטרנספורמציה \( T \) שאנחנו מוצאים לה את הצורה הקנונית. תת-מרחב \( W\subseteq V \) הוא אינוריאנטי ביחס ל-\( T \) אם \( T\left(W\right)\subseteq W \). כלומר, אם מפעילים את \( T \) על משהו ב-\( W \) מקבלים משהו ב-\( W \). עכשיו, אם \( V=W_{1}\oplus W_{2}\oplus\dots\oplus W_{k} \) כאשר כל ה-\( W \)-ים הם אינוריאנטיים ביחס ל-\( T \), אז אפשר לקחת בסיס לכל אחד מה-\( W \)-ים בנפרד ואז איחוד כל הבסיסים הללו יהיה בסיס ל-\( V \) (כאן חשוב שהסכום יהיה סכום ישר אחרת לאו דווקא נקבל בסיס). בבסיס הזה המטריצה המייצגת של \( T \) תהיה מטריצת בלוקים כאשר כל בלוק מתאים לאחד מתתי-המרחבים \( W \). למה? כי בואו נזכור מה זו מטריצה מייצגת: אם הבסיס שלנו הוא \( B=\left\{ b_{1},\dots,b_{n}\right\} \) אז העמודה ה-\( i \) בה היא וקטור הקואורדינטות של \( T\left(b_{i}\right) \) על פי הבסיס \( B \). כעת, אצלנו כל איבר בסיס \( b_{i} \) שכזה שייך לאחד מה-\( W \)-ים, ולכן הקואורדינטות היחידות שאולי לא יהיו 0 ב-\( T\left(b_{i}\right) \) יהיו שייכות לאברי הבסיס של אותו \( W \). למשל, אם \( W \) הראשון נפרש על ידי \( b_{1},b_{2},b_{3},b_{4} \), אז \( T\left(b_{1}\right) \) יתן לנו עמודה שהיא כולה אפסים חוץ אולי מ-4 הכניסות הראשונות, וכך גם \( T\left(b_{2}\right),T\left(b_{3}\right),T\left(b_{4}\right) \). קיבלנו שבארבע העמודות הראשונות הכל יהיה אפסים חוץ אולי מהבלוק מגודל 4 שיושב על האלכסון הראשי. וכך זה נמשך.

אם כן, זה הרעיון הן בצורה הרציונלית והן בצורת ז’ורדן - מחלקים איכשהו את \( V \) לתתי-מרחבים אינוריאנטיים, שכאשר מצמצמים את \( T \) אליהם, המטריצה המייצגת שלה יוצאת פשוטה יחסית - בלוק ז’ורדן במקרה של צורת ז’ורדן, ומטריצה מלווה במקרה של הצורה הרציונלית. ההבדל בין שתי הצורות הוא באופן שבו מחלקים את המרחב. בסדרת הפוסטים שלי על אלגברה לינארית הראיתי שני משפטים שמפרקים את \( V \) לסכום ישר של תתי-מרחבים אינוריאנטיים “מעניינים”: משפט הפירוק הפרימרי ומשפט הפירוק הציקלי. הצורה הרציונלית היא מה שמתקבל כמעט מייד ממשפט הפירוק הציקלי; כפי שתכף נראה, הצורה הרציונלית היא פשוט דרך אחרת לנסח את משפט הפירוק הציקלי. צורת ז’ורדן מתקבלת מהפירוק הפרימרי, כשאחריו מטפלים בכל תת-מרחב לחוד ומפעילים על אותו תת מרחב את משפט הפירוק הציקלי, אבל עבור טרנספורמציה לינארית אחרת. כלומר, זה שילוב לא לגמרי טריוויאלי של משפטי הפירוק הפרימרי והציקלי, ולכן זה נחמד במיוחד.

נתחיל עם הצורה הרציונלית. מה שצריך לזכור הוא מה הולך במשפט הפירוק הציקלי. אני לא אניח שאתם הולכים לקרוא את הפוסט המפלצתי בנושא, אז בואו נזכיר את זה בקצרה: המשפט אומר שבהינתן \( V \) ובהינתן טרנספורמציה לינארית \( T \) קיים למרחב פירוק \( V=W_{1}\oplus\dots\oplus W_{k} \) שבו כל ה-\( W \)-ים הם מרחבים \( T \)-ציקליים. מה זה מרחב \( T \)-ציקלי? מרחב שמורכב בדיוק מכל הוקטורים שמתקבלים מוקטור מסויים \( w \) (“היוצר”) על ידי הפעלות חוזרות ונשנות של \( T \). כתבתי את זה במקור בתור \( Z\left(w;T\right)\triangleq\mbox{span}\left\{ T^{0}\left(w\right),T^{1}\left(w\right),T^{2}\left(w\right),\dots\right\} \) ומהר מאוד התברר שהמרחב הזה שווה בדיוק לקבוצה \( \left\{ fw\ |\ f\in\mathbb{F}\left[x\right]\right\} \) כאשר \( fw \) זה סימון מקוצר ל\( f\left(T\right)\left(w\right) \), כלומר ללקיחת פולינום כלשהו \( f \), הצבת \( T \) בתוך הפולינום וקבלת טרנספורמציה לינארית, ואז הפעלה שלה על \( w \).

מה שנחמד במרחבים הללו הוא שהבסיס שלהם הוא פשוט במיוחד ביחס ל-\( T \): הוא בסך הכל מהצורה \( \left\{ T^{0}\left(w\right),T^{1}\left(w\right),\dots,T^{n-1}\left(w\right)\right\} \). מהו \( n \)? ובכן, בואו נזכור שקיימים פולינומים שמתאפסים כאשר מציבים בהם את \( T \), ולפולינום המתוקן מהמעלה החיובית הקטנה ביותר שמאפס את \( T \) קוראים הפולינום המינימלי של \( T \). אם נסמן אותו ב-\( m_{T} \), אז אנחנו יודעים ש-\( m_{T}w=0 \). זה מראה שקיים פולינום כלשהו שמאפס את \( w \), אבל ייתכן שיש כאלו שקטנים אפילו יותר מ-\( m_{T} \). את הפולינום המתוקן המינימלי מביניהם אסמן ב-\( p \) ואקרא לו המאפס של \( w \). כעת, \( n \) היא בסך הכל הדרגה של \( p \). בואו נכתוב את \( p \) באופן מפורש:

\( p\left(x\right)=x^{n}+a_{n-1}x^{n-1}+\dots+a_{1}x+a_{0} \)

כאן המקדם של \( x^{n} \) הוא 1 כי אמרנו ש-\( p \) הוא פולינום מתוקן. על שאר המקדמים אני לא מניח כלום. כעת, אם נציב בפולינום הזה את \( T \) ונפעיל את כל זה על \( w \), נקבל:

\( \left(T^{n}+a_{n-1}T^{n-1}+\dots+a_{1}T+a_{0}\right)w=0 \)

ואחרי העברת אגפים נקבל

\( T^{n}w=-a_{n-1}T^{n-1}w-\dots-a_{1}Tw-a_{0}w \)

זה מסביר למה לא “צריך” את הוקטור \( T^{n}w \) או חזקות נוספות של \( T \) בבסיס עבור \( W \): אנחנו מתחילים לקבל צירופים לינאריים של וקטורים שכבר יש לנו. אבל המשוואה שלמעלה מעניינת לא רק בגלל זה; אתם כבר רואים איך מקבלים מפה את המבנה המוזר של המטריצה המלווה?

בואו נסמן את הבסיס \( \left\{ T^{0}\left(w\right),T^{1}\left(w\right),\dots,T^{n-1}\left(w\right)\right\} \) בתור \( \mathcal{B}=\left\{ b_{0},b_{1},\dots,b_{n-1}\right\} \). כלומר, \( b_{i}=T^{i}\left(w\right) \). כדי לדעת איך נראית המטריצה המייצגת של \( T \) בבסיס \( \mathcal{B} \) אנחנו צריכים להפעיל את \( T \) על כל איבר בסיס ולראות את וקטור הקואורדינטות המתקבל. עבור רובם זה קל: \( T\left(b_{0}\right)=T\left(T^{0}\left(w\right)\right)=T^{1}\left(w\right)=b_{1} \), ובאופן דומה \( T\left(b_{1}\right)=b_{2} \) וכן הלאה. זה אומר שוקטור העמודה שמתאים לעמודה של \( b_{i} \) יכיל 1 בודד, בשורה ה-\( i+1 \) - כלומר, בדיוק מתחת לאלכסון הראשי. כל זה נכון עד לעמודה האחרונה, כלומר עד ל-\( T\left(b_{n}\right) \). כאן אנחנו משתמשים במשוואה שכתבתי למעלה ומקבלים

\( T\left(b_{n}\right)=-a_{n-1}b_{n-1}-\dots-a_{1}b_{1}-a_{0}b_{0} \)

וזה נותן לנו בדיוק את העמודה הימנית ביותר של המטריצה המלווה של \( p \). קיבלנו, אם כן, שהמטריצה המייצגת של \( T \) (כאשר \( T \) מצומצמת ל-\( W \)) בבסיס \( \mathcal{B} \) היא בדיוק המטריצה המלווה של \( p \), כאשר \( p \) הוא המאפס של \( w \), שהוא היוצר של \( W \).

החתיכה האחרונה בפאזל הזה הוא הדבר הנוסף שמשפט הפירוק הציקלי נותן לנו: הוא אומר שאם \( V=W_{1}\oplus\dots\oplus W_{k} \) כאשר \( W_{i}=Z\left(w_{i};T\right) \) , ואם נסמן את המאפס של \( w_{i} \) ב-\( p_{i} \), אז המאפסים הללו מקיימים את יחס החלוקה שבו כל מאפס מחלק את קודמו: \( p_{i+1} \) מחלק את \( p_{i} \), והוא אומר שסדרת הפולינומים הללו היא יחידה. שימו לב: הוא לא אומר “יש פירוק יחיד לתת-מרחבים ציקליים” כי זה לא נכון; כל מה שהוא אומר הוא שסדרת המאפסים שלהם, עם תנאי החלוקה הזה, היא יחידה. זה בדיוק מה שהיה חסר לנו. סדרת הפולינומים \( p_{1},\dots,p_{k} \) הזו מגדירה לנו את הצורה הרציונלית בצורה מלאה. הצורה הרציונלית הרי לא תלויה ב-\( w \)-ים או אפילו ב-\( W \)-ים; מה שקובע את המטריצה בסופו של דבר הוא רק סדרת הפולינומים (וכן, יכולים להיות בסיסים שונים שבכולם \( T \) מיוצגת על ידי אותה מטריצה שהיא בצורה רציונלית, אין עם זה בעיה).

הפולינומים \( p_{1},\dots,p_{k} \) הללו נקראים הגורמים האינוריאנטיים של \( T \). כעת, משראינו שהם תמיד קיימים, נשאלת השאלה הפשוטה - בהינתן מטריצה \( A \), איך מוצאים את הגורמים האינוריאנטיים שלה? למשפט הפירוק הציקלי אין הוכחה קונסטרוקטיבית במיוחד - שלב מרכזי שם הוא “ניקח וקטור שממקסם כך וכך ונעשה איתו ניסים ונפלאות” בלי ממש להסביר איך מוצאים את הוקטור הזה. האם יש אלגוריתם פשוט יחסית למציאת הגורמים האינוריאנטיים? באופן מפתיע (עבורי) יש כזה, והוא מאוד דומה לדירוג מטריצות. רק שבמקום לדרג את \( A \) מדרגים את המטריצה \( xI-A \) (שהיא מטריצה שחיה מעל החוג \( \mathbb{F}\left[x\right] \) ולא מעל השדה \( \mathbb{F} \)), ופעולות הדירוג שלנו הן:

החלפת שתי שורות או עמודות.
הוספה לשורה אחת של שורה אחת שמוכפלת בסקלר מתוך \( \mathbb{F}\left[x\right] \) (דהיינו, מוכפלת בפולינום כלשהו מעל \( \mathbb{F} \)), ואותו הדבר עם עמודות.
הכפלה של שורה או עמודה אחת באיבר הפיך מתוך \( \mathbb{F}\left[x\right] \), כלומר באיבר של \( \mathbb{F} \).

אלמלא התנאי המעט שונה ב-3 והעובדה שאפשר לפעול גם על עמודות, זה היה בדיוק דירוג מטריצות כמו שרואים כשרק מתחילים להתעסק עם אלגברה לינארית. אבל מה היעד שלו? בדירוג מטריצות “רגיל” היעד הוא להגיע למטריצה שבה כל הכניסות הן 0 למעט כניסות שהן 1 ש”אי אפשר לוותר עליהן”, ובמקרה שבו \( A \) הפיכה נקבל שיש 1-ים בדיוק על האלכסון הראשי. במקרה שלנו מובטח שנוכל לאפס את כל מה שאינו על האלכסון הראשי, אבל על האלכסון הראשי עשויים להישאר פולינומים, ועל ידי החלפות מתאימות אפשר להביא את המטריצה לצורה הבאה:

\( \left(\begin{array}{ccccccc}1\\ & \ddots\\ & & 1\\ & & & a_{1}\left(x\right)\\ & & & & a_{2}\left(x\right)\\ & & & & & \ddots\\ & & & & & & a_{k}\left(x\right)\end{array}\right) \)

כאשר הפולינומים \( a\left(x\right) \) על האלכסון מקיימים את יחסי החלוקה שלנו (כל אחד מחלק את קודמו). הצורה הזו נקראת הצורה הנורמלית של סמית (לפעמים מגדירים הפוך, שכל פולינום מחלק את הבא אחריו, אבל מה זה משנה). להוכיח שכל זה באמת עובד? זה עניין לפוסט נפרד.

והנה הערה מעניינת לסיום, שתהיה מעניינת עוד יותר עוד רגע, כשנגיע לצורת ז’ורדן: הגורמים האינוריאנטים הם לא סתם פולינומים אקראיים. הם קשורים בקשר הדוק מאוד לפולינומים המינימלי והאופייני של \( T \). ליתר דיוק: \( p_{1} \) (הגורם האינוריאנטי הראשון, הגדול ביותר, זה שמתחלק על ידי היתר) הוא בדיוק הפולינום המינימלי, ואילו המכפלה \( p_{1}\cdots p_{k} \) היא בדיוק הפולינום האופייני של \( T \). למה? ובכן, זה לא טריוויאלי. את זה ש-\( p_{1} \) הוא הפולינום המינימלי של \( T \) הראיתי במובלע בהוכחת שלב ה”יחידות” של משפט הפירוק הציקלי; הרעיון הוא שאם \( V \) הוא סכום ישר של מרחבים ציקליים, והמאפסים של כל המרחבים הציקליים הללו מחלקים את \( p_{1} \), אז הפעלת \( p_{1} \) על איבר כלשהו של המרחב מאפסת את כל הרכיבים שלו ולכן מאפסת אותו. לכן הפולינום המינימלי מחלק את המאפס \( p_{1} \). מצד שני, המאפסים תמיד מחלקים את הפולינום המינימלי.

דרך פשוטה לראות שמכפלת כל הגורמים האינוריאנטיים היא הפולינום האופייני היא לזכור שהפולינום האופייני הוא הדטרמיננטה, מעל \( \mathbb{F}\left[x\right] \), של המטריצה \( xI-A \), ולזכור שדטרמיננטה לא משתנה על ידי פעולות אלמנטריות, פרט לכך שכפל בסקלר כלשהו של שורה כופל גם את הדטרמיננטה בסקלר הזה (זאת להבדיל מהוספה של כפולה בסקלר של שורה לשורה אחרת, שאינה משנה את הדטרמיננטה). אצלנו, התנאי לכפל בסקלר הוא שהסקלר יהיה שייך ל-\( \mathbb{F} \), כלומר הפיך; כלומר, הפולינום שהוא הדטרמיננטה שנקבל בסופו של דבר יהיה זהה לפולינום האופייני עד כדי כפל באיבר של \( \mathbb{F} \); אבל הפולינום האופייני הוא מתוקן, וגם הדטרמיננטה של צורת סמית היא פולינום מתוקן (מכפלה של פולינומים מתוקנים) כך שהם יהיו שווים.

עכשיו אפשר לעבור אל צורת ז’ורדן סוף סוף.

צורת ז'ורדן

הנה דרך ציורית לחשוב על ההבדל בין הצורה הרציונלית וצורת ז’ורדן של \( T \): בצורה הרציונלית, אנחנו לוקחים את הפולינום המינימלי של \( T \) ומתחילים לקחת סדרת מחלקים שלו - הגורמים האינוריאנטיים שלו. בצורת ז’ורדן, אנחנו לוקחים את אותו פולינום מינימלי ומפרקים אותו לגורמים אי פריקים - זה נקרא “המחלקים האלמנטריים” שלו. חלוקה כזו לגורמים אי-פריקים היא מה שמשפט הפירוק הפרימרי עושה; הרעיון בצורת ז’ורדן הוא לקחת את התוצאה של משפט הפירוק הפרימרי ולהראות שבמקרה שבו הפולינום התפרק לגורמים לינאריים, אפשר לתת ניתוח יפה של כל גורם כזה בנפרד.

בואו ניזכר מה אומר משפט הפירוק הפרימרי. ניקח את הפולינום המינימלי \( m_{T} \) של \( T \), ונפרק אותו לגורמים אי-פריקים (כלומר, למכפלה של פולינומים שהם בעצמם לא מכפלות של פולינומים ששניהם ממעלה גדולה מ-0). נסמן את זה \( m_{T}=p_{1}^{r_{1}}\cdots p_{k}^{r_{k}} \). אז אפשר לפרק את \( V \) לסכום ישר של תתי-מרחבים \( T \)-אינוריאנטיים \( V=W_{1}\oplus\dots\oplus W_{k} \) שמוגדרים כך: \( W_{i}=\ker\left(p_{i}^{r_{i}}\left(T\right)\right) \).

הדיון הזה הוא קצת באוויר מבחינתנו אז בואו נרד לקרקע ונדבר על מה קורה במקרה שמתאים לצורת ז’ורדן, כלומר שבו \( m_{T} \) מתפרק לגורמים לינאריים: במקרה הזה אפשר לכתוב \( m_{T}=\left(x-\lambda_{1}\right)^{r_{1}}\cdots\left(x-\lambda_{k}\right)^{r_{k}} \) כאשר \( \lambda_{1},\dots,\lambda_{k} \) הם השורשים של הפולינום המינימלי. במקרה הזה, המרחב \( W_{i} \) הוא בדיוק \( \ker\left(\left(T-\lambda_{i}I\right)^{r_{i}}\right) \). מה שנותר לנו להבין, אם כן, הוא איך נראית המטריצה המייצגת של \( T \) כשהיא מצומצמת לתת-מרחב מהצורה \( W=\ker\left(\left(T-\lambda I\right)^{r}\right) \). מה שנראה הוא שהמטריצה הזו תהיה מטריצת בלוקים, שכולם בלוקי ז’ורדן שמתאימים לערך העצמי \( \lambda \). כלומר, יש לנו עכשיו הרבה פחות עבודה - במקום להבין את \( T \) באופן כללי, מספיק להבין אותה על תת-מרחב שבו היא תהיה פשוטה יחסית. מכאן ואילך אני אמשיך לדבר על \( T \), אבל מה שאני אתכוון אליו בתכל’ס יהיה \( T|_{W} \), כלומר \( T \) שמצומצמת לתת-המרחב \( W \).

הפאנץ’ המרכזי כאן הוא שעל תת-המרחב \( W \), \( T \) היא סכום של שתי טרנספורמציות לינאריות פשוטות במיוחד: אחת שהיא סקלרית ואחת שהיא נילפוטנטית. אני יכול לכתוב \( T=D+N \) כאשר \( D \) היא הטרנספורמציה \( D=\lambda I \) שפשוט כופלת הכל ב-\( \lambda \) (\( D\left(v\right)=\lambda v \)) והמטריצה המייצגת שלה בכל בסיס היא בסך הכל המטריצה הסקלרית שכולה אפסים למעט האלכסון הראשי שכולו \( \lambda \). נשאר להבין את \( N \) ולמצוא בסיס שבו המטריצה המייצגת שלה תהיה נחמדה.

אני, כאמור, טוען ש-\( N \) היא נילפוטנטית. מה זו טרנספורמציה נילפוטנטית? כזו שאם מעלים אותה בחזקה מספיק פעמים, מקבלים את טרנספורמציית האפס. הנה דוגמה למטריצה נילפוטנטית:

\( \left(\begin{array}{ccccc}0 & 1 & 0 & 0 & 0\\0 & 0 & 1 & 0 & 0\\0 & 0 & 0 & 0 & 0\\0 & 0 & 0 & 0 & 1\\0 & 0 & 0 & 0 & 0\end{array}\right) \)

תעלו אותה בחזקה מספיק פעמים ותקבלו את מטריצת האפס. כעת, לא בחרתי את המטריצה הזו באקראי - בחרתי מטריצה שבה יש 1-ים רק במקום אחד: על האלכסון שמעל האלכסון הראשי. בדיוק כמו שקורה בצורת ז’ורדן. למעשה, המטריצה הזו היא-היא צורת ז’ורדן של טרנספורמציה כלשהי שכל הערכים העצמיים שלה הם 0.

מכיוון שהגדרתי \( D=\lambda I \) הרי שאם אני מגדיר \( N=T-\lambda I \) אני מקבל בדיוק ש-\( T=D+N \) כפי שכתבתי למעלה. את \( T-\lambda I \) אנחנו מכירים: המרחב \( W \) הוגדר בתור הגרעין של \( \left(T-\lambda I\right)^{r} \), דהיינו כל אברי \( W \) שייכים לגרעין של \( N^{r} \), דהיינו \( N^{r} \) היא טרנספורמציית האפס על כל המרחב \( W \), ולכן \( N \) נילפונטנטית כפי שהבטחתי.

אבל למה זה מעניין?

זה מעניין כי עכשיו אני הולך להשתמש במשפט הפירוק הציקלי על המרחב \( W \) והטרנספורמציה \( N \). במילים אחרות, אני הולך למצוא את הצורה הרציונלית של \( N \) על \( W \), ומכיוון ש-\( N \) נילפוטנטית הצורה הרציונלית הזו תהיה פשוטה במיוחד. המשמעות של נילפוטנטיות היא שהפולינום המינימלי של \( N \) הוא פשוט במיוחד: הוא חייב לחלק את \( x^{r} \) (כי \( N \) מאפסת את הפולינום \( x^{r} \)) ולכן הוא בעצמו מהצורה \( x^{t} \) עבור \( t \) כלשהו. מכיוון שכל הגורמים האינוריאנטיים של \( N \) מחלקים את הפולינום המינימלי, נובע שכל הגורמים האינוריאנטיים של \( N \) הם מהצורה \( x^{t} \) עבור \( t \) כלשהו.

ולמה זה כל כך טוב? כי תחשבו שניה מהי המטריצה המלווה של הפולינום \( x^{t} \): כל העמודה האחרונה, שבדרך כלל מלאה מקדמים מכוערים עם מינוסים מכוערים, תהיה פשוט אפסים! זאת מכיוון שכל המקדמים של \( x^{t} \) למעט המקדם המוביל (שלא מופיע במטריצה המלווה) הם אפס. זה אומר שהמטריצה המלווה תהיה מהצורה הבאה:

\( \left(\begin{array}{ccccc}0 & 0 & 0 & \cdots & 0\\1 & 0 & 0 & \cdots & 0\\0 & 1 & 0 & \cdots & 0\\\vdots & \vdots & \vdots & \ddots & \vdots\\0 & 0 & 0 & \cdots & 0\end{array}\right) \)

זה כמעט בלוק ז’ורדן - רק עם 1-ים מתחת לאלכסון במקום מעל לאלכסון. זה לא קורה בגלל שהבסיס שאנחנו עובדים איתו שונה, אלא רק שהסדר של האיברים בבסיס צריך להיות הפוך. אם אנחנו מגדירים בסיס \( \mathcal{B}=\left\{ b_{0},b_{1},\dots,b_{n-1}\right\} \) על ידי \( b_{i}=N^{i}u \) עבור \( u \) שהוא הוקטור הציקלי שלנו, אז המטריצה המייצגת של \( N \) בבסיס הזה תהיה מה שלמעלה. אבל אם נהפוך את הסדר של האיברים בבסיס, כלומר נגדיר \( b_{i}=N^{\left(n-1\right)-i}u \), אז יתקיים \( N\left(b_{i}\right)=b_{i-1} \) לכל \( 1\le i<n \), ואילו עבור \( b_{0} \) יתקיים \( N\left(b_{0}\right)=N\left(N^{n-1}\right)u=N^{n}u=0 \). לכן המטריצה המייצגת בבסיס ההפוך הזה תהיה

\( \left(\begin{array}{ccccc}0 & 1 & 0 & \cdots & 0\\0 & 0 & 1 & \cdots & 0\\0 & 0 & 0 & \cdots & 0\\\vdots & \vdots & \vdots & \ddots & \vdots\\0 & 0 & 0 & \cdots & 1\\0 & 0 & 0 & \cdots & 0\end{array}\right) \)

וזה בדיוק בלוק ז’ורדן.

נסכם: התחלנו עם \( T \). אמרנו שנמצא מטריצה מייצגת עבור \( T \) שבה לכל ערך עצמי \( \lambda \) של \( T \) יהיה לנו בלוק אחד במטריצה שהוא המטריצה המייצגת של \( T \) המצומצמת למרחב \( W=\ker\left(\left(T-\lambda I\right)^{r}\right) \) - זה משפט הפירוק הפרימרי. ב-\( W \) אמרנו שנפרק את \( T \) לסכום \( T=D+N \) כאשר \( D \) סקלרית ואילו \( N \) נילפוטנטית, ואז השתמשנו במשפט הפירוק הציקלי כדי להראות שהמטריצה המייצגת של \( N \) היא מטריצת בלוקים שבה כל בלוק הוא בלוק ז’ורדן שמתאים לערך העצמי 0, כלומר עם 0 על האלכסון הראשי. המטריצה המייצגת של \( T \) על \( W \), אם כן, היא סכום של שתי מטריצות שאחת מהן היא \( \left(\begin{array}{cccc}\lambda\\ & \lambda\\ & & \ddots\\ & & & \lambda\end{array}\right) \) והשניה היא 0 בכל מקום חוץ אולי מכמה 1-ים באלכסון שמעל האלכסון הראשי.

הראינו קיום, אבל מה עם יחידות? ובכן, הפירוק הפרימרי הוא בוודאי יחיד, כי קיים רק פירוק אחד לגורמים אי פריקים של הפולינום המינימלי (זה מתקשר לדוגמה שנתתי בתחילת הפוסט, של פירוק יחיד לאי פריקים במספרים הטבעיים; עם פולינומים זה אותו סיפור בדיוק). לכל בלוק שנותן הפירוק הפרימרי היחידות שלו נובעת מהיחידות של הצורה הרציונלית. זה מסיים גם את זה.

נשאלת כמובן גם השאלה איך מוצאים את צורת ז’ורדן בפועל. אנחנו רואים שיש פה שני שלבים: ראשית צריך לפרק את הפולינום המינימלי לגורמים בשביל לקבל את הפירוק הפרימרי. שנית, צריך למצוא את בלוקי ז’ורדן שמתאימים לכל ערך עצמי, וזה בעצם שקול למציאת הצורה הרציונלית של \( N \) עבור כל מרחב של הפירוק הפרימרי. אפשר לעשות את זה עם צורת סמית כמו שתיארתי כאן, אבל כבר קל יותר פשוט למצוא את הוקטורים הציקליים באופן מפורש. זה בדיוק מה שתיארתי בפוסט על התכל'ס של מציאת צורת ז'ורדן.

עכשיו אפשר גם לדבר על שלוש תכונות של הבלוקים בצורת ז’ורדן שהזכרתי בפוסט ההוא, ולראות למה הן נכונות. אזכיר אותן:

לכל ערך עצמי \( \lambda \), הריבוי האלגברי של \( \lambda \) (הדרגה של \( \left(x-\lambda\right) \) בפולינום האופייני) שווה לסכום גדלי בלוקי ז'ורדן המתאימים ל-\( \lambda \).
לכל ערך עצמי \( \lambda \), הריבוי הגאומטרי של \( \lambda \) שווה למספר בלוקי ז'ורדן המתאימים ל-\( \lambda \).
לכל ערך עצמי \( \lambda \), הריבוי של \( \lambda \) בפולינום המינימלי שווה לגודל בלוק הז'ורדן הגדול ביותר המתאים ל-\( \lambda \).

התכונה הראשונה קלה למדי: אם \( J \) היא מטריצה בצורת ז’ורדן, טריוויאלי לחשב את הפולינום האופייני שלה - מכיוון ש-\( xI-J \) היא מטריצה משולשית עליונה, הדטרמיננטה שלה היא מכפלת אברי האלכסון. לכן הריבוי האלגברי של \( \lambda \) זהה למספר הפעמים ש-\( \lambda \) מופיע על האלכסון של \( J \), שהוא סכום הגדלים של הבלוקים שבהם \( \lambda \) מופיע. את זה יכולנו לדעת גם בלי להבין מאיפה צורת ז’ורדן מגיעה בכלל.

התכונה השלישית נובעת ממה שאמרנו על הגורמים האינוריאנטיים בצורה הרציונלית: הגורם האינוריאנטי הגדול ביותר שווה לפולינום המינימלי. התכונה השניה טיפה יותר מסובכת: הריבוי הגאומטרי של \( \lambda \) הוא בדיוק \( \dim\ker N \). לכן השאלה היא מה הגרעין של \( N \) ב-\( W \). בואו ניזכר מה הוא הבסיס של \( W \) שאנחנו מוצאים בסוף - הוא איחוד של בסיסים לתתי-המרחבים הציקליים שפירקנו את \( W \) אליהם, ובכל תת-מרחב כזה אברי הבסיס הם הפעלות של \( N \) על וקטור ציקלי כלשהו. האיבר האחרון בכל אחד מהבסיסים הללו הוא וקטור שכאשר נפעיל עליו את \( N \) נקבל 0, ולכן הוא שייך ל-\( \ker N \); שאר הוקטורים בבסיס הם בדיוק כאלו שהפעלה של \( N \) עליהם לא מחזירה 0 (אלא את האיבר הבא בבסיס) ולכן הם לא שייכים ל-\( \ker N \). כך אנחנו מקבלים שכל וקטור ציקלי תורם בדיוק וקטור בלתי תלוי אחד ל-\( \ker N \), ולכן המימד של \( \ker N \) שווה למספר בלוקי הז’ורדן (כי כל בלוק ז’ורדן נובע מוקטור ציקלי אחד).

דברי סיכום ופרידה

היה הרבה מלל בפוסט הזה, אבל מבחינה מתמטית לא היה כאן שום דבר מסובך, רק הסברים טריוויאליים למדי. הסיבה לכך היא שאת כל העבודה כבר עשינו קודם, עם משפט הפירוק הפרימרי ומשפט הפירוק הציקלי, שההוכחות של שניהם היו טכניות יחסית וכללו רעיונות לא טריוויאליים. אחרי שהשגנו את המשפטים הללו, הכל היה פשוט: הצורה הרציונלית נבעה מיידית ממשפט הפירוק הציקלי, וצורת ז’ורדן נבעה ממשפט הפירוק הפרימרי שאחרי השתמשנו בצורה קצת חכמה במשפט הפירוק הציקלי כדי “לפרק עוד קצת” את מה שקיבלנו ממשפט הפירוק הפרימרי.

אני חושב שהיישומים הללו של המשפטים הם אלגנטיים מאוד. אחרי שמבינים “מאיפה זה מגיע”, הן הצורה הרציונלית והן צורת ז’ורדן נראות לי - עד כמה שאפשר לומר את זה על מושג מתמטי, כמובן - יפות. זה מאפיין כללי של אלגברה לינארית, לדעתי; זה תחום שיש בו כמה משפטים ספציפיים שהם טכניים מאוד בהוכחתם, אבל מסביב להם רוב התורה שנבנית היא מאוד פשוטה ואינטואיטיבית והכל בה “פשוט מסתדר מעצמו”. אני מקווה שהצלחתי להעביר את התחושה הזו בפוסט הזה.

ועוד דבר אחד לפרידה: הפוסט הזה פחות או יותר סוגר את אחד מהכיוונים בסדרת הפוסטים שלי על אלגברה לינארית (זה שעוסק בצורות קנוניות; מן הסתם יש כיוונים נוספים), אבל אני לא רוצה לתת אשליה שזה סוף הסיפור. כפי שרמזתי בפוסטים קודמים בנושא, את כל מה שעשינו כאן אפשר לראות בתור מקרה פרטי של משפט כללי יותר שעוסק במודולים, שהם בתורם הכללה של מרחבים וקטוריים. אני מקווה להציג בפוסט יום אחד גם את נקודת המבט הזו, אבל לבינתיים בואו נסתפק בלדעת שהיא קיימת.

נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ: