לכסון אוניטרי

מבוא

אני רוצה לטפל בפוסט הזה בחוב בן 12 שנים שיש לי בבלוג. בשעתו כתבתי סדרת פוסטים באלגברה לינארית שהאחרון שבהם הסתיים בהבטחה שאדבר על לכסון אוניטרי ואז… פשוט לא כתבתי את הפוסט הזה? לא בטוח למה שכחתי, אבל עכשיו זה בהחלט זמן טוב לחזור לזה אז יאללה, בואו נראה את זה. זו תוצאה ממש נחמדה.

אני לא אזכיר את כל הקונטקסט - בשביל זה יש את סדרת הפוסטים שלי באלגברה לינארית - אבל בכל זאת בואו נתחיל עם תזכורת קטנה שאפשר לדלג מעליה מה אנחנו עושים כאן בכלל.

ה”עולם” שלנו הוא מרחב וקטורי \( V \) ממימד סופי, שהוא בנוסף גם מרחב מכפלה פנימית (אני מסמן את המכפלה הפנימית ב-\( \left\langle u,v\right\rangle \)). זה אומר שהמרחב הוא מעל הממשיים \( \mathbb{R} \) או מעל המרוכבים \( \mathbb{C} \) - ובפוסט הזה שני המקרים הללו לא יהיו זהים. בפוסטים הקודמים בסדרה ראינו את המושג של אופרטור צמוד הרמיטית: אם \( T:V\to V \) היה אופרטור מעל \( V \), אז הראינו שקיים ויחיד אופרטור שמסומן \( T^{*}:V\to V \), שנקרא “הצמוד ההרמיטי” שלו (לרוב אני אוותר על ה”הרמיטי”) כך שמתקיים \( \left\langle T\left(v\right),u\right\rangle =\left\langle v,T^{*}\left(u\right)\right\rangle \) לכל \( v,u\in V \). בעזרת המושג הזה אפשר להגדיר עוד שני סוגים נחמדים במיוחד של אופרטורים:

  • אופרטור \( T \) הוא צמוד לעצמו אם \( T=T^{*} \).
  • אופרטור \( T \) הוא אוניטרי אם \( T^{-1}=T^{*} \).

לפעמים משתמשים ב”הרמיטי” במקום “צמוד לעצמו”, אבל אני מעדיף את צמוד לעצמו כי “הרמיטי” זה משהו שנהוג לומר רק כשאנחנו מעל \( \mathbb{C} \) ואם אנחנו מעל \( \mathbb{R} \) אומרים “סימטרי” ו”צמוד לעצמו” מכסה את שני המקרים בצורה נוחה.

אני מגדיר הגדרה דומה עבור מטריצות: אם \( A \) היא מטריצה, אז \( A^{*} \) מוגדרת להיות המטריצה שמתקבלת משילוב של שתי פעולות, שחלוף של \( A \) (החלפת השורות בעמודות) והצמדה של הכניסות של \( A \), במובן הרגיל של הצמדה של מספרים מרוכבים שבו \( \overline{z}=\overline{a+bi}=a-bi \). במילים אחרות, \( A_{ij}^{*}=\overline{A_{ji}} \). עם ההגדרה הזו, מטריצה \( A \) הוא הרמיטית אם \( A=A^{*} \) והיא אוניטרית אם \( A^{-1}=A^{*} \).

דיברנו על אופרטורים ומטריצות, בואו נדבר גם על וקטורים. כשיש לי מכפלה פנימית על מרחב, אני יכול להכניס לתמונה מושגים חדשים על וקטורים: אורך וזווית. השימוש שלי בזווית כאן הוא פשוט: אני אומר ששני וקטורים \( u,v \) הם אורתוגונליים (“ניצבים” - אינטואיטיבית, הם בזווית של 90 מעלות זה לזה) אם \( \left\langle u,v\right\rangle =0 \). אני גם מסמן את הנורמה של וקטור (“האורך” שלו) ב-\( \|v\|=\sqrt{\left\langle v,v\right\rangle } \). מה שאוהבים מאוד באלגברה לינארית הם בסיסים אורתונורמליים של \( V \): בסיס \( \left\{ b_{1},\ldots,b_{n}\right\} \) שהאיברים בו מקיימים \( \left\langle b_{i},b_{j}\right\rangle =\delta_{ij}=\begin{cases} 1 & i=j\\ 0 & i\ne j \end{cases} \), כלומר שכל האיברים בו הם מנורמה 1 ואורתוגונליים זה לזה. למה אלו בסיסים קסומים ונהדרים ונפלאים הסברתי בפעם אחרת.

עכשיו, הנה קשר חמוד בין בסיסים אורתונורמליים ומטריצות אוניטריות. אם \( A \) היא מטריצה אוניטרית מסדר \( n\times n \), כלומר \( A^{*}=A^{-1} \), אז בפרט \( A^{*}A=I \). בואו נסתכל על העמודות של \( A \) בתור וקטורים מאורך \( n \) ונסמן אותם \( v_{1},\ldots,v_{n} \). על פי ההגדרה של כפל מטריצות, הכניסה ה-\( i,j \) במכפלה \( A^{*}A \) היא השורה ה-\( i \) של \( A^{*} \) שמוכפלת סקלרית בעמודה \( j \) של \( A \). והשורה ה-\( i \) של \( A^{*} \) היא ההצמדה של העמודה ה-\( i \) של \( A \), כלומר אנחנו מקבלים שהכניסה הזו שווה אל \( \sum_{k=1}^{n}\left[\overline{v_{i}}\right]_{k}\left[v_{j}\right]_{k}=\left\langle v_{j},v_{i}\right\rangle \) ומכיוון שהמכפלה נותנת לנו את מטריצת היחידה \( I \) קיבלנו ש-\( \left\langle v_{j},v_{i}\right\rangle =\delta_{i,j} \). במילים אחרות: העמודות של מטריצה אוניטרית הן בסיס אורתונורמלי (גם השורות, מאותו נימוק).

אוקיי, סיימנו עם התזכורת, בואו ניגש לאקשן!

מה זה לכסון אוניטרי?

כשמתחילים ללמוד אלגברה לינארית, המושג של לכסון הוא בדרך כלל אחד מהיעדים המרכזיים שמנסים להגיע אליהם. הרעיון הוא זה: אם יש לי מטריצה ריבועית \( A \) מסדר \( n\times n \), אני רוצה למצוא מטריצה אלכסונית \( D \) ש-\( A \) דומה לה. “דמיון” פירושו שקיימת מטריצה הפיכה \( P \) כך ש-\( P^{-1}AP=D \). זה לא בא משום מקום; אם \( A \) מייצגת טרנספורמציה לינארית \( T \) (במובן שאני מתאר כאן) אז דמיון אומר שגם \( D \) מייצגת את \( T \), פשוט בבסיס אחר, ו-\( P \) היא המטריצה שיודעת להעביר בין הבסיסים. אבל דמיון מטריצות הוא נחמד גם אם אין איזו טרנספורמציה לינארית ברקע; למשל, אם רוצים לחשב את החזקה של \( A \) מהר, ואנחנו יודעים ש-\( A \) דומה ל-\( D \), כלומר \( A=PDP^{-1} \), אז נשתמש בכך ש-\( A^{n}=\left(PDP^{-1}\right)\cdots\left(PDP^{-1}\right)=PD^{n}P^{-1} \) (כל ה-\( P \)-ים שבאמצע מבטלים זה את זה) ובכך שקל להעלות מטריצה אלכסונית בחזקה כלשהי (מעלים את האיברים על האלכסון בחזקה הזו) כדי לחשב מהר את החזקה של \( A \).

עכשיו, אם \( P^{-1}AP=D \) זה אומר ש-\( AP=PD \). מה זה \( AP \)? אפשר לחשוב על זה בתור מטריצה שהעמודות שלה הן התוצאה של כפל של \( A \) בעמודות של \( P \). ואילו \( PD \), כאשר \( D \) אלכסונית, זו מטריצה שהעמודות שלה הן כפל של העמודות של \( P \) באיברים על האלכסון של \( D \) (העמודה הראשונה כפול האיבר הראשון וכן הלאה). במילים אחרות, העמודות של \( P \) הן וקטורים \( v_{i} \) שמקיימים \( Av_{i}=\lambda_{i}v_{i} \). לוקטורים כאלו קוראים וקטורים עצמיים של \( A \) ואילו \( \lambda_{i} \) הם ערכים עצמיים ואני מניח שכולנו מכירים את זה כבר.

כאשר מלכסנים מטריצה, השיטה הבסיסית היא למצוא מהם הערכים העצמיים, בעזרת זה למצוא מהם הוקטורים העצמיים, ואז לבנות בעזרתם את \( P \). לרוע המזל, זה לא תמיד עובד. כדי שנוכל לקבל את \( P \) אנחנו צריכים שיהיו לנו \( n \) וקטורים עצמיים בלתי תלויים, במרחב ממימד \( n \) - כלומר, אנחנו צריכים למצוא בסיס למרחב שיהיה מורכב כולו מוקטורים עצמיים של \( A \). לא תמיד יש כאלו, ואין קריטריון פשוט על \( A \) שאומר לנו מתי זה עובד (“הריבוי הגאומטרי שווה לריבוי האלגברי” זה לא קריטריון פשוט).

אבל מה קורה עבור מרחבי מכפלה פנימית? כאן יש לנו מבנה נוסף על העולם, אולי זה מפשט את העניינים? ובכן, בערך: אם אנחנו מגדילים את הדרישה שלנו ורוצים לא סתם לכסון אלא לכסון שבו המטריצה המלכסנת היא אוניטרית, כלומר אם אנחנו לא רוצים סתם בסיס של וקטורים עצמיים אלא בסיס אורתונורמלי של וקטורים עצמיים, פתאום אנחנו מקבלים קריטריון מאוד קונקרטי ופשוט של אם ורק אם. זה משפט מרהיב לגמרי, והנה הוא:

  • \( A \) לכסינה אוניטרית ב-\( \mathbb{R}^{n} \) אם ורק אם \( A=A^{*} \).
  • \( A \) לכסינה אוניטרית ב-\( \mathbb{C}^{n} \) אם ורק אם \( A^{*}A=AA^{*} \).

התכונה \( A=A^{*} \) היא כזכור התכונה של להיות הרמיטי, אבל כשאנחנו מעל \( \mathbb{R} \) כל פעולת ההצמדה לא עושה כלום, ולכן \( A=A^{*} \) זו דרך אחרת לכתוב \( A=A^{t} \) כש-\( t \) מסמן את פעולת השחלוף של מטריצות, כלומר הדרישה היא ש-\( A \) תהיה סימטרית.

הדרישה \( A^{*}A=AA^{*} \) קצת פחות ברורה במבט ראשון. עוד רגע נראה מאיפה היא מגיעה, אבל עד כה לא היה לנו שם בשבילה, אז בואו נמציא אחד: נאמר ש-\( A \) היא נורמלית אם \( A^{*}A=AA^{*} \). ניקח את השמות הללו גם עבור טרנספורמציות לינאריות, והנה לנו עוד ניסוח של המשפט:

  • אם \( V \) הוא מרחב מכפלה פנימית מעל \( \mathbb{R} \) ו-\( T:V\to V \) אז \( T \) לכסינה אוניטרית אם ורק אם היא צמודה לעצמה.
  • אם \( V \) הוא מרחב מכפלה פנימית מעל \( \mathbb{C} \) ו-\( T:V\to V \) אז \( T \) לכסינה אוניטרית אם ורק אם היא נורמלית.

מאיפה התנאים הללו באים? להוכיח שהם הכרחיים זה קל. נניח שקיימת מטריצה אוניטרית \( U \) (כלומר \( U^{*}=U^{-1} \) - אני משתמש בזה הרבה עכשיו) כך ש-\( U^{*}AU=D \) ו-\( D \) היא מטריצה ריבועית. בואו נפעיל את אופרטור הכוכב על שני אגפי המשוואה - אני אשתמש פה בתכונות המוכרות שלו:

  • \( \left(AB\right)^{*}=B^{*}A^{*} \)
  • \( \left(A^{*}\right)^{*}=A \)

אז על ידי הפעלה שלו על שני האגפים, אני מקבל \( U^{*}A^{*}U=\left(U^{*}AU\right)^{*}=D^{*} \). עכשיו, מכיוון ש-\( D \) אלכסונית, זה אומר ש-\( D^{*} \) היא כמו \( D \) רק עם הצמדה של אברי האלכסון. אבל אם אנחנו מעל הממשיים, אז אברי האלכסון הם מספרים ממשיים, ולכן הצמדה שלהם לא משנה אותם ולכן במקרה הממשי מקבלים ש-\( D=D^{*} \), כלומר \( U^{*}AU=U^{*}A^{*}U \). נכפול משמאל ב-\( U \) כדי לצמצם את ה-\( U^{*} \) משם; נכפול מימין ב-\( U^{*} \), ונישאר עם \( A=A^{*} \), וזה בדיוק מה שרציתי להראות עבור המקרה הממשי.

עבור המקרה המרוכב בהחלט ייתכן ש-\( D\ne D^{*} \), אבל שתיהן הן עדיין מטריצות אלכסונית, ומטריצות אלכסוניות מתחלפות בכפל. נשתמש בזה כדי להראות ש-\( A,A^{*} \) גם כן מתחלפות בכפל (זה די מתבקש מכך ש-\( A,A^{*} \) ו-\( D,D^{*} \) הם שני ייצוגים שונים לאותן טרנספורמציות, אבל בואו נראה את זה ברמת הפיפס הטכני בכל זאת). מהמשוואה \( U^{*}AU=D \) נקבל \( A=UDU^{*} \) ובדומה \( A^{*}=UD^{*}U^{*} \), וכעת:

\( A^{*}A=\left(UD^{*}U^{*}\right)\left(UDU^{*}\right)=UD^{*}\left(U^{*}U\right)DU^{*}=UD^{*}DU^{*}= \)

\( =UDD^{*}U^{*}=UD\left(U^{*}U\right)D^{*}U^{*}=\left(UDU^{*}\right)\left(UD^{*}U^{*}\right)=AA^{*} \)

אז גם זה היה קל. האתגר שלנו יהיה להראות שהתנאים הללו הם גם מספיקים, כלומר אם הם מתקיימים באמת אפשר למצוא \( U \) מופלאה שכזו.

לכסון אוניטרי של דברים צמודים לעצמם

מה שאני רוצה להראות עכשיו הוא שאם \( T:V\to V \) היא טרנספורמציה צמודה לעצמה, כלומר \( T=T^{*} \), אז היא לכסינה אוניטרית. לכאורה אני צריך להסתפק במקרה שבו \( V \) הוא מרחב מעל \( \mathbb{R} \), אבל ההוכחה תעבוד מעל \( \mathbb{C} \) באותה מידה כי להיות הרמיטי זו תכונה חזקה למדי. פשוט, במקרה של \( \mathbb{C} \) זה לא מספיק, יש עוד טרנספורמציות שאני צריך לטפל בהן.

ההוכחה היא באינדוקציה על המימד של \( V \) (בפרט, אם \( V \) הוא אינסוף ממדי שום דבר מזה לא יעבוד; אלגברה לינארית מעל מרחב אינסוף ממדי היא משחק שונה לגמרי). השלב הקריטי שלה הוא להראות של-\( T \) קיים וקטור עצמי אחד; אחר כך אפשר לפצל את \( V \) למרחב החד ממדי של “מה שהוקטור העצמי פורש” ולמרחב של “כל מה שניצב למרחב החד ממדי הזה”, לעבוד באינדוקציה על המרחב הניצב הזה ואיכשהו להדביק את הכל בסוף עם סלוטייפ. אז השלב הראשון שלנו הוא להוכיח שיש ל-\( T \) וקטור עצמי. בשביל זה אנחנו צריכים להזכיר לעצמנו מה עושים, טכנית, כדי למצוא וקטורים עצמיים.

אני לא אחזור על כל התהליך, אבל הרעיון הוא זה: לוקחים בסיס \( B \) ל-\( V \) ובונים את המטריצה \( A=\left[T\right]_{B} \) שמייצגת את \( T \) בבסיס \( B \). אין ממש חשיבות תיאורטית לשאלה איזה בסיס לוקחים - העיקר שאנחנו משיגים קונקרטיזציה שמעבירה מ-\( T \) אל אוסף של מספרים בטבלה (“מטריצה”). עכשיו, מגדירים את הפולינום \( p\left(x\right)=\det\left(xI-A\right) \) שנקרא “הפולינום האופייני” של \( A \), מוצאים לו שורש \( \lambda \), ואז פותרים את מערכת המשוואות \( \left(\lambda I-A\right)x=0 \) - הפתרון שנקבל יהיה וקטור עצמי (ומובטח שיהיה פתרון אחד לפחות).

כל מה שתיארתי הוא טוב ויפה חוץ מעניין אחד: אמרתי ש”מוצאים שורש \( \lambda \) לפולינום האופייני” - אבל מי מבטיח לנו שקיים שורש? למשל, אם הפולינום האופייני הוא \( \lambda^{2}+1 \), אז לא קיים לו שורש… מעל המספרים הממשיים, זאת אומרת. השורשים שלו הם \( \pm i \) שהם מספרים מרוכבים. זו בדיוק הסיבה למה למטריצה

\( A=\left[\begin{array}{cc} 0 & 1\\ -1 & 0 \end{array}\right] \)

שמתארת סיבוב ב-90 מעלות, אין וקטורים עצמיים ממשיים.

העניין הוא שזו בעיה שקיימת רק בממשיים. במרוכבים יש לנו את המשפט היסודי של האלגברה שמבטיח לנו שתמיד קיים שורש לכל פולינום (הוכחתי את זה כאן). כמובן, המקרה שמעניין אותנו הוא ספציפית זה של הממשיים, ולכן כן נצטרך להתאמץ יותר - עד עכשיו בטיעון שהצגתי בכלל לא השתמשנו בכך ש-\( T \) צמודה לעצמה, וזה מן הסתם יצטרך לשחק תפקיד, והתפקיד הזה הוא פשוט למדי: אם \( T \) היא צמודה לעצמה, אז כל הערכים העצמיים שלה הם ממשיים. זו טענה מרחיקת לכת שמעניינת הרבה יותר מאשר רק במסגרת ההוכחה הספציפית שלנו - למשל, בפיזיקה קוונטית משתמשים באופרטורים צמודים לעצמם כדי לתאר גדלים מדידים - המדידה על פי אופרטור מסוים מניבה ערך עצמי שלו, ולכן קריטי שהאופרטור יהיה צמוד לעצמו כי ערכים ממשיים הם הערכים שאנחנו “יודעים למדוד”.

להוכיח את זה, זה קל. נניח של-\( T \) יש ערך עצמי \( \lambda \) עם וקטור עצמי \( v\ne0 \), כלומר \( T\left(v\right)=\lambda v \), ועכשיו בואו נסתכל על הסקלר \( \lambda\left\langle v,v\right\rangle \) ונשתמש בחוקי החשבון של מכפלות פנימיות ובכך ש-\( T \) צמודה לעצמה:

\( \lambda\left\langle v,v\right\rangle =\left\langle \lambda v,v\right\rangle =\left\langle T\left(v\right),v\right\rangle = \)

\( =\left\langle v,T\left(v\right)\right\rangle =\left\langle v,\lambda v\right\rangle =\overline{\lambda}\left\langle v,v\right\rangle \)

מכיוון ש-\( v\ne0 \) אז \( \left\langle v,v\right\rangle >0 \) ואפשר לחלק בו ולקבל \( \lambda=\overline{\lambda} \) - התכונה הזו שקולה לכך ש-\( \lambda\in\mathbb{R} \), אז סיימנו עם זה.

אם אני כבר בשוונג של הוכחות שהן משחק טכני עם המכפלה הפנימית, בואו גם נוכיח שוקטורים עצמיים שמתאימים לערכים עצמיים שונים של אופרטור צמוד לעצמו הם אורתוגונליים. כלומר נניח ש-\( T\left(v\right)=\lambda v \) ו-\( T\left(u\right)=\rho u \) עם \( \lambda\ne\rho \) ונוכיח ש-\( \left\langle v,u\right\rangle =0 \). בשביל לראות את זה, נסתכל הפעם על \( \lambda\left\langle v,u\right\rangle \) ונשתמש פחות או יותר באותה סדרת מעברים:

\( \lambda\left\langle v,u\right\rangle =\left\langle \lambda v,u\right\rangle =\left\langle T\left(v\right),u\right\rangle = \)

\( =\left\langle v,T\left(u\right)\right\rangle =\left\langle v,\rho u\right\rangle =\overline{\rho}\left\langle v,u\right\rangle \)

מכיוון שהערכים העצמיים הם ממשיים אז \( \rho=\overline{\rho} \) ולכן קיבלנו

\( \lambda\left\langle v,u\right\rangle =\rho\left\langle v,u\right\rangle \)

נעביר אגפים:

\( \left(\lambda-\rho\right)\left\langle v,u\right\rangle =0 \)

ומכיוון ש-\( \lambda\ne\rho \) החלק הזה במכפלה שונה מאפס, ולכן בהכרח \( \left\langle v,u\right\rangle =0 \), מה שמסיים את החלק הזה של ההוכחה.

עכשיו נחזור לאתגר שלנו - להוכיח שלכל אופרטור צמוד לעצמו יש וקטור עצמי. יש לנו פה שני רעיונות שהשילוב של שניהם אמור לפתור את הבעיה:

  1. לכל אופרטור \( T:V\to V \) כאשר \( V \) הוא מעל המרוכבים קיים ערך עצמי \( \lambda \) (מרוכב).
  2. אם \( T \) הוא צמוד לעצמו עם ערך עצמי \( \lambda \), אז \( \lambda \) ממשי.

שני אלו באמת יפתרו את הבעיה, אבל צריך להדביק אותם בסלוטייפ והסלוטייפ יהיה קצת טכני. לב העניין הוא שאני לא יכול סתם כך להשתמש ב-1 כי נקודת המוצא שלי היא \( T:V\to V \) כך ש-\( V \) הוא מרחב וקטורי מעל הממשיים \( \mathbb{R} \).

אז בואו נתקדם בזהירות.

ראשית, אני אקח בסיס \( B \) של \( V \), אבל לא סתם בסיס - בסיס אורתונורמלי. אני יודע בודאות שקיים כזה בסיס כי תהליך גרם-שמידט (שתיארתי כאן) מבטיח את הקיום שלו. אבל למה אני צריך בסיס אורתונורמלי? כי עכשיו אני אגדיר מטריצה \( A=\left[T\right]_{B} \) בדיוק כפי שתיארתי קודם, ואני צריך שגם המטריצה תהיה צמודה לעצמה, כלומר תקיים \( A^{*}=A \), ובשביל שזה יעבוד אני צריך שיתקיים \( A^{*}=\left[T^{*}\right]_{B} \) ובשביל שזה יעבוד הבסיס צריך להיות אורתונורמלי. הראיתי את זה בפוסט הזה.

עכשיו, \( A \) היא מטריצה שהאיברים שלה לקוחים מתוך השדה שמעליו עובדים - במקרה שלנו, \( \mathbb{R} \). אבל שום דבר לא מונע מאיתנו להכניס לתמונה מרחב וקטורי חדש, מעל \( \mathbb{C} \), ולהשתמש בו ב-\( A \) באותו אופן בדיוק כי היא גם מטריצה מעל \( \mathbb{C} \). אז נסתכל על המרחב \( \mathbb{C}^{n} \). מעל המרחב הזה, \( A \) מגדירה אופרטור לינארי על ידי הפעולה \( A\left(v\right)=Av \) (כופלים את המטריצה \( n\times n \) שהיא \( A \) בוקטור העמודה \( n\times1 \) שהוא \( v \), במובן הסטנדרטי של כפל מטריצה בוקטור). לכן קיים לאופרטור \( A \) הזה ערך עצמי \( \lambda\in\mathbb{C} \). האם זה ערך עצמי ממשי? כן, בתנאי שהאופרטור \( A \) הוא צמוד לעצמו. שמתם לב לניואנס? אני לא משתמש ישירות בזה ש-\( T \) צמוד לעצמו, אלא צריך להראות שמכך נובע שהאופרטור \( A \) שנגזר ממנו בדרך חתחתים של בחירה בבסיס אורתונורמלי, מציאת ייצוג ל-\( T \) ואז החלפת שדה הבסיס ל-\( \mathbb{C} \) - אחרי כל זה, האופרטור עדיין צמוד לעצמו. כן, זה לא משהו שקשה להראות, אבל הניואנס, הו, הניואנס.

בכל מקרה, בבסיס הסטנדרטי של \( \mathbb{C}^{n} \) (זה שבו וקטורי הבסיס הם הוקטורים עם 1 בכניסה אחת ו-0 ביתר) ועם המכפלה הפנימית הסטנדרטית, המטריצה המייצגת של האופרטור \( A \) היא בעצמה \( A \), ולכן זה שאנחנו כבר יודעים ש-\( A^{*}=A \) מראה שהאופרטור צמוד לעצמו, ולכן \( \lambda \) הוא אכן ערך עצמי ממשי. עכשיו ממשיכים כמו קודם - פותרים את מערכת המשוואות \( \left(\lambda I-A\right)x=0 \), אבל שימו לב שפותרים אותה מעל הממשיים כדי לקבל פתרון ממשי; הפתרון הזה נותן לנו וקטור \( v\in V \) כך ש-\( T\left(v\right)=\lambda v \) וסיימנו (\( v \) עצמו מתקבל מצירוף לינארי של אברי הבסיס \( B \) שבחרנו בהתחלה; הפתרון של מערכת המשוואות אומר לנו מה המקדמים של אברי הבסיס הללו בצירוף הלינארי שנותן את \( v \)).

סיימנו את השלב הראשון במה שרצינו לעשות - הראינו שלאופרטור צמוד לעצמו יש תמיד וקטור עצמי. עכשיו מגיע שלב האינדוקציה.

אם כן, יש לנו מרחב מכפלה פנימית \( V \) ממימד \( n \) וטרנספורמציה \( T \) עליו. אנחנו מוצאים וקטור \( v\in V \) כך ש-\( T\left(v\right)=\lambda v \). שימו לב שאנחנו רוצים לבנות בסיס אורתונורמלי ולכן \( v \) צריך לקיים \( \|v\|=1 \), אבל אם הוא לא מקיים את זה פשוט נחליף אותו ב-\( \frac{v}{\|v\|} \) שהוא גם וקטור עצמי, אז אפשר להניח בלי הגבלת הכלליות ש-\( v \) הוא מנורמה 1. עכשיו אנחנו מגדירים תת-מרחב \( W=\text{span}\left\{ v\right\} \), ורוצים לפרק את \( V \) אל \( W \) ו”מה שנשאר”, כלומר למצוא מרחב אחר, \( W^{\prime} \) כך ש-\( V=W\oplus W^{\prime} \). למצוא סתם \( W^{\prime} \) אקראי כזה, זה קל: משלימים לבסיס את הבסיס של \( W \), ואז אברי הבסיס הנוספים שמצאנו הם בסיס ל-\( W^{\prime} \). אבל אנחנו לא רוצים סתם \( W^{\prime} \) אקראי אלא אחד שיהיה מועיל ככל הניתן. בפרט, אנחנו במרחב מכפלה פנימית אז שווה לנצל את המכפלה הפנימית הזו כדי להבטיח של-\( W^{\prime} \) יש מבנה נחמד, ולכן ניקח את \( W^{\prime} \) כך שכל הוקטורים בו אורתוגונליים לאלו של \( W \), מה שנקרא המשלים האורתוגונלי \( W^{\perp}=\left\{ v\in V\ |\ \forall w\in W:\left\langle v,w\right\rangle =0\right\} \) של \( W \). לא קשה להראות שאכן \( V=W\oplus W^{\perp} \) (הראיתי את זה כאן). השאלה היא - למה במקרה הנוכחי זה טוב לנו?

כדי שנוכל להמשיך באינדוקציה, אנחנו צריכים להצטמצם אל \( W^{\prime} \). בשביל זה צריך שגם \( T \) עצמה תהיה ניתנת לצמצום אליו, וזה לא תמיד קורה: ייתכן שלהפעיל את \( T \) על אברים של \( W^{\prime} \) יוציא אותנו מ-\( W^{\prime} \). אבל עבור \( W^{\perp} \) ובזכות זה ש-\( T \) היא צמודה לעצמה, זה דווקא כן יהיה אפשרי: פורמלית, לכל \( v\in W^{\perp} \) יתקיים \( T\left(v\right)\in W^{\perp} \), מה שמסומן לפעמים בתור \( T\left(W^{\perp}\right)\subseteq W^{\perp} \) ומתארים כ”\( W^{\perp} \) הוא \( T \)-אינוריאנטי”.

הנה הרעיון: אנחנו מניחים ש-\( u\in W^{\perp} \) ורוצים להראות ש-\( T\left(u\right)\in W^{\perp} \), כלומר שלכל \( w\in W \) מתקיים \( \left\langle w,T\left(u\right)\right\rangle =0 \), אבל מכיוון ש-\( T \) צמודה לעצמה, \( \left\langle w,T\left(u\right)\right\rangle =\left\langle T\left(w\right),u\right\rangle \). עכשיו, \( W \) הוא לא סתם תת-מרחב אקראי, הוא בעצמו נפרש על ידי וקטור עצמי של \( T \) ולכן הוא בעצמו \( T \)-אינוריאנטי, כך ש-\( T\left(w\right)\in w \) ולכן \( \left\langle T\left(w\right),u\right\rangle =0 \) כי התחלנו מזה ש-\( u\in W^{\perp} \). זה מסיים את הנימוק הזה.

עכשיו, מכיוון ש-\( W^{\perp} \) הוא \( T \)-אינוריאנטי, אפשר להסתכל על הפונקציה המצומצמת \( T|_{W^{\perp}}:W^{\perp}\to W^{\perp} \). היא בעצמה אופרטור לינארי צמוד לעצמו, והיא מוגדרת על מרחב ממימד קטן משל \( W \), אז אפשר להשתמש עליה בהנחת האינדוקציה ומקבלים בסיס אורתונורמלי \( \left\{ u_{1},\ldots,u_{n-1}\right\} \) של וקטורים עצמיים של \( T|_{W^{\perp}} \), ולכן הם גם וקטורים עצמיים של \( T \). עכשיו נוסיף להם את \( v \) שמצאנו קודם ונקבל בסיס \( \left\{ v,u_{1},\ldots,u_{n-1}\right\} \) לכל \( V \) (כי \( V=W\oplus W^{\perp} \)) אבל האם זה בסיס אורתונורמלי? בשביל זה צריך ש-\( v \) יהיה ניצב לכל ה-\( u \)-ים, אבל… זה בדיוק מה שמובטח לנו מכך שהם איברים של \( W^{\perp} \) בזמן ש-\( v\in W \). זה מסיים את ההוכחה על לכסון אוניטרי של אופרטורים צמודים לעצמם (במקרה הממשי וגם במקרה המרוכב).

לכסון אוניטרי של דברים נורמליים

מה שנשאר לנו להוכיח הוא את הטענה הבאה:

  • אם \( V \) הוא מרחב מכפלה פנימית מעל \( \mathbb{C} \) ו-\( T:V\to V \) היא נורמלית (\( T^{*}T=TT^{*} \)) אז \( T \) לכסינה אוניטרית.

בחלק הקודם שטיפל באופרטורים צמודים לעצמם ראינו שמעל \( \mathbb{C} \) תמיד יש ל-\( T \) וקטור עצמי ואז המשכנו באינדוקציה. למה אי אפשר לעשות את זה גם כאן? ובכן אפשר לעשות את זה גם כאן, וזה אפילו יעבוד. בערך. ניתקל במכשול כלשהו אבל הנורמליות תסדר לנו אותו.

קודם הרעיון היה לקחת וקטור עצמי \( v \) מנורמה 1 ולבנות את \( W=\text{span}\left\{ v\right\} \) ואז להמשיך באינדוקציה על \( W^{\perp} \). זה הסתמך על כך ש-\( W^{\perp} \) היה \( T \)-אינוריאנטי, כלומר \( T\left(W^{\perp}\right)\subseteq W^{\perp} \). לרוע המזל, זה לא מה שקורה באופן כללי, כי ההוכחה של זה דרשה ש-\( T \) יהיה צמוד לעצמו; מה שקורה באופן כללי הוא שיש לנו את השרשרת, עבור \( u\in W^{\perp} \) כלשהו וכל \( w\in W \), של

\( 0=\left\langle T\left(w\right),u\right\rangle =\left\langle w,T^{*}\left(u\right)\right\rangle \)

כלומר, \( T^{*}\left(u\right)\in W^{\perp} \): מה שנכון באופן כללי הוא ש-\( W^{\perp} \) הוא \( T^{*} \)-אינוריאנטי, פשוט במקרה של אופרטור צמוד לעצמו ניצלנו את זה ש-\( T=T^{*} \). אבל אפשר להתחכם! במקום למצוא וקטור עצמי ל-\( T \), אני אמצא וקטור עצמי \( v \) עבור \( T^{*} \), אבנה את \( W=\text{span}\left\{ v\right\} \), ואז אקבל ש-\( W^{\perp} \) הוא \( \left(T^{*}\right)^{*} \)-אינוריאנטי, כלומר \( T \)-אינוריאנטי, ולכן אפשר לצמצם את \( T \) אל \( W^{\perp} \) ולהפעיל עליו את הנחת האינדוקציה. אבל איך זה עוזר לי, בעצם, אם בסופו של דבר יש לי ביד וקטור עצמי \( v \) של \( T^{*} \) ולא של \( T \)? ובכן, זה הפאנץ’: אם \( T \) נורמלית אז כל וקטור עצמי של \( T^{*} \) הוא גם וקטור עצמי של \( T \). זו התוצאה האחרונה שאני צריך להוכיח כדי לסיים את הכל.

יהיו כמה פרטים טכניים, אבל הרעיון הבסיסי הוא פשוט למדי: אם \( v \) הוא וקטור עצמי של \( T^{*} \) עם ערך עצמי \( \lambda \), זה אומר ש-\( T^{*}v=\lambda v \), כלומר ש-\( \left(T^{*}-\lambda I\right)v=0 \). בואו נסמן \( U=T^{*}-\lambda I \). מכללי ההצמדה של אופרטורים, \( U^{*}=T-\overline{\lambda}I \). עכשיו, אם אני אוכיח שבאופן כללי, אם \( U \) הוא אופטור נורמלי אז לכל \( v\in V \) מתקיים \( \|U\left(v\right)\|=\|U^{*}\left(v\right)\| \), סיימתי. למה? כי

  1. אם \( U\left(v\right)=0 \) כפי שכבר ראינו, אז \( \|U^{*}\left(v\right)\|=\|U\left(v\right)\|=\|0\|=0 \), ולכן \( U^{*}\left(v\right)=0 \) (האיבר היחיד מנורמה 0 הוא 0).
  2. אם \( U^{*}\left(v\right)=0 \) אז מכך ש-\( U^{*}=T-\overline{\lambda}I \) נקבל \( T\left(v\right)=\overline{\lambda}v \), כלומר \( v \) הוא גם וקטור עצמי של \( T \), פשוט לא עבור אותו ערך עצמי אלא עבור ההצמדה שלו.
  3. מכיוון ש-\( T \) הוא אופרטור נורמלי גם \( U \) כזה, כמו שחישוב ישיר יראה.

בואו נראה במפורש את ה”חישוב ישיר” של 3 רק כדי שלא יהיה לנו ספק, למרות שזה די ברור גם ככה:

\( U^{*}U=\left(T-\overline{\lambda}I\right)\left(T^{*}-\lambda I\right)=TT^{*}-\overline{\lambda}T^{*}-\lambda T+\overline{\lambda}\lambda I \)

\( =T^{*}T-\lambda T-\overline{\lambda}T^{*}+\overline{\lambda}\lambda I=\left(T^{*}-\lambda I\right)\left(T-\overline{\lambda}I\right) \)

אני אוהב את הגישה הזו להוכחה, כי ככה רואים בדיוק איפה תכונת ה”נורמליות” באה לידי ביטוי ובזכותה הכל עובד - כל ההוכחות פה סובבות סביב הדואליות בין \( T \) ו-\( T^{*} \) וחיפוש אחרי מקום כלשהו שבו “המראה נשברת” במובן זה ששני האופרטורים הללו הם לא סתם שיקוף אחד של השני אלא אותו דבר בדיוק.

אוקיי, אז בואו נשבור את המראה. צריך להוכיח ש-\( \|U\left(v\right)\|=\|U^{*}\left(v\right)\| \) לכל \( v\in V \) ואופרטור נורמלי \( U \). אין כאן יותר לכסונים ועניינים, פשוט חישוב ישיר של נורמות:

\( \|U\left(v\right)\|^{2}=\left\langle U\left(v\right),U\left(v\right)\right\rangle =\left\langle v,U^{*}U\left(v\right)\right\rangle =\left\langle v,UU^{*}\left(v\right)\right\rangle \)

\( =\left\langle U^{*}\left(v\right),U^{*}\left(v\right)\right\rangle =\|U^{*}\left(v\right)\|^{2} \)

ומכיוון שנורמות הן אי-שליליות, אפשר להוציא שורש משני האגפים ולקבל \( \|U\left(v\right)\|=\|U^{*}\left(v\right)\| \) כפי שרצינו, מה שמסיים את ההוכחה.

לאן הולכים מכאן?

יש תוצאה מיידית אחת ממה שראינו שאני רוצה להציג כאן לפני שאסיים: המשפט הספקטרלי. הרעיון הוא הוא שאם \( T \) הוא אופרטור נורמלי מעל \( \mathbb{C} \) או צמוד לעצמו מעל \( \mathbb{R} \) עם ערכים עצמיים \( \lambda_{1},\ldots,\lambda_{n} \), אז אפשר לכתוב את \( T \) בתור צירוף לינארי שהמקדמים שלו הם הערכים העצמיים הללו:

\( T=\lambda_{1}E_{1}+\ldots+\lambda_{n}E_{n} \)

כאשר ה-\( E_{1},\ldots,E_{n} \) הן ההטלות האורתונוגליות על המרחבים העצמיים \( W_{1},\ldots,W_{n} \).

מה זו הטלה אורתוגונלית? ובכן, נכון שדיברנו קודם על מרחב \( V \) שמתחלק אל \( W\oplus W^{\perp} \)? זה אומר שכל וקטור \( v \) אפשר לכתוב בתור \( v=w+u \) כך ש-\( w\in W,u\in W^{\perp} \). הטלה אורתוגונלית על \( W \) היא האופרטור שלוקח את \( v \) ומחזיר את \( w \), כלומר את הרכיב שלו ששייך ל-\( W \) בפירוק של \( v \) ל”משהו מ-\( W \) ועוד משהו שמאונך ל-\( W \)”. אנחנו רגילים לזה מחיי היום יום המתמטיים: אם יש לנו את הקואורדינטה \( \left(x,y\right) \) ואנחנו שולפים ממנה את \( x \), ביצענו הטלה אורתוגונלית; עצם השימוש שלנו ב-\( \left(x,y\right) \) כדי לתאר וקטורים ב-\( \mathbb{R}^{2} \) מראה כמה טבעי לנו לחשוב כל הזמן במונחים של מרחבים אורתונורמליים (“ציר \( x \) וציר \( y \)”).

בשביל הוכחת המשפט הספקטרלי, אני רוצה קודם כל להראות שכל שני מרחבים עצמיים שונים \( W_{i},W_{j} \) הם אורתוגונליים זה לזה. אז אני אקח \( v\in W_{i} \) ו-\( u\in W_{j} \) כך ש-\( T\left(v\right)=\lambda v \) ו-\( T\left(u\right)=\rho u \) ו-\( \lambda\ne\rho \) וכרגיל אעשה איזה להטוט עם המכפלה הפנימית:

\( \lambda\left\langle v,u\right\rangle =\left\langle \lambda v,u\right\rangle =\left\langle T\left(v\right),u\right\rangle = \)

\( =\left\langle v,T^{*}\left(u\right)\right\rangle =\left\langle v,\overline{\rho}u\right\rangle =\rho\left\langle v,u\right\rangle \)

כאן השתמשתי בכך ש-\( T \) נורמלי ולכן \( u \) הוא וקטור עצמי של \( T^{*} \), פשוט עם הערך העצמי \( \overline{\rho} \), כפי שראינו קודם.

קיבלתי ש-\( \left(\lambda-\rho\right)\left\langle v,u\right\rangle =0 \) ומכיוון ש-\( \lambda\ne\rho \) המסקנה היא \( \left\langle v,u\right\rangle =0 \), כפי שרציתי. עכשיו, מכך שיש לנו לכסון אוניטרי של \( T \) אנחנו מקבלים שהמרחבים העצמיים של \( T \) פורשים את כל \( V \), כלומר \( V=W_{1}+\ldots+W_{n} \). כדי לראות שזה סכום ישר, אפשר להסתכל על צירוף לינארי \( w_{1}+\ldots+w_{n}=0 \) כך ש-\( w_{i}\in W_{i} \), לכפול אותו ב-\( w_{i} \) עבור \( 1\le i\le n \) ולקבל

\( 0=\left\langle 0,w_{i}\right\rangle =\left\langle \sum_{k=1}^{n}w_{k},w_{i}\right\rangle =\sum_{k=1}^{n}\left\langle w_{k},w_{i}\right\rangle =\|w_{i}\|^{2} \)

וזה כי אנחנו יודעים מהלכסון האוניטרי שוקטורים עצמיים שמתאימים לערכים עצמיים שונים יהיו אורתוגונליים. המסקנה היא ש-\( w_{i}=0 \) לכל אחד מאברי הסכום, כלומר הצירוף הלינארי היחיד שנותן את 0 הוא 0, וזה שקול לכך ש-\( V=W_{1}\oplus\ldots\oplus W_{n} \). זה אומר שכל \( v \) ניתן להצגה יחידה בתור \( v=w_{1}+\ldots+w_{n} \) ואם נסמן ב-\( E_{i} \) את ההטלה האורתוגונלית מ-\( V \) על \( W_{i} \), אז מה שהיא עושה הוא \( E_{i}\left(v\right)=w_{i} \).

בפרט, שימו לב ש-\( E_{1}+\ldots+E_{n}=I \), כי פשוט תפעילו את אגף שמאל על \( v \) ותראו מה תקבלו; ובאופן דומה:

\( T\left(v\right)=T\left(\sum_{i=1}^{n}w_{i}\right)=\sum_{i=1}^{n}T\left(w_{i}\right)=\sum_{i=1}^{n}\lambda_{i}w_{i}=\sum_{i=1}^{n}\lambda_{i}E_{i}\left(v\right) \)

מה שנותן לנו את \( T=\lambda_{1}E_{1}+\ldots+\lambda_{n}E_{n} \) המובטח.

הדבר הבא שמעניין לטעמי לדבר עליו אחרי שרואים לכסון אוניטרי הוא ההכללה שלו, למשהו שעובד במרחב מכפלה פנימית סוף ממדי עבור כל מטריצה, כולל מטריצות לא ריבועיות בכלל: פירוק לערכים סינגולריים (Singular Value Decomposition, ובקיצור SVD). כאן הרעיון הוא בגדול להציג מטריצה \( A \) על ידי שתי מטריצות אוניטריות ומטריצה אלכסונית, \( A=U\Sigma V^{*} \), אבל מה המטריצות מייצגות? מה הולך באלכסון של \( \Sigma \)? מה זה “ערכים סינגולריים”? לזה ראוי להקדיש פוסט משל עצמו, וזה מה שאני מתכנן לעשות בפוסט הבא. אני רק מקווה ש”הפוסט הבא” כאן לא יתגלה גם בתור “נחכה 12 שנים ואז ניזכר לכתוב אותו”.


נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ:

Buy Me a Coffee at ko-fi.com