מטריצות חיוביות
מבוא
נושא בסיסי באלגברה לינארית שעדיין לא יצא לי לדבר עליו בפוסט הוא מטריצות חיוביות ומטריצות חיוביות לחלוטין. באנגלית מטריצות כאלו נקראות Positive Semidefinite ו-Positive Definite ובעברית מאוד מקובל השם “מטריצה מוגדרת אי-שלילית” ו”מטריצה מוגדרת חיובית” שאני לא אוהב אז אני אדבוק כאן בשמות הקצרים יותר. סיימנו מהר את הדיון הכואב על הטרמינולוגיה ואפשר לעבור לדבר על מה זה בכלל.
נקודת מוצא טובה לנושא היא המושג של מכפלה פנימית. כזכור, יש לנו מרחב וקטורי \( V \) מעל שדה \( \mathbb{F} \) שהוא הממשיים או המרוכבים, ועליו אנחנו מגדירים פונקציה \( \left\langle x,y\right\rangle :V\times V\to\mathbb{F} \) שמקיימת לכל \( x,y \):
- \( \left\langle x_{1}+x_{2},y\right\rangle =\left\langle x_{1},y\right\rangle +\left\langle x_{2},y\right\rangle \)
- \( \left\langle \lambda x,y\right\rangle =\lambda\left\langle x,y\right\rangle \)
- \( \left\langle x,y\right\rangle =\overline{\left\langle y,x\right\rangle } \)
- \( \left\langle x,x\right\rangle \ge0 \) ושוויון מתקבל רק עבור \( x=0 \)
אחד מהדברים שאוהבים לעשות באלגברה לינארית בכל מקום אפשרי הוא לתרגם את השפה האבסטרקטית יחסית של “מרחבים” ו”טרנספורמציות” עליהם לשפה הקונקרטית בהרבה של מטריצות. הטריק הוא לבחור בסיס למרחב, ואז להסתכל לא על וקטורים אלא על הקואורדינטות שלהם, שהם איברים של \( \mathbb{F}^{n} \) כש-\( n \) הוא המימד של המרחב (אנחנו תמיד מניחים שהמרחב הוא ממימד סופי אחרת כל האלגברה הלינארית היא סיפור מסובך בהרבה) ולייצר טרנספורמציות לינאריות עם מטריצות. דיברתי על כל זה כאן, וזו הגישה שאאמץ מכאן ואילך.
ראשית, כשעוברים לדבר על וקטורים, קל לתאר את מה שנקרא “המכפלה הפנימית הסטנדרטית” שמוגדרת בתור \( \left\langle x,y\right\rangle =\sum_{i=1}^{n}x_{i}\overline{y}_{i} \). הרעיון הוא שאם \( x \) הוא וקטור עמודה, וגם \( y \) היא וקטור עמודה, אז \( y^{*} \) (מה שמתקבל מ-\( y \) על ידי שחלוף והצמדה) היא וקטור שורה ולכן הכפל \( y^{*}x \) הולך להחזיר לנו סקלר בודד, שעל פי הגדרת כפל מטריצות יקיים בדיוק \( y^{*}x=\left\langle x,y\right\rangle \). אז ייצוג של המכפלה הפנימית הפשוטה ביותר בלשון איברים של \( \mathbb{F}^{n} \) יש לנו.
מה עם מכפלות פנימיות מסובכות יותר? מה שמתברר למרבה השמחה הוא שאפשר לחשוב עליהן בתור משהו שהוא כמעט \( y^{*}x \), בהבדל שלא כופלים את \( y^{*} \) ב-\( x \) אלא בתוצאה של הפעלת טרנספורמציה לינארית על \( x \). כלומר לוקחים מטריצה \( A \) ומסתכלים על הפונקציה \( f\left(x,y\right)=y^{*}Ax \). מה זה משיג לנו?
ובכן, היופי במושג הלא טריוויאלי של כפל מטריצות הוא האופן היפה שבו הוא תופס את תכונת הלינאריות של טרנספורמציות לינאריות. מתקיים:
\( A\left(x_{1}+x_{2}\right)=Ax_{1}+Ax_{2} \)
\( A\left(\lambda x\right)=\lambda Ax \)
משני אלו נקבל מיידית:
\( f\left(x_{1}+x_{2},y\right)=y^{*}A\left(x_{1}+x_{2}\right)=y^{*}Ax_{1}+y^{*}Ax_{2}=f\left(x_{1},y\right)+f\left(x_{2},y\right) \)
\( f\left(\lambda x,y\right)=y^{*}A\left(\lambda x\right)=\lambda y^{*}Ax=\lambda f\left(x,y\right) \)
כלומר - עצם השימוש במטריצה \( A \) - כל מטריצה מסדר \( n\times n \) - כבר נותן לי את שתי התכונות הראשונות של מכפלה פנימית. אבל מה הדרישות הנוספות שיתנו לי את שתי התכונות הבאות? אלו בדיוק הדרישות שיהפכו את \( A \) מסתם מטריצה למה שאני קורא לו מטריצה חיובית לחלוטין.
ראשית, התכונה \( \left\langle x,y\right\rangle =\overline{\left\langle y,x\right\rangle } \) (“הרמיטיות”). כשמנסחים את זה בלשון המטריציונית שלנו, זה אומר שצריך להתקיים
\( y^{*}Ax=\overline{\left(x^{*}Ay\right)} \)
מכיוון שקצת קשה לראות איך להכניס את אופרטור ההצמדה פנימה, בואו נעבור לדבר על איברים בודדים. אם פותחים את הגדרות הכפל, \( y^{*}Ax \) הוא הסקלר הבא:
\( y^{*}Ax=\sum_{j=1}^{n}\overline{y_{j}}\left(\sum_{i=1}^{n}A_{ij}x_{i}\right)=\sum_{i,j=1}^{n}A_{ij}x_{i}\overline{y_{j}} \)
את זה קל להצמיד:
\( \overline{\sum_{i,j=1}^{n}A_{ij}x_{i}\overline{y_{j}}}=\sum_{i,j=1}^{n}\overline{A_{ij}}\overline{x_{i}}y_{j}=x^{*}A^{*}y \)
ובאופן דומה, \( \overline{\left(x^{*}Ay\right)}=y^{*}A^{*}x \), כך שהשוויון למעלה מתורגם אל \( y^{*}Ax=y^{*}A^{*}x \). מכיוון שהוא נכון לכל \( x,y \) הוא יהיה נכון בפרט עבור וקטורי יחידה, ומכך נקבל בסופו של דבר ש-\( A=A^{*} \). כלומר, כדי שתכונת ההרמיטיות תתקיים, אז \( A \) צריכה להיות, אה, הרמיטית. או כמו שאני בדרך כלל קורא לזה, צמודה לעצמה.
זה משאיר אותנו עם התכונה האחרונה. אם \( x=0 \) אז \( x^{*}Ax=0 \) תמיד, לא משנה מה \( A \), כך שהתכונה שמעניינת אותנו היא שיתקיים \( x^{*}Ax>0 \) לכל \( x\ne0 \). למטריצה צמודה לעצמה \( A \) שמקיימת גם את התכונה הזו קוראים מטריצה חיובית לחלוטין (או “מוגדרת חיובית” או Positive Definite). אם מחלישים את הדרישה ורק דורשים \( x^{*}Ax\ge0 \) מקבלים את מה שנקרא מטריצה חיובית (או “מוגדרת אי שלילית” או Positve Semidefinite).
זו המוטיבציה להגדרה וההגדרה עצמה, אבל עכשיו בואו נראה כמה דרכים נוספות להסתכל על זה.
אפיונים שקולים של מטריצות חיוביות
ראשית, ערכים עצמיים. אנחנו כבר יודעים שאם \( A \) היא מטריצה צמודה לעצמה, אז הערכים העצמיים שלה הם ממשיים (הראיתי את זה למשל כאן), אבל אם היא חיובית אפשר לומר יותר מזה. נניח ש-\( Ax=\lambda x \) עבור \( x\ne0 \), אז \( x^{*}Ax=x^{*}\lambda x=\lambda\cdot\sum_{i=1}^{n}x_{i}\overline{x_{i}}=\lambda\cdot\sum\left|x_{i}\right|^{2} \)
כלומר, \( x^{*}Ax \) היא \( \lambda \) כפול מספר חיובי כלשהו (הוא לא אפס כי \( x\ne0 \) אז לפחות אחד המחוברים יהיה גדול מאפס). הדרישה \( x^{*}Ax>0 \) מכתיבה שיתקיים גם \( \lambda>0 \), כלומר הערכים העצמיים של מטריצה חיובית הם חיוביים.
מה שנחמד הוא שגם הכיוון השני נכון - מטריצה צמודה לעצמה שכל הערכים העצמיים שלה הם חיוביים היא חיובית לחלוטין. במבט ראשון לא ברור לי איך להראות דבר כזה - ערכים עצמיים הם הרי דבר חמקמק, לכו תמצאו אותם, וגם כשמוצאים אותם לא בטוח שנמצא מספיק וקטורים עצמיים כדי לעשות עם זה משהו מעניין - אבל אני שוכח בזה שהנחתי שהמטריצה היא צמודה לעצמה. מרגע שמטריצה היא צמודה לעצמה, אז כמו שהראיתי ממש לא מזמן, היא ניתנת ללכסון אוניטרי. ולכסון אוניטרי הוא דבר חזק. זה אומר שאפשר לכתוב את \( A \) בתור \( A=UDU^{*} \) כך ש-\( D \) אלכסונית ולכן כל הערכים העצמיים \( \left\{ \lambda_{1},\ldots,\lambda_{n}\right\} \) כתובים בה יפה, ואילו \( U \) הוא אוניטרית (\( UU^{*}=I \)) כלומר העמודות שלה הן בסיס אורתונורמלי \( \left\{ v_{1},\ldots,v_{n}\right\} \) של וקטורים עצמיים (את כל זה הסברתי בפוסט הקודם). אז מה שאפשר לעשות הוא לקחת וקטור \( x\ne0 \) כלשהו ולכתוב אותו בתור צירוף לינארי של הוקטורים העצמיים: \( x=\sum_{i=1}^{n}\alpha_{i}v_{i} \). לכן
\( Ax=A\left(\sum_{i=1}^{n}\alpha_{i}v_{i}\right)=\sum_{i=1}^{n}\alpha_{i}Av_{i}=\sum_{i=1}^{n}\alpha_{i}\lambda_{i}v_{i} \)
עכשיו, מה שמעניין אותנו הוא \( x^{*}Ax \), וכפי שאמרתי כבר, \( x^{*}Ax=\left\langle Ax,x\right\rangle \) כשזו המכפלה הפנימית הסטנדרטית - וכשאני אומר שהעמודות של \( U \) הן אורתונורמליות הכוונה היא ביחס למכפלה הפנימית הסטנדרטית, כלומר \( \left\langle v_{i},v_{j}\right\rangle =\delta_{ij} \). אז בואו נחשב!
\( x^{*}Ax=\left\langle Ax,x\right\rangle =\left\langle \sum_{i=1}^{n}\alpha_{i}\lambda_{i}v_{i},\sum_{j=1}^{n}\alpha_{i}v_{i}\right\rangle = \)
\( =\sum_{i,j=1}^{n}\left\langle \alpha_{i}\lambda_{i}v_{i},\alpha_{j}v_{j}\right\rangle =\sum_{i,j=1}^{n}\lambda_{i}\alpha_{i}\overline{\alpha_{j}}\left\langle v_{i},v_{j}\right\rangle = \)
\( =\sum_{i,j=1}^{n}\lambda_{i}\alpha_{i}\overline{\alpha_{j}}\delta_{ij}=\sum_{i=1}^{n}\lambda_{i}\left|\alpha_{i}\right|^{2}>0 \)
כשהמעבר האחרון נובע מכך שקיבלנו סכום שכל המחוברים בו הם מכפלה \( \lambda_{i}\left|\alpha_{i}\right|^{2} \) של מספרים אי שליליים, \( \lambda_{i}>0 \) תמיד וקיים \( \alpha_{i} \) כך ש-\( \left|\alpha_{i}\right|^{2}>0 \) כי \( x\ne0 \) (ולכן בצירוף הלינארי שנותן אותו לא כל המקדמים יכולים להיות 0). זה מסיים את ההוכחה! ושימו לב שאנחנו מקבלים באותה צורה משפט שאומר שמטריצה צמודה לעצמה שכל הערכים העצמיים שלה הם אי שליליים היא חיובית (לאו דווקא חיובית לחלוטין) פשוט כי במעבר האחרון נוכל להבטיח רק \( \ge0 \) ולא \( >0 \) (כי אמנם עדיין יש \( \left|\alpha_{i}\right|^{2}>0 \) אבל ייתכן שעבורו \( \lambda_{i}=0 \)).
בואו נעבור עכשיו לתכונה אפילו עוד יותר מלהיבה! ראשית, בואו נסתכל על משהו מההוכחה האחרונה - היו לי מכפלות מהצורה \( \alpha_{i}\overline{\alpha_{j}} \) של מספר מרוכב והצמוד שלו, והן הפכו להיות \( \left|\alpha_{i}\right|^{2} \) - כלומר מספר ממשי חיובי. זו תכונה מוכרת במספרים מרוכבים, ומה שמלהיב הוא שהיא עובדת גם עם מטריצות. אם ניקח מטריצה ריבועית \( A \) כלשהי ונסתכל על \( B=AA^{*} \), כלומר \( A \) כפול הצמוד שלה, נקבל מטריצה \( B \) שהיא חיובית.
ההוכחה היא די פשוטה: ראשית, צריך להוכיח ש-\( B \) צמודה לעצמה אבל הרי \( B^{*}=\left(AA^{*}\right)^{*}=\left(A^{*}\right)^{*}A^{*}=AA^{*}=B \), אז את זה יש לנו. שנית, צריך להראות שלכל \( x \) מתקיים \( x^{*}Bx\ge0 \), ומתקיים \( x^{*}Bx=x^{*}AA^{*}x=\left(A^{*}x\right)^{*}A^{*}x=\left\langle A^{*}x,A^{*}x\right\rangle \ge0 \) כי מכפלה פנימית של איבר בעצמו היא תמיד אי-שלילית. יותר מכך - היא שווה אפס רק עבור אפס, כלומר רק אם \( A^{*}x=0 \). עכשיו, בהחלט ייתכן ש-\( A^{*}x=0 \) אם \( x\ne0 \), אבל אנחנו יודעים שדבר כזה קורה אם ורק אם \( A^{*} \) סינגולרית, כלומר לא הפיכה. אנחנו גם יודעים ש-\( A^{*} \) הפיכה אם ורק אם \( A \) הפיכה. במילים אחרות, אם \( A \) כן הפיכה אז \( AA^{*} \) היא חיובית לחלוטין, מה שאנלוגי לכך ש-\( \alpha_{i}\overline{\alpha_{j}}>0 \) אלא אם \( \alpha_{i}=0 \) כלומר אם \( \alpha_{i} \) הוא המספר המרוכב הלא-הפיך היחיד שקיים.
עוד יותר מעניין שגם הכיוון השני נכון: אם \( B \) היא חיובית, אז אפשר לפרק אותה ל-\( B=AA^{*} \). כאן אנחנו צריכים כלי כבד יותר, שלמרבה המזל כבר יש לנו: מכיוון ש-\( B \) חיובית היא צמודה לעצמה, ולכן ניתנת ללכסון אוניטרי, כלומר \( B=UDU^{*} \) כאשר \( D \) אלכסונית ו-\( U \) אוניטרית. יותר מזה: האלכסון של \( B \) כולל את הערכים העצמיים של \( B \), וכבר ראינו שהם כולם אי-שליליים, אז אפשר להוציא לכולם שורש, וזה מאפשר להוציא שורש ל-\( D \) בעצמה.
בואו נראה את זה במפורש: נסמן
\( D=\left(\begin{array}{cccc} \lambda_{1}\\ & \lambda_{2}\\ & & \ddots\\ & & & \lambda_{n} \end{array}\right) \)
ואז נגדיר
\( \sqrt{D}=\left(\begin{array}{cccc} \sqrt{\lambda_{1}}\\ & \sqrt{\lambda_{2}}\\ & & \ddots\\ & & & \sqrt{\lambda_{n}} \end{array}\right) \)
שימו לב: כאן לכתוב \( \sqrt{D} \) זה סתם סימון, אבל השורשים שמופיעים על האיברים שעל האלכסון הם “אמיתיים”, כלומר הפעלה של פונקציית השורש הרגילה על מספרים ממשיים אי-שליליים. הסימון הזה מוצדק כי כשכופלים שתי מטריצות אלכסוניות, מקבלים מטריצה אלכסונית שהאלכסון שלה הוא מכפלה איבר-איבר של האלכסונים של המטריצות המוכפלות. כלומר \( \sqrt{D}\cdot\sqrt{D}=D \). זה מאפשר לנו לכתוב:
\( B=U\sqrt{D}\sqrt{D}U^{*} \)
עכשיו, \( \sqrt{D} \) היא מטריצה שכל אבריה ממשיים והיא אלכסונית, כך ש-\( \sqrt{D}=\left(\sqrt{D}\right)^{*} \), אז קיבלנו
\( B=\left(U\sqrt{D}\right)\left(U\sqrt{D}\right)^{*} \)
במילים אחרות, \( A=U\sqrt{D} \) היא המטריצה שחיפשנו. עכשיו, אם \( B \) לא הייתה סתם חיובית אלא חיובית לחלוטין, אז אין לה ערך עצמי 0, ולכן \( \sqrt{D} \) היא מטריצה הפיכה, וכשמכפילים אותה ב-\( U \) ההפיכה מקבלים מטריצה הפיכה - כך שהמסקנה היא שבפירוק \( B=AA^{*} \), נקבל ש-\( A \) הפיכה אם ורק אם \( B \) חיובית לחלוטין.
השורש החיובי של מטריצה חיובית
דבר אחד שצריך לשים לב אליו עם הפירוק שמצאנו עכשיו הוא שהפירוק הזה אינו יחיד, כי כשעושים לכסון אוניטרי יש הרבה דרכים לבנות את המטריצה \( U \) - יש לנו את מרחב הוקטורים העצמיים, ואנחנו מוצאים לו בסיס אורתונורמלי ספציפי (ומסדרים אותו כך שהוקטורים העצמיים מתאימים לסדר שבו הערכים העצמיים מופיעים ב-\( D \)). זה מתאים לאופן שבו אם אנחנו לוקחים מספר ממשי \( x\ge0 \), יש הרבה מספרים מרוכבים \( z \) כך ש-\( z\overline{z}=x \). מה שנכון הוא שקיים רק מספר יחיד \( y \) כך ש-\( y\overline{y}=x \) אם מגבילים את \( y \) כך שיהיה ממשי אי-שלילי בעצמו: \( y\ge0 \), ובמקרה הזה מכיוון ש-\( y \) ממשי, \( \overline{y}=y \) ולכן נקבל \( y^{2}=x \). ל-\( y \) הזה יש סימון: \( \sqrt{x} \). במילים אחרות, אמרנו את הדבר הטריוויאלי שכולנו יודעים - למספר ממשי אי שלילי קיים ויחיד שורש אי שלילי.
העניין הוא שזה נכון גם למטריצות. אם \( B \) חיובית, אז קיימת מטריצה \( \sqrt{B} \) חיובית יחידה כך ש-\( \left(\sqrt{B}\right)^{2}=B \). בואו נוכיח את זה.
למצוא את \( \sqrt{B} \) זה יחסית קל. ראינו קודם שאפשר לקחת לכסון אוניטרי \( B=UDU^{*} \) ואז להגדיר \( A=U\sqrt{D} \) ויתקיים \( AA^{*}=B \); בצורה הזו מקבלים שלל מטריצות שונות. אבל אפשר גם להגדיר \( A=U\sqrt{D}U^{*} \), ומה יקרה אז? נקבל
\( AA=\left(U\sqrt{D}U^{*}\right)\left(U\sqrt{D}U^{*}\right)=U\sqrt{D}\left(U^{*}U\right)\sqrt{D}U^{*}= \)
\( =U\sqrt{D}\sqrt{D}U^{*}=UDU^{*}=B \)
אה-הא! קיבלנו שורש של \( B \)! יותר מכך, אנחנו יודעים שיש לשורש הזה לכסון אוניטרי, הרי מזה התחלנו: \( U\sqrt{D}U^{*} \). מכיוון ש-\( \sqrt{D} \) היא מטריצה אלכסונית עם מספרים ממשיים אי-שליליים על האלכסון אנחנו יודעים ש-\( A \) היא צמודה לעצמה (אפשר גם פשוט לחשב את \( A^{*} \) ולראות מה קורה) ושהיא חיובית. אז החלק של ה”קיום” היה קל. מה עם החלק של ה”יחידות”?
קודם, כשהגדרנו \( A=U\sqrt{D} \), המטריצה \( \sqrt{D} \) הייתה קבועה אבל היה לנו חופש גדול לבחור את \( U \) - זה היה בסיס אורתונורמלי כלשהו למרחב הוקטורים העצמיים של \( B \), עד כדי הסדר שבו אברי הבסיס מופיעים שכן נקבע על ידי \( D \). כאן לכאורה עדיין יש לנו חופש כזה כשמגדירים את \( A=U\sqrt{D}U^{*} \) אלא שהפעם הכפל הנוסף ב-\( U^{*} \) “מבטל” את החופש הזה - אנחנו תמיד נקבל את אותה מטריצה. אלא שזה נפנוף ידיים, לא נימוק רציני; ונימוק רציני צריך גם לטפל בשאלה המהותית יותר, האם יש דרכים אחרות לקבל שורש חיובי של \( B \) שלא חשבנו עליהן. אז הנה הוכחה רצינית יותר, אבל גם מסובכת יותר.
האבחנה המרהיבה הראשונה היא שקיים פולינום \( p\in\mathbb{R}\left[x\right] \) כך ש-\( p\left(B\right)=\sqrt{B} \). זה… מוזר, במבט ראשון. אנחנו חושבים על \( \sqrt{B} \) בתור משהו שנמצא “נמוך יותר” מאשר \( B \) במדד החזקות (הוא חזקת \( \frac{1}{2} \)) בזמן שפולינום לוקח אותנו “גבוה יותר” (למשל, מעלה את \( B \) בחזקת 2). אבל צריך לזכור שבמטריצות יש גבול כמה אפשר לעלות: הפולינום האופייני של מטריצה תמיד מאפס אותה (זה משפט קיילי המילטון שהראיתי כאן) ואז אנחנו “מתחילים מהתחלה”. עדיין, בואו נראה את הפלא קורה. ראשית, אני מסמן את הערכים העצמיים השונים של \( B \) ב-\( \lambda_{1},\ldots,\lambda_{k} \). עכשיו, אפשר לבנות פולינום שמקיים \( p\left(\lambda_{i}\right)=\sqrt{\lambda_{i}} \), כלומר על המספרים שהם הערכים העצמיים של \( B \) מחזיר את השורש שלהם (זה לא פולינום שמקודד את פונקציית השורש באופן כללי; רק על הערכים הספציפיים הללו). הדרך הסטנדרטית לעשות את זה היא באמצעות אינטרפולציית לגראנז' שנותנת לנו בניה מפורשת של הפולינום; במקרה הנוכחי
\( p\left(x\right)=\sum_{i=1}^{k}\prod_{j\ne i}\frac{x-\lambda_{j}}{\lambda_{i}-\lambda_{j}}\sqrt{\lambda_{i}} \)
בתוך הפולינום הזה אפשר להציב מטריצות, כמו שקורה בקיילי המילטון. אם נציב את \( D \), אז מכיוון ש-\( D \) אלכסונית ומטריצות אלכסוניות סגורות לכפל וחיבור, שמתורגמים לפעולות ישירות על האלכסון, בסך הכל יתקיים
\( p\left(D\right)=\left(\begin{array}{cccc} p\left(\lambda_{1}\right)\\ & p\left(\lambda_{2}\right)\\ & & \ddots\\ & & & p\left(\lambda_{n}\right) \end{array}\right)=\left(\begin{array}{cccc} \sqrt{\lambda_{1}}\\ & \sqrt{\lambda_{2}}\\ & & \ddots\\ & & & \sqrt{\lambda_{n}} \end{array}\right)=\sqrt{D} \)
ועכשיו, אם נציב את \( UDU^{*} \) ב-\( p \) נקבל אפקט דומה: כי באופן כללי, \( UXU^{*}\cdot UYU^{*}=UXYU^{*} \) ו-\( UXU^{*}+UYU^{*}=U\left(X+Y\right)U^{*} \), כלומר אפשר לעשות את החשבון תוך ששוכחים מה-\( U \)-ים ולהחזיר אותם בסוף. אז
\( p\left(UDU^{*}\right)=Up\left(D\right)U^{*}=U\sqrt{D}U^{*}=\sqrt{B} \).
לי אישית קשה להאמין בזה אז הנה דוגמת צעצוע כדי לשכנע את עצמי. ניקח מטריצה חיובית שהערכים העצמיים שלה הם 1,4,9 (כדי שהשורשים ייצאו נחמד), למשל \( B=\left(\begin{array}{ccc} 5 & 4 & 0\\ 4 & 5 & 0\\ 0 & 0 & 4 \end{array}\right) \) (שימו לב שהיא סימטרית והיא חייבת להיות סימטרית כדי להיות חיובית). עכשיו, אם מחשבים פולינום אינטרפולציה שמקיים \( p\left(1\right)=1,p\left(4\right)=2,p\left(9\right)=3 \) מקבלים את
\( p\left(x\right)=\frac{-x^{2}+25x+36}{60} \)
זה בפני עצמו מרגיש לי קסם, שפולינום שנראה ככה עובד כל כך יפה (נסו להציב!) אבל זה היופי בפולינומים. עכשיו, חישוב ישיר יראה לנו ש-
\( B^{2}=\left(\begin{array}{ccc} 41 & 40 & 0\\ 40 & 41 & 0\\ 0 & 0 & 16 \end{array}\right) \)
ולכן:
\( 60p\left(B\right)=-B^{2}+25B+36I=\left(\begin{array}{ccc} 120 & 60 & 0\\ 60 & 120 & 0\\ 0 & 0 & 120 \end{array}\right) \)
ולכן: \( A=\left(\begin{array}{ccc} 2 & 1 & 0\\ 1 & 2 & 0\\ 0 & 0 & 2 \end{array}\right) \)
ובאמת אם נחשב נקבל \( A^{2}=B \). קסם! יותר מזה, שימו לב שעשינו את הקסם הזה בלי להסתמך על אף \( U \) בדרך; השתמשנו בפולינום האינטרפולציה \( p \) שדרש רק את הידע על מהם הערכים העצמיים.
אוקיי, זה היה מלהיב ממש (עבורי) אבל איך זה מקדם אותנו להוכחה שהשורש הוא יחיד? ובכן, בואו נניח שיש עוד שורש, \( C \). כלומר, \( A^{2}=C^{2}=B \), וגם \( C \) היא חיובית. אז מתקיים \( A=p\left(B\right)=p\left(C^{2}\right) \), וזה אומר ש-\( A,C \) הן מתחלפות בכפל כי אפשר לכתוב
\( AC=p\left(C^{2}\right)C=Cp\left(C^{2}\right)=CA \)
כשההתחלפות באמצע נובעת מכך שכל מטריצה מתחלפת בכפל עם חזקות שלה. למה התחלפות זה מעניין? כי זה בדיוק מה שנדרש כדי ששתי מטריצות לכסינות יהיו לכסינות סימולטנית, מה שהראיתי כאן. זה אומר שיש \( P \) הפיכה ומטריצות אלכסוניות \( D_{1},D_{2} \) כך ש-
\( A=PD_{1}P^{-1} \)
\( C=PD_{2}P^{-1} \)
ה”סימולטניות” מתבטאת בכך שזה אותו ה-\( P \) לשתי המטריצות. אנחנו לא יודעים ש-\( D_{1}=D_{2} \) אבל יהיה קל להוכיח את זה, כי \( A^{2}=B=C^{2} \), כלומר נקבל \( PD_{1}^{2}P^{-1}=PD_{2}^{2}P^{-1} \) ומכאן ש-\( D_{1}^{2}=D_{2}^{2} \). בואו נראה מזה שהמטריצות המקוריות שוות.
המטריצות המקוריות הן אלכסוניות, אז מספיק להסתכל על מה שקורה לאיבר אחד על האלכסון, נאמר האיבר במקום ה-\( i \). אם נסתכל על הכניסה במקום ה-\( i \) על האלכסון בשתי המטריצות, נראה שם שני ערכים \( \lambda_{1},\lambda_{2} \). אם עכשיו נעלה את שתי המטריצות בריבוע, הערכים הללו יהפכו להיות \( \lambda_{1}^{2},\lambda_{2}^{2} \) והשוויון \( D_{1}^{2}=D_{2}^{2} \) אומר לנו ש-\( \lambda_{1}^{2}=\lambda_{2}^{2} \). עכשיו, אם \( \lambda_{1},\lambda_{2} \) היו מספרים מרוכבים כלליים, השוויון הזה לא היה אומר שהם זהים (כי למשל ייתכן ש-\( \lambda_{1}=-1,\lambda_{2}=1 \)) אבל אנחנו יודעים בדיוק מה יש ב-\( D_{1},D_{2} \); יש את השורשים של הערכים העצמיים של \( B \), כלומר מלכתחילה אלו היו מספרים ממשיים אי-שליליים, \( \lambda_{1},\lambda_{2}\ge0 \), לכן גם הריבועים שלהם הם מספרים ממשיים אי שליליים, ולמספרים ממשיים אי-שליליים יש שורש יחיד שהוא ממשי אי-שלילי כך ש-\( \lambda_{1}=\lambda_{2} \) וסיימנו את ההוכחה.
פירוק פולארי
עכשיו, אחרי שראינו כמה תוצאות נחמדות שקשורות למטריצות חיוביות ואולי גם קיבלנו אינטואיציה כלשהי למה שהולך פה, אני רוצה לשים אצבע טיפה יותר על הדמיון שיש בין מטריצות ומספרים כאן.
בואו ניזכר מה אנחנו יודעים על מרוכבים. כל מספר מרוכב \( z\in\mathbb{C} \) הוא מהצורה \( z=a+bi \) כאשר \( a,b\in\mathbb{R} \). זה נקרא ההצגה הקרטזית של המספר. הצמדה מוגדרת על ידי \( \overline{z}=a-bi \), כלומר זו הפעולה שמחליפה את \( i \) ב-\( -i \) (ומספר מרוכב \( z \) הוא ממשי אם ורק אם \( z=\overline{z} \)), ואפשר “לחלץ” את \( a,b \) על ידי המשוואות \( a=\frac{z+\overline{z}}{2},b=\frac{z-\overline{z}}{2i} \).
בנוסף, לכל מספר מרוכב יש גם הצגה פולרית (“קוטבית”) מהצורה \( z=re^{i\theta} \). בזמן שבהצגה קרטזית, \( a,b \) הם הקואורדינטות של \( z \) במישור המרוכב, בהצגה הקוטבית \( r \) מייצג את המרחק של \( z \) מראשית הצירים ו-\( \theta \) היא הזווית של הקו מראשית הצירים אל \( z \). המספר \( e^{i\theta} \) הוא מספר מרוכב מערך מוחלט 1, בזמן ש-\( r\ge0 \) הוא מספר ממשי אי שלילי.
כל הרעיונות הללו עוברים הישר אל מטריצות, כאשר “מספר מרוכב” מוחלף על ידי “מטריצה”, “מספר ממשי” מוחלף על ידי “מטריצה צמודה לעצמה”, “מספר אי שלילי” מוחלף על ידי “מטריצה חיובית” ו”הצמדה” מוחלף על ידי “הצמדה” (כלומר הפעולה \( \overline{z} \) מוחלפת על ידי הפעולה \( A^{*} \)).
האנלוגיה די ברורה: אם \( A=A^{*} \), כלומר \( A \) צמודה לעצמה, זה כמו \( z=\overline{z} \) שמראה לנו ש-\( z \) ממשי (אבל לאו דווקא חיובי). אפשר לייצג כל מטריצה \( M \) בתור סכום \( M=A+B \) כך ש-\( A \) צמודה לעצמה ואילו \( B \) היא אנטי-צמודה לעצמה, כלומר \( B^{*}=-B \) (כמו ש-\( \overline{ib}=-ib \)). אפשר “לחלץ” את \( A,B \) עם המשוואות \( A=\frac{M+M^{*}}{2} \) ו-\( B=\frac{M-M^{*}}{2} \) (קל לראות ש-\( A^{*}=A \)ו-\( B^{*}=-B \)).
מה עם ההצגה הפולרית? ראינו קודם סיטואציה שבה היו לנו מטריצות מהצורה \( B=U\sqrt{D} \), כך ש-\( AA^{*}=B \) עבור מטריצה חיובית \( B \) מסוימת. זה בהחלט היה אנלוגי אל \( z=re^{i\theta} \) שמקיים \( z\overline{z}=r^{2} \), כלומר איכשהו החלק של הסיבוב המרוכב נעלם. את המקום של \( r\ge0 \) הממשי החליפה המטריצה \( \sqrt{D} \) ואילו את הסיבוב \( e^{i\theta} \) החליפה המטריצה \( U \). הדמיון מובהק: \( e^{i\theta} \) הוא מנורמה 1, ואילו \( U \) היא אוניטרית, מה שתואם את האינטואיציה של “נורמה 1” כי כפל של \( U \) באיבר כלשהו משמר את הנורמה שלו כמו שכפל ב-1 משמר את הגודל של מספר ממשי (אפשר לתת לזה משמעות יותר קונקרטית; יש נורמה שמגדירים על מטריצות על ידי \( \|A\|=\max_{x}\frac{\|Ax\|}{\|x\|} \) ובהגדרה הזו הנורמה של מטריצה אוניטרית היא 1).
השאלה היא רק - האם זה קורה גם באופן כללי? האם לכל מטריצה \( A \) יש “פירוק פולרי” \( A=UB \) כך -\( U \) אוניטרית ו-\( B \) מטריצה חיובית? התשובה היא כן, אבל אני אחכה עם ההוכחה של זה לפוסט הבא. עדיין, אי אפשר לסיים בלי לפחות לומר מאיפה \( B \) הזו מגיעה כי זה רק מחזק את האנלוגיה.
אם יש לנו מספר ממשי \( z \) ואנחנו רוצים למצוא את הייצוג שלו בתור \( z=re^{i\theta} \), זה קל: \( r=\left|z\right|=\sqrt{a^{2}+b^{2}} \), ואז אפשר למצוא את \( e^{i\theta}=\frac{z}{r} \) (בשביל למצוא את \( \theta \) עצמה צריך להתאמץ עוד טיפה). עכשיו, \( \left|z\right|=\sqrt{z\cdot\overline{z}} \), ואת זה אפשר לקחת ישירות למטריצות: כבר ראינו שבהינתן מטריצה \( A \) כלשהי מתקיים ש-\( AA^{*} \) היא חיובית. ואם היא חיובית, אנחנו יודעים שיש לה שורש יחיד שהוא חיובי, כלומר קיימת מטריצה חיובית יחידה \( B \) כך ש-\( B=\sqrt{AA^{*}} \). אבל האם אפשר לקבל עכשיו את \( U \) פשוט על ידי “חילוק”, \( U=AB^{-1} \)? ובכן, לא - לא מובטח לנו ש-\( B \) הפיכה בכלל. במקרה הזה אכן מה שיקרה הוא ש-\( U \) לא תיקבע באופן יחיד. זה לא מקלקל לנו את האנלוגיה למספרים, כי עבור כל \( r>0 \) המקרה המקביל הוא מטריצה חיובית לחלוטין, והיא כן הפיכה; המקרה היחיד שתואם מטריצה חיובית שהיא לא חיובית לחלוטין הוא \( z=0 \) ובמקרה הזה באמת \( e^{i\theta} \) לא נקבעת באופן יחיד בעצמה.
יש כמובן עוד הרבה מה לומר על הנושאים הללו אבל נראה לי שאעצור כאן, בפרט כי יש לי את כל מה שאני צריך בשביל הפוסט הבא.
נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ:
