פונקציונלים לינאריים והדואלי של הדואלי של הדואלי של הדואלי

בפוסטים האחרונים עסקתי בטרנספורמציות לינאריות בין מרחבים וקטוריים, והפעם אני רוצה לדבר על סוג מסויים של טרנספורמציות שראוי לדיון בפני עצמו - פונקציונלים לינאריים. כרגיל, נסמן ב-\( V \) מרחב וקטורי מעל שדה \( \mathbb{F} \); פונקציונל לינארי על \( V \) הוא פשוט טרנספורמציה לינארית \( T:V\to\mathbb{F} \), כלומר כזו שנותנת (באופן לינארי) ערך סקלרי לאיברי \( V \). הכי פשוט להתחיל מדוגמאות.

ובכן, נסתכל על \( \mathbb{R}\left[x\right] \) - מרחב הפולינומים עם מקדמים ב-\( x \). דוגמה לפונקציונל לינארי על המרחב הזה הוא הצבה: \( T_{a}\left(p\left(x\right)\right)=p\left(a\right) \), כאשר \( a\in\mathbb{R} \) כלשהו. לא קשה להוכיח שזו פעולה לינארית (כלומר, \( T_{a}\left(\alpha p\left(x\right)+\beta q\left(x\right)\right)=\alpha p\left(a\right)+\beta q\left(a\right) \) כאשר \( \alpha,\beta\in\mathbb{R} \)), והיא אכן מעבירה כל איבר של \( \mathbb{R}\left[x\right] \) לאיבר של \( \mathbb{R} \). מה שמעניין כאן הוא האופן שבו הטרנספורמציה הזו משתמשת ב”מידע נוסף” שיש ב-\( \mathbb{R}\left[x\right] \) ולא בא לידי ביטוי במבנה שלו כמרחב וקטורי - העובדה שאפשר להציב ערכים ב-\( x \).

עוד דוגמה דומה מאוד היא אינטגרל מסויים. אינטגרלים מסויימים מוגדרים עבור המון פונקציות, אבל לשם פשטות נוח להתמקד במרחב פונקציות שמובטח שקיים להן אינטגרל מסויים ושהן יהוו מרחב וקטורי - פונקציות רציפות על קטע סגור. נסמן ב-\( C\left(\left[a,b\right]\right) \) את מרחב כל הפונקציות \( f:\left[a,b\right]\to\mathbb{R} \) שהן רציפות (זו משמעות ה-\( C \), מהמילה Continuous). כעת אפשר להגדיר פונקציונל לינארי עליהן: \( L\left(f\right)=\int_{a}^{b}f\left(x\right)dx \). הסיבה לכך שזהו פונקציונל לינארי דורשת הצדקה כלשהי; העובדה שמתקיים \( \int_{a}^{b}\left[\alpha f\left(x\right)+\beta g\left(x\right)\right]dx=\alpha\int_{a}^{b}f\left(x\right)dx+\beta\int_{a}^{b}g\left(x\right)dx \) נקראת לינאריות האינטגרל המסויים ויש להוכיח אותה.

עוד דוגמה מפורסמת למדי היא עקבה (Trace) של מטריצות. אם \( A \) היא מטריצה ריבועית \( n\times n \), אז \( \mbox{tr}A=\sum_{i=1}^{n}a_{ii} \), כלומר העקבה של \( A \) היא סכום האיברים שעל האלכסון שלה. לא קשה לראות כי \( \mbox{tr}\left(\alpha A+\beta B\right)=\alpha\mbox{tr}A+\beta\mbox{tr}B \) ולכן שוב יש לנו פונקציונל, הפעם מהמרחב \( M_{n}\left(\mathbb{F}\right) \) (מרחב המטריצות מסדר \( n\times n \) מעל השדה \( \mathbb{F} \)) אל \( \mathbb{F} \). בקיצור, פונקציונלים הם משהו שמקובע היטב במציאות המתמטית היומיומית.

בפוסטים קודמים כבר רמזתי, אם לא אמרתי במפורש, שאוסף כל הטרנספורמציות הלינאריות בין שני מרחבים נתונים הוא בעצמו מרחב וקטורי. זה מובלע בכך שהאוסף הזה איזומורפי למטריצות, שהן מרחב וקטורי, אבל כדאי לציין זאת במפורש: אם \( V,W \) הם שני מרחבים וקטוריים, אז קבוצת כל הטרנספורמציות הלינאריות \( T:V\to W \), שמסומנת לעתים כ-\( \mbox{Hom}\left(V,W\right) \), היא עצמה מרחב וקטורי, עם פעולות החיבור והכפל בסקלר ה”טבעיות” (כלומר, הטרנספורמציה \( T+S \) מוגדרת על ידי \( \left(T+S\right)\left(v\right)=T\left(v\right)+S\left(v\right) \) ו-\( \left(\lambda T\right)\left(v\right)=\lambda T\left(v\right) \)). יתר על כן, אם \( V,W \) הם ממימד סופי אז \( \text{dim}\text{Hom}\left(V,W\right)=\text{dim} V\cdot\text{dim}W \) - לא מפתיע כל כך מכיוון שהמטריצות שמייצגות טרנספורמציה מ-\( V \) אל \( W \) הן מטריצות מסדר \( \dim W\times\dim V \), ומרחב המטריצות מסדר \( n\times m \) הוא ממימד \( nm \) (חשבו על בסיס עבורו).

כדי לחסוך בסימונים, במקום לכתוב \( \mbox{Hom}\left(V,\mathbb{F}\right) \) כדי לתאר את מרחב הפונקציונלים הלינאריים על \( V \), פשוט נסמן אותו כ-\( V^{*} \). כעת, מכיוון ש-\( \mathbb{F} \) הוא מרחב וקטורי ממימד 1 מעל עצמו, אז \( \dim V^{*}=\dim V \), ולכן \( V \) ו-\( V^{*} \) איזומורפיים כמרחבים וקטוריים (כזכור, כל שני מרחבים וקטוריים סוף ממדיים מאותו מימד הם איזומורפיים). מה שמעניין כאן הוא שאני רואה ששני המרחבים איזומורפיים, אבל לא הצגתי שום איזומורפיזם מפורש עבורם; האם ניתן לעשות זאת?

ובכן, נקבע בסיס \( B=\left\{ b_{1},\dots,b_{n}\right\} \) ל-\( V \). כעת, לכל \( b_{i} \), נגדיר פונקציונל \( f_{b_{i}} \) באופן הבא: \( f_{b_{i}}\left(b_{j}\right)=\delta_{ij} \) כאשר \( \delta_{ij} \) היא הדלתא של קרונקר: אם \( i\ne j \) אז \( \delta_{ij}=0 \) ואם \( i=j \) אז \( \delta_{ij}=1 \). זה בסך הכל סימון, אבל כזה שהוא נוח למדי לעתים קרובות.

הגדרתי את הפעולה של \( f_{b_{i}} \) רק על אברי \( B \), אבל כבר ראינו שדי בכך כדי להגדיר את פעולת \( f_{b_{i}} \) על כל אברי המרחב; הטענה שלי היא שקבוצת הפונקציונלים \( B^{*}=\left\{ f_{b_{1}},\dots,f_{b_{n}}\right\} \) היא בסיס של \( V^{*} \), ומכיוון שהיא מגודל \( n \) רק צריך להראות שהיא בלתי תלויה לינארית. כלומר, נניח ש-\( \sum\lambda_{i}f_{b_{i}}=0 \) - איבר האפס כאן הוא “פונקציונל האפס”, הפונקציונל שמחזיר 0 לכל קלט. כעת, נפעיל את \( \sum\lambda_{i}f_{b_{i}} \) על \( b_{j} \) ונקבל \( 0=\sum\lambda_{i}f_{b_{i}}\left(b_{j}\right)=\sum\lambda_{i}\delta_{ij}=\lambda_{j} \) וכך קיבלנו ש-\( \lambda_{j}=0 \) לכל \( j \), כלומר הפונקציונלים אכן בלתי תלויים לינארית, והקבוצה \( B^{*} \) היא אכן בסיס למרחב \( V^{*} \). הדמיון הרב בין \( V \) ל-\( V^{*} \) גורם לנו לקרוא ל-\( V^{*} \) המרחב הדואלי ל-\( V \); ו-\( B^{*} \) הוא באופן בלתי מפתיע הבסיס הדואלי ל-\( B \).

אם לעשות משהו פעם אחת עבד, למה לא לעשות אותו פעמיים? נשאלת השאלה מהו \( \left(V^{*}\right)^{*} \), שאסמן בקיצור \( V^{**} \) - מהו המרחב הדואלי למרחב הדואלי של \( V \)? פורמלית זהו אוסף של פונקציונלים שהקלטים שלהם הם בעצמם פונקציונלים של \( V \); אבל אני רוצה לשכנע אתכם שבמובן מאוד חזק, \( V^{**} \) הוא בעצמו \( V \). לשם כך אני אראה איזומורפיזם בין \( V \) ל-\( V^{**} \), אבל לא סתם איזומורפיזם אלא איזומורפיזם שיהיה קנוני במובן שתכף אסביר. ההגדרה שלו היא טיפה מבלבלת והופכת את הקיבה במבט ראשון (למרות שאם נודה על האמת, היא מאוד פשוטה), וזה בדיוק האפקט שאני רוצה שירגיש כאן מי שנתקל לראשונה בעניינים הללו. פשוט תחשבו שאתם ברכבת הרים ויהיה בסדר.

ובכן, יהא \( v\in V \) איבר כלשהו של \( V \). בואו נגדיר פונקציונל לינארי \( L_{v}:V^{*}\to\mathbb{F} \) באופן הבא: \( L_{v}\left(f\right)=f\left(v\right) \). כלומר, \( L_{v} \) הוא בסך הכל יצור מאוד דומה לפונקציונל ה”הצבה בפולינום” שראינו בתחילת הפוסט, רק שהפעם הוא מקבל כקלט פונקציונל \( f \) ולא פולינום \( p \), אבל הפעולה שלו זהה - הוא מציב בפונקציונל את הערך \( v \) שהוא “hard coded’’ בתוך הגדרת \( L_{v} \) ומחזיר את התוצאה. כעת צריך לבדוק שזה באמת פונקציונל לינארי, כלומר לשים לב לכך ש:

\( L_{v}\left(\alpha f+\beta g\right)=\left(\alpha f+\beta g\right)\left(v\right)=\alpha f\left(v\right)+\beta g\left(v\right)=\alpha L_{v}\left(f\right)+\beta L_{v}\left(g\right) \)

זה נובע ממש מההגדרות, אז אין לנו בעיה. אבל מדוע מה שתיארנו כאן הוא איזומורפיזם בין \( V \) ובין \( V^{**} \)? ובכן, בגלל ש-

\( L_{\alpha v+\beta u}\left(f\right)=f\left(\alpha v+\beta u\right)=\alpha f\left(v\right)+\beta f\left(u\right)=\alpha L_{v}\left(f\right)+\beta L_{u}\left(f\right) \)

מכיוון שזה נכון לכל \( f\in V^{*} \) אפשר פשוט לכתוב \( L_{\alpha v+\beta u}=\alpha L_{v}+\beta L_{u} \), מה שאומר שהטרנספורמציה \( T\left(v\right)=L_{v} \) היא טרנספורמציה לינארית \( T:V\to V^{**} \). במילים: זו טרנספורמציה שלוקחת וקטור של \( V \) ומחזירה פונקציונל שמקבל כקלט פונקציונל של \( V \). יש לנו כאן שלוש רמות שונות של טרנספורמציה לינארית, ועוד היד נטויה.

כעת, מכיוון ש-\( \dim V^{**}=\dim V^{*}=\dim V \), כדי להשתכנע ש-\( T \) היא איזומורפיזם מספיק להראות שהיא חח”ע, כלומר ש-\( \dim\ker T=0 \) (כי אז ינבע ש-\( \dim\mbox{Im}T=\dim V-\dim\ker T=\dim V \) ולכן \( \mbox{Im}T=V^{**} \)). במילים אחרות, צריך להראות ש-\( L_{v} \) הוא פונקציונל האפס רק אם \( v=0 \). כעת, אם \( L_{v} \) הוא פונקציונל האפס זה אומר ש-\( f\left(v\right)=0 \) לכל פונקציונל \( f:V\to\mathbb{F} \). אבל אם \( L_{v} \) איננו פונקציונל האפס ברור שקיימים פונקציונלים שלא מתאפסים עליו; תשלימו את הקבוצה \( \left\{ v\right\} \) לבסיס של \( V \) ואז תסתכלו על אברי הבסיס הדואלי, יהיה שם פונקציונל שלא מתאפס על \( v \)…

לסיכום, ראינו ש-\( V^{**} \) איזומורפי ל-\( V \). האיזומורפיזם הזה הוא קנוני במובן זה שהוא אינו תלוי בבחירת בסיס ל-\( V \). כאשר ראינו ש-\( V^{*} \) איזומורפי ל-\( V \), היינו חייבים לבחור בסיס ל-\( V \) כדי לקבל איזומורפיזם, ויש הרבה מאוד בסיסים שאפשר לבחור ולכן יש הרבה מאוד איזומורפיזמים אפשריים ולא ברור מי מהם הוא “הכי טבעי”; כאן לעומת זאת אין ממש ספק שהאיזומורפיזם שהצגתי הוא הטבעי ביותר. למי שיש בכל זאת ספק רק אעיר שאפשר לתת משמעות מתמטית לחלוטין ל”קנוניות” כאן באמצעות תורת הקטגוריות; נוותר על זה להפעם.

עכשיו אני רוצה לדבר על משהו קצת שונה - האופן שבו אפשר להבין את הגאומטריה של מרחבים וקטוריים באמצעות פונקציונלים.

ראשית, שימו לב שאפשר לחשוב על פונקציונל באופן כללי בתור פולינום לינארי במספר משתנים. למה הכוונה? קחו בסיס \( B=\left\{ b_{1},\dots,b_{n}\right\} \) ל-\( V \) ופונקציונל \( f \), ובואו נסמן \( a_{i}=f\left(b_{i}\right) \). כעת, איך \( f \) פועלת על וקטור \( v \) שוקטור הקואורדינטות שלו על פי \( B \) הוא \( \left[\lambda_{1},\dots,\lambda_{n}\right] \) (כלומר, \( v=\sum\lambda_{i}b_{i} \))? פשוט מאוד:

\( f\left(v\right)=f\left(\sum\lambda_{i}v_{i}\right)=\sum\lambda_{i}f\left(b_{i}\right)=\sum a_{i}\lambda_{i} \)

זה אומר שאפשר לחשוב על \( f \) בתור הפולינום \( p\left(x_{1},\dots,x_{n}\right)=a_{1}x_{1}+\dots+a_{n}x_{n} \), והצבה של \( v \) ב-\( f \) היא כמו הצבה של וקטור הקואורדינטות של \( v \) (על פי \( B \)) בתוך ה-\( x \)-ים של \( p \).

כעת, כל פונקציונל לינארי \( f\in V^{*} \) שאיננו פונקציונל האפס בהכרח חייב לקיים \( \mbox{Im}f=1 \), כי המימד של המרחב שאליו \( f \) הולך הוא 1. לכן \( \dim\ker f=\dim V-\dim\mbox{Im}f=n-1 \) - הגרעין של \( f \), אוסף כל הוקטורים ש-\( f \) מעביר לאפס, הוא ממימד קטן ב-1 מהמימד של \( V \) עצמו. לתת-מרחב לינארי כזה, שהמימד שלו קטן ב-1 מהמימד של המרחב כולו, קוראים על-מישור (hyperplane). השם “על-מישור” מגיע מהמקרה של \( V=\mathbb{R}^{3} \); במקרה זה העל-מישורים של המרחב הם מישורים במובן הרגיל ביותר של המילה; ולכן באופן מוכלל קוראים ליצורים כאלו “על-מישורים”. אני חושב שהדוגמה הכי קלה היא דווקא עבור \( V=\mathbb{R}^{2} \) - במקרה זה העל-מישורים הם פשוט ישרים (ספציפית, ישרים שעוברים דרך הראשית).

הנה דרך נוספת לחשוב על כך: פולינום בשני משתנים \( p\left(x,y\right)=ax+by \) מגדיר לנו די בבירור קו ישר באמצעות המשוואה \( ax+by=0 \) - דיברתי כבר על כך בפוסטים קודמים ועל איך שזו “הצורה הכללית” של כל הישרים שעוברים דרך הראשית. כל הדיון למעלה הוא פשוט הכללה של זה.

כעת, אלו מכם שזוכרים משהו מגאומטריה ודאי יודעים שחיתוך של שני מישורים הוא קו ישר. כלומר, חיתוך של שני מישורים מהווה מרחב במימד קטן ב-1 מזה של המישורים שחותכים - הוא על-מישור שלהם עצמם. האם זו תופעה כללית? כלומר, האם אפשר לקבל תת-מרחבים לינאריים יותר ויותר כלליים של \( V \) על ידי חיתוך של על-מישורים? התשובה חיובית, וכדי לסגור את השאלה באופן מוחלט אני אכניס עוד סימון אחד ודי.

נניח ש-\( V \) הוא מרחב וקטורי סוף ממדי, ו-\( W \) תת-מרחב שלו. אז נסמן ב-\( W^{0} \) את אוסף כל הפונקציונלים הלינאריים ב-\( V^{*} \) שמתאפסים על כל איבר ב-\( W \). זה אוסף לא ריק, כי פונקציונל האפס תמיד שם; לא קשה לראות ש-\( W^{0} \) הוא תת מרחב של ממש (כי אם נחבר שני פונקציונלים שמתאפסים על כל אברי \( W \), גם התוצאה תתאפס על כל אברי \( W \) וכך גם עם כפל בסקלר). כעת נובעת התוצאה הלא ממש מפתיעה הבאה:

\( \dim W+\dim W^{0}=\dim V \)

ובמילים, ככל ש-\( W \) קטן יותר, כך קבוצת הפונקציונלים שמתאפסת עליו גדולה יותר. אם \( W \) הוא על-מישור, אז אוסף כל הפונקציונלים שמאפסים אותו הוא חד ממדי, אבל אם \( W \) הוא ממימד קטן ב-2 ממימד \( V \) אז אוסף הפונקציונלים שמאפסים אותו הוא ממימד 2 וכן הלאה.

התוצאה הזו לא מפתיעה כי היא נראית בדיוק כמו \( \dim\ker T+\dim\mbox{Im}T=\dim V \), וההוכחה היא דומה מאוד להוכחה של המשפט ההוא: ניקח בסיס עבור \( W \) ונשלים אותו לבסיס של \( V \) - \( B=\left\{ b_{1},\dots,b_{m},b_{m+1},\dots,b_{n}\right\} \), כאשר \( m=\dim W \) ו-\( m \) הוקטורים הראשונים הם הבסיס של \( W \). כעת בואו נסתכל על הבסיס הדואלי \( B^{*}=\left\{ f_{1},\dots,f_{n}\right\} \) ונטען ש-\( \left\{ f_{m+1},\dots,f_{n}\right\} \) הם בדיוק בסיס ל-\( W^{0} \), מה שיוכיח שהמימד של \( W^{0} \) הוא בדיוק \( n-m=\dim V-\dim W \).

ובכן, זה שכל \( f_{i} \) כזו עם \( m<i\le n \) מאפסת כל איבר של \( W \) זה ברור - \( f_{i}\left(b_{j}\right)=0 \) לכל \( 1\le j\le m \) ולכן \( f_{i} \) מאפסת כל איבר שניתן לכתוב כצירופים לינאריים רק של \( b_{1},\dots,b_{m} \). זה אומר ש-\( \mbox{span}\left\{ f_{m+1},\dots,f_{n}\right\} \subseteq W^{0} \), אבל מה עם הכיוון השני? ובכן, אם \( g\in W^{0} \) הוא פונקציונל שמאפס את כל אברי \( W \), נכתוב אותו כצירוף לינארי של אברי הבסיס - \( g=\sum\lambda_{j}f_{j} \), וכעת נציב בו לפי התור את \( b_{i} \) עבור \( 1\le i\le m \) - אברי הבסיס של \( W \) שהם כמובן גם איברים של \( W \) ולכן \( g\left(b_{i}\right)=0 \) לכל אחד מהם. נקבל \( 0=g\left(b_{i}\right)=\sum\lambda_{j}f_{j}\left(b_{i}\right)=\sum\lambda_{j}\delta_{ij}=\lambda_{i} \) והנה - קיבלנו שבצירוף הלינארי שמרכיב את \( g \), כל המקדמים \( \lambda_{i} \) עבור \( 1\le i\le m \) הם בהכרח אפס, ולכן הוקטורים שפורשים את כל ה-\( g \)-ים הללו הם \( \left\{ f_{m+1},\dots,f_{n}\right\} \). זה מסיים את ההוכחה.

בואו נסכם לרגע. ראינו שלכל תת מרחב \( W \) של \( V \) קיים תת-מרחב \( W^{0} \) של \( V^{*} \) של “הפונקציונלים שמתאפסים על \( W \)” וגם הבנו מה המימד שלו. זה כיוון אחד - מה עם הכיוון השני? האם כל תת-מרחב \( U \) של \( V^{*} \) מגדיר תת מרחב של \( V \), של “כל אברי \( V \) שמאפסים את כל הפונקציונלים ב-\( U \)”? התשובה חיובית, אבל אין צורך לעבוד שוב כדי לראות זאת; אולי כבר הבנתם שאנחנו פשוט יכולים להשתמש בתוצאה שכבר ראינו ובדואליות של \( V \) ו-\( V^{*} \). הבה ונניח שיש לנו תת-מרחב \( U \) של \( V^{*} \); אז ממה שכבר ראינו, קיים תת-מרחב \( U^{0} \) של \( V^{**} \) של כל האיברים של \( V^{**} \) שמאפסים את כל אברי \( U \). אבל מה זה \( V^{**} \)? ראינו שכל איבר בו הוא פונקציונל \( L_{v} \) עבור \( v\in V \), כך ש \( L_{v}\left(f\right)=f\left(v\right) \); אם כן, מה זה אומר שפונקציונל \( L_{v} \) מאפס את כל \( U \)? זה אומר שלכל \( f\in U \) מתקיים \( L_{v}\left(f\right)=0 \), כלומר \( f\left(v\right)=0 \), כלומר \( v \) הוא וקטור של \( V \) שמאופס על ידי כל אברי \( U \). מכאן שאפשר לחשוב על \( U^{0} \) בתור תת-מרחב של \( V \) (לפדנטיים - לא הוא, אלא העותק האיזומורפי שלו ב-\( V \) על ידי האיזומורפיזם הקנוני של \( V \) עם \( V^{**} \)) ויתקיים \( \dim U+\dim U^{0}=\dim V^{*} \).

שימו לב כמה זה נחמד: מצד אחד יש לנו תת-קבוצות של המרחב (למשל, מישורים וישרים ב-\( \mathbb{R}^{3} \)), מצד שני יש לנו קבוצות של פונקציונלים לינאריים (או בניסוח אחר, פולינומים לינאריים במספר משתנים) ואנחנו רואים שהקבוצות הללו הן אותו הדבר במובן מאוד חזק ואפשר לקבל מכל אחת את השניה.

הרעיונות הללו הם בדיוק מה שעומד בבסיס הגאומטריה האלגברית; השאלה הראשונה שנשאלת כאשר מתחילים ללמוד גאומטריה אלגברית היא איך נראית הדואליות הזו כאשר רוצים לתאר מרחבים קצת יותר מחוכמים, ולשם כך מדברים על פולינומים במספר משתנים ממעלה כלשהי, לא רק פולינומים לינאריים. כך למשל המשטח שהוא פני עיגול (ספרה) ברדיוס \( R \) ניתן לתיאור כאוסף האפסים של הפולינום \( p\left(x,y,z\right)=x^{2}+y^{2}+z^{2}-R^{2} \) שהוא פולינום ממעלה שניה; וכשמתירים מעלה כלשהי, יכולת התיאור גדלה פלאים. הקבוצות שניתנות לתיאור באופן הזה נקראות יריעות אלגבריות, והאבחנה הבסיסית היא שמתקיימת דואליות דומה מאוד לזו שהצגתי לעיל בין יריעות אלגבריות ובין אוספים של פולינומים. עם זאת, הסיטואציה מורכבת משמעותית יותר מזו שראינו למעלה וכדי לתת ניסוחים מדוייקים למה שהולך שם צריך להשתמש במושגים מתמטיים שהאלגברה הלינארית לא נכנסת אליהם (אידאלים, חוגי מנה, טופולוגיה…) ולכן הפוסטים בנושא ייאלצו להמתין.

נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ: