כשחבורות ושדות מתנגשים

סדרת הפוסטים שלי על אלגברה מופשטת מתקרבת אל אחת מנקודות השיא שלה - המשפט היסודי של תורת גלואה. זה לא מה שנעשה היום. מה שנעשה היום הוא את כל עבודת ההכנה שנדרשת עד שמגיעים למשפט הזה, ובפרט תהיה לנו הוכחה אחת שהיא הלב הטכני של כל הסיפור. יהיה בסדר; זו הוכחה טכנית אבל יש לה את האלגנטיות שלה ואפשר “להרגיש” באמצעותה למה הדברים עובדים. את ההוכחה עצמה אשמור לסוף, כי בעזרת המשפט שהיא מוכיחה נוכל לעשות דברים מעניינים שחבל להתאפק איתם. בפרט, נבין הרבה יותר טוב מה זו בכלל הרחבת גלואה שהזכרנו בחטף בפוסט הקודם.

מחבורה לשדה ומשדה לחבורה

בואו נזכיר על מה דיברנו בפעם הקודמת: הייתה לנו הרחבת שדות \( E/F \) ודיברנו על \( \text{Aut}\left(E/F\right) \) - חבורת האוטומורפיזמים של \( E \) שמשמרים את \( F \). כאן זה ש-\( \sigma\in\text{Aut}\left(E/F\right) \) “משמר” את \( F \) פירושו ש-\( \sigma a=a \) לכל \( a\in F \) (להבדיל ממושג חלש יותר, \( \sigma\left(F\right)\subseteq F \) שלא מונע מ-\( \sigma \) לשנות איברים של \( F \) אבל כן מונע ממנו להוציא דברים מגבולות \( F \)). אמרנו גם ש-\( E/F \) היא הרחבת גלואה אם \( \left[E:F\right]=\left|\text{Aut}\left(E/F\right)\right| \) ובמקרה הזה אני מסמן את \( \text{Aut}\left(E/F\right) \) גם בסימון הנוסף \( \text{Gal}\left(E/F\right) \).

דיברנו על התהליך שבו אנחנו מפיקים חבורה מתוך הרחבה. ליתר דיוק, בהינתן \( E \), אנחנו מפיקים תתי-חבורות של \( \text{Aut}\left(E\right) \) על ידי התבוננות על תתי-שדות של \( E \). מה שאנחנו רוצים לדבר עליו עכשיו הוא התהליך ההפוך: בהינתן תת-חבורה \( G \) של \( \text{Aut}\left(E\right) \), בואו נגדיר את \( F \) להיות השדה שתת-החבורה הזו משמרת. כלומר, \( F\triangleq\left\{ a\in E\ |\ \sigma a=a,\forall\sigma\in G\right\} \) (קל להוכיח שזה אכן שדה; זה נובע מכך ש-\( \sigma \) הומומורפיזם של שדות). המשפט המרכזי לפוסט הזה, שאת ההוכחה שלו כאמור אני שומר לסוף הפוסט, הוא שתמיד מתקיים \( \left[E:F\right]=\left|G\right| \). ה”תמיד” הזה עשוי להיות מבלבל; הרי ראינו שלא כל הרחבה היא הרחבת גלואה, אבל הכיוון השני “תמיד” עובד. ובכן, הנקודה היא שלא מובטח לנו שכל תת-שדה של \( E \) אכן יהיה בר הפקה בצורה שכזו; רק אם \( E/F \) היא גלואה זה יעבוד.

בואו נראה מה המסקנות מהמשפט שהצגתי. ראשית, בואו נראה ש-\( \left|\text{Aut}\left(E/F\right)\right|\le\left[E:F\right] \) תמיד, גם בהרחבה שאיננה גלואה. הרעיון הוא זה: אם \( G=\text{Aut}\left(E/F\right) \), המשפט מבטיח לנו שמתקיים \( \left|G\right|=\left[E:K\right] \) כאשר \( K \) הוא השדה ש-\( G \) משמרת. מה השדה הזה? ברור לנו שהוא מכיל את \( F \), מכיוון ש-\( G=\text{Aut}\left(E/F\right) \) ולכן על פי הגדרה משמרת את כל \( F \), אבל זה לא אומר שאין עוד איברים ש-\( G \) משמרת. לכן באופן כללי \( F\subseteq K\subseteq E \) ולכן

\( \left[E:F\right]=\left[E:K\right]\left[K:F\right]=\left|G\right|\left[K:F\right] \) ומכאן ש-\( \left|\text{Aut}\left(E/F\right)\right|=\frac{\left[E:F\right]}{\left[K:F\right]}\le\left[E:F\right] \) כמו שרצינו.

שנית, בואו נראה שכל הרחבה שמתקבלת מ-\( G \) באופן שתיארתי היא כן הרחבת גלואה. כלומר: ניקח תת-חבורה \( G \) של \( \text{Aut}\left(E\right) \), ונגדיר את \( F \) להיות השדה שהיא משמרת. אני טוען ש-\( \text{Aut}\left(E/F\right)=G \). אני כבר יודע כיוון אחד: \( G \) בוודאי מוכלת ב-\( \text{Aut}\left(E/F\right) \), כי היא חבורה של אוטומורפיזמים של \( E \) שמשמרים את \( F \). השאלה היא למה אין אוטומורפיזמים כאלו גם מחוץ ל-\( G \). הנימוק הוא מאוד פשוט:

\( \left[E:F\right]=\left|G\right|\le\left|\text{Aut}\left(E/F\right)\right|\le\left[E:F\right] \)

ולכן בפרט \( \left|G\right|=\left|\text{Aut}\left(E/F\right)\right| \) . אינטואיטיבית, כל אוטומורפיזם של \( E \) שמשמר את \( F \) מכריח את המימד של \( E \) מעל \( F \) לגדול עוד ועוד; אבל המימד הזה חסום מלכתחילה על ידי הגודל של \( G \) ש”יצרה” את \( F \) מלכתחילה, על פי המשפט הקסום שאומר \( \left[E:F\right]=\left|G\right| \). מכיוון שקיבלנו פה ש-\( \left|\text{Aut}\left(E/F\right)\right|=\left[E:F\right] \) המסקנה היא ש-\( E/F \) היא הרחבת גלואה.

העסק הזה מבלבל, אז הנה תמצית:

אם נתונה לנו הרחבה \( E/F \) ואנחנו מסיקים ממנה חבורת אוטומורפיזמים \( G \) של \( E \) שמשמרת את \( F \), זה לא מבטיח ש-\( E/F \) גלואה.
אם נתונה לנו חבורת אוטומורפיזמים \( G \) של \( E \) ואנחנו מסיקים ממנה הרחבה \( E/F \) כאשר \( F \) השדה ש-\( G \) משמרת, זה כן מבטיח ש-\( E/F \) גלואה.

בפרט, הנקודה השניה נותנת לנו אפיון שקול חדש להרחבת גלואה: \( E/F \) היא הרחבת גלואה אם ורק אם קיימת תת-חבורה של \( \text{Aut}\left(E\right) \) ש-\( F \) הוא בדיוק השדה שהיא משמרת. אפשר אפילו לחדד את זה: \( E/F \) גלואה אם ורק אם השדה שאותו \( \text{Aut}\left(E/F\right) \) משמרת הוא \( F \).

עכשיו, בואו נחזור למה שעלול להיכשל. ראינו שייתכן שאני אקח הרחבה שאיננה גלואה \( E/F \), אגדיר \( G=\text{Aut}\left(E/F\right) \), ואז אנסה “להפוך” את התהליך ולהגדיר את השדה ש-\( G \) משמרת; באופן כללי אני עלול להיתקע עם שדה \( F\subseteq K\subseteq E \) כך ש-\( F\ne K \). במילים אחרות, יוצא לנו ש-\( \text{Aut}\left(E/F\right)=\text{Aut}\left(E/K\right) \) למרות ש-\( F\ne K \); ההתאמה שלוקחת תת-שדה של \( E \) ומחזירה חבורת אוטומורפיזמים איננה חד-חד-ערכית.

לעומת זאת, הכיוון ההפוך הוא כן חד-חד-ערכי. כלומר, אם \( G_{1}\ne G_{2} \) הן שתי תת-חבורות שונות של \( \text{Aut}\left(E\right) \) ואנחנו בונים את \( F_{1},F_{2} \) שהם השדות שהן משמרות, אז \( F_{1}\ne F_{2} \). למה? כי בואו נניח ש-\( F_{1}=F_{2} \). אז ממה שכבר ראינו: \( G_{1}=\text{Aut}\left(E/F_{1}\right)=\text{Aut}\left(E/F_{2}\right)=G_{2} \).

החד-חד ערכיות הזו היא הבסיס למשפט היסודי של תורת גלואה.

הרחבת גלואה ושדות פיצול של פולינומים ספרביליים

עכשיו אני רוצה לעבור למשפט שהוא התכל’ס של “מה זו הרחבת גלואה” - הרחבת גלואה היא שדה פיצול של פולינום ספרבילי. כזכור, פולינום ספרבילי הוא כזה שאין לו שורש מרובה, כלומר אפשר לכתוב אותו בתור \( \left(x-a_{1}\right)\left(x-a_{2}\right)\dots\left(x-a_{n}\right) \) כאשר כל ה-\( a_{i} \)-ים שונים זה מזה - אלו הם השורשים של הפולינום. אז הרחבת גלואה היא מה שמתקבל כשלוקחים שדה, לוקחים פולינום תמים מעליו שהוא ספרבילי, ודוחפים לתוך השדה את כל השורשים שלו. בהכרח אלו יהיו כולם, ולא רק חלק; אם רק חלק מהשורשים התווספו לשדה, אז בהחלט ייתכן שלא יהיו לנו מספיק אוטומורפיזמים כדי שיתקיים הקריטריון של \( \left|\text{Aut}\left(E/F\right)\right|=\left[E:F\right] \). בשלב הזה כל הטענה הזו נשמעת מאוד חשודה; אני חושב שלראות את ההוכחה שלה, שכוללת רגע מפיל אסימון אחד לפחות, היא הדבר הכי מועיל לאינטואיציה כאן.

החלק הפחות חשוד הוא הטענה ששדה הפיצול של פולינום ספרבילי הוא הרחבת גלואה. אני אציג את ההוכחה הזו בנפנוף ידיים כדי לעזור להתמקד ברעיון שלה; אל תלמדו אותה מהפוסט הזה ישירות למבחן אלא קחו ספר ושימו לב לנקודות העדינות בניסוח שלו שהן חשובות כשרוצים להוכיח פורמלית עד הסוף.

בואו ניקח \( p\left(x\right)\in F\left[x\right] \) שהוא ספרבילי ונגדיר את \( E \) להיות שדה הפיצול שלו. אם \( E=F \) אז סיימנו; \( \left|\text{Aut}\left(E/F\right)\right|=\left[E:F\right]=1 \). אחרת, משדה הפיצול הזה ניקח איבר \( a\in E \) כך ש-\( a\notin F \) והוא שורש של \( p \): \( p\left(x\right)=0 \), ונסתכל על ההרחבה \( F\left(a\right) \). אנחנו יודעים ש-\( \left[E:F\right]=\left[E:F\left(a\right)\right]\left[F\left(a\right):F\right] \), ומכיוון ש-\( a\notin F \) אני יודע ש-\( \left[F\left(a\right):F\right]>1 \) כלומר \( \left[E:F\right]<\left[E:F\left(a\right)\right] \) וזה נותן לנו איזה שהוא פתח להוכחה אינדוקטיבית.

אנחנו יודעים ש-\( \left[F\left(a\right):F\right] \) שווה למעלה של הפולינום המינימלי \( m_{a,F}\left(x\right) \) של \( a \) מעל השדה \( F \); הפולינום הזה מחלק את \( p\left(x\right) \) שממנו התחלנו. זה פולינום שהמקדמים שלו כולם ב-\( F \) ולכן כל אוטומורפיזם ב-\( \text{Aut}\left(E/F\right) \) מבצע פרמוטציה על השורשים שלו.

כמה שורשים יש לפולינום הזה? באופן כללי, לפולינום מעל שדה יש לכל היותר מספר שורשים ששווה למעלה שלו; במקרה שבו הפולינום ספרבילי מספר השורשים הוא בדיוק המעלה שלו. הפולינום המינימלי הוא ספרבילי כי הוא מחלק פולינום ספרבילי, ולכן זה מתקיים עבורו. כלומר, כשאני בא להגדיר אוטומורפיזם כלשהו ב-\( \text{Aut}\left(E/F\right) \) ואני ניצב בפני השאלה “לאן להעביר את \( a \)?” יש לי בדיוק \( \text{deg}m_{a,F}=\left[F\left(a\right):F\right] \) בחירות אפשריות.

מכיוון שכל איבר ב-\( F\left(a\right) \) ניתן לכתיבה בעזרת אברי \( F \) ו-\( a \), הרי שמרגע שביצעתי את הבחירה לאן להעביר את \( a \), האוטומורפיזם שבניתי נקבע באופן יחיד על כל \( F\left(a\right) \). עכשיו מגיע הרגע של נפנוף הידיים הפרוע: אני יכול להשתמש בהנחת האינדוקציה שלי (שלא ניסחתי במפורש כי כשננסה לנסח אותה במפורש נראה שהיא צריכה להיות קצת יותר מסובכת) כדי להראות ש-\( \left|\text{Aut}\left(E/F\left(a\right)\right)\right|=\left[E:F\left(a\right)\right] \). אפשר לחשוב על אוטומורפיזם שכזה על \( E \) שמשמר את \( F\left(a\right) \) כאילו (נפנוף ידיים!) הוא ניתן להרחבה לאוטומורפיזם של \( E \) שמשמר רק את \( F \) על ידי כך שנגיד לאן \( a \) צריך לעבור, ואנחנו יודעים שאנחנו יכולים להעביר את \( a \) לכל שורש אחר של \( m_{a,F} \) מבלי (נפנוף ידיים!) שיווצרו עם זה בעיות; כלומר, לכל אוטומורפיזם ב-\( \text{Aut}\left(E/F\left(a\right)\right) \) יש לנו \( \left[F\left(a\right):F\right] \) דרכים שונות להרחיב אותו, ומכיוון ש-\( \left|\text{Aut}\left(E/F\left(a\right)\right)\right|=\left[E:F\left(a\right)\right] \) אני אקבל ש-\( \left|\text{Aut}\left(E/F\right)\right|=\left[E:F\left(a\right)\right]\left[F\left(a\right):F\right]=\left[E:F\right] \) כפי שרציתי.

ההוכחה הזו, אולי שמתם לב, קצת מנפנפת בידיים, אבל היא מציגה בדיוק את הסיבה שבגללה ההרחבה הופכת להיות גלואה: אפשר לחשוב על שדה פיצול בתור משהו שמתקבל באמצעות סדרה של הרחבות פשוטות. ה”קפיצה במימד של ההרחבה” שאני מקבל עם כל הרחבה פשוטה שכזו מתאימה בדיוק לחופש התמרון שיש לי כשאני בא להגדיר אוטומורפיזם וצריך להחליט מה לעשות עם האיבר שבאמצעותו הרחבתי את אותה הרחבה פשוטה. אי-ספרביליות מקלקלת את כל זה בכך שהיא מקטינה את חופש הבחירה הזה שלי (כי יש פחות שורשים לבחור מהם) למרות שהקפצה במימד של ההרחבה נותרת זהה (כי הקפיצה במימד של ההרחבה תמיד מתאימה למעלה של הפולינום המינימלי, גם אם הוא לא ספרבילי; זכרו שראינו בפוסט הקודם דוגמא מוזרה של פולינום אי פריק שאינו ספרבילי שדרשה מאיתנו ללכת לשדה אינסופי ממציין \( p \) ).

עכשיו בואו נעבור לדבר על הכיוון השני של המשפט, שהוא מוזר יותר: אם \( E/F \) הרחבת גלואה אז בודאות \( E/F \) היא שדה פיצול של פולינום ספרבילי. מה זה פה? מאיפה בכלל מתחילים? איך מוצאים את הפולינום הזה?

ובכן, האינטואיציה של זה היא דווקא די קלה. אם \( E/F \) היא הרחבת שדות סופית, אז אנחנו כבר יודעים ש-\( E=F\left(a_{1},\dots,a_{n}\right) \); זה היה אחד הדברים הראשונים שראינו על הרחבת שדות. לכל \( a_{i} \) כזה, אני מסמן את הפולינום המינימלי שלו מעל \( F \) ב-\( m_{a_{i},F}\left(x\right) \). אם אני אקח עכשיו את פולינום המכפלה \( \prod_{i=1}^{n}m_{a_{i},F}\left(x\right) \) אני אקבל פולינום יחיד ש-\( a_{1},\dots,a_{n} \) נמנים על השורשים שלו, ואז אני אקח את שדה הפיצול שלו ואקבל בין היתר את \( a_{1},\dots,a_{n} \) בפנים. אבל עם הרעיון הנחמד הזה יש שתי בעיות:

הפולינום שאקבל לא בהכרח יהיה ספרבילי.
לא ברור למה בשדה הפיצול שלו לא יהיו איברים נוספים, שאינם דווקא ב-\( E \).

הפתרון לשני אלו טמון במשפט המאוד מפתיע (לטעמי) הבא: אם \( E/F \) היא הרחבת גלואה ו-\( p\left(x\right)\in F\left[x\right] \) הוא פולינום אי פריק מעל \( F \) שיש לו שורש ב-\( E \), אז קורים שני דברים:

\( p\left(x\right) \) ספרבילי.
\( p\left(x\right) \) מתפרק מעל \( E \) לגורמים לינאריים, כלומר כל השורשים של \( p\left(x\right) \) (ולא רק אחד) נמצאים ב-\( E \).

זו אולי התכונה שהכי מבהירה לי, אינטואיטיבית, מה ה”כוח” של הרחבת גלואה - אם פולינום כלשהו מעל \( F \) שאין לו שורשים בכלל ב-\( F \) מחליט לעשות לנו טובה ולתת לנו איזה שורש מסכן אחד ב-\( E \), אז זהו, המשחק נגמר - אוטומטית כולם יהיו ב-\( E \). הרחבת גלואה היא כזו שמבטיחה לנו ש”לא יהיו חסרים שורשים לאף פולינום”. והאופן שבו אני אוכיח את זה יפיל לכולנו (בתקווה) את האסימון בנוגע לשאלה למה הקסם הזה קורה.

בואו נסמן \( G=\text{Gal}\left(E/F\right) \). ניקח \( p\left(x\right)\in F\left[x\right] \) שהוא אי-פריק מעל \( F \) אבל יש לו שורש \( a\in E \), ועכשיו נפעיל על השורש הזה את כל האיברים של \( G \), כלומר נסתכל על הקבוצה \( \left\{ \sigma a\ |\ \sigma\in G\right\} \). האיברים הללו נקראים צמודי הגלואה של \( a \). זו קבוצה של איברים של \( E \) שכולם שורשים של \( p\left(x\right) \); מן הסתם, מה שאנחנו מקווים להגיד הוא שאלו הם כל השורשים של \( p\left(x\right) \). בואו נסמן את אברי הקבוצה הזו ב-\( a_{1},a_{2},\dots,a_{k} \) (כשאנחנו כותבים כל איבר של הקבוצה רק פעם אחת, אפילו אם הוא התקבל בכמה דרכים שונות).

עכשיו בואו נגדיר פולינום חדש שהוא ספרבילי ואלו בדיוק השורשים שלו:

\( q\left(x\right)=\left(x-a_{1}\right)\left(x-a_{2}\right)\dots\left(x-a_{k}\right) \)

אני טוען ש-\( p\left(x\right)=q\left(x\right) \). אבל למה? כאן מגיע השפן שאני שולף מהכובע - המהות של המהות של הסיבה שבגללה תורת גלואה עובדת לדעתי - ואפשר לתמצת למשפט המחץ כי מקדמים של פולינום מתוקן ספרבילי הם פונקציות סימטריות בשורשים שלו.

בואו נסביר את זה.

אם יש לנו פולינום ממעלה שניה עם השורשים \( a_{1},a_{2} \) אז קל לבדוק, על ידי כך שפותחים סוגריים במפורש, ש-\( \left(x-a_{1}\right)\left(x-a_{2}\right)=x^{2}-\left(a_{1}+a_{2}\right)+a_{1}a_{2} \). כלומר, המקדם החופשי הוא מכפלה של השורשים והמקדם שאחריו הוא סכום שלהם. זה נקרא נוסחאות וייטה, אבל אפשר להפעיל אותן בצורה דומה על פולינום ממעלה כלשהי, עם מספר כלשהו של שורשים. השורה התחתונה תהיה תמיד זהה: המקדם שאחרי המקדם המוביל הוא מינוס של סכום כל השורשים; המקדם שאחריו הוא סכום כל המכפלות של שני שורשים, זה שאחריו הוא מינוס הסכום של כל המכפלות של שלושה שורשים וכן הלאה. הנה דוגמא עבור פולינום ממעלה שלישית עם שורשים \( a_{1},a_{2},a_{3} \):

\( x^{3}-\left(a_{1}+a_{2}+a_{3}\right)+\left(a_{1}a_{2}+a_{1}a_{3}+a_{2}a_{3}\right)-a_{1}a_{2}a_{3} \)

מה זו “פונקציה סימטרית”? \( f\left(x_{1},\dots,x_{n}\right) \) היא סימטרית אם לכל זוג אינדקסים \( i\ne j \), והשמה לפונקציה, אם נחליף את הערכים שבמקומות \( i,j \) הפלט של הפונקציה לא ישתנה. כלומר, \( f\left(a_{1},\dots,a_{i},\dots,a_{j},\dots,a_{n}\right)=f\left(a_{1},\dots,a_{j},\dots,a_{i},\dots,a_{n}\right) \). אם אפשר להחליף ערכים עבור זוג אינדקסים וששום דבר לא ישתנה, אפשר לעשות את זה כמה פעמים שרוצים, ומכיוון שכל תמורה ניתן להציג בתור הרכבה של חילופים של זוגות של איברים, נקבל שפונקציה סימטרית היא כזו שהפלט שלה נשאר קבוע תחת תמורות של אברי הקלט; במילים אחרות, הפלט תלוי רק בזהות של הקלטים, לא בסדר שלהם.

קל לראות שמקדמי הפולינום שלנו הם פונקציות סימטריות שכאלו בשורשים. מה שאומר שאם אנחנו מפעילים תמורה \( \sigma \) כלשהי על השורשים, זה לא משנה את המקדמים של הפולינום. מה זה אומר? שלכל \( \sigma\in\text{Gal}\left(E/F\right) \), המקדמים של \( q\left(x\right) \) משתמרים על ידי \( \sigma \). אבל מה המשמעות של זה ש-\( E/F \) היא הרחבת גלואה? שאם איבר כלשהו משתמר על ידי כל האיברים של \( \text{Gal}\left(E/F\right) \), זה אומר שהוא שייך ל-\( F \). לכן כל המקדמים של \( q\left(x\right) \) שייכים ל-\( F \) ולכן \( q\left(x\right)\in F\left[x\right] \).

עכשיו, מה קורה? \( p\left(x\right) \) היה פולינום אי-פריק, אבל מצד שני כל שורש של \( q\left(x\right) \) הוא גם שורש שלו, ולכן \( q\left(x\right) \) מחלק אותו בלי שארית, מה שמכריח את \( q\left(x\right)=p\left(x\right) \). קיבלנו ש-\( p\left(x\right) \) הוא פולינום ספרבילי (כי בנינו את \( q\left(x\right) \) להיות ספרבילי) שכל השורשים שלו הם ב-\( E \) (כי בנינו את \( q\left(x\right) \) רק מהשורשים של \( p\left(x\right) \) שהיו שייכים ל-\( E \)). זה מסיים את הטענה המרכזית שלי כאן.

אם כן, ראינו שאם \( E/F \) גלואה ו-\( p\left(x\right)\in F\left[x\right] \) אי-פריק מעל \( F \) ועם שורש אחד ב-\( E \) אז כל השורשים שלו ב-\( E \) והוא ספרבילי. עם הידע הזה בואו נחזור לכך ש-\( E=F\left(a_{1},\dots,a_{n}\right) \) ואני רוצה להציג את \( E \) כשדה פיצול של פולינום ספרבילי מעל \( F \). אני לוקח את הפולינומים המינימליים \( m_{a_{i},F}\left(x\right) \) של היוצרים של \( E \). הם אי-פריקים מעל \( F \) כי פולינום מינימלי הוא תמיד אי-פריק. כמו כן, יש להם שורש ב-\( E \) כי לכל \( i \) אנחנו יודעים ש-\( a_{i}\in E \) הוא שורש של \( m_{F,a_{i}} \) (זו המהות של הפולינום הזה). לכן כל השורשים של הפולינום המינימלי הזה שייכים ל-\( E \). לכן אם נגדיר פולינום שהוא המכפלה של כל הפולינומים המינימליים הללו, שדה הפיצול שלו יהיה בדיוק \( E \).

הבעיה היחידה שנותרה היא שהמכפלה הזו לאו דווקא תהיה ספרבילית. מכיוון שכל הפולינומים המינימליים ספרביליים (כי כאמור - ראינו שאי פריק מעל \( F \) ובעל שורש ב-\( E \) גורר ספרבילי) הדרך היחידה שבה המכפלה לא תהיה ספרבילית היא אם יש שני פולינומים מינימליים שיש להם שורש משותף. אבל ראינו לפני רגע איך שורש אחד כלשהו של הפולינומים הללו קובע אותם במפורש (בהינתן השורש הזה, הפולינום שהוא קובע הוא זה ששורשיו הם בדיוק צמודי הגלואה של השורש). לכן אם יש לשני פולינומים מינימליים שורש משותף הם זהים, ואפשר פשוט לא לקחת אחד מהם למכפלה. בצורה הזו מובטח שנקבל פולינום ספרבילי ששדה הפיצול שלו הוא \( E \).

ראינו פה שתי תכונות חדשות ומעניינות של פולינומים אי-פריקים בהרחבת גלואה. התכונות הללו הן מוטביציה לשתי הגדרות של תכונות כלליות של הרחבות:

הרחבה \( E/F \) היא נורמלית אם לכל פולינום אי-פריק \( p\left(x\right)\in F\left[x\right] \) או שאין לו שורש ב-\( E \), או שכל השורשים שלו הם ב-\( E \).
הרחבה \( E/F \) היא ספרבילית אם לכל \( a\in E \), הפולינום המינימלי של \( a \) מעל \( F \) הוא ספרבילי.

ראינו זה עתה שהרחבת גלואה היא נורמלית וספרבילית - אלו התכונות שניצלנו כדי להוכיח שהרחבת גלואה היא שדה פיצול של פולינום ספרבילי. אם כן, יש לנו שרשרת של גרירות: “גלואה” גורר “נורמלית וספרבילית” וזה גורר “שדה פיצול של פולינום ספרבילי” שגורר, כפי שראינו קודם, “גלואה”. לכן כל אלו שקולים. נוסיף לזה את הטענה שראינו קודם על השדה ש-\( \text{Aut}\left(E/F\right) \) משמרת, וקיבלנו ארבע הגדרות שקולות ל”מתי \( E/F \) היא הרחבת גלואה”

אם \( \left[E:F\right]=\left|\text{Aut}\left(E/F\right)\right| \).
אם השדה ש-\( \text{Aut}\left(E/F\right) \) משמרת הוא \( F \).
אם \( E/F \) הרחבה נורמלית וספרבילית.
אם \( E \) הוא שדה פיצול של פולינום ספרבילי מעל \( F \).

הוכחת המשפט ה"קשה"

חזרה אל החוב שלי מתחילת הפוסט. כזכור, אני רוצה להוכיח שאם \( E \) שדה ו-\( G \) תת-חבורה של \( \text{Aut}\left(E\right) \) ואני מגדיר את \( F \) להיות השדה ש-\( G \) משמרת, אז \( \left[E:F\right]=\left|G\right| \). את ההוכחה אפשר לחלק לשני חלקים ששניהם דומים באופיים: מניחים ש-\( \left[E:F\right] \) גדול או קטן מ-\( \left|G\right| \), ובכל אחד מהמקרים הללו משתמשים באלגברה לינארית בסיסית ובתכונות הנחמדות של אוטומורפיזמים כדי ליצור איבר שהוא “טוב מכדי להתקיים”. התכונה הרלוונטית לי מאלגברה לינארית היא זו: אם יש לי מערכת הומוגנית של \( k \) משוואות לינאריות ב-\( n \) נעלמים כך ש-\( k<n \), אז תמיד קיים לה פתרון לא טריוויאלי (“מערכת הומוגנית” היא מערכת מהצורה \( Ax=0 \), ו”פתרון לא טריוויאלי” הוא כזה שבו לא כל המשתנים מקבלים 0).

עוד תכונה שאזדקק לה היא שאוטומורפיזמים של \( E \) הם בלתי תלויים לינארית מעל \( E \). למה אני מתכוון? אם \( \sigma_{1},\dots,\sigma_{n} \) הם אוטומורפיזמים כלשהם של \( E \) אז לא קיים צירוף לינארי לא טריוויאלי שלהם שהוא פונקציית האפס, כלומר אם \( a_{1}\sigma_{1}\left(x\right)+\dots+a_{n}\sigma_{n}\left(x\right)=0 \) לכל \( x\in E \), אז \( a_{1}=\dots=a_{n} \).

כדי להוכיח את התכונה הזו נניח בשלילה שיש צירוף לינארי לא טריוויאלי שכזה. בלי הגבלת הכלליות אפשר להניח ש-\( a_{1},\dots,a_{m} \) הם המקדמים ששונים מאפס ופשוט לשכוח מהאחרים. יותר מכך - אפשר להניח ש-\( m \) הוא המספר המינימלי שעבורו קיים צירוף לינארי לא טריוויאלי שכזה, וש-\( m>1 \) (כי \( a_{1}\sigma_{1} \) הוא אוטומורפיזם ולכן בוודאי שלא פונקציית האפס). התעלול עכשיו יהיה לייצר צירוף לינארי לא טריוויאלי מתאפס קטן יותר. אני אקח את

\( a_{1}\sigma_{1}\left(x\right)+\dots+a_{m}\sigma_{m}\left(x\right)=0 \)

ועכשיו אני רוצה “למחוק” מהצירוף הזה את \( \sigma_{m} \) תוך שאני משאיר לכל הפחות את \( \sigma_{1} \). לשם כך אני צריך איכשהו להבדיל בין שני אלו; מכיוון שהם פונקציות, אז העובדה שהם שונים מעידה על כך שקיים לפחות \( x_{0} \) אחד כך ש-\( \sigma_{1}\left(x_{0}\right)\ne\sigma_{m}\left(x_{0}\right) \). בהכרח \( x_{0}\ne0 \) אחרת שניהם היו מחזירים עליו 0. אם הצירוף הלינארי שלעיל נכון לכל \( x\in E \), הוא נכון בפרט עבור \( x_{0}\cdot y \) כאשר \( y\in E \) איבר כלשהו. לכן אפשר לכתוב:

\( a_{1}\sigma_{1}\left(x_{0}y\right)+\dots+a_{m}\sigma_{m}\left(x_{0}y\right)=0 \)

ותוך שימוש בכך שה-\( \sigma \)-ות הן הומומורפיזמים:

\( a_{1}\sigma_{1}\left(x_{0}\right)\sigma_{1}\left(y\right)+\dots+a_{m}\sigma_{m}\left(x_{0}\right)\sigma_{m}\left(y\right)=0 \)

עכשיו ניקח את המשוואה שהתחלנו ממנה, ונכפול את כולה ב-\( \sigma_{m}\left(x_{0}\right) \). נקבל:

\( a_{1}\sigma_{m}\left(x_{0}\right)\sigma_{1}\left(y\right)+\dots+a_{m}\sigma_{m}\left(x_{0}\right)\sigma_{m}\left(y\right)=0 \)

ועכשיו נחסר את המשוואה הזו שקיבלנו מהמשוואה שקיבלנו לפני רגע. נקבל:

\( a_{1}\left(\sigma_{1}\left(x_{0}\right)-\sigma_{m}\left(x_{0}\right)\right)\sigma_{1}\left(y\right)+\dots+a_{m-1}\left(\sigma_{m-1}\left(x_{0}\right)-\sigma_{m}\left(x_{0}\right)\right)\sigma_{m-1}\left(y\right)=0 \)

מה קיבלנו פה? צירוף לינארי של \( m-1 \) איברים לכל היותר ששווה גם הוא אפס לכל \( y\in E \). לא כל המקדמים של הצירוף הזה הם אפס, כי \( a_{1}\left(\sigma_{1}\left(x_{0}\right)-\sigma_{m}\left(x_{0}\right)\right)\ne0 \). זו סתירה להנחה שלנו ש-\( m \) היה מינימלי, מה שמוכיח שכל ה-\( \sigma \)-ות הן בלתי תלויות לינארית מעל \( E \).

עכשיו, משאני מצוייד בידע הזה, אפשר סוף סוף להוכיח ש-\( \left[E:F\right]=\left|G\right| \). נסמן \( \left|G\right|=n \) (כלומר \( G=\left\{ \sigma_{1},\sigma_{2},\dots,\sigma_{n}\right\} \)), ונטפל בנפרד במקרים של \( \left[E:F\right]<n \) ו-\( \left[E:F\right]>n \). נתחיל מהראשון. במקרה הראשון, אסמן \( k=\left[E:F\right] \) וניקח בסיס \( a_{1},\dots,a_{k}\in E \) ל-\( E \) מעל \( F \). עכשיו אשתמש בדברים הללו כדי ליצור מערכת משוואות לינארית הומוגנית של \( k \) משוואות ב-\( n \) נעלמים - ומכיוון ש-\( k<n \) אז כפי שאמרתי לעיל, יהיה לה פתרון לא טריוויאלי:

\( \sigma_{1}\left(a_{1}\right)x_{1}+\dots+\sigma_{n}\left(a_{1}\right)x_{n}=0 \)

\( \vdots \)

\( \sigma_{1}\left(a_{k}\right)x_{1}+\dots+\sigma_{n}\left(a_{k}\right)x_{n}=0 \)

בואו נסמן את הפתרון הזה ב-\( \beta_{1},\dots,\beta_{n}\in E \). אני ארצה להוכיח שמתקיים \( \beta_{1}\sigma_{1}+\dots+\beta_{n}\sigma_{n}=0 \), מה שעומד בסתירה לכך שראינו שאוטומורפיזמים הם בלתי תלויים לינארית.

כדי להראות את השוויון הזה, אני צריך איכשהו להראות ש-

\( \beta_{1}\sigma_{1}\left(\alpha\right)+\dots+\beta_{n}\sigma_{n}\left(\alpha\right)=0 \)

לכל \( \alpha\in E \). כרגע יש לי את השוויון הזה, אבל לא לכל \( \alpha \) אלא רק לאיברים \( a_{1},\dots,a_{n} \). מצד אחד, זה לא מספיק; מצד שני, אלו לא איברים שרירותיים של \( E \) אלא בסיס ל-\( E \), מה שאומר שאני יכול לכתוב

\( \alpha=\lambda_{1}a_{1}+\dots+\lambda_{k}a_{k} \)

עבור \( \lambda_{1},\dots,\lambda_{k}\in F \). כאן נכנס לתמונה הקלף המנצח שלי: המקדמים הללו לא סתם שייכים ל-\( E \) אלא ל-\( F \). מי זה \( F \)? אולי הלכנו לאיבוד בסבך המשוואות, אבל \( F \) הוגדר בתור מה שכל אברי החבורה \( G \) משמרים. כלומר, \( \sigma_{i}\left(\lambda_{j}\right)=\lambda_{j} \) לכל \( 1\le i\le n \) ו-\( 1\le j\le k \).

על כן, אם אכפול את המשוואה הראשונה ב-\( \lambda_{1} \), את השניה ב-\( \lambda_{2} \) וכן הלאה, אני אקבל:

\( \sigma_{1}\left(\lambda_{1}a_{1}\right)\beta_{1}+\dots+\sigma_{n}\left(\lambda_{1}a_{1}\right)\beta_{n}=0 \)

\( \vdots \)

\( \sigma_{1}\left(\lambda_{k}a_{k}\right)\beta_{1}+\dots+\sigma_{n}\left(\lambda_{k}a_{k}\right)\beta_{n}=0 \)

ועכשיו נחבר את כל המשוואות יחד, ונקבל את \( \beta_{1}\sigma_{1}\left(\alpha\right)+\dots+\beta_{n}\sigma_{n}\left(\alpha\right)=0 \) שלנו. הגענו לסתירה עבור המקרה \( \left[E:F\right]<n \), תוך שאנו מסתמכים חזק על כך ש-\( F \) הוא השדה ש-\( G \) משמרת וש-\( G \) היא קבוצת אוטומורפיזמים. עם זאת, שימו לב שלא השתמשתי עדיין בכלל בכך ש-\( G \) חבורה.

אם כן, קדימה אל המקרה \( \left[E:F\right]>n \) שאיתו נסיים!

במקרה הזה פחות חשוב לנו מה המימד המדויק \( \left[E:F\right] \) אלא רק שאנחנו מסוגלים למצוא \( n+1 \) איברים של \( E \) שהם בלתי תלויים לינארית מעל \( F \). נסמן אותם \( a_{1},\dots,a_{n+1} \). נבנה עכשיו מערכת של \( n \) משוואות ב-\( n+1 \) נעלמים, בצורה טיפה שונה ממה שהיה קודם:

\( \sigma_{1}\left(a_{1}\right)x_{1}+\dots+\sigma_{1}\left(a_{n+1}\right)x_{n+1} \)

\( \vdots \)

\( \sigma_{n}\left(a_{1}\right)x_{1}+\dots+\sigma_{n}\left(a_{n+1}\right)x_{n+1} \)

קודם כל משוואה הוקדשה לאיבר בסיס אחד; הפעם כל משוואה מוקדשת לאוטומורפיזם אחד. כמקודם, המסקנה היא אותה מסקנה: יש לנו \( \beta_{1},\dots,\beta_{n+1} \) מעל \( E \) שהם פתרון לא טריוויאלי של המשוואה. אבל מה הסתירה שננסה להגיע אליה עכשיו?

כמו שהיה במקרה של אי-התלות של האוטומורפיזמים, גם כאן אני רוצה להגיע לסתירה מסוג “נתחיל עם צירוף לינארי עם מספר מינימלי של מקדמים שונה מאפס, ואז נקטין את מספר המקדמים באחד”. כאן המקדמים הם ה-\( \beta \)-ים. לא סתם ניקח פתרון אקראי של המשוואה, אלא נבחר אותו בחוכמה כך שמספר ה-\( \beta \)-ים השונים מאפס בפתרון הוא מינימלי. אפשר גם להניח שה-\( \beta \)-ים השונים מאפס הם \( \beta_{1},\dots,\beta_{k} \) (אולי צריך למספר מחדש איברים בשביל זה). וחוץ מזה, אפשר גם לחלק את כל המשוואות ב-\( \beta_{k} \), אז אפשר להניח ש-\( \beta_{k}=1 \). וחוץ מזה (תאמינו לי שהכל הכרחי) אני גם יודע בודאות שאחד מה-\( \beta \)-ים לא שייך ל-\( F \). קחו שניה ותנסו לחשוב למה. אסביר בשורה הבאה.

מכיוון ש-\( G \) חבורה, היא כוללת את אוטומורפיזם הזהות. אז אחת מהמשוואות שראינו היא פשוט המשוואה \( a_{1}\beta_{1}+\dots+a_{n+1}\beta_{n+1}=0 \). אם כל ה-\( \beta \)-ים היו שייכים ל-\( F \), אז היינו מקבלים צירוף לינארי לא טריוויאלי של האיברים הבלתי תלויים לינארית \( a_{1},\dots,a_{n+1} \). המסקנה אם כן היא ש-\( \beta \) כלשהו אינו ב-\( F \), וזה הדבר המרכזי שנשחק עליו. את ה-\( \beta \) בר המזל נסמן ב-\( \beta_{1} \) - שוב, אפשר למספר מחדש כדי להבטיח את זה.

וכעת, לאקשן.

כל משוואה לעיל הוקדשה לאוטומורפיזם אחר. אחרי שנציב את ה-\( \beta \)-ים, נקבל משוואות שנראות ככה:

\( \sigma_{i}\left(a_{1}\right)\beta_{1}+\dots+\sigma_{i}\left(a_{k-1}\right)\beta_{k-1}+\sigma_{i}\left(a_{k}\right)=0 \)

מכיוון ש-\( \beta_{1}\notin F \) הרי שבהכרח קיים \( \sigma\in G \) כך ש-\( \sigma\left(\beta_{1}\right)\ne\beta_{1} \). אם לא היה קיים \( \sigma \) כזה, אז היינו מקבלים \( \beta_{1}\in F \). מה נעשה עם \( \sigma \)? פשוט מאוד - נפעיל אותו על כל אחת מהמשוואות, ונשתמש בכך שהוא אוטומורפיזם כדי לקבל

\( \sigma\sigma_{i}\left(a_{1}\right)\sigma\left(\beta_{1}\right)+\dots+\sigma\sigma_{i}\left(a_{k-1}\right)\sigma\left(\beta_{k-1}\right)+\sigma\sigma_{i}\left(a_{k}\right)=0 \)

מה קיבלנו פה? קודם הייתה לנו משוואה שאמרה “הנה צירוף לינארי של הפעלת האוטומורפיזם \( \sigma_{i} \) על האיברים \( a_{1},\dots,a_{k} \) ששווה אפס”. עכשיו קיבלנו משוואה שאומרת “הנה צירוף לינארי עם מקדמים אחרים של הפעלת האוטומורפיזם \( \sigma\sigma_{i} \) על האיברים \( a_{1},\dots,a_{k} \) ששווה אפס”. כאן נכנסת לתמונה העובדה ש-\( G \) היא חבורה. בחבורה, כפל באיבר כלשהו של כל אברי החבורה בסך הכל מבצע תמורה שלהם. כלומר, \( \left\{ \sigma_{1},\dots,\sigma_{n}\right\} \) היא אותה קבוצה בדיוק כמו \( \left\{ \sigma\sigma_{1},\dots,\sigma\sigma_{n}\right\} \). מכאן שלכל \( \sigma_{i} \), קיבלנו בסופו של דבר את המשוואה

\( \sigma_{i}\left(a_{1}\right)\sigma\left(\beta_{1}\right)+\dots+\sigma_{i}\left(a_{k-1}\right)\sigma\left(\beta_{k-1}\right)+\sigma_{i}\left(a_{k}\right)=0 \)

נפחית מהמשוואה הזו את המשוואה של \( \sigma_{i} \) שהייתה לנו קודם, כלומר את

\( \sigma_{i}\left(a_{1}\right)\beta_{1}+\dots+\sigma_{i}\left(a_{k-1}\right)\beta_{k-1}+\sigma_{i}\left(a_{k}\right)=0 \)

ונקבל:

\( \sigma_{i}\left(a_{1}\right)\left(\beta_{1}-\sigma\left(\beta_{1}\right)\right)+\dots+\sigma_{i}\left(a_{k-1}\right)\left(\beta_{k-1}-\sigma\left(\beta_{k-1}\right)\right)=0 \)

שימו לב שהחיסור העלים את האיבר האחרון בסכום; זאת מכיוון שהאיבר האחרון הזה היה עבור \( \beta_{k}=1 \), וזה איבר ש-\( \sigma \) בודאות כן משמרת. באותו אופן, בחרנו את \( \sigma \) מלכתחילה כדי ש- \( \beta_{1} \) יהיה איבר ש-\( \sigma \) בודאות לא משמרת, ולכן \( \beta_{1}\ne\sigma\left(\beta_{1}\right) \), כלומר \( \beta_{1}-\sigma\left(\beta_{1}\right)\ne0 \), כלומר המקדם הראשון בצירוף הלינארי שקיבלנו אינו אפס.

מה קרה? קיבלנו פתרון חדש למערכת המשוואות שממנה התחלנו. פתרון שבו יש רק \( k-1 \) איברים שונים מאפס, בסתירה להנחה שלנו ש-\( k \) הוא המספר המינימלי של איברים שונים מאפס בפתרון לא טריוויאלי כלשהו למערכת המשוואות הזו. זה מסיים את ההוכחה.

האם זה היה טכני? כן, במידה מסויימת.

האם זה היה קשה? כן, במידה מסויימת, אם כי כל המעברים פה פשוטים למדי.

האם זה עוזר לנו להבין למה תורת גלואה עובדת? כן, במידה מסויימת: כל המרכיבים החשובים של תורת גלואה (בסיס של שדה אחד מעל אחר, חבורת אוטומורפיזמים, שימור של השדה הקטן) באים כאן לידי ביטוי. לכן אני חושב שלמרות שההוכחה היא טכנית למדי, היא עדיין אלגנטית ויפה מאוד, ויש חשיבות גדולה ל”להרגיש אותה בידיים” כדי להבין מה בעצם הולך בתורת גלואה.

נהניתם? התעניינתם? אם תרצו, אתם מוזמנים לתת טיפ: