קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.
בנספח הזה מפורטים כמה פרטים נוספים על קצב הלמידה.
תזמון של ירידה בקצב הלמידה
הבעיה של מציאת המשפחה הכי טובה של תוכניות להפחתת קצב הלמידה היא בעיה פתוחה. לא ברור איך לבנות קבוצה של ניסויים קפדניים כדי לענות על השאלה הזו בביטחון. למרות שאנחנו לא יודעים מהו לוח הזמנים הכי טוב למשפחה, אנחנו בטוחים בדברים הבאים:
חשוב להקפיד על לוח זמנים (לא קבוע).
חשוב להתאים את לוח הזמנים הזה.
שיעורי למידה שונים מתאימים לשלבים שונים בתהליך האופטימיזציה. אם יש לוח זמנים כלשהו, סביר יותר שהמודל יגיע לשיעור למידה טוב.
הדעיכה הטובה ביותר של שיעור הלמידה שמוגדר כברירת מחדל
מומלץ להשתמש באחת מהמשפחות הבאות של שיעורי למידה כברירת מחדל:
דעיכה לינארית
דעיכה קוסינוסית
גם הרבה משפחות אחרות של לוחות זמנים כנראה מתאימות.
למה בחלק מהמאמרים יש תוכניות מורכבות של שיעורי למידה?
במאמרים אקדמיים רבים נעשה שימוש בתוכניות מורכבות של ירידה (decay) בקצב הלמידה (LR) בשלבים. קוראים רבים תוהים איך המחברים הגיעו ללוח זמנים כל כך מסובך. הרבה תוכניות מורכבות של דעיכת LR הן תוצאה של כוונון התוכנית כפונקציה של הביצועים של קבוצת האימות בצורה אד-הוקית. כלומר:
מתחילים הרצת אימון יחידה עם דעיכה פשוטה של קצב הלמידה (או קצב למידה קבוע).
ממשיכים להריץ את האימון עד שהביצועים נראים יציבים. במקרה כזה, צריך להשהות את האימון. לאחר מכן, אפשר להמשיך את האימון עם לוח זמנים של דעיכה תלולה יותר של קצב הלמידה (או קצב למידה קבוע קטן יותר) מהנקודה הזו. חוזרים על התהליך הזה (עד למועד הכנס או מועד ההשקה).
בדרך כלל לא מומלץ להעתיק את לוח הזמנים שמתקבל, כי לוח הזמנים האופטימלי תלוי בהרבה בחירות אחרות של היפרפרמטרים. מומלץ להעתיק את האלגוריתם שיצר את לוח הזמנים, אבל זה כמעט אף פעם לא אפשרי כשלוח הזמנים נוצר על ידי שיקול דעת אנושי שרירותי. אפשר להשתמש בסוג הזה של תזמון שרגיש לשגיאות אימות אם אפשר לבצע אותו באופן אוטומטי לחלוטין, אבל תזמונים שכוללים התערבות אנושית ומתבססים על שגיאות אימות הם בעייתיים וקשה לשחזר אותם, ולכן מומלץ להימנע מהם. לפני פרסום תוצאות שהתקבלו באמצעות תזמון כזה, כדאי לנסות לשחזר אותן באופן מלא.
איך כדאי לכוון את ההיפר-פרמטרים של Adam?
לא כל ההיפרפרמטרים ב-Adam חשובים באותה מידה. הכללים הבאים מתאימים ל'תקציבים' שונים של מספר הניסויים במחקר.
אם יש פחות מ-10 ניסויים במחקר, כדאי לשנות רק את קצב הלמידה (הבסיסי).
אם יש 10-25 ניסויים במחקר, כדאי לשנות את קצב הלמידה ואת beta_1.
אם יש לכם יותר מ-25 ניסויים, כדאי לשנות את קצב הלמידה, beta_1 ו-epsilon.
אם יש לכם הרבה יותר מ-25 ניסויים, כדאי גם לכוונן את beta_2.
קשה לספק כללים כלליים לגבי מרחבי חיפוש וכמה נקודות צריך לדגום ממרחב החיפוש, ולכן הכללים המנחים שמפורטים בקטע הזה הם כללים כלליים בלבד".
[[["התוכן קל להבנה","easyToUnderstand","thumb-up"],["התוכן עזר לי לפתור בעיה","solvedMyProblem","thumb-up"],["סיבה אחרת","otherUp","thumb-up"]],[["חסרים לי מידע או פרטים","missingTheInformationINeed","thumb-down"],["התוכן מורכב מדי או עם יותר מדי שלבים","tooComplicatedTooManySteps","thumb-down"],["התוכן לא עדכני","outOfDate","thumb-down"],["בעיה בתרגום","translationIssue","thumb-down"],["בעיה בדוגמאות/בקוד","samplesCodeIssue","thumb-down"],["סיבה אחרת","otherDown","thumb-down"]],["עדכון אחרון: 2025-07-27 (שעון UTC)."],[[["\u003cp\u003eEmploying a non-constant learning rate decay schedule, such as linear or cosine decay, is crucial for optimal model performance.\u003c/p\u003e\n"],["\u003cp\u003eComplicated, piece-wise learning rate schedules often arise from ad hoc tuning based on validation set performance and should be approached with caution due to reproducibility concerns.\u003c/p\u003e\n"],["\u003cp\u003ePrioritize tuning Adam's hyperparameters strategically: focus on the base learning rate for limited trials, gradually incorporating \u003ccode\u003ebeta_1\u003c/code\u003e, \u003ccode\u003eepsilon\u003c/code\u003e, and \u003ccode\u003ebeta_2\u003c/code\u003e with increasing trial budgets.\u003c/p\u003e\n"],["\u003cp\u003eWhile specific learning rate decay schedules are dataset and model dependent, having a schedule is more important than the specific type.\u003c/p\u003e\n"]]],[],null,["This appendix contains a few additional details about learning rate.\n\nLearning rate decay schedule\n\nThe best learning rate decay schedule family is an open problem;\nit's not clear how to construct a set of rigorous experiments to\nconfidently answer this question.\nAlthough we don't know the best schedule family, we're confident\nof the following:\n\n- It's important to have some (non-constant) schedule.\n- Tuning that schedule is important.\n\nDifferent learning rates work best at different times during the\noptimization process. Having some sort of schedule makes it more\nlikely for the model to hit a good learning rate.\n\nBest default learning rate decay\n\nWe recommend either of the following learning rate decay families\nas a default:\n\n- Linear decay\n- Cosine decay\n\nMany other schedule families are probably good, too.\n\nWhy do some papers have complicated learning rate schedules?\n\nMany academic papers use complicated piece-wise learning rate (LR)\ndecay schedules. Readers often wonder how the authors arrived at\nsuch a complicated schedule. Many complicated LR decay schedules are\nthe result of tuning the schedule as a function of the validation set\nperformance in an ad hoc way. That is:\n\n1. Start a single training run with some simple LR decay (or a constant learning rate).\n2. Keep training running until the performance seems to stagnate. If this happens, pause training. Then, resume it with a perhaps steeper LR decay schedule (or smaller constant learning rate) from this point. Repeat this process (until the conference or launch deadline).\n\nBlithely copying the resulting schedule is generally not a good idea\nsince the best particular schedule is sensitive to a host of other\nhyperparameter choices. We recommend copying the algorithm that produced\nthe schedule, although this is rarely possible when arbitrary human\njudgment produced the schedule. This type of validation-error-sensitive\nschedule is fine to use if it can be fully automated, but\nhuman-in-the-loop schedules that are a function of validation error are\nbrittle and not easily reproducible, so we recommend avoiding them.\nBefore publishing results that used such a schedule, please try to make\nit fully reproducible.\n\nHow should Adam's hyperparameters be tuned?\n\nNot all the hyperparameters in Adam are equally important.\nThe following rules of thumb correspond to different \"budgets\" for the number\nof trials in a study.\n\n- If \\\u003c 10 trials in a study, only tune the (base) learning rate.\n- If 10-25 trials in a study, tune the learning rate and `beta_1`.\n- If 25+ trials, tune the learning rate, `beta_1`, and `epsilon`.\n- If substantially more than 25 trials, additionally tune tune `beta_2`.\n\nGiven how difficult it is to provide general rules about search spaces and\nhow many points you should sample from the search space, view the rules of\nthumb stated in this section as rough guidelines.\""]]