최적의 학습률 감소 일정은 미해결 문제입니다. 이 질문에 확실하게 답하기 위한 엄격한 실험 세트를 구성하는 방법이 명확하지 않습니다. 가족에게 가장 적합한 일정은 알 수 없지만 다음 사항은 확실합니다.
일정 (상수가 아님)을 정하는 것이 중요합니다.
이 일정을 조정하는 것이 중요합니다.
학습률은 최적화 프로세스 중에 서로 다른 시점에서 가장 효과적입니다. 일정의 종류가 있으면 모델이 적절한 학습률을 달성할 가능성이 높아집니다.
최적의 기본 학습률 감소
다음 학습률 감소 계열 중 하나를 기본값으로 사용하는 것이 좋습니다.
선형 감소
코사인 감쇠
다른 많은 일정 가족도 괜찮을 것입니다.
일부 논문에는 복잡한 학습률 일정이 있는 이유는 무엇인가요?
많은 학술 논문에서 복잡한 조각별 학습률 (LR) 감소 일정을 사용합니다. 독자는 저자가 어떻게 이렇게 복잡한 일정을 세웠는지 궁금해하는 경우가 많습니다. 많은 복잡한 LR 감소 일정은 검증 세트 성능을 임시 방식으로 조정한 결과입니다. 이는 다음과 같은 의미입니다.
간단한 LR 감소(또는 일정한 학습률)로 단일 학습 실행을 시작합니다.
실적이 정체되는 것처럼 보일 때까지 학습을 계속 실행합니다. 이 경우 학습을 일시중지하세요. 그런 다음 이 시점부터 더 가파른 LR 감소 일정 (또는 더 작은 상수 학습률)으로 재개합니다. 회의 또는 출시 기한까지 이 과정을 반복합니다.
최적의 특정 일정은 다양한 다른 하이퍼파라미터 선택에 민감하므로 결과 일정을 무심코 복사하는 것은 일반적으로 좋지 않습니다. 일정을 생성한 알고리즘을 복사하는 것이 좋습니다. 하지만 임의의 사람의 판단으로 일정이 생성된 경우에는 거의 불가능합니다. 이러한 유형의 검증 오류에 민감한 일정은 완전히 자동화할 수 있는 경우에 사용해도 되지만, 검증 오류의 함수인 human-in-the-loop 일정은 취약하고 쉽게 재현할 수 없으므로 피하는 것이 좋습니다. 이러한 일정을 사용한 결과를 게시하기 전에 완전히 재현할 수 있도록 하세요.
Adam의 초매개변수는 어떻게 조정해야 하나요?
Adam의 모든 초매개변수가 똑같이 중요한 것은 아닙니다. 다음 경험적 규칙은 연구의 시험 횟수에 대한 다양한 '예산'에 해당합니다.
연구의 시행 횟수가 10회 미만인 경우 (기본) 학습률만 조정합니다.
연구에서 10~25회 시행하는 경우 학습률과 beta_1를 조정합니다.
25회 이상 시도한 경우 학습률, beta_1, epsilon를 조정합니다.
25회보다 훨씬 많은 시험인 경우 beta_2도 추가로 조정합니다.
검색 공간에 관한 일반적인 규칙과 검색 공간에서 샘플링해야 하는 점의 수를 제공하기가 얼마나 어려운지 고려할 때 이 섹션에 명시된 경험적 규칙을 대략적인 가이드라인으로 간주하세요.'
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-07-27(UTC)"],[[["\u003cp\u003eEmploying a non-constant learning rate decay schedule, such as linear or cosine decay, is crucial for optimal model performance.\u003c/p\u003e\n"],["\u003cp\u003eComplicated, piece-wise learning rate schedules often arise from ad hoc tuning based on validation set performance and should be approached with caution due to reproducibility concerns.\u003c/p\u003e\n"],["\u003cp\u003ePrioritize tuning Adam's hyperparameters strategically: focus on the base learning rate for limited trials, gradually incorporating \u003ccode\u003ebeta_1\u003c/code\u003e, \u003ccode\u003eepsilon\u003c/code\u003e, and \u003ccode\u003ebeta_2\u003c/code\u003e with increasing trial budgets.\u003c/p\u003e\n"],["\u003cp\u003eWhile specific learning rate decay schedules are dataset and model dependent, having a schedule is more important than the specific type.\u003c/p\u003e\n"]]],[],null,["This appendix contains a few additional details about learning rate.\n\nLearning rate decay schedule\n\nThe best learning rate decay schedule family is an open problem;\nit's not clear how to construct a set of rigorous experiments to\nconfidently answer this question.\nAlthough we don't know the best schedule family, we're confident\nof the following:\n\n- It's important to have some (non-constant) schedule.\n- Tuning that schedule is important.\n\nDifferent learning rates work best at different times during the\noptimization process. Having some sort of schedule makes it more\nlikely for the model to hit a good learning rate.\n\nBest default learning rate decay\n\nWe recommend either of the following learning rate decay families\nas a default:\n\n- Linear decay\n- Cosine decay\n\nMany other schedule families are probably good, too.\n\nWhy do some papers have complicated learning rate schedules?\n\nMany academic papers use complicated piece-wise learning rate (LR)\ndecay schedules. Readers often wonder how the authors arrived at\nsuch a complicated schedule. Many complicated LR decay schedules are\nthe result of tuning the schedule as a function of the validation set\nperformance in an ad hoc way. That is:\n\n1. Start a single training run with some simple LR decay (or a constant learning rate).\n2. Keep training running until the performance seems to stagnate. If this happens, pause training. Then, resume it with a perhaps steeper LR decay schedule (or smaller constant learning rate) from this point. Repeat this process (until the conference or launch deadline).\n\nBlithely copying the resulting schedule is generally not a good idea\nsince the best particular schedule is sensitive to a host of other\nhyperparameter choices. We recommend copying the algorithm that produced\nthe schedule, although this is rarely possible when arbitrary human\njudgment produced the schedule. This type of validation-error-sensitive\nschedule is fine to use if it can be fully automated, but\nhuman-in-the-loop schedules that are a function of validation error are\nbrittle and not easily reproducible, so we recommend avoiding them.\nBefore publishing results that used such a schedule, please try to make\nit fully reproducible.\n\nHow should Adam's hyperparameters be tuned?\n\nNot all the hyperparameters in Adam are equally important.\nThe following rules of thumb correspond to different \"budgets\" for the number\nof trials in a study.\n\n- If \\\u003c 10 trials in a study, only tune the (base) learning rate.\n- If 10-25 trials in a study, tune the learning rate and `beta_1`.\n- If 25+ trials, tune the learning rate, `beta_1`, and `epsilon`.\n- If substantially more than 25 trials, additionally tune tune `beta_2`.\n\nGiven how difficult it is to provide general rules about search spaces and\nhow many points you should sample from the search space, view the rules of\nthumb stated in this section as rough guidelines.\""]]