Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.
Questa appendice contiene alcuni dettagli aggiuntivi sul tasso di apprendimento.
Pianificazione del decadimento del tasso di apprendimento
La famiglia di pianificazioni di decadimento del tasso di apprendimento migliore è un problema aperto; non è chiaro come costruire un insieme di esperimenti rigorosi per rispondere con certezza a questa domanda. Anche se non conosciamo il miglior programma per la famiglia, siamo sicuri di quanto segue:
È importante avere una programmazione (non costante).
Modificare questa pianificazione è importante.
Tassi di apprendimento diversi funzionano meglio in momenti diversi del processo di ottimizzazione. Avere una sorta di pianificazione aumenta la probabilità che il modello raggiunga un buon tasso di apprendimento.
Miglior decadimento del tasso di apprendimento predefinito
Ti consigliamo una delle seguenti famiglie di decadimento del tasso di apprendimento come impostazione predefinita:
Decadimento lineare
Decadimento del coseno
Anche molte altre famiglie di pianificazioni sono probabilmente valide.
Perché alcuni articoli hanno pianificazioni del tasso di apprendimento complicate?
Molti articoli accademici utilizzano pianificazioni di decadimento del tasso di apprendimento (LR) complesse e a tratti. I lettori spesso si chiedono come gli autori siano arrivati a una programmazione così complicata. Molti programmi di decadimento LR complessi sono il risultato della messa a punto del programma in funzione del rendimento del set di convalida in modo ad hoc. Ossia:
Inizia una singola sessione di allenamento con un semplice decadimento del tasso di apprendimento (o un tasso di apprendimento costante).
Continua ad addestrare il modello finché il rendimento non sembra stagnare. In tal caso, metti in pausa l'addestramento. Quindi, riprendi l'addestramento con una pianificazione del decadimento del tasso di apprendimento più ripida (o un tasso di apprendimento costante più piccolo) da questo punto. Ripeti questa procedura fino alla scadenza della conferenza o del lancio.
Copiare ciecamente la pianificazione risultante in genere non è una buona idea poiché la pianificazione migliore è sensibile a una serie di altre scelte di iperparametri. Ti consigliamo di copiare l'algoritmo che ha prodotto la pianificazione, anche se questo è raramente possibile quando la pianificazione è stata prodotta in modo arbitrario da un essere umano. Questo tipo di pianificazione sensibile agli errori di convalida è adatto all'uso se può essere completamente automatizzato, ma le pianificazioni human-in-the-loop che sono una funzione dell'errore di convalida sono fragili e non facilmente riproducibili, pertanto consigliamo di evitarle. Prima di pubblicare i risultati che hanno utilizzato una pianificazione di questo tipo, prova a renderla completamente riproducibile.
Come devono essere ottimizzati gli iperparametri di Adam?
Non tutti gli iperparametri di Adam sono ugualmente importanti. Le seguenti regole pratiche corrispondono a "budget" diversi per il numero di prove in uno studio.
Se in uno studio sono presenti meno di 10 prove, regola solo il tasso di apprendimento (di base).
Se in uno studio vengono eseguiti 10-25 tentativi, regola il tasso di apprendimento e beta_1.
Se ci sono più di 25 prove, regola il tasso di apprendimento, beta_1 e epsilon.
Se le prove sono molte più di 25, esegui anche la messa a punto beta_2.
Data la difficoltà di fornire regole generali sugli spazi di ricerca e sul numero di punti da campionare dallo spazio di ricerca, considera le regole empiriche indicate in questa sezione come linee guida approssimative."
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Mancano le informazioni di cui ho bisogno","missingTheInformationINeed","thumb-down"],["Troppo complicato/troppi passaggi","tooComplicatedTooManySteps","thumb-down"],["Obsoleti","outOfDate","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Problema relativo a esempi/codice","samplesCodeIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-07-27 UTC."],[[["\u003cp\u003eEmploying a non-constant learning rate decay schedule, such as linear or cosine decay, is crucial for optimal model performance.\u003c/p\u003e\n"],["\u003cp\u003eComplicated, piece-wise learning rate schedules often arise from ad hoc tuning based on validation set performance and should be approached with caution due to reproducibility concerns.\u003c/p\u003e\n"],["\u003cp\u003ePrioritize tuning Adam's hyperparameters strategically: focus on the base learning rate for limited trials, gradually incorporating \u003ccode\u003ebeta_1\u003c/code\u003e, \u003ccode\u003eepsilon\u003c/code\u003e, and \u003ccode\u003ebeta_2\u003c/code\u003e with increasing trial budgets.\u003c/p\u003e\n"],["\u003cp\u003eWhile specific learning rate decay schedules are dataset and model dependent, having a schedule is more important than the specific type.\u003c/p\u003e\n"]]],[],null,["# Learning rate\n\nThis appendix contains a few additional details about learning rate.\n\nLearning rate decay schedule\n----------------------------\n\nThe best learning rate decay schedule family is an open problem;\nit's not clear how to construct a set of rigorous experiments to\nconfidently answer this question.\nAlthough we don't know the best schedule family, we're confident\nof the following:\n\n- It's important to have some (non-constant) schedule.\n- Tuning that schedule is important.\n\nDifferent learning rates work best at different times during the\noptimization process. Having some sort of schedule makes it more\nlikely for the model to hit a good learning rate.\n\n### Best default learning rate decay\n\nWe recommend either of the following learning rate decay families\nas a default:\n\n- Linear decay\n- Cosine decay\n\nMany other schedule families are probably good, too.\n\n### Why do some papers have complicated learning rate schedules?\n\nMany academic papers use complicated piece-wise learning rate (LR)\ndecay schedules. Readers often wonder how the authors arrived at\nsuch a complicated schedule. Many complicated LR decay schedules are\nthe result of tuning the schedule as a function of the validation set\nperformance in an ad hoc way. That is:\n\n1. Start a single training run with some simple LR decay (or a constant learning rate).\n2. Keep training running until the performance seems to stagnate. If this happens, pause training. Then, resume it with a perhaps steeper LR decay schedule (or smaller constant learning rate) from this point. Repeat this process (until the conference or launch deadline).\n\nBlithely copying the resulting schedule is generally not a good idea\nsince the best particular schedule is sensitive to a host of other\nhyperparameter choices. We recommend copying the algorithm that produced\nthe schedule, although this is rarely possible when arbitrary human\njudgment produced the schedule. This type of validation-error-sensitive\nschedule is fine to use if it can be fully automated, but\nhuman-in-the-loop schedules that are a function of validation error are\nbrittle and not easily reproducible, so we recommend avoiding them.\nBefore publishing results that used such a schedule, please try to make\nit fully reproducible.\n\n### How should Adam's hyperparameters be tuned?\n\nNot all the hyperparameters in Adam are equally important.\nThe following rules of thumb correspond to different \"budgets\" for the number\nof trials in a study.\n\n- If \\\u003c 10 trials in a study, only tune the (base) learning rate.\n- If 10-25 trials in a study, tune the learning rate and `beta_1`.\n- If 25+ trials, tune the learning rate, `beta_1`, and `epsilon`.\n- If substantially more than 25 trials, additionally tune tune `beta_2`.\n\nGiven how difficult it is to provide general rules about search spaces and\nhow many points you should sample from the search space, view the rules of\nthumb stated in this section as rough guidelines.\""]]