อัตราการเรียนรู้
จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ
ภาคผนวกนี้มีรายละเอียดเพิ่มเติมเล็กน้อยเกี่ยวกับอัตราการเรียนรู้
กำหนดการลดอัตราการเรียนรู้
ตระกูลกำหนดการลดอัตราการเรียนรู้ที่ดีที่สุดยังคงเป็นปัญหาที่ยังไม่มีคำตอบ และยังไม่ชัดเจนว่าจะออกแบบชุดการทดลองที่เข้มงวดเพื่อ ตอบคำถามนี้ได้อย่างมั่นใจได้อย่างไร แม้ว่าเราจะไม่ทราบตารางเวลาที่ดีที่สุดสำหรับครอบครัว แต่เรามั่นใจในสิ่งต่อไปนี้
- การมีตารางเวลา (ที่ไม่คงที่) เป็นสิ่งสำคัญ
- การปรับกำหนดเวลานั้นเป็นสิ่งสำคัญ
อัตราการเรียนรู้ที่แตกต่างกันจะทำงานได้ดีที่สุดในเวลาที่ต่างกันระหว่าง กระบวนการเพิ่มประสิทธิภาพ การมีกำหนดการบางอย่างจะช่วยให้โมเดลมีแนวโน้มที่จะมีอัตราการเรียนรู้ที่ดีมากขึ้น
การลดอัตราการเรียนรู้เริ่มต้นที่ดีที่สุด
เราขอแนะนำให้ใช้ตระกูลการลดอัตราการเรียนรู้ต่อไปนี้เป็นค่าเริ่มต้น
- การลดเชิงเส้น
- การลดลงแบบโคไซน์
ตารางเวลาอื่นๆ อีกมากมายก็อาจจะดีเช่นกัน
เหตุใดงานวิจัยบางฉบับจึงมีกำหนดการอัตราการเรียนรู้ที่ซับซ้อน
เอกสารทางวิชาการหลายฉบับใช้กำหนดการลดอัตราการเรียนรู้ (LR) แบบเป็นช่วงๆ ที่ซับซ้อน ผู้อ่านมักสงสัยว่าผู้เขียนมีตารางเวลาที่ซับซ้อนเช่นนี้ได้อย่างไร ตารางการลด LR ที่ซับซ้อนหลายรายการ เป็นผลมาจากการปรับตารางเวลาให้เป็นฟังก์ชันของประสิทธิภาพชุดข้อมูลการตรวจสอบ ในลักษณะเฉพาะกิจ โดยการ
- เริ่มการฝึกครั้งเดียวด้วยการลด LR แบบง่ายๆ (หรืออัตราการเรียนรู้คงที่)
- ฝึกต่อไปจนกว่าประสิทธิภาพจะดูเหมือนหยุดนิ่ง หากเกิดกรณีนี้ ให้หยุดการฝึกชั่วคราว จากนั้นให้ฝึกต่อโดยอาจใช้กำหนดการลด LR ที่ชันขึ้น (หรืออัตราการเรียนรู้คงที่ที่เล็กลง) จากจุดนี้ ทำกระบวนการนี้ซ้ำ (จนกว่าจะถึงกำหนดเวลาการประชุมหรือการเปิดตัว)
โดยทั่วไปแล้ว การคัดลอกตารางเวลาที่ได้มาโดยไม่พิจารณาอย่างรอบคอบไม่ใช่ความคิดที่ดี เนื่องจากตารางเวลาที่เฉพาะเจาะจงที่ดีที่สุดนั้นขึ้นอยู่กับตัวเลือกไฮเปอร์พารามิเตอร์อื่นๆ อีกมากมาย เราขอแนะนำให้คัดลอกอัลกอริทึมที่สร้างตารางเวลา แม้ว่าในกรณีที่การตัดสินของมนุษย์โดยพลการเป็นผู้สร้างตารางเวลา การดำเนินการนี้มักจะเป็นไปได้ยาก คุณสามารถใช้กำหนดเวลาประเภทนี้ที่ไวต่อข้อผิดพลาดในการตรวจสอบได้หากสามารถทำให้เป็นอัตโนมัติได้อย่างเต็มรูปแบบ แต่กำหนดเวลาแบบ Human-in-the-loop ที่เป็นฟังก์ชันของข้อผิดพลาดในการตรวจสอบนั้นไม่เสถียรและทำซ้ำได้ยาก เราจึงแนะนำให้หลีกเลี่ยง ก่อนเผยแพร่ผลลัพธ์ที่ใช้กำหนดการดังกล่าว โปรดพยายามทำให้ สามารถทำซ้ำได้อย่างสมบูรณ์
ควรปรับแต่งไฮเปอร์พารามิเตอร์ของ Adam อย่างไร
ไฮเปอร์พารามิเตอร์ทั้งหมดใน Adam ไม่ได้มีความสำคัญเท่ากัน กฎคร่าวๆ ต่อไปนี้สอดคล้องกับ "งบประมาณ" ที่แตกต่างกันสำหรับจำนวน การทดสอบในการศึกษา
- หากมีการทดลองน้อยกว่า 10 ครั้งในการศึกษา ให้ปรับเฉพาะอัตราการเรียนรู้ (ฐาน)
- หากมีการทดลอง 10-25 ครั้งในการศึกษา ให้ปรับอัตราการเรียนรู้และ
beta_1
- หากมีการทดลองมากกว่า 25 ครั้ง ให้ปรับอัตราการเรียนรู้
beta_1
และ epsilon
- หากมีการทดลองมากกว่า 25 ครั้งอย่างมาก ให้ปรับ
beta_2
เพิ่มเติม
เนื่องจากเป็นการยากที่จะระบุกฎทั่วไปเกี่ยวกับพื้นที่ค้นหาและ จำนวนจุดที่คุณควรสุ่มตัวอย่างจากพื้นที่ค้นหา ให้พิจารณากฎ ทั่วไปที่ระบุไว้ในส่วนนี้เป็นหลักเกณฑ์คร่าวๆ"
เนื้อหาของหน้าเว็บนี้ได้รับอนุญาตภายใต้ใบอนุญาตที่ต้องระบุที่มาของครีเอทีฟคอมมอนส์ 4.0 และตัวอย่างโค้ดได้รับอนุญาตภายใต้ใบอนุญาต Apache 2.0 เว้นแต่จะระบุไว้เป็นอย่างอื่น โปรดดูรายละเอียดที่นโยบายเว็บไซต์ Google Developers Java เป็นเครื่องหมายการค้าจดทะเบียนของ Oracle และ/หรือบริษัทในเครือ
อัปเดตล่าสุด 2025-07-27 UTC
[null,null,["อัปเดตล่าสุด 2025-07-27 UTC"],[[["\u003cp\u003eEmploying a non-constant learning rate decay schedule, such as linear or cosine decay, is crucial for optimal model performance.\u003c/p\u003e\n"],["\u003cp\u003eComplicated, piece-wise learning rate schedules often arise from ad hoc tuning based on validation set performance and should be approached with caution due to reproducibility concerns.\u003c/p\u003e\n"],["\u003cp\u003ePrioritize tuning Adam's hyperparameters strategically: focus on the base learning rate for limited trials, gradually incorporating \u003ccode\u003ebeta_1\u003c/code\u003e, \u003ccode\u003eepsilon\u003c/code\u003e, and \u003ccode\u003ebeta_2\u003c/code\u003e with increasing trial budgets.\u003c/p\u003e\n"],["\u003cp\u003eWhile specific learning rate decay schedules are dataset and model dependent, having a schedule is more important than the specific type.\u003c/p\u003e\n"]]],[],null,["# Learning rate\n\nThis appendix contains a few additional details about learning rate.\n\nLearning rate decay schedule\n----------------------------\n\nThe best learning rate decay schedule family is an open problem;\nit's not clear how to construct a set of rigorous experiments to\nconfidently answer this question.\nAlthough we don't know the best schedule family, we're confident\nof the following:\n\n- It's important to have some (non-constant) schedule.\n- Tuning that schedule is important.\n\nDifferent learning rates work best at different times during the\noptimization process. Having some sort of schedule makes it more\nlikely for the model to hit a good learning rate.\n\n### Best default learning rate decay\n\nWe recommend either of the following learning rate decay families\nas a default:\n\n- Linear decay\n- Cosine decay\n\nMany other schedule families are probably good, too.\n\n### Why do some papers have complicated learning rate schedules?\n\nMany academic papers use complicated piece-wise learning rate (LR)\ndecay schedules. Readers often wonder how the authors arrived at\nsuch a complicated schedule. Many complicated LR decay schedules are\nthe result of tuning the schedule as a function of the validation set\nperformance in an ad hoc way. That is:\n\n1. Start a single training run with some simple LR decay (or a constant learning rate).\n2. Keep training running until the performance seems to stagnate. If this happens, pause training. Then, resume it with a perhaps steeper LR decay schedule (or smaller constant learning rate) from this point. Repeat this process (until the conference or launch deadline).\n\nBlithely copying the resulting schedule is generally not a good idea\nsince the best particular schedule is sensitive to a host of other\nhyperparameter choices. We recommend copying the algorithm that produced\nthe schedule, although this is rarely possible when arbitrary human\njudgment produced the schedule. This type of validation-error-sensitive\nschedule is fine to use if it can be fully automated, but\nhuman-in-the-loop schedules that are a function of validation error are\nbrittle and not easily reproducible, so we recommend avoiding them.\nBefore publishing results that used such a schedule, please try to make\nit fully reproducible.\n\n### How should Adam's hyperparameters be tuned?\n\nNot all the hyperparameters in Adam are equally important.\nThe following rules of thumb correspond to different \"budgets\" for the number\nof trials in a study.\n\n- If \\\u003c 10 trials in a study, only tune the (base) learning rate.\n- If 10-25 trials in a study, tune the learning rate and `beta_1`.\n- If 25+ trials, tune the learning rate, `beta_1`, and `epsilon`.\n- If substantially more than 25 trials, additionally tune tune `beta_2`.\n\nGiven how difficult it is to provide general rules about search spaces and\nhow many points you should sample from the search space, view the rules of\nthumb stated in this section as rough guidelines.\""]]