קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.
בכל פרויקט טוב של מהנדסי תוכנה מוקדשת אנרגיה רבה לבדיקת האפליקציות. באופן דומה, מומלץ מאוד לבדוק את מודל ה-ML כדי לקבוע את הדיוק של התחזיות שלו.
קבוצות אימון, אימות ובדיקה
מומלץ לבדוק את המודל באמצעות קבוצה שונה של דוגמאות מזו ששימשה לאימון המודל. כפי שתראו בהמשך, בדיקה על דוגמאות שונות היא הוכחה חזקה יותר לכושר המודל מאשר בדיקה על אותה קבוצת דוגמאות. מאיפה מגיעות הדוגמאות השונות האלה? באופן מסורתי בלמידת מכונה, מקבלים את הדוגמאות השונות האלה על ידי פיצול של מערך הנתונים המקורי. לכן, אפשר להניח שצריך לפצל את מערך הנתונים המקורי לשתי קבוצות משנה:
נניח שאתם מתאמנים על קבוצת האימון ומעריכים על קבוצת הבדיקה במספר סיבובים. בכל סיבוב, משתמשים בתוצאות של קבוצת הבדיקות כדי להנחות איך לעדכן את הפרמטרים העל-היפר ואת קבוצת המאפיינים. האם משהו לא בסדר בגישה הזו? בוחרים רק תשובה אחת.
ביצוע שלבים רבים של התהליך הזה עלול לגרום למודל להתאים באופן משתמע לפרטים המיוחדים של קבוצת הבדיקות.
כן! ככל שתשתמשו בתדירות גבוהה יותר באותה קבוצת בדיקות, כך סביר יותר שהמודל יתאים היטב לקבוצת הבדיקות. כמו מורה שמלמדת 'לבחינה', המודל מתאים בטעות למערך הבדיקה, וכתוצאה מכך יכול להיות שיהיה קשה יותר להתאים את המודל לנתונים מהעולם האמיתי.
הגישה הזו בסדר. אחרי הכל, אתם מאומנים על קבוצת האימון ומעריכים על קבוצת בדיקה נפרדת.
למעשה, יש כאן בעיה עדינה. כדאי לחשוב מה יכול להשתבש בהדרגה.
הגישה הזו לא יעילה מבחינה חישובית. אל תשנו את ההיפארמטרים או את קבוצות המאפיינים אחרי כל סיבוב בדיקה.
בדיקות תכופות הן יקרות אבל חיוניות. עם זאת, בדיקות תכופות זולות בהרבה מאשר הדרכה נוספת. אופטימיזציה של הפרמטרים העל-היפר ושל קבוצת המאפיינים יכולה לשפר באופן משמעותי את איכות המודל, לכן תמיד כדאי להקצות זמן ומשאבים מחשוביים לעבודה עליהם.
חלוקת מערך הנתונים לשתי קבוצות היא רעיון טוב, אבל הגישה הטובה יותר היא לחלק את מערך הנתונים לשלוש קבוצות משנה. בנוסף לקבוצת האימון ולקבוצת הבדיקות, קבוצת המשנה השלישית היא:
קבוצת אימות מבצעת את הבדיקה הראשונית של המודל במהלך האימון שלו.
איור 9. פיצול הרבה יותר טוב.
משתמשים בקבוצת האימות כדי להעריך את התוצאות מקבוצת האימון. אחרי שימוש חוזר בקבוצת האימות, אם נראה שהמודל מניב תחזיות טובות, אפשר להשתמש בקבוצת הבדיקה כדי לבדוק שוב את המודל.
התרשים הבא מציג את תהליך העבודה הזה. 'שינוי המודל' משמעותו שינוי כלשהו במודל – החל משינויים בשיעור הלמידה, הוספה או הסרה של מאפיינים ועד לתכנון מודל חדש לגמרי מאפס.
איור 10. תהליך עבודה טוב לפיתוח ובדיקה.
תהליך העבודה שמוצג באיור 10 הוא אופטימלי, אבל גם עם תהליך העבודה הזה, קבוצות הבדיקה וקבוצות האימות עדיין 'מתבלות' עם שימוש חוזר. כלומר, ככל שמשתמשים יותר באותם נתונים כדי לקבל החלטות לגבי הגדרות של פרמטרים היפר-מרחביים או שיפורים אחרים במודל, כך פוחתת האמינות שהמודל יניב תחזיות טובות לגבי נתונים חדשים. לכן, מומלץ לאסוף עוד נתונים כדי "לרענן" את קבוצת הבדיקות ואת קבוצת האימות. התחלה מחדש היא דרך מצוינת לאפס את הסטטוס.
תרגול: בדיקת האינטואיציה
שילבתם את כל הדוגמאות במערך הנתונים וחילקתם את הדוגמאות המעורבבות לקבוצות של אימון, אימות ובדיקה. עם זאת, ערך ההפסד בקבוצת הבדיקה נמוך בצורה מדהימה, ומעורר חשד לשגיאה. מה יכול להיות הגורם לבעיה?
רבות מהדוגמאות בקבוצת הבדיקה הן כפילויות של דוגמאות בקבוצת האימון.
כן. זו יכולה להיות בעיה במערך נתונים עם הרבה דוגמאות יתירות. מומלץ מאוד למחוק דוגמאות כפולות מקבוצת הבדיקות לפני הבדיקה.
תהליך ההדרכה והבדיקה הוא לא דטרמיניסטלי. לפעמים, במקרה, אובדן הניסוי נמוך מאוד. מריצים מחדש את הבדיקה כדי לאשר את התוצאה.
אמנם האובדן משתנה מעט בכל הרצה, אבל הוא לא אמור להשתנות כל כך הרבה עד שתחשבו שזכיתם בלוטו של למידת המכונה.
קבוצת הבדיקות פשוט הכילה דוגמאות שהמודל תפקד בהן טוב.
הדוגמאות חולקו באופן אקראי, כך שזה מאוד לא סביר.
בעיות נוספות עם קבוצות בדיקה
כפי שרואים בשאלה הקודמת, דוגמאות כפולות יכולות להשפיע על הערכת המודל. אחרי שמחלקים מערך נתונים לקבוצות של אימון, אימות ובדיקה, צריך למחוק דוגמאות בקבוצת האימות או בקבוצת הבדיקה שהן כפילויות של דוגמאות בקבוצת האימון. הבדיקה היחידה הוגנת של מודל היא באמצעות דוגמאות חדשות, ולא כפולות.
לדוגמה, מודל שחוזה אם אימייל הוא ספאם, באמצעות שורת הנושא, גוף האימייל וכתובת האימייל של השולח כמאפיינים. נניח שאתם מחלקים את הנתונים לקבוצות אימון ובדיקה, עם חלוקה של 80-20. אחרי האימון, המודל הגיע לרמת דיוק של 99% גם בקבוצת האימון וגם בקבוצת הבדיקות. סביר להניח שציפיתם לדיוק נמוך יותר בקבוצת הבדיקות, ולכן אתם מעיינים שוב בנתונים ומגלים שרבות מהדוגמאות בקבוצת הבדיקות הן כפילויות של דוגמאות בקבוצת האימון. הבעיה היא שלא טיפלתם ברשאות כפולות של אותו אימייל ספאם ממסד הנתונים של הקלט לפני חלוקת הנתונים. אימנתם בטעות על חלק מנתוני הבדיקה.
לסיכום, קבוצת בדיקות או קבוצת אימות טובות עומדות בכל הקריטריונים הבאים:
גדולה מספיק כדי לספק תוצאות בדיקה בעלות מובהקות סטטיסטית.
מייצג את מערך הנתונים כולו. במילים אחרות, אל תבחרו קבוצת בדיקה עם מאפיינים שונים מקבוצת האימון.
מייצג את הנתונים מהעולם האמיתי שהמודל ייחשף אליהם כחלק מהמטרה העסקית שלו.
אפס דוגמאות כפולות בקבוצת האימון.
תרגילים: בדיקת ההבנה
בהינתן מערך נתונים יחיד עם מספר קבוע של דוגמאות, איזו מההצהרות הבאות נכונה?
כל דוגמה שמשמשת לבדיקת המודל היא דוגמה אחת פחות שמשמשת לאימון המודל.
חלוקת דוגמאות לקבוצות אימון/בדיקה/אימות היא משחק של סכום אפס. זהו המאזן המרכזי.
מספר הדוגמאות בקבוצת הבדיקה חייב להיות גדול ממספר הדוגמאות בקבוצת האימות.
בתיאוריה, קבוצת האימות וקבוצת הבדיקות צריכות להכיל את אותו מספר דוגמאות או כמעט אותו מספר.
מספר הדוגמאות בקבוצת הבדיקה חייב להיות גדול ממספר הדוגמאות בקבוצת האימות או בקבוצת האימון.
בדרך כלל, מספר הדוגמאות בקבוצת האימון גדול ממספר הדוגמאות בקבוצת האימות או בקבוצת הבדיקה. עם זאת, אין דרישות אחוזים לגבי הקבוצות השונות.
נניח שקבוצת הבדיקות מכילה מספיק דוגמאות לביצוע בדיקה בעלת מובהקות סטטיסטית. בנוסף, בדיקה מול קבוצת הבדיקה מניבה אובדן נמוך. עם זאת, הביצועים של המודל היו גרועים בעולם האמיתי. מה עליך לעשות?
בודקים מה ההבדל בין מערך הנתונים המקורי לבין הנתונים מהעולם האמיתי.
כן. גם מערכי הנתונים הטובים ביותר הם רק תמונת מצב של נתונים מהעולם האמיתי. האמת המוחלטת שמתבססת עליהם נוטה להשתנות עם הזמן. למרות שקבוצת הבדיקות התאימה לקבוצת האימון בצורה טובה מספיק כדי להצביע על איכות מודל טובה, סביר להניח שמערך הנתונים לא תואם מספיק לנתונים מהעולם האמיתי. יכול להיות שתצטרכו לאמן מחדש ולבדוק מחדש עם מערך נתונים חדש.
בודקים שוב באותה קבוצת בדיקות. יכול להיות שתוצאות הבדיקה היו חריגה.
יכול להיות שהבדיקה מחדש תניב תוצאות שונות במקצת, אבל סביר להניח שהשיטה הזו לא תהיה מועילה במיוחד.
כמה דוגמאות צריך לכלול בקבוצת הבדיקות?
מספיק דוגמאות כדי לקבל בדיקה בעלת מובהקות סטטיסטית.
כן. כמה דוגמאות יש? תצטרכו להתנסות.
לפחות 15% ממערך הנתונים המקורי.
יכול להיות ש-15% מהדוגמאות יהיו מספיקות ויכול להיות שלא.
[[["התוכן קל להבנה","easyToUnderstand","thumb-up"],["התוכן עזר לי לפתור בעיה","solvedMyProblem","thumb-up"],["סיבה אחרת","otherUp","thumb-up"]],[["חסרים לי מידע או פרטים","missingTheInformationINeed","thumb-down"],["התוכן מורכב מדי או עם יותר מדי שלבים","tooComplicatedTooManySteps","thumb-down"],["התוכן לא עדכני","outOfDate","thumb-down"],["בעיה בתרגום","translationIssue","thumb-down"],["בעיה בדוגמאות/בקוד","samplesCodeIssue","thumb-down"],["סיבה אחרת","otherDown","thumb-down"]],["עדכון אחרון: 2025-01-03 (שעון UTC)."],[[["\u003cp\u003eMachine learning models should be tested against a separate dataset, called the test set, to ensure accurate predictions on unseen data.\u003c/p\u003e\n"],["\u003cp\u003eIt's recommended to split the dataset into three subsets: training, validation, and test sets, with the validation set used for initial testing during training and the test set used for final evaluation.\u003c/p\u003e\n"],["\u003cp\u003eThe validation and test sets can "wear out" with repeated use, requiring fresh data to maintain reliable evaluation results.\u003c/p\u003e\n"],["\u003cp\u003eA good test set is statistically significant, representative of the dataset and real-world data, and contains no duplicates from the training set.\u003c/p\u003e\n"],["\u003cp\u003eIt's crucial to address discrepancies between the dataset used for training and testing and the real-world data the model will encounter to achieve satisfactory real-world performance.\u003c/p\u003e\n"]]],[],null,["All good software engineering projects devote considerable energy to\n*testing* their apps. Similarly, we strongly recommend testing your\nML model to determine the correctness of its predictions.\n\nTraining, validation, and test sets\n\nYou should test a model against a *different* set of examples than those\nused to train the model. As you'll learn\n[a little later](#additional_problems_with_test_sets), testing\non different examples is stronger proof of your model's fitness than testing\non the same set of examples.\nWhere do you get those different examples? Traditionally in machine learning,\nyou get those different examples by splitting the original dataset. You might\nassume, therefore, that you should split the original dataset into two subsets:\n\n- A [**training set**](/machine-learning/glossary#training-set) that the model trains on.\n- A [**test set**](/machine-learning/glossary#test-set) for evaluation of the trained model.\n\n**Figure 8.** Not an optimal split.\n\nExercise: Check your intuition \nSuppose you train on the training set and evaluate on the test set over multiple rounds. In each round, you use the test set results to guide how to update hyperparameters and the feature set. Can you see anything wrong with this approach? Pick only one answer. \nDoing many rounds of this procedure might cause the model to implicitly fit the peculiarities of the test set. \nYes! The more often you use the same test set, the more likely the model closely fits the test set. Like a teacher \"teaching to the test,\" the model inadvertently fits the test set, which might make it harder for the model to fit real-world data. \nThis approach is fine. After all, you're training on the training set and evaluating on a separate test set. \nActually, there's a subtle issue here. Think about what might gradually go wrong. \nThis approach is computationally inefficient. Don't change hyperparameters or feature sets after each round of testing. \nFrequent testing is expensive but critical. However, frequent testing is far less expensive than additional training. Optimizing hyperparameters and the feature set can dramatically improve model quality, so always budget time and computational resources to work on these.\n\nDividing the dataset into two sets is a decent idea, but\na better approach is to divide the dataset into *three* subsets.\nIn addition to the training set and the test set, the third subset is:\n\n- A [**validation set**](/machine-learning/glossary#validation-set) performs the initial testing on the model as it is being trained.\n\n**Figure 9.** A much better split.\n\nUse the **validation set** to evaluate results from the training set.\nAfter repeated use of the validation set suggests that your model is\nmaking good predictions, use the test set to double-check your model.\n\nThe following figure suggests this workflow.\nIn the figure, \"Tweak model\" means adjusting anything about the model\n---from changing the learning rate, to adding or removing\nfeatures, to designing a completely new model from scratch.\n**Figure 10.** A good workflow for development and testing. **Note:** When you transform a feature in your training set, you must make the *same* transformation in the validation set, test set, and real-world dataset.\n\nThe workflow shown in Figure 10 is optimal, but even with that workflow,\ntest sets and validation sets still \"wear out\" with repeated use.\nThat is, the more you use the same data to make decisions about\nhyperparameter settings or other model improvements, the less confidence\nthat the model will make good predictions on new data.\nFor this reason, it's a good idea to collect more data to \"refresh\" the test\nset and validation set. Starting anew is a great reset.\n\nExercise: Check your intuition \nYou shuffled all the examples in the dataset and divided the shuffled examples into training, validation, and test sets. However, the loss value on your test set is so staggeringly low that you suspect a mistake. What might have gone wrong? \nMany of the examples in the test set are duplicates of examples in the training set. \nYes. This can be a problem in a dataset with a lot of redundant examples. We strongly recommend deleting duplicate examples from the test set before testing. \nTraining and testing are nondeterministic. Sometimes, by chance, your test loss is incredibly low. Rerun the test to confirm the result. \nAlthough loss does vary a little on each run, it shouldn't vary so much that you think you won the machine learning lottery. \nBy chance, the test set just happened to contain examples that the model performed well on. \nThe examples were well shuffled, so this is extremely unlikely.\n\nAdditional problems with test sets\n\nAs the previous question illustrates, duplicate examples can affect model evaluation.\nAfter splitting a dataset into training, validation, and test sets,\ndelete any examples in the validation set or test set that are duplicates of\nexamples in the training set. The only fair test of a model is against\nnew examples, not duplicates.\n\nFor example, consider a model that predicts whether an email is spam, using\nthe subject line, email body, and sender's email address as features.\nSuppose you divide the data into training and test sets, with an 80-20 split.\nAfter training, the model achieves 99% precision on both the training set and\nthe test set. You'd probably expect a lower precision on the test set, so you\ntake another look at the data and discover that many of the examples in the test\nset are duplicates of examples in the training set. The problem is that you\nneglected to scrub duplicate entries for the same spam email from your input\ndatabase before splitting the data. You've inadvertently trained on some of\nyour test data.\n\nIn summary, a good test set or validation set meets all of the\nfollowing criteria:\n\n- Large enough to yield statistically significant testing results.\n- Representative of the dataset as a whole. In other words, don't pick a test set with different characteristics than the training set.\n- Representative of the real-world data that the model will encounter as part of its business purpose.\n- Zero examples duplicated in the training set.\n\nExercises: Check your understanding \nGiven a single dataset with a fixed number of examples, which of the following statements is true? \nEvery example used in testing the model is one less example used in training the model. \nDividing examples into train/test/validation sets is a zero-sum game. This is the central trade-off. \nThe number of examples in the test set must be greater than the number of examples in the validation set. \nIn theory, the validation set and test test should contain the same number of examples or nearly so. \nThe number of examples in the test set must be greater than the number of examples in the validation set or training set. \nThe number of examples in the training set is usually greater than the number of examples in the validation set or test set; however, there are no percentage requirements for the different sets. \nSuppose your test set contains enough examples to perform a statistically significant test. Furthermore, testing against the test set yields low loss. However, the model performed poorly in the real world. What should you do? \nDetermine how the original dataset differs from real-life data. \nYes. Even the best datasets are only a snapshot of real-life data; the underlying [ground truth](/machine-learning/glossary#ground-truth) tends to change over time. Although your test set matched your training set well enough to suggest good model quality, your dataset probably doesn't adequately match real-world data. You might have to retrain and retest against a new dataset. \nRetest on the same test set. The test results might have been an anomaly. \nAlthough retesting might yield slightly different results, this tactic probably isn't very helpful. \nHow many examples should the test set contain? \nEnough examples to yield a statistically significant test. \nYes. How many examples is that? You'll need to experiment. \nAt least 15% of the original dataset. \n15% may or may not be enough examples.\n| **Key terms:**\n|\n| - [Test set](/machine-learning/glossary#test-set)\n| - [Training set](/machine-learning/glossary#training-set)\n- [Validation set](/machine-learning/glossary#validation_set) \n[Help Center](https://support.google.com/machinelearningeducation)"]]