Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.
Comme indiqué dans les Régression linéaire module, calculant biais de prédiction est une vérification rapide permettant de signaler les problèmes liés au modèle ou aux données d'entraînement. dès le début.
Le biais de prédiction est la différence entre la moyenne des prédictions prédictions et la moyenne de étiquettes de vérité terrain dans données. Modèle entraîné sur un ensemble de données selon lequel 5% des e-mails sont du spam devraient prévoir, en moyenne, que 5 % que les e-mails qu'il classe sont des spams. En d'autres termes, la moyenne des étiquettes dans de vérité terrain est de 0,05, et la moyenne des prédictions du modèle doit est également égale à 0,05. Dans ce cas, le modèle présente un biais de prédiction de zéro. De bien sûr, le modèle peut encore présenter d'autres problèmes.
Si le modèle prédit qu'un e-mail est un spam 50% du temps, Si un problème est survenu avec l'ensemble de données d'entraînement, le nouvel ensemble de données utilisé par le modèle ou avec le modèle lui-même. N'importe quelle valeur une différence significative entre les deux moyennes suggère que le modèle un certain biais de prédiction.
Un biais de prédiction peut être causé par:
Biais ou bruit dans les données, y compris un échantillonnage biaisé pour l'ensemble d'entraînement
Régularisation trop forte (le modèle était trop simpliste et a été perdu) la complexité nécessaire
Bugs dans le pipeline d'entraînement du modèle
L'ensemble des caractéristiques fournies au modèle est insuffisant pour la tâche
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2024/08/13 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Il n'y a pas l'information dont j'ai besoin","missingTheInformationINeed","thumb-down"],["Trop compliqué/Trop d'étapes","tooComplicatedTooManySteps","thumb-down"],["Obsolète","outOfDate","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Mauvais exemple/Erreur de code","samplesCodeIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2024/08/13 (UTC)."],[[["\u003cp\u003ePrediction bias, calculated as the difference between the average prediction and the average ground truth, is a quick check for model or data issues.\u003c/p\u003e\n"],["\u003cp\u003eA model with zero prediction bias ideally predicts the same average outcome as observed in the ground truth data, such as a spam detection model predicting the same percentage of spam emails as actually present in the dataset.\u003c/p\u003e\n"],["\u003cp\u003eSignificant prediction bias can indicate problems in the training data, the model itself, or the new data being applied to the model.\u003c/p\u003e\n"],["\u003cp\u003eCommon causes of prediction bias include biased data, excessive regularization, bugs in the training process, and insufficient features provided to the model.\u003c/p\u003e\n"]]],[],null,["As mentioned in the\n[Linear regression](/machine-learning/crash-course/linear-regression)\nmodule, calculating\n[**prediction bias**](/machine-learning/glossary#prediction_bias)\nis a quick check that can flag issues with the model or training data\nearly on.\n\nPrediction bias is the difference between the mean of a model's\n[**predictions**](/machine-learning/glossary#prediction)\nand the mean of\n[**ground-truth**](/machine-learning/glossary#ground-truth) labels in the\ndata. A model trained on a dataset\nwhere 5% of the emails are spam should predict, on average, that 5% of the\nemails it classifies are spam. In other words, the mean of the labels in the\nground-truth dataset is 0.05, and the mean of the model's predictions should\nalso be 0.05. If this is the case, the model has zero prediction bias. Of\ncourse, the model might still have other problems.\n\nIf the model instead predicts 50% of the time that an email is spam, then\nsomething is wrong with the training dataset, the new dataset the model is\napplied to, or with the model itself. Any\nsignificant difference between the two means suggests that the model has\nsome prediction bias.\n\nPrediction bias can be caused by:\n\n- Biases or noise in the data, including biased sampling for the training set\n- Too-strong regularization, meaning that the model was oversimplified and lost some necessary complexity\n- Bugs in the model training pipeline\n- The set of features provided to the model being insufficient for the task\n\n| **Key terms:**\n|\n| - [Ground truth](/machine-learning/glossary#ground-truth)\n| - [Prediction](/machine-learning/glossary#prediction)\n- [Prediction bias](/machine-learning/glossary#prediction_bias) \n[Help Center](https://support.google.com/machinelearningeducation)"]]