Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Einführung
Dieses Modul beginnt mit einer Suggestivfrage. Wählen Sie eine der folgenden Antworten aus:
Wenn Sie in einem der folgenden Bereiche Verbesserungsbedarf hatten, die in Ihrem ML-Projekt am meisten Auswirkungen?
Qualität des Datensatzes verbessern
Daten haben Vorrang vor allen. Die Qualität und Größe des Datasets ist viel wichtiger als das, mit dem Sie Ihr Modell erstellen.
Eine intelligentere Verlustfunktion für das Training Ihres Modells anwenden
Eine bessere Verlustfunktion kann zwar dazu beitragen, dass ein Modell schneller trainiert wird, sie ist aber immer noch weit abgeschlagen hinter einem anderen Element auf dieser Liste.
Und hier kommt eine noch Suggestivfrage:
Lassen Sie uns raten: Wie viel Zeit in Ihrem ML-Projekt widmen Sie sich normalerweise der Datenvorbereitung und -transformation?
Mehr als die Hälfte der Projektzeit
Ja, ML-Anwender verbringen den Großteil ihrer Zeit für das Erstellen von Datasets und für Feature Engineering.
Weniger als die Hälfte der Projektzeit
Planen Sie für mehr! Normalerweise werden 80 % der Zeit in einem Projekt für maschinelles Lernen für die Erstellung von Datasets und die Transformation von Daten aufgewendet.
In diesem Modul erfahren Sie mehr über die Eigenschaften des maschinellen Lernens. Datasets und wie Sie Ihre Daten aufbereiten, um qualitativ hochwertige Ergebnisse zu gewährleisten, wenn Ihr Modell zu trainieren und zu bewerten.
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Benötigte Informationen nicht gefunden","missingTheInformationINeed","thumb-down"],["Zu umständlich/zu viele Schritte","tooComplicatedTooManySteps","thumb-down"],["Nicht mehr aktuell","outOfDate","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Problem mit Beispielen/Code","samplesCodeIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-07-27 (UTC)."],[[["\u003cp\u003eThis module emphasizes the critical role of data quality in machine learning projects, highlighting that it significantly impacts model performance more than algorithm choice.\u003c/p\u003e\n"],["\u003cp\u003eMachine learning practitioners typically dedicate a substantial portion of their project time (around 80%) to data preparation and transformation, including tasks like dataset construction and feature engineering.\u003c/p\u003e\n"],["\u003cp\u003eThe module covers key concepts in data preparation, such as identifying data characteristics, handling unreliable data, understanding data labels, and splitting datasets for training and evaluation.\u003c/p\u003e\n"],["\u003cp\u003eLearners will gain insights into techniques for improving data quality, mitigating issues like overfitting, and interpreting loss curves to assess model performance.\u003c/p\u003e\n"],["\u003cp\u003eThis module builds upon foundational machine learning concepts, assuming familiarity with topics like linear regression, numerical and categorical data handling, and basic machine learning principles.\u003c/p\u003e\n"]]],[],null,["| **Estimated module length:** 105 minutes\n| **Learning objectives**\n|\n| - Identify four different characteristics of data and datasets.\n| - Identify at least four different causes of data unreliability.\n| - Determine when to discard missing data and when to impute it.\n| - Differentiate between direct and derived labels.\n| - Identify two different ways to improve the quality of human-rated labels.\n| - Explain why to subdivide a dataset into a training set, validation set, and test set; identify a potential problem in data splits.\n| - Explain overfitting and identify three possible causes for it.\n| - Explain the concept of regularization. In particular, explain the following:\n| - Bias versus variance (adaptation to outliers...)\n| - L~2~ regularization, including Lambda (regularization rate)\n| - Early stopping\n| - Interpret different kinds of loss curves; detect convergence and overfitting in loss curves.\n| **Prerequisites:**\n|\n| This module assumes you are familiar with the concepts covered in the\n| following modules:\n|\n| - [Introduction to Machine Learning](/machine-learning/intro-to-ml)\n| - [Linear regression](/machine-learning/crash-course/linear-regression)\n| - [Working with numerical data](/machine-learning/crash-course/numerical-data)\n| - [Working with categorical data](/machine-learning/crash-course/categorical-data)\n\nIntroduction\n\nThis module begins with a leading question.\nChoose one of the following answers: \nIf you had to prioritize improving one of the following areas in your machine learning project, which would have the most impact? \nImproving the quality of your dataset \nData trumps all. The quality and size of the dataset matters much more than which shiny algorithm you use to build your model. \nApplying a more clever loss function to training your model \nTrue, a better loss function can help a model train faster, but it's still a distant second to another item in this list.\n\nAnd here's an even more leading question: \nTake a guess: In your machine learning project, how much time do you typically spend on data preparation and transformation? \nMore than half of the project time \nYes, ML practitioners spend the majority of their time constructing datasets and doing feature engineering. \nLess than half of the project time \nPlan for more! Typically, 80% of the time on a machine learning project is spent constructing datasets and transforming data.\n\nIn this module, you'll learn more about the characteristics of machine learning\ndatasets, and how to prepare your data to ensure high-quality results when\ntraining and evaluating your model. \n[Help Center](https://support.google.com/machinelearningeducation)"]]