Diese Seite wurde von der Cloud Translation API übersetzt.

Datasets, Verallgemeinerung und Überanpassung

Lernziele

Nennen Sie vier verschiedene Merkmale von Daten und Datensätzen.
Identifizieren Sie mindestens vier verschiedene Ursachen für die Unzuverlässigkeit von Daten.
Bestimmen Sie, wann fehlende Daten verworfen und wann diese berechnet werden sollen.
Zwischen direkten und abgeleiteten Labels unterscheiden
Zwei unterschiedliche Möglichkeiten identifizieren, um die Qualität der von Menschen bewerteten Inhalte zu verbessern Labels.
Erläutern Sie, warum ein Dataset in Trainings-, Validierungs- und und Test-Dataset. um ein potenzielles Problem bei Datenaufteilungen zu identifizieren.
Erläutern Sie Überanpassung und nennen Sie drei mögliche Ursachen dafür.
Erläutern Sie das Konzept der Regularisierung. Erläutern Sie insbesondere die Folgendes:
- Verzerrung und Varianz (Anpassung an Ausreißer...)
- L₂-Regularisierung, einschließlich Lambda (Regularisierungsrate)
- Vorzeitiges Beenden
Verschiedene Arten von Verlustkurven interpretieren Konvergenz erkennen und eine Überanpassung an Verlustkurven.

Einführung

Dieses Modul beginnt mit einer Suggestivfrage. Wählen Sie eine der folgenden Antworten aus:

Wenn Sie in einem der folgenden Bereiche Verbesserungsbedarf hatten, die in Ihrem ML-Projekt am meisten Auswirkungen?

Qualität des Datensatzes verbessern

Daten haben Vorrang vor allen. Die Qualität und Größe des Datasets ist viel wichtiger als das, mit dem Sie Ihr Modell erstellen.

Eine intelligentere Verlustfunktion für das Training Ihres Modells anwenden

Eine bessere Verlustfunktion kann zwar dazu beitragen, dass ein Modell schneller trainiert wird, sie ist aber immer noch weit abgeschlagen hinter einem anderen Element auf dieser Liste.

Und hier kommt eine noch Suggestivfrage:

Lassen Sie uns raten: Wie viel Zeit in Ihrem ML-Projekt widmen Sie sich normalerweise der Datenvorbereitung und -transformation?

Mehr als die Hälfte der Projektzeit

Ja, ML-Anwender verbringen den Großteil ihrer Zeit für das Erstellen von Datasets und für Feature Engineering.

Weniger als die Hälfte der Projektzeit

Planen Sie für mehr! Normalerweise werden 80 % der Zeit in einem Projekt für maschinelles Lernen für die Erstellung von Datasets und die Transformation von Daten aufgewendet.

In diesem Modul erfahren Sie mehr über die Eigenschaften des maschinellen Lernens. Datasets und wie Sie Ihre Daten aufbereiten, um qualitativ hochwertige Ergebnisse zu gewährleisten, wenn Ihr Modell zu trainieren und zu bewerten.

Hilfe

Zurück

Testen Sie Ihr Wissen (10 Min.)

Weiter

Datenmerkmale (10 Minuten)

Datasets, Verallgemeinerung und Überanpassung Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Einführung

Datasets, Verallgemeinerung und Überanpassung