Ta strona została przetłumaczona przez Cloud Translation API.

Zbiory danych, uogólnianie i nadmierne dopasowanie

Cele szkoleniowe

Określ 4 różne cechy danych i zbiorów danych.
Zidentyfikuj co najmniej 4 różne przyczyny niewiarygodności danych.
Ustal, kiedy odrzucić brakujące dane i kiedy je zaimportować.
Podaj różnice między etykietami bezpośrednimi i pochodnymi.
Poznaj 2 sposoby na poprawę jakości etykiet ocenianych przez ludzi.
Wyjaśnij, dlaczego należy podzielić zbiór danych na zbiór treningowy, do walidacji i zestaw testowy; zidentyfikowanie potencjalnego problemu w podziale danych.
Wyjaśnij nadmierne dopasowanie i wymień 3 możliwe przyczyny jego występowania.
Wyjaśnij pojęcie regularyzacji. W szczególności objaśnij :
- Uprzedzenia a wariancja (adaptacja do wartości odstających...)
- Regularyzacja L₂, w tym lambda (regularizacja) stawka)
- Wczesne zatrzymanie
Zinterpretuj różne rodzaje krzywych strat; wykryć zbieżność nadmierne dopasowanie w krzywych straty.

Wprowadzenie

Ten moduł rozpoczyna się od pytania na początku. Wybierz jedną z tych odpowiedzi:

Gdyby trzeba było potraktować priorytetowo ulepszenie jednego z poniższych obszarów w Twoim projekcie systemów uczących się, który pozwoliłby wpływ?

Poprawianie jakości zbioru danych

Dane są najważniejsze. Jakość i wielkość zbioru danych ma znacznie większe znaczenie niż to, którego algorytmu użyjesz do tworzenia modelu.

Zastosowanie dopracowanej funkcji straty do trenowania modelu

Prawda, lepsza funkcja straty może przyśpieszyć trenowanie modelu, ale nadal jest odległa sekunda do innego elementu na tej liście.

A oto kolejne pytanie wstępne:

Zgadnij: ile czasu w projekcie uczenia maszynowego poświęcasz na przygotowanie i przekształcanie danych?

Ponad połowa czasu trwania projektu

Tak. Praktykujący systemy uczące się większość czasu poświęcają na tworzenie zbiorów danych i wyodrębnianie cech.

Mniej niż połowa czasu trwania projektu

Planuj dalej! Zwykle 80% czasu poświęcanego na projekt uczenia maszynowego przeznacza się na tworzenie zbiorów danych i przekształcanie danych.

Z tego modułu dowiesz się więcej o cechach zbiorów danych uczenia maszynowego oraz o tym, jak przygotować dane, aby zapewnić wysoką jakość wyników podczas trenowania i oceny modelu.

Centrum pomocy

Wstecz

Test wiedzy (10 min)

Dalej

Charakterystyka danych (10 min)

Zbiory danych, uogólnianie i nadmierne dopasowanie Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Wprowadzenie

Zbiory danych, uogólnianie i nadmierne dopasowanie