Эта страница переведена с помощью Cloud Translation API.

Наборы данных, обобщение и переобучение

Цели обучения

Определите четыре различные характеристики данных и наборов данных.
Определите не менее четырех различных причин ненадежности данных.
Определите, когда следует отбросить недостающие данные, а когда их вменить.
Различают прямые и производные метки.
Определите два разных способа улучшения качества этикеток, оцениваемых человеком.
Объясните, почему нужно разделить набор данных на обучающий набор, набор проверки и набор тестов; выявить потенциальную проблему разделения данных.
Объясните переоснащение и назовите три возможные причины этого.
Объясните понятие регуляризации. В частности, объясните следующее:
- Смещение против дисперсии (адаптация к выбросам…)
- Регуляризация L ₂ , включая лямбда (степень регуляризации)
- Ранняя остановка
Интерпретировать различные виды кривых потерь; обнаружить конвергенцию и переоснащение кривых потерь.

Введение

Этот модуль начинается с наводящего вопроса. Выберите один из следующих ответов:

Если бы вам пришлось уделить приоритетное внимание улучшению одной из следующих областей вашего проекта по машинному обучению, какая из них оказала бы наибольшее влияние?

Улучшение качества вашего набора данных

Данные превосходят все. Качество и размер набора данных имеют гораздо большее значение, чем какой блестящий алгоритм вы используете для построения своей модели.

Применение более умной функции потерь для обучения вашей модели

Да, лучшая функция потерь может помочь модели обучаться быстрее, но она все равно уступает другому элементу в этом списке.

И вот еще более наводящий вопрос:

Угадайте: сколько времени вы обычно тратите в своем проекте машинного обучения на подготовку и преобразование данных?

Более половины времени проекта

Да, специалисты по машинному обучению тратят большую часть своего времени на создание наборов данных и разработку функций.

Менее половины времени проекта

Планируйте больше! Обычно 80% времени в проекте машинного обучения тратится на создание наборов данных и преобразование данных.

В этом модуле вы узнаете больше о характеристиках наборов данных машинного обучения и о том, как подготовить данные, чтобы обеспечить высококачественные результаты при обучении и оценке вашей модели.

Проверьте свои знания (10 мин)

Характеристики данных (10 мин)

Наборы данных, обобщение и переобучение Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Введение

Наборы данных, обобщение и переобучение