Проверьте свое понимание
Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.
Следующие вопросы помогут вам закрепить понимание основных концепций машинного обучения.
Предсказательная сила
Контролируемые модели машинного обучения обучаются с использованием наборов данных с маркированными примерами. Модель учится предсказывать метку из признаков. Однако не каждый признак в наборе данных имеет предсказательную силу. В некоторых случаях только несколько признаков выступают в качестве предикторов метки. В наборе данных ниже используйте цену в качестве метки, а оставшиеся столбцы — в качестве признаков.

Какие три характеристики, по вашему мнению, являются наиболее вероятными факторами, определяющими цену автомобиля?
Марка_модель, год, пробег.
Марка/модель автомобиля, год выпуска и пробег, скорее всего, будут одними из самых надежных факторов, определяющих его цену.
Цвет, высота, марка_модель.
Высота и цвет автомобиля не являются надежными факторами, определяющими его цену.
Мили, коробка передач, марка_модель.
Коробка передач не является основным фактором, влияющим на цену.
Размер_шин, колесная_база, год.
Размер шин и колесная база не являются надежными факторами, влияющими на цену автомобиля.
Контролируемое и неконтролируемое обучение
В зависимости от проблемы вы будете использовать контролируемый или неконтролируемый подход. Например, если вы заранее знаете значение или категорию, которую хотите предсказать, вы используете контролируемое обучение. Однако, если вы хотите узнать, содержит ли ваш набор данных какие-либо сегментации или группировки связанных примеров, вы используете неконтролируемое обучение.
Предположим, у вас есть набор данных пользователей сайта интернет-магазина, содержащий следующие столбцы:

Если бы вы хотели понять типы пользователей, посещающих сайт, вы бы использовали контролируемое или неконтролируемое обучение?
Неконтролируемое обучение.
Поскольку мы хотим, чтобы модель кластеризовала группы связанных клиентов, мы бы использовали неконтролируемое обучение. После того, как модель кластеризовала пользователей, мы бы создали собственные названия для каждого кластера, например, «искатели скидок», «охотники за сделками», «серферы», «лояльные» и «странники».
Контролируемое обучение, поскольку я пытаюсь предсказать, к какому классу принадлежит пользователь.
В контролируемом обучении набор данных должен содержать метку, которую вы пытаетесь предсказать. В наборе данных нет метки, которая относится к категории пользователя.
Предположим, у вас есть набор данных по потреблению энергии в домах со следующими столбцами:

Какой тип МО вы бы использовали для прогнозирования количества киловатт-часов, потребляемых в год для недавно построенного дома?
Контролируемое обучение.
Контролируемое обучение тренируется на маркированных примерах. В этом наборе данных «киловатт-часы, используемые в год» будет меткой, поскольку это значение, которое вы хотите, чтобы модель предсказывала. Признаками будут «квадратные футы», «местоположение» и «год постройки».
Неконтролируемое обучение.
Неконтролируемое обучение использует немаркированные примеры. В этом примере «киловатт-часы, используемые в год» будет меткой, поскольку это значение, которое вы хотите, чтобы модель предсказывала.
Предположим, у вас есть набор данных о полетах со следующими столбцами:

Если бы вы хотели предсказать стоимость билета на самолет, что бы вы использовали: регрессию или классификацию?
Регрессия
Выходными данными регрессионной модели являются числовые значения.
Классификация
Выход модели классификации — это дискретное значение, обычно слово. В этом случае стоимость билета на самолет — числовое значение.
Можете ли вы на основе этого набора данных обучить модель классификации для классификации стоимости авиабилета как «высокой», «средней» или «низкой»?
Да, но сначала нам нужно преобразовать числовые значения в столбце airplane_ticket_cost
в категориальные значения.
Можно создать модель классификации из набора данных. Вы можете сделать что-то вроде следующего:
- Найдите среднюю стоимость билета из аэропорта отправления в аэропорт назначения.
- Определите пороговые значения, которые будут представлять собой «высокий», «средний» и «низкий».
- Сравните прогнозируемую стоимость с пороговыми значениями и выведите категорию, к которой относится значение.
Нет. Создать модель классификации невозможно. Значения airplane_ticket_cost
являются числовыми, а не категориальными.
Приложив немного усилий, вы сможете создать модель классификации.
Нет. Модели классификации предсказывают только две категории, например spam
или not_spam
. Эта модель должна предсказывать три категории.
Модели классификации могут предсказывать несколько категорий. Они называются моделями многоклассовой классификации.
Обучение и оценка
После обучения модели мы оцениваем ее, используя набор данных с маркированными примерами, и сравниваем прогнозируемое значение модели с фактическим значением маркировки.
Выберите два лучших ответа на вопрос.
Если прогнозы модели далеки от действительности, что можно сделать, чтобы их улучшить?
Переобучите модель, но используйте только те признаки, которые, по вашему мнению, имеют наибольшую предсказательную силу для метки.
Переобучение модели с меньшим количеством признаков, но с большей предсказательной силой, может привести к созданию модели, которая будет делать более точные прогнозы.
Невозможно исправить модель, прогнозы которой далеки от истины.
Можно исправить модель, чьи прогнозы неверны. Большинству моделей требуется несколько раундов обучения, прежде чем они начнут делать полезные прогнозы.
Переобучите модель, используя более крупный и разнообразный набор данных.
Модели, обученные на наборах данных с большим количеством примеров и более широким диапазоном значений, могут давать более точные прогнозы, поскольку модель имеет более обобщенное решение для взаимосвязи между признаками и меткой.
Попробуйте другой подход к обучению. Например, если вы использовали контролируемый подход, попробуйте неконтролируемый подход.
Другой подход к обучению не даст лучших прогнозов.
Теперь вы готовы сделать следующий шаг в своем путешествии в области МО:
Руководство по использованию машинного обучения (Multiple + AI Guidebook) . Если вы ищете набор методов, передовых практик и примеров, представленных сотрудниками Google, отраслевыми экспертами и академическими исследованиями по использованию машинного обучения.
Постановка проблемы . Если вы ищете проверенный на практике подход к созданию моделей МО и избегаете распространенных ошибок на этом пути.
Интенсивный курс по машинному обучению . Если вы готовы к глубокому и практическому подходу к изучению машинного обучения.
Если не указано иное, контент на этой странице предоставляется по лицензии Creative Commons "С указанием авторства 4.0", а примеры кода – по лицензии Apache 2.0. Подробнее об этом написано в правилах сайта. Java – это зарегистрированный товарный знак корпорации Oracle и ее аффилированных лиц.
Последнее обновление: 2025-07-29 UTC.
[null,null,["Последнее обновление: 2025-07-29 UTC."],[[["\u003cp\u003eThis page tests your understanding of core machine learning (ML) concepts through interactive questions.\u003c/p\u003e\n"],["\u003cp\u003eIt covers fundamental ML topics such as predictive power of features, supervised and unsupervised learning, and model training and evaluation.\u003c/p\u003e\n"],["\u003cp\u003eYou'll learn how to choose the right ML approach for different problems and assess the effectiveness of a trained model.\u003c/p\u003e\n"],["\u003cp\u003eLinks to further resources are provided to deepen your understanding of ML and its practical applications.\u003c/p\u003e\n"]]],[],null,["\u003cbr /\u003e\n\nThe following questions help you solidify your understanding of core ML concepts.\n\nPredictive power\n\nSupervised ML models are trained using datasets with labeled examples. The model\nlearns how to predict the label from the features. However, not every feature in\na dataset has predictive power. In some instances, only a few features act as\npredictors of the label. In the dataset below, use price as the label\nand the remaining columns as the features.\n\nWhich three features do you think are likely the greatest predictors for a car's price? \nMake_model, year, miles. \nA car's make/model, year, and miles are likely to be among the strongest predictors for its price. \nColor, height, make_model. \nA car's height and color are not strong predictors for a car's price. \nMiles, gearbox, make_model. \nThe gearbox isn't a main predictor of price. \nTire_size, wheel_base, year. \nTire size and wheel base aren't strong predictors for a car's price.\n\nSupervised and unsupervised learning\n\nBased on the problem, you'll use either a supervised or unsupervised approach.\nFor example, if you know beforehand the value or category you want to predict,\nyou'd use supervised learning. However, if you wanted to learn if your dataset\ncontains any segmentations or groupings of related examples, you'd use\nunsupervised learning.\n\nSuppose you had a dataset of users for an online shopping website, and it contained the following columns:\n\nIf you wanted to understand the types of users that visit the site, would you use supervised or unsupervised learning? \nUnsupervised learning. \nBecause we want the model to cluster groups of related customers, we'd use unsupervised learning. After the model clustered the users, we'd create our own names for each cluster, for example, \"discount seekers,\" \"deal hunters,\" \"surfers,\" \"loyal,\" and \"wanderers.\" \nSupervised learning because I'm trying to predict which class a user belongs to. \nIn supervised learning, the dataset must contain the label you're trying to predict. In the dataset, there is no label that refers to a category of user.\n\nSuppose you had an energy usage dataset for homes with the following columns:\n\nWhat type of ML would you use to predict the kilowatt hours used per year for a newly constructed house? \nSupervised learning. \nSupervised learning trains on labeled examples. In this dataset \"kilowatt hours used per year\" would be the label because this is the value you want the model to predict. The features would be \"square footage,\" \"location,\" and \"year built.\" \nUnsupervised learning. \nUnsupervised learning uses unlabeled examples. In this example, \"kilowatt hours used per year\" would be the label because this is the value you want the model to predict.\n\nSuppose you had a flight dataset with the following columns:\n\nIf you wanted to predict the cost of an airplane ticket, would you use regression or classification? \nRegression \nA regression model's output is a numeric value. \nClassification \nA classification model's output is a discrete value, normally a word. In this case, the cost of an airplane ticket is a numeric value. \nBased on the dataset, could you train a classification model to classify the cost of an airplane ticket as \"high,\" \"average,\" or \"low\"? \nYes, but we'd first need to convert the numeric values in the `airplane_ticket_cost` column to categorical values. \nIt's possible to create a classification model from the dataset. You would do something like the following:\n\n1. Find the average cost of a ticket from the departure airport to the destination airport.\n2. Determine the thresholds that would constitute \"high,\" \"average,\" and \"low\".\n3. Compare the predicted cost to the thresholds and output the category the value falls within. \nNo. It's not possible to create a classification model. The `airplane_ticket_cost` values are numeric not categorical. \nWith a little bit of work, you could create a classification model. \nNo. Classification models only predict two categories, like `spam` or `not_spam`. This model would need to predict three categories. \nClassification models can predict multiple categories. They're called multiclass classification models.\n\nTraining and evaluating\n\nAfter we've trained a model, we evaluate it by using a dataset with labeled examples\nand compare the model's predicted value to the label's actual value.\n\nSelect the two best answers for the question. \nIf the model's predictions are far off, what might you do to make them better? \nRetrain the model, but use only the features you believe have the strongest predictive power for the label. \nRetraining the model with fewer features, but that have more predictive power, can produce a model that makes better predictions. \nYou can't fix a model whose predictions are far off. \nIt's possible to fix a model whose predictions are off. Most models require multiple rounds of training until they make useful predictions. \nRetrain the model using a larger and more diverse dataset. \nModels trained on datasets with more examples and a wider range of values can produce better predictions because the model has a better generalized solution for the relationship between the features and the label. \nTry a different training approach. For example, if you used a supervised approach, try an unsupervised approach. \nA different training approach would not produce better predictions.\n\nYou're now ready to take the next step in your ML journey:\n\n- [People + AI Guidebook](https://pair.withgoogle.com/guidebook/). If you're\n looking for a set of methods, best practices and examples presented by\n Googlers, industry experts, and academic research for using ML.\n\n- [Problem Framing](/machine-learning/problem-framing). If you're looking for\n a field-tested approach for creating ML models and avoiding common pitfalls\n along the way.\n\n- [Machine Learning Crash Course](/machine-learning/crash-course). If you're\n ready for an in-depth and hands-on approach to learning more about ML."]]