Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.
Чтобы кластеризовать данные, выполните следующие действия:
Подготовьте данные.
Создайте метрику сходства.
Запустите алгоритм кластеризации.
Интерпретируйте результаты и настройте кластеризацию.
На этой странице кратко описаны шаги. Мы углубимся в последующие разделы.
Подготовьте данные
Как и в случае с любой проблемой машинного обучения, вы должны нормализовать, масштабировать и преобразовать данные объектов перед обучением или точной настройкой модели на основе этих данных. Кроме того, перед кластеризацией убедитесь, что подготовленные данные позволяют точно рассчитать сходство между примерами.
Создать показатель сходства
Прежде чем алгоритм кластеризации сможет группировать данные, ему необходимо знать, насколько похожи пары примеров. Вы можете количественно оценить сходство между примерами, создав показатель сходства, который требует тщательного понимания ваших данных.
Запустить алгоритм кластеризации
Алгоритм кластеризации использует метрику сходства для кластерных данных. В этом курсе используются k-средние.
Интерпретируйте результаты и скорректируйте
Поскольку кластеризация не создает и не включает в себя основную «истину», с помощью которой вы можете проверить выходные данные, важно проверить результат на соответствие вашим ожиданиям как на уровне кластера, так и на уровне примера. Если результат выглядит странным или некачественным, поэкспериментируйте с предыдущими тремя шагами. Продолжайте повторять до тех пор, пока качество выходных данных не будет соответствовать вашим потребностям.
[[["Прост для понимания","easyToUnderstand","thumb-up"],["Помог мне решить мою проблему","solvedMyProblem","thumb-up"],["Другое","otherUp","thumb-up"]],[["Отсутствует нужная мне информация","missingTheInformationINeed","thumb-down"],["Слишком сложен/слишком много шагов","tooComplicatedTooManySteps","thumb-down"],["Устарел","outOfDate","thumb-down"],["Проблема с переводом текста","translationIssue","thumb-down"],["Проблемы образцов/кода","samplesCodeIssue","thumb-down"],["Другое","otherDown","thumb-down"]],["Последнее обновление: 2025-02-25 UTC."],[[["\u003cp\u003eData needs to be prepared through normalization, scaling, and transformation before using it for clustering.\u003c/p\u003e\n"],["\u003cp\u003eA similarity metric is crucial for clustering algorithms as it quantifies how similar data points are to each other.\u003c/p\u003e\n"],["\u003cp\u003eThe k-means algorithm is employed in this course to group data based on the defined similarity metric.\u003c/p\u003e\n"],["\u003cp\u003eEvaluating and adjusting clustering outcomes is an iterative process involving reviewing cluster quality and individual data point assignments.\u003c/p\u003e\n"]]],[],null,["# Clustering workflow\n\n\u003cbr /\u003e\n\nTo cluster your data, you'll follow these steps:\n\n1. Prepare data.\n2. Create similarity metric.\n3. Run clustering algorithm.\n4. Interpret results and adjust your clustering.\n\nThis page briefly introduces the steps. We'll go into depth in subsequent\nsections.\n\nPrepare data\n------------\n\nAs with any ML problem, you must normalize, scale, and transform feature data\nbefore training or fine-tuning a model on that data. In addition, before\nclustering, check that the prepared data lets you accurately calculate\nsimilarity between examples.\n| **Review:** For a review of data transformation, see [Working with numerical data](/machine-learning/crash-course/numerical-data) from Machine Learning Crash Course.\n\nCreate similarity metric\n------------------------\n\nBefore a clustering algorithm can group data, it needs to know how similar\npairs of examples are. You can quantify the similarity between examples by\ncreating a similarity metric, which requires a careful understanding of your\ndata.\n\nRun clustering algorithm\n------------------------\n\nA clustering algorithm uses the similarity metric to cluster data.\nThis course uses k-means.\n\nInterpret results and adjust\n----------------------------\n\nBecause clustering doesn't produce or include a ground \"truth\" against which you\ncan verify the output, it's important to check the result against your\nexpectations at both the cluster level and the example level. If the result\nlooks odd or low-quality, experiment with the previous three steps. Continue\niterating until the quality of the output meets your needs."]]