Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.
Pour regrouper vos données, procédez comme suit:
Vous allez ensuite préparer les données.
Créez une métrique de similarité.
Exécutez l'algorithme de clustering.
Interprétez les résultats et ajustez votre clustering.
Cette page présente brièvement les étapes. Nous y reviendrons plus en détail dans les sections suivantes.
Préparer les données
Comme pour tout problème de ML, vous devez normaliser, mettre à l'échelle et transformer les données de fonctionnalités avant d'entraîner ou d'ajuster un modèle sur ces données. En outre, avant le clustering, vérifiez que les données préparées vous permettent de calculer précisément la similarité entre les exemples.
Créer une métrique de similarité
Avant qu'un algorithme de clustering puisse regrouper des données, il doit savoir dans quelle mesure les paires d'exemples sont similaires. Vous pouvez quantifier la similarité entre les exemples en créant une métrique de similarité, ce qui nécessite une compréhension approfondie de vos données.
Exécuter l'algorithme de clustering
Un algorithme de clustering utilise la métrique de similarité pour regrouper les données. Ce cours utilise k-moyennes.
Interpréter les résultats et les ajuster
Étant donné que le clustering ne produit ni n'inclut de "vérité" de référence contre laquelle vous pouvez vérifier la sortie, il est important de comparer le résultat à vos attentes au niveau du cluster et de l'exemple. Si le résultat semble étrange ou de mauvaise qualité, testez les trois étapes précédentes. Continuez à itérer jusqu'à ce que la qualité de la sortie réponde à vos besoins.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/02/25 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Il n'y a pas l'information dont j'ai besoin","missingTheInformationINeed","thumb-down"],["Trop compliqué/Trop d'étapes","tooComplicatedTooManySteps","thumb-down"],["Obsolète","outOfDate","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Mauvais exemple/Erreur de code","samplesCodeIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/02/25 (UTC)."],[[["\u003cp\u003eData needs to be prepared through normalization, scaling, and transformation before using it for clustering.\u003c/p\u003e\n"],["\u003cp\u003eA similarity metric is crucial for clustering algorithms as it quantifies how similar data points are to each other.\u003c/p\u003e\n"],["\u003cp\u003eThe k-means algorithm is employed in this course to group data based on the defined similarity metric.\u003c/p\u003e\n"],["\u003cp\u003eEvaluating and adjusting clustering outcomes is an iterative process involving reviewing cluster quality and individual data point assignments.\u003c/p\u003e\n"]]],[],null,["\u003cbr /\u003e\n\nTo cluster your data, you'll follow these steps:\n\n1. Prepare data.\n2. Create similarity metric.\n3. Run clustering algorithm.\n4. Interpret results and adjust your clustering.\n\nThis page briefly introduces the steps. We'll go into depth in subsequent\nsections.\n\nPrepare data\n\nAs with any ML problem, you must normalize, scale, and transform feature data\nbefore training or fine-tuning a model on that data. In addition, before\nclustering, check that the prepared data lets you accurately calculate\nsimilarity between examples.\n| **Review:** For a review of data transformation, see [Working with numerical data](/machine-learning/crash-course/numerical-data) from Machine Learning Crash Course.\n\nCreate similarity metric\n\nBefore a clustering algorithm can group data, it needs to know how similar\npairs of examples are. You can quantify the similarity between examples by\ncreating a similarity metric, which requires a careful understanding of your\ndata.\n\nRun clustering algorithm\n\nA clustering algorithm uses the similarity metric to cluster data.\nThis course uses k-means.\n\nInterpret results and adjust\n\nBecause clustering doesn't produce or include a ground \"truth\" against which you\ncan verify the output, it's important to check the result against your\nexpectations at both the cluster level and the example level. If the result\nlooks odd or low-quality, experiment with the previous three steps. Continue\niterating until the quality of the output meets your needs."]]