Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.
Para agrupar seus dados, siga estas etapas:
Preparar dados.
Crie uma métrica de similaridade.
Executar o algoritmo de agrupamento.
Interprete os resultados e ajuste o agrupamento.
Esta página apresenta brevemente as etapas. Vamos nos aprofundar nas seções seguintes.
Preparar dados
Como em qualquer problema de ML, é necessário normalizar, dimensionar e transformar os dados de atributos antes de treinar ou ajustar um modelo com esses dados. Além disso, antes de fazer a clusterização, verifique se os dados preparados permitem calcular com precisão a semelhança entre os exemplos.
Criar métrica de similaridade
Antes que um algoritmo de agrupamento possa agrupar dados, ele precisa saber o quão semelhantes são os pares de exemplos. É possível quantificar a semelhança entre exemplos criando uma métrica de semelhança, o que exige uma compreensão cuidadosa dos dados.
Executar algoritmo de agrupamento
Um algoritmo de agrupamento usa a métrica de similaridade para agrupar dados. Este curso usa k-means.
Interpretar os resultados e fazer ajustes
Como a agregação não produz nem inclui uma "verdade" que possa ser verificada, é importante verificar o resultado com base nas suas expectativas no nível do cluster e do exemplo. Se o resultado parecer estranho ou de baixa qualidade, tente as três etapas anteriores. Continue iterando até que a qualidade da saída atenda às suas necessidades.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Não contém as informações de que eu preciso","missingTheInformationINeed","thumb-down"],["Muito complicado / etapas demais","tooComplicatedTooManySteps","thumb-down"],["Desatualizado","outOfDate","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Problema com as amostras / o código","samplesCodeIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-02-25 UTC."],[[["\u003cp\u003eData needs to be prepared through normalization, scaling, and transformation before using it for clustering.\u003c/p\u003e\n"],["\u003cp\u003eA similarity metric is crucial for clustering algorithms as it quantifies how similar data points are to each other.\u003c/p\u003e\n"],["\u003cp\u003eThe k-means algorithm is employed in this course to group data based on the defined similarity metric.\u003c/p\u003e\n"],["\u003cp\u003eEvaluating and adjusting clustering outcomes is an iterative process involving reviewing cluster quality and individual data point assignments.\u003c/p\u003e\n"]]],[],null,["\u003cbr /\u003e\n\nTo cluster your data, you'll follow these steps:\n\n1. Prepare data.\n2. Create similarity metric.\n3. Run clustering algorithm.\n4. Interpret results and adjust your clustering.\n\nThis page briefly introduces the steps. We'll go into depth in subsequent\nsections.\n\nPrepare data\n\nAs with any ML problem, you must normalize, scale, and transform feature data\nbefore training or fine-tuning a model on that data. In addition, before\nclustering, check that the prepared data lets you accurately calculate\nsimilarity between examples.\n| **Review:** For a review of data transformation, see [Working with numerical data](/machine-learning/crash-course/numerical-data) from Machine Learning Crash Course.\n\nCreate similarity metric\n\nBefore a clustering algorithm can group data, it needs to know how similar\npairs of examples are. You can quantify the similarity between examples by\ncreating a similarity metric, which requires a careful understanding of your\ndata.\n\nRun clustering algorithm\n\nA clustering algorithm uses the similarity metric to cluster data.\nThis course uses k-means.\n\nInterpret results and adjust\n\nBecause clustering doesn't produce or include a ground \"truth\" against which you\ncan verify the output, it's important to check the result against your\nexpectations at both the cluster level and the example level. If the result\nlooks odd or low-quality, experiment with the previous three steps. Continue\niterating until the quality of the output meets your needs."]]