다른 ML 문제와 마찬가지로 이 데이터에서 모델을 학습하거나 미세 조정하기 전에 특성 데이터를 정규화, 조정, 변환해야 합니다. 또한 클러스터링하기 전에 준비된 데이터를 사용하여 예시 간의 유사성을 정확하게 계산할 수 있는지 확인하세요.
유사성 측정항목 만들기
클러스터링 알고리즘이 데이터를 그룹화하려면 예시 쌍이 얼마나 유사한지 알아야 합니다. 유사성 측정항목을 만들어 예시 간의 유사성을 수치화할 수 있습니다. 이때 데이터를 신중하게 이해해야 합니다.
클러스터링 알고리즘 실행
클러스터링 알고리즘은 유사성 측정항목을 사용하여 데이터를 클러스터링합니다. 이 과정에서는 k-평균을 사용합니다.
결과 해석 및 조정
클러스터링은 출력을 확인할 수 있는 기본 '진실'을 생성하거나 포함하지 않으므로 클러스터 수준과 예시 수준에서 모두 기대치와 결과를 확인하는 것이 중요합니다. 결과가 이상하거나 품질이 좋지 않은 경우 이전 세 단계를 실험해 보세요. 출력 품질이 요구사항을 충족할 때까지 반복합니다.
[null,null,["최종 업데이트: 2025-02-25(UTC)"],[[["\u003cp\u003eData needs to be prepared through normalization, scaling, and transformation before using it for clustering.\u003c/p\u003e\n"],["\u003cp\u003eA similarity metric is crucial for clustering algorithms as it quantifies how similar data points are to each other.\u003c/p\u003e\n"],["\u003cp\u003eThe k-means algorithm is employed in this course to group data based on the defined similarity metric.\u003c/p\u003e\n"],["\u003cp\u003eEvaluating and adjusting clustering outcomes is an iterative process involving reviewing cluster quality and individual data point assignments.\u003c/p\u003e\n"]]],[],null,["\u003cbr /\u003e\n\nTo cluster your data, you'll follow these steps:\n\n1. Prepare data.\n2. Create similarity metric.\n3. Run clustering algorithm.\n4. Interpret results and adjust your clustering.\n\nThis page briefly introduces the steps. We'll go into depth in subsequent\nsections.\n\nPrepare data\n\nAs with any ML problem, you must normalize, scale, and transform feature data\nbefore training or fine-tuning a model on that data. In addition, before\nclustering, check that the prepared data lets you accurately calculate\nsimilarity between examples.\n| **Review:** For a review of data transformation, see [Working with numerical data](/machine-learning/crash-course/numerical-data) from Machine Learning Crash Course.\n\nCreate similarity metric\n\nBefore a clustering algorithm can group data, it needs to know how similar\npairs of examples are. You can quantify the similarity between examples by\ncreating a similarity metric, which requires a careful understanding of your\ndata.\n\nRun clustering algorithm\n\nA clustering algorithm uses the similarity metric to cluster data.\nThis course uses k-means.\n\nInterpret results and adjust\n\nBecause clustering doesn't produce or include a ground \"truth\" against which you\ncan verify the output, it's important to check the result against your\nexpectations at both the cluster level and the example level. If the result\nlooks odd or low-quality, experiment with the previous three steps. Continue\niterating until the quality of the output meets your needs."]]