Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.
Aby utworzyć klastry danych, wykonaj te czynności:
Przygotuj dane.
Utwórz dane podobieństwa.
Uruchom algorytm grupowania.
Interpretuj wyniki i dostosuj klastery.
Na tej stronie znajdziesz krótki opis tych czynności. W kolejnych sekcjach omówimy to bardziej szczegółowo.
Przygotuj dane
Podobnie jak w przypadku każdego problemu związanego z ML, przed trenowaniem lub dostrajaniem modelu na podstawie tych danych musisz znormalizować, przeskalować i przekształcić dane cech. Dodatkowo przed zgrupowaniem sprawdź, czy przygotowane dane umożliwiają dokładne obliczenie podobieństwa między przykładami.
Tworzenie danych podobieństwa
Zanim algorytm klastrowania będzie mógł grupować dane, musi wiedzieć, jak podobne są pary przykładów. Możesz określić podobieństwo między przykładami, tworząc wskaźnik podobieństwa, co wymaga dokładnego poznania danych.
Uruchamianie algorytmu grupowania
Algorytm grupowania używa miary podobieństwa do grupowania danych. W tym kursie używamy metody k-średnich.
Interpretowanie wyników i ich dostosowywanie
Klasteryzacja nie tworzy ani nie zawiera „danych rzeczywistych”, na podstawie których można zweryfikować dane wyjściowe. Dlatego ważne jest, aby porównać wynik z oczekiwaniami zarówno na poziomie klastra, jak i przykładu. Jeśli wynik wygląda dziwnie lub jest niskiej jakości, wypróbuj poprzednie 3 kroki. Powtarzaj ten proces, aż jakość danych wyjściowych będzie odpowiednia.
[[["Łatwo zrozumieć","easyToUnderstand","thumb-up"],["Rozwiązało to mój problem","solvedMyProblem","thumb-up"],["Inne","otherUp","thumb-up"]],[["Brak potrzebnych mi informacji","missingTheInformationINeed","thumb-down"],["Zbyt skomplikowane / zbyt wiele czynności do wykonania","tooComplicatedTooManySteps","thumb-down"],["Nieaktualne treści","outOfDate","thumb-down"],["Problem z tłumaczeniem","translationIssue","thumb-down"],["Problem z przykładami/kodem","samplesCodeIssue","thumb-down"],["Inne","otherDown","thumb-down"]],["Ostatnia aktualizacja: 2025-02-25 UTC."],[[["\u003cp\u003eData needs to be prepared through normalization, scaling, and transformation before using it for clustering.\u003c/p\u003e\n"],["\u003cp\u003eA similarity metric is crucial for clustering algorithms as it quantifies how similar data points are to each other.\u003c/p\u003e\n"],["\u003cp\u003eThe k-means algorithm is employed in this course to group data based on the defined similarity metric.\u003c/p\u003e\n"],["\u003cp\u003eEvaluating and adjusting clustering outcomes is an iterative process involving reviewing cluster quality and individual data point assignments.\u003c/p\u003e\n"]]],[],null,["\u003cbr /\u003e\n\nTo cluster your data, you'll follow these steps:\n\n1. Prepare data.\n2. Create similarity metric.\n3. Run clustering algorithm.\n4. Interpret results and adjust your clustering.\n\nThis page briefly introduces the steps. We'll go into depth in subsequent\nsections.\n\nPrepare data\n\nAs with any ML problem, you must normalize, scale, and transform feature data\nbefore training or fine-tuning a model on that data. In addition, before\nclustering, check that the prepared data lets you accurately calculate\nsimilarity between examples.\n| **Review:** For a review of data transformation, see [Working with numerical data](/machine-learning/crash-course/numerical-data) from Machine Learning Crash Course.\n\nCreate similarity metric\n\nBefore a clustering algorithm can group data, it needs to know how similar\npairs of examples are. You can quantify the similarity between examples by\ncreating a similarity metric, which requires a careful understanding of your\ndata.\n\nRun clustering algorithm\n\nA clustering algorithm uses the similarity metric to cluster data.\nThis course uses k-means.\n\nInterpret results and adjust\n\nBecause clustering doesn't produce or include a ground \"truth\" against which you\ncan verify the output, it's important to check the result against your\nexpectations at both the cluster level and the example level. If the result\nlooks odd or low-quality, experiment with the previous three steps. Continue\niterating until the quality of the output meets your needs."]]