קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.
כדי לקבץ את הנתונים, מבצעים את השלבים הבאים:
מכינים את הנתונים.
יוצרים מדד דמיון.
מריצים את אלגוריתם הקיבוץ.
פירוש התוצאות והתאמת הקיבוץ.
בדף הזה נסביר בקצרה על השלבים. נרחיב על כך בקטעים הבאים.
הכנת הנתונים
כמו בכל בעיה של למידת מכונה, צריך לבצע נורמליזציה, שינוי קנה מידה וטרנספורמציה של נתוני המאפיינים לפני אימון מודל או שינוי מדויק של מודל על סמך הנתונים האלה. בנוסף, לפני יצירת האשכולות, צריך לבדוק שהנתונים שהוכן מאפשרים לחשב במדויק את הדמיון בין הדוגמאות.
יצירת מדד דמיון
כדי שאלגוריתם הקיבוץ יוכל לקבץ נתונים, הוא צריך לדעת עד כמה דומות זו לזו שתי דוגמאות. כדי למדוד את הדמיון בין דוגמאות, אפשר ליצור מדד הדמיון. לשם כך, צריך להבין היטב את הנתונים.
הרצת אלגוריתם הקיבוץ
אלגוריתם צבירה משתמש במדד הדמיון כדי לקבץ נתונים. בקורס הזה נעשה שימוש ב-k-means.
פירוש התוצאות והתאמה
מאחר שהקיבוץ לא יוצר או כולל 'אמת' שאפשר לאמת את הפלט לפיה, חשוב לבדוק את התוצאה בהתאם לציפיות שלכם גם ברמת האשכולות וגם ברמת הדוגמאות. אם התוצאה נראית מוזרה או באיכות נמוכה, נסו את שלושת השלבים הקודמים. ממשיכים לבצע שינויים עד שהאיכות של הפלט עומדת בצרכים שלכם.
[[["התוכן קל להבנה","easyToUnderstand","thumb-up"],["התוכן עזר לי לפתור בעיה","solvedMyProblem","thumb-up"],["סיבה אחרת","otherUp","thumb-up"]],[["חסרים לי מידע או פרטים","missingTheInformationINeed","thumb-down"],["התוכן מורכב מדי או עם יותר מדי שלבים","tooComplicatedTooManySteps","thumb-down"],["התוכן לא עדכני","outOfDate","thumb-down"],["בעיה בתרגום","translationIssue","thumb-down"],["בעיה בדוגמאות/בקוד","samplesCodeIssue","thumb-down"],["סיבה אחרת","otherDown","thumb-down"]],["עדכון אחרון: 2025-02-25 (שעון UTC)."],[[["\u003cp\u003eData needs to be prepared through normalization, scaling, and transformation before using it for clustering.\u003c/p\u003e\n"],["\u003cp\u003eA similarity metric is crucial for clustering algorithms as it quantifies how similar data points are to each other.\u003c/p\u003e\n"],["\u003cp\u003eThe k-means algorithm is employed in this course to group data based on the defined similarity metric.\u003c/p\u003e\n"],["\u003cp\u003eEvaluating and adjusting clustering outcomes is an iterative process involving reviewing cluster quality and individual data point assignments.\u003c/p\u003e\n"]]],[],null,["\u003cbr /\u003e\n\nTo cluster your data, you'll follow these steps:\n\n1. Prepare data.\n2. Create similarity metric.\n3. Run clustering algorithm.\n4. Interpret results and adjust your clustering.\n\nThis page briefly introduces the steps. We'll go into depth in subsequent\nsections.\n\nPrepare data\n\nAs with any ML problem, you must normalize, scale, and transform feature data\nbefore training or fine-tuning a model on that data. In addition, before\nclustering, check that the prepared data lets you accurately calculate\nsimilarity between examples.\n| **Review:** For a review of data transformation, see [Working with numerical data](/machine-learning/crash-course/numerical-data) from Machine Learning Crash Course.\n\nCreate similarity metric\n\nBefore a clustering algorithm can group data, it needs to know how similar\npairs of examples are. You can quantify the similarity between examples by\ncreating a similarity metric, which requires a careful understanding of your\ndata.\n\nRun clustering algorithm\n\nA clustering algorithm uses the similarity metric to cluster data.\nThis course uses k-means.\n\nInterpret results and adjust\n\nBecause clustering doesn't produce or include a ground \"truth\" against which you\ncan verify the output, it's important to check the result against your\nexpectations at both the cluster level and the example level. If the result\nlooks odd or low-quality, experiment with the previous three steps. Continue\niterating until the quality of the output meets your needs."]]