Schritt 1: Daten erfassen
Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.
Die Erfassung von Daten ist der wichtigste Schritt bei der Lösung von Problemen beim überwachten maschinellen Lernen. Ihr Textklassifikator kann nur so gut sein wie das Dataset, auf dem er basiert.
Wenn Sie kein bestimmtes Problem haben, das Sie lösen möchten, und sich einfach mit der Textklassifizierung im Allgemeinen vertraut machen möchten, stehen Ihnen zahlreiche Open-Source-Datasets zur Verfügung. Einige Links finden Sie in unserem GitHub-Repository. Wenn Sie jedoch ein bestimmtes Problem angehen, müssen Sie die erforderlichen Daten erfassen. Viele Organisationen stellen öffentliche APIs für den Zugriff auf ihre Daten bereit, z. B. die X API oder die NY Times API. Möglicherweise können Sie diese APIs für das Problem nutzen, das Sie lösen möchten.
Hier sind einige wichtige Punkte, die Sie bei der Datenerhebung beachten sollten:
- Wenn Sie eine öffentliche API verwenden, sollten Sie sich mit den Einschränkungen der API vertraut machen, bevor Sie sie verwenden. Einige APIs begrenzen beispielsweise die Rate, mit der Abfragen durchgeführt werden können.
- Je mehr Trainingsbeispiele (im weiteren Verlauf als Beispiele bezeichnet) Sie haben, desto besser. Dadurch kann Ihr Modell besser verallgemeinern.
- Achten Sie darauf, dass die Anzahl der Beispiele für jede Klasse oder jedes Thema nicht zu unausgewogen ist. Das heißt, Sie sollten in jeder Klasse eine vergleichbare Anzahl von Stichproben haben.
- Achten Sie darauf, dass Ihre Beispiele den Bereich möglicher Eingaben ausreichend abdecken, nicht nur die häufigsten Fälle.
In diesem Leitfaden verwenden wir zur Veranschaulichung des Workflows das IMDb-Dataset für Filmrezensionen. Dieses Dataset enthält Filmrezensionen, die von Nutzern auf der IMDb-Website veröffentlicht wurden, sowie die entsprechenden Labels („positiv“ oder „negativ“), die angeben, ob dem Rezensenten der Film gefallen hat oder nicht. Dies ist ein klassisches Beispiel für ein Sentimentanalyseproblem.
Sofern nicht anders angegeben, sind die Inhalte dieser Seite unter der Creative Commons Attribution 4.0 License und Codebeispiele unter der Apache 2.0 License lizenziert. Weitere Informationen finden Sie in den Websiterichtlinien von Google Developers. Java ist eine eingetragene Marke von Oracle und/oder seinen Partnern.
Zuletzt aktualisiert: 2025-07-27 (UTC).
[[["Leicht verständlich","easyToUnderstand","thumb-up"],["Mein Problem wurde gelöst","solvedMyProblem","thumb-up"],["Sonstiges","otherUp","thumb-up"]],[["Benötigte Informationen nicht gefunden","missingTheInformationINeed","thumb-down"],["Zu umständlich/zu viele Schritte","tooComplicatedTooManySteps","thumb-down"],["Nicht mehr aktuell","outOfDate","thumb-down"],["Problem mit der Übersetzung","translationIssue","thumb-down"],["Problem mit Beispielen/Code","samplesCodeIssue","thumb-down"],["Sonstiges","otherDown","thumb-down"]],["Zuletzt aktualisiert: 2025-07-27 (UTC)."],[[["\u003cp\u003eHigh-quality data is crucial for building effective supervised machine learning text classifiers, with more training samples generally leading to better performance.\u003c/p\u003e\n"],["\u003cp\u003ePublic APIs and open-source datasets can be leveraged for data collection, but it's important to understand API limitations and ensure data balance across classes.\u003c/p\u003e\n"],["\u003cp\u003eAdequate data representation across all possible input variations is necessary, and the IMDb movie reviews dataset will be used to demonstrate text classification workflow for sentiment analysis.\u003c/p\u003e\n"],["\u003cp\u003eWhen collecting data, aim for a balanced dataset with a sufficient number of samples for each class to avoid imbalanced datasets and promote better model generalization.\u003c/p\u003e\n"]]],[],null,["Gathering data is the most important step in solving any supervised machine\nlearning problem. Your text classifier can only be as good as the dataset it is\nbuilt from.\n\nIf you don't have a specific problem you want to solve and are just interested\nin exploring text classification in general, there are plenty of open source\ndatasets available. You can find links to some of them in our [GitHub\nrepo](https://github.com/google/eng-edu/blob/master/ml/guides/text_classification/load_data.py).\nOn the other hand, if you are tackling a specific problem,\nyou will need to collect the necessary data. Many organizations provide public\nAPIs for accessing their data---for example, the\n[X API](https://developer.x.com/docs) or the\n[NY Times API](http://developer.nytimes.com/). You may be able to leverage\nthese APIs for the problem you are trying to solve.\n\nHere are some important things to remember when collecting data:\n\n- If you are using a public API, understand the *limitations* of the API before using them. For example, some APIs set a limit on the rate at which you can make queries.\n- The more training examples (referred to as *samples* in the rest of this guide) you have, the better. This will help your model [generalize](/machine-learning/glossary#generalization) better.\n- Make sure the number of samples for every *class* or topic is not overly [imbalanced](/machine-learning/glossary#class_imbalanced_data_set). That is, you should have comparable number of samples in each class.\n- Make sure that your samples adequately cover the *space of possible inputs*, not only the common cases.\n\nThroughout this guide, we will use the [Internet Movie Database (IMDb) movie\nreviews dataset](http://ai.stanford.edu/%7Eamaas/data/sentiment/) to illustrate\nthe workflow. This dataset contains movie reviews posted by people on the IMDb\nwebsite, as well as the corresponding labels (\"positive\" or \"negative\")\nindicating whether the reviewer liked the movie or not. This is a classic\nexample of a sentiment analysis problem."]]