1. Adım: Veri Toplama
Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.
Gözetimli makine öğrenimi problemlerini çözmenin en önemli adımı veri toplamaktır. Metin sınıflandırıcınızın performansı, yalnızca oluşturulduğu veri kümesi kadar iyi olabilir.
Çözmek istediğiniz belirli bir sorununuz yoksa ve yalnızca genel olarak metin sınıflandırmasını incelemek istiyorsanız kullanabileceğiniz çok sayıda açık kaynak veri kümesi vardır. Bunlardan bazılarının bağlantılarını GitHub depomuzda bulabilirsiniz. Öte yandan, belirli bir sorunla mücadele ediyorsanız gerekli verileri toplamanız gerekir. Birçok kuruluş, verilerine erişmek için herkese açık API'ler sağlar. Örneğin, X API veya NY Times API. Çözmeye çalıştığınız sorun için bu API'lerden yararlanabilirsiniz.
Veri toplarken unutulmaması gereken bazı önemli noktalar şunlardır:
- Herkese açık bir API kullanıyorsanız bunları kullanmadan önce API'nin sınırlamalarını öğrenin. Örneğin, bazı API'ler sorgu yapma hızınızı sınırlandırmıştır.
- Ne kadar fazla eğitim örneği (bu kılavuzun geri kalanında örnekler olarak anılır) o kadar iyi olur. Bu, modelinizin daha iyi genelleştirilmesine yardımcı olur.
- Her sınıf veya konu için örnek sayısının aşırı dengesiz olmadığından emin olun. Yani her sınıfta benzer sayıda örneklem olmalıdır.
- Örneklerinizin yalnızca yaygın durumları değil, olası girişler alanını yeterince kapsadığından emin olun.
Bu kılavuzda, iş akışını göstermek için İnternet Film Veritabanı (IMDb) film incelemeleri veri kümesini kullanacağız. Bu veri kümesinde, IMDb web sitesindeki kişilerin yayınladığı film yorumlarının yanı sıra yorumcunun filmi beğenip beğenmediğini belirten uygun etiketler ("olumlu" veya "olumsuz") yer alır. Bu, yaklaşım analizi problemlerinin klasik bir örneğidir.
Aksi belirtilmediği sürece bu sayfanın içeriği Creative Commons Atıf 4.0 Lisansı altında ve kod örnekleri Apache 2.0 Lisansı altında lisanslanmıştır. Ayrıntılı bilgi için Google Developers Site Politikaları'na göz atın. Java, Oracle ve/veya satış ortaklarının tescilli ticari markasıdır.
Son güncelleme tarihi: 2025-07-27 UTC.
[null,null,["Son güncelleme tarihi: 2025-07-27 UTC."],[[["\u003cp\u003eHigh-quality data is crucial for building effective supervised machine learning text classifiers, with more training samples generally leading to better performance.\u003c/p\u003e\n"],["\u003cp\u003ePublic APIs and open-source datasets can be leveraged for data collection, but it's important to understand API limitations and ensure data balance across classes.\u003c/p\u003e\n"],["\u003cp\u003eAdequate data representation across all possible input variations is necessary, and the IMDb movie reviews dataset will be used to demonstrate text classification workflow for sentiment analysis.\u003c/p\u003e\n"],["\u003cp\u003eWhen collecting data, aim for a balanced dataset with a sufficient number of samples for each class to avoid imbalanced datasets and promote better model generalization.\u003c/p\u003e\n"]]],[],null,["Gathering data is the most important step in solving any supervised machine\nlearning problem. Your text classifier can only be as good as the dataset it is\nbuilt from.\n\nIf you don't have a specific problem you want to solve and are just interested\nin exploring text classification in general, there are plenty of open source\ndatasets available. You can find links to some of them in our [GitHub\nrepo](https://github.com/google/eng-edu/blob/master/ml/guides/text_classification/load_data.py).\nOn the other hand, if you are tackling a specific problem,\nyou will need to collect the necessary data. Many organizations provide public\nAPIs for accessing their data---for example, the\n[X API](https://developer.x.com/docs) or the\n[NY Times API](http://developer.nytimes.com/). You may be able to leverage\nthese APIs for the problem you are trying to solve.\n\nHere are some important things to remember when collecting data:\n\n- If you are using a public API, understand the *limitations* of the API before using them. For example, some APIs set a limit on the rate at which you can make queries.\n- The more training examples (referred to as *samples* in the rest of this guide) you have, the better. This will help your model [generalize](/machine-learning/glossary#generalization) better.\n- Make sure the number of samples for every *class* or topic is not overly [imbalanced](/machine-learning/glossary#class_imbalanced_data_set). That is, you should have comparable number of samples in each class.\n- Make sure that your samples adequately cover the *space of possible inputs*, not only the common cases.\n\nThroughout this guide, we will use the [Internet Movie Database (IMDb) movie\nreviews dataset](http://ai.stanford.edu/%7Eamaas/data/sentiment/) to illustrate\nthe workflow. This dataset contains movie reviews posted by people on the IMDb\nwebsite, as well as the corresponding labels (\"positive\" or \"negative\")\nindicating whether the reviewer liked the movie or not. This is a classic\nexample of a sentiment analysis problem."]]