Langkah 1: Kumpulkan Data
Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.
Mengumpulkan data adalah langkah terpenting dalam memecahkan semua masalah supervised machine learning. Pengklasifikasi teks Anda hanya dapat berfungsi baik jika set data tersebut dibuat.
Jika Anda tidak memiliki masalah spesifik yang ingin diselesaikan dan hanya tertarik untuk mempelajari klasifikasi teks secara umum, tersedia banyak set data open source. Anda dapat menemukan link ke beberapa di antaranya di repo GitHub. Di sisi lain, jika Anda menangani masalah tertentu, Anda harus mengumpulkan data yang diperlukan. Banyak organisasi menyediakan API publik untuk mengakses data mereka—misalnya, X API atau NY Times API. Anda mungkin dapat memanfaatkan API ini untuk masalah yang Anda coba pecahkan.
Berikut adalah beberapa hal penting yang perlu diingat saat mengumpulkan data:
- Jika Anda menggunakan API publik, pahami batasan API sebelum menggunakannya. Misalnya, beberapa API menetapkan batas kecepatan membuat kueri.
- Semakin banyak contoh pelatihan (disebut sebagai contoh dalam bagian lainnya dalam panduan ini) yang Anda miliki, semakin baik. Hal ini akan membantu model Anda melakukan generalisasi dengan lebih baik.
- Pastikan jumlah sampel untuk setiap class atau topik tidak terlalu tidak seimbang. Artinya, Anda harus memiliki jumlah sampel yang sebanding di setiap class.
- Pastikan sampel Anda secara memadai mencakup ruang dari kemungkinan input, bukan hanya pada kasus yang umum.
Dalam panduan ini, kami akan menggunakan set data ulasan film Internet Movie Database (IMDb) untuk mengilustrasikan alur kerja. {i>Dataset<i} ini berisi ulasan film yang diposting oleh orang-orang di situs web IMDb, serta label yang sesuai (“positif” atau “negatif”) yang menunjukkan apakah pengulas menyukai film tersebut atau tidak. Ini adalah contoh klasik dari masalah analisis sentimen.
Kecuali dinyatakan lain, konten di halaman ini dilisensikan berdasarkan Lisensi Creative Commons Attribution 4.0, sedangkan contoh kode dilisensikan berdasarkan Lisensi Apache 2.0. Untuk mengetahui informasi selengkapnya, lihat Kebijakan Situs Google Developers. Java adalah merek dagang terdaftar dari Oracle dan/atau afiliasinya.
Terakhir diperbarui pada 2025-07-27 UTC.
[null,null,["Terakhir diperbarui pada 2025-07-27 UTC."],[[["\u003cp\u003eHigh-quality data is crucial for building effective supervised machine learning text classifiers, with more training samples generally leading to better performance.\u003c/p\u003e\n"],["\u003cp\u003ePublic APIs and open-source datasets can be leveraged for data collection, but it's important to understand API limitations and ensure data balance across classes.\u003c/p\u003e\n"],["\u003cp\u003eAdequate data representation across all possible input variations is necessary, and the IMDb movie reviews dataset will be used to demonstrate text classification workflow for sentiment analysis.\u003c/p\u003e\n"],["\u003cp\u003eWhen collecting data, aim for a balanced dataset with a sufficient number of samples for each class to avoid imbalanced datasets and promote better model generalization.\u003c/p\u003e\n"]]],[],null,["Gathering data is the most important step in solving any supervised machine\nlearning problem. Your text classifier can only be as good as the dataset it is\nbuilt from.\n\nIf you don't have a specific problem you want to solve and are just interested\nin exploring text classification in general, there are plenty of open source\ndatasets available. You can find links to some of them in our [GitHub\nrepo](https://github.com/google/eng-edu/blob/master/ml/guides/text_classification/load_data.py).\nOn the other hand, if you are tackling a specific problem,\nyou will need to collect the necessary data. Many organizations provide public\nAPIs for accessing their data---for example, the\n[X API](https://developer.x.com/docs) or the\n[NY Times API](http://developer.nytimes.com/). You may be able to leverage\nthese APIs for the problem you are trying to solve.\n\nHere are some important things to remember when collecting data:\n\n- If you are using a public API, understand the *limitations* of the API before using them. For example, some APIs set a limit on the rate at which you can make queries.\n- The more training examples (referred to as *samples* in the rest of this guide) you have, the better. This will help your model [generalize](/machine-learning/glossary#generalization) better.\n- Make sure the number of samples for every *class* or topic is not overly [imbalanced](/machine-learning/glossary#class_imbalanced_data_set). That is, you should have comparable number of samples in each class.\n- Make sure that your samples adequately cover the *space of possible inputs*, not only the common cases.\n\nThroughout this guide, we will use the [Internet Movie Database (IMDb) movie\nreviews dataset](http://ai.stanford.edu/%7Eamaas/data/sentiment/) to illustrate\nthe workflow. This dataset contains movie reviews posted by people on the IMDb\nwebsite, as well as the corresponding labels (\"positive\" or \"negative\")\nindicating whether the reviewer liked the movie or not. This is a classic\nexample of a sentiment analysis problem."]]