Kiểm tra kiến thức
Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Những câu hỏi sau đây giúp bạn củng cố kiến thức về các khái niệm cốt lõi của học máy.
Sức mạnh dự đoán
Mô hình học máy có giám sát được huấn luyện bằng các tập dữ liệu có ví dụ được gắn nhãn. Mô hình học cách dự đoán nhãn từ các đặc điểm. Tuy nhiên, không phải tính năng nào trong tập dữ liệu cũng có khả năng dự đoán. Trong một số trường hợp, chỉ một vài tính năng đóng vai trò là yếu tố dự đoán nhãn. Trong tập dữ liệu bên dưới, hãy sử dụng giá làm nhãn và các cột còn lại làm đặc điểm.
Theo bạn, 3 đặc điểm nào có thể là yếu tố dự đoán chính xác nhất về giá của một chiếc xe?
Make_model, year, miles.
Thương hiệu/mẫu xe, năm sản xuất và quãng đường đã đi có thể là những yếu tố dự đoán mạnh nhất về giá của xe.
Color, height, make_model.
Chiều cao và màu sắc của ô tô không phải là yếu tố dự đoán chính xác giá của ô tô.
Dặm, hộp số, make_model.
Hộp số không phải là yếu tố dự đoán chính về giá.
Tire_size, wheel_base, year.
Kích thước lốp và trục bánh xe không phải là yếu tố dự đoán chính xác giá của ô tô.
Học có giám sát và không có giám sát
Dựa trên vấn đề, bạn sẽ sử dụng phương pháp có giám sát hoặc không có giám sát. Ví dụ: nếu biết trước giá trị hoặc danh mục mà bạn muốn dự đoán, bạn sẽ sử dụng phương pháp học có giám sát. Tuy nhiên, nếu muốn tìm hiểu xem tập dữ liệu của mình có chứa bất kỳ phân đoạn hoặc nhóm ví dụ liên quan nào hay không, bạn sẽ sử dụng phương pháp học không có giám sát.
Giả sử bạn có một tập dữ liệu về người dùng cho một trang web mua sắm trực tuyến và tập dữ liệu này chứa các cột sau:
Nếu muốn tìm hiểu các loại người dùng truy cập vào trang web, bạn sẽ sử dụng phương pháp học có giám sát hay không giám sát?
Học không có giám sát.
Vì muốn mô hình này phân cụm các nhóm khách hàng có liên quan, nên chúng ta sẽ sử dụng phương pháp học không giám sát. Sau khi mô hình phân cụm người dùng, chúng ta sẽ tạo tên riêng cho từng cụm, ví dụ: "người tìm chiết khấu", "người săn ưu đãi", "người lướt web", "người trung thành" và "người lang thang".
Học có giám sát vì tôi đang cố gắng dự đoán người dùng thuộc lớp nào.
Trong phương pháp học có giám sát, tập dữ liệu phải chứa nhãn mà bạn đang cố gắng dự đoán. Trong tập dữ liệu, không có nhãn nào đề cập đến một danh mục người dùng.
Giả sử bạn có một tập dữ liệu về mức sử dụng năng lượng cho các hộ gia đình với các cột sau:
Bạn sẽ sử dụng loại công nghệ học máy nào để dự đoán số kilowatt giờ được sử dụng mỗi năm cho một ngôi nhà mới xây?
Học có giám sát.
Học có giám sát huấn luyện dựa trên các ví dụ được gắn nhãn. Trong tập dữ liệu này, "kilowatt giờ sử dụng mỗi năm" sẽ là nhãn vì đây là giá trị mà bạn muốn mô hình dự đoán. Các tính năng này sẽ là "diện tích nhà", "vị trí" và "năm xây dựng".
Học không có giám sát.
Phương pháp học không có giám sát sử dụng các ví dụ không được gắn nhãn. Trong ví dụ này, "kilowatt giờ sử dụng mỗi năm" sẽ là nhãn vì đây là giá trị mà bạn muốn mô hình dự đoán.
Giả sử bạn có một tập dữ liệu chuyến bay với các cột sau:
Nếu muốn dự đoán chi phí của một vé máy bay, bạn sẽ sử dụng phương pháp hồi quy hay phân loại?
Hồi quy
Đầu ra của mô hình hồi quy là một giá trị số.
Phân loại
Đầu ra của mô hình phân loại là một giá trị rời rạc, thường là một từ. Trong trường hợp này, chi phí của một vé máy bay là một giá trị dạng số.
Dựa trên tập dữ liệu này, bạn có thể huấn luyện một mô hình phân loại để phân loại chi phí của một vé máy bay là "cao", "trung bình" hoặc "thấp" không?
Có, nhưng trước tiên, chúng ta cần chuyển đổi các giá trị số trong cột airplane_ticket_cost
thành giá trị phân loại.
Bạn có thể tạo một mô hình phân loại từ tập dữ liệu này. Bạn sẽ làm những việc như sau:
- Tìm chi phí trung bình của một vé từ sân bay khởi hành đến sân bay đến.
- Xác định các ngưỡng sẽ tạo thành "cao", "trung bình" và "thấp".
- So sánh chi phí dự đoán với các ngưỡng và xuất ra danh mục mà giá trị nằm trong đó.
Không. Bạn không thể tạo mô hình phân loại. Giá trị airplane_ticket_cost
là số, không phải danh mục.
Chỉ cần một chút nỗ lực, bạn có thể tạo một mô hình phân loại.
Không. Mô hình phân loại chỉ dự đoán hai danh mục, chẳng hạn như spam
hoặc not_spam
. Mô hình này cần dự đoán 3 danh mục.
Mô hình phân loại có thể dự đoán nhiều danh mục. Chúng được gọi là mô hình phân loại đa lớp.
Đào tạo và đánh giá
Sau khi huấn luyện một mô hình, chúng ta sẽ đánh giá mô hình đó bằng cách sử dụng một tập dữ liệu có các ví dụ được gắn nhãn và so sánh giá trị dự đoán của mô hình với giá trị thực tế của nhãn.
Chọn hai câu trả lời đúng nhất cho câu hỏi.
Nếu kết quả dự đoán của mô hình không chính xác, bạn có thể làm gì để cải thiện kết quả đó?
Huấn luyện lại mô hình, nhưng chỉ sử dụng những đặc điểm mà bạn cho là có khả năng dự đoán mạnh nhất cho nhãn.
Việc huấn luyện lại mô hình với ít đặc điểm hơn nhưng có khả năng dự đoán cao hơn có thể tạo ra một mô hình dự đoán tốt hơn.
Bạn không thể khắc phục một mô hình có kết quả dự đoán sai lệch nhiều.
Bạn có thể khắc phục một mô hình có kết quả dự đoán không chính xác. Hầu hết các mô hình đều yêu cầu nhiều vòng huấn luyện cho đến khi đưa ra kết quả dự đoán hữu ích.
Huấn luyện lại mô hình bằng một tập dữ liệu lớn hơn và đa dạng hơn.
Các mô hình được huấn luyện trên tập dữ liệu có nhiều ví dụ hơn và phạm vi giá trị rộng hơn có thể đưa ra kết quả dự đoán tốt hơn vì mô hình có giải pháp tổng quát tốt hơn cho mối quan hệ giữa các đặc điểm và nhãn.
Thử một phương pháp huấn luyện khác. Ví dụ: nếu bạn đã sử dụng phương pháp có giám sát, hãy thử phương pháp không giám sát.
Một phương pháp huấn luyện khác sẽ không tạo ra kết quả dự đoán tốt hơn.
Giờ đây, bạn đã sẵn sàng thực hiện bước tiếp theo trong hành trình học máy:
Hướng dẫn về con người và AI. Nếu bạn đang tìm kiếm một bộ phương pháp, các phương pháp hay nhất và ví dụ do nhân viên Google, chuyên gia trong ngành và nghiên cứu học thuật trình bày để sử dụng công nghệ học máy.
Xác định vấn đề. Nếu bạn đang tìm kiếm một phương pháp đã được kiểm thử thực tế để tạo mô hình học máy và tránh các lỗi thường gặp trong quá trình này.
Khoá học cấp tốc về học máy. Nếu bạn đã sẵn sàng tìm hiểu thêm về ML theo phương pháp chuyên sâu và thực hành.
Trừ phi có lưu ý khác, nội dung của trang này được cấp phép theo Giấy phép ghi nhận tác giả 4.0 của Creative Commons và các mẫu mã lập trình được cấp phép theo Giấy phép Apache 2.0. Để biết thông tin chi tiết, vui lòng tham khảo Chính sách trang web của Google Developers. Java là nhãn hiệu đã đăng ký của Oracle và/hoặc các đơn vị liên kết với Oracle.
Cập nhật lần gần đây nhất: 2025-07-27 UTC.
[null,null,["Cập nhật lần gần đây nhất: 2025-07-27 UTC."],[[["\u003cp\u003eThis page tests your understanding of core machine learning (ML) concepts through interactive questions.\u003c/p\u003e\n"],["\u003cp\u003eIt covers fundamental ML topics such as predictive power of features, supervised and unsupervised learning, and model training and evaluation.\u003c/p\u003e\n"],["\u003cp\u003eYou'll learn how to choose the right ML approach for different problems and assess the effectiveness of a trained model.\u003c/p\u003e\n"],["\u003cp\u003eLinks to further resources are provided to deepen your understanding of ML and its practical applications.\u003c/p\u003e\n"]]],[],null,["\u003cbr /\u003e\n\nThe following questions help you solidify your understanding of core ML concepts.\n\nPredictive power\n\nSupervised ML models are trained using datasets with labeled examples. The model\nlearns how to predict the label from the features. However, not every feature in\na dataset has predictive power. In some instances, only a few features act as\npredictors of the label. In the dataset below, use price as the label\nand the remaining columns as the features.\n\nWhich three features do you think are likely the greatest predictors for a car's price? \nMake_model, year, miles. \nA car's make/model, year, and miles are likely to be among the strongest predictors for its price. \nColor, height, make_model. \nA car's height and color are not strong predictors for a car's price. \nMiles, gearbox, make_model. \nThe gearbox isn't a main predictor of price. \nTire_size, wheel_base, year. \nTire size and wheel base aren't strong predictors for a car's price.\n\nSupervised and unsupervised learning\n\nBased on the problem, you'll use either a supervised or unsupervised approach.\nFor example, if you know beforehand the value or category you want to predict,\nyou'd use supervised learning. However, if you wanted to learn if your dataset\ncontains any segmentations or groupings of related examples, you'd use\nunsupervised learning.\n\nSuppose you had a dataset of users for an online shopping website, and it contained the following columns:\n\nIf you wanted to understand the types of users that visit the site, would you use supervised or unsupervised learning? \nUnsupervised learning. \nBecause we want the model to cluster groups of related customers, we'd use unsupervised learning. After the model clustered the users, we'd create our own names for each cluster, for example, \"discount seekers,\" \"deal hunters,\" \"surfers,\" \"loyal,\" and \"wanderers.\" \nSupervised learning because I'm trying to predict which class a user belongs to. \nIn supervised learning, the dataset must contain the label you're trying to predict. In the dataset, there is no label that refers to a category of user.\n\nSuppose you had an energy usage dataset for homes with the following columns:\n\nWhat type of ML would you use to predict the kilowatt hours used per year for a newly constructed house? \nSupervised learning. \nSupervised learning trains on labeled examples. In this dataset \"kilowatt hours used per year\" would be the label because this is the value you want the model to predict. The features would be \"square footage,\" \"location,\" and \"year built.\" \nUnsupervised learning. \nUnsupervised learning uses unlabeled examples. In this example, \"kilowatt hours used per year\" would be the label because this is the value you want the model to predict.\n\nSuppose you had a flight dataset with the following columns:\n\nIf you wanted to predict the cost of an airplane ticket, would you use regression or classification? \nRegression \nA regression model's output is a numeric value. \nClassification \nA classification model's output is a discrete value, normally a word. In this case, the cost of an airplane ticket is a numeric value. \nBased on the dataset, could you train a classification model to classify the cost of an airplane ticket as \"high,\" \"average,\" or \"low\"? \nYes, but we'd first need to convert the numeric values in the `airplane_ticket_cost` column to categorical values. \nIt's possible to create a classification model from the dataset. You would do something like the following:\n\n1. Find the average cost of a ticket from the departure airport to the destination airport.\n2. Determine the thresholds that would constitute \"high,\" \"average,\" and \"low\".\n3. Compare the predicted cost to the thresholds and output the category the value falls within. \nNo. It's not possible to create a classification model. The `airplane_ticket_cost` values are numeric not categorical. \nWith a little bit of work, you could create a classification model. \nNo. Classification models only predict two categories, like `spam` or `not_spam`. This model would need to predict three categories. \nClassification models can predict multiple categories. They're called multiclass classification models.\n\nTraining and evaluating\n\nAfter we've trained a model, we evaluate it by using a dataset with labeled examples\nand compare the model's predicted value to the label's actual value.\n\nSelect the two best answers for the question. \nIf the model's predictions are far off, what might you do to make them better? \nRetrain the model, but use only the features you believe have the strongest predictive power for the label. \nRetraining the model with fewer features, but that have more predictive power, can produce a model that makes better predictions. \nYou can't fix a model whose predictions are far off. \nIt's possible to fix a model whose predictions are off. Most models require multiple rounds of training until they make useful predictions. \nRetrain the model using a larger and more diverse dataset. \nModels trained on datasets with more examples and a wider range of values can produce better predictions because the model has a better generalized solution for the relationship between the features and the label. \nTry a different training approach. For example, if you used a supervised approach, try an unsupervised approach. \nA different training approach would not produce better predictions.\n\nYou're now ready to take the next step in your ML journey:\n\n- [People + AI Guidebook](https://pair.withgoogle.com/guidebook/). If you're\n looking for a set of methods, best practices and examples presented by\n Googlers, industry experts, and academic research for using ML.\n\n- [Problem Framing](/machine-learning/problem-framing). If you're looking for\n a field-tested approach for creating ML models and avoiding common pitfalls\n along the way.\n\n- [Machine Learning Crash Course](/machine-learning/crash-course). If you're\n ready for an in-depth and hands-on approach to learning more about ML."]]