Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Mục tiêu học tập
Trong học phần này, bạn sẽ tìm hiểu cách:
Điều tra các vấn đề tiềm ẩn làm cơ sở cho tập dữ liệu thô hoặc tập dữ liệu đã được xử lý, bao gồm về bộ sưu tập và chất lượng.
Xác định các thiên kiến, suy luận không hợp lệ và lý giải.
Tìm các vấn đề thường gặp trong phân tích dữ liệu, bao gồm cả mối tương quan, sự liên quan và không liên quan.
Xem xét một biểu đồ để biết các vấn đề, sự nhầm lẫn thường gặp và cách hiển thị và thiết kế gây hiểu lầm.
Động lực học máy
Mặc dù không hào nhoáng như kiến trúc mô hình và công việc của các mô hình hạ nguồn khác, và khám phá dữ liệu, lập tài liệu và tiền xử lý dữ liệu là những việc quan trọng công việc học máy. Chuyên viên công nghệ học máy có thể yêu thích những gì Nithya Sambasivan et al. đã gọi thác dữ liệu trong bài viết ACM năm 2021 của họ nếu họ không hiểu rõ:
các điều kiện mà dữ liệu của họ được thu thập
chất lượng, đặc điểm và giới hạn của dữ liệu
những gì dữ liệu có thể và không thể hiển thị
Việc đào tạo các mô hình dựa trên dữ liệu không hợp lệ và chỉ phát hiện ra tại điểm đầu ra chất lượng thấp là có vấn đề với dữ liệu. Tương tự, nếu không nắm bắt được những hạn chế của dữ liệu, thiên kiến trong việc thu thập dữ liệu hoặc nhầm lẫn mối tương quan về quan hệ nhân quả, có thể dẫn đến kết quả hứa hẹn quá mức và phân phối dưới mức, dẫn đến mất niềm tin.
Khoá học này sẽ giới thiệu các bẫy dữ liệu phổ biến nhưng tinh vi mà công nghệ học máy và dữ liệu mà các chuyên viên có thể gặp phải trong công việc của họ.
[[["Dễ hiểu","easyToUnderstand","thumb-up"],["Giúp tôi giải quyết được vấn đề","solvedMyProblem","thumb-up"],["Khác","otherUp","thumb-up"]],[["Thiếu thông tin tôi cần","missingTheInformationINeed","thumb-down"],["Quá phức tạp/quá nhiều bước","tooComplicatedTooManySteps","thumb-down"],["Đã lỗi thời","outOfDate","thumb-down"],["Vấn đề về bản dịch","translationIssue","thumb-down"],["Vấn đề về mẫu/mã","samplesCodeIssue","thumb-down"],["Khác","otherDown","thumb-down"]],["Cập nhật lần gần đây nhất: 2024-07-26 UTC."],[[["\u003cp\u003eThis module teaches you to identify potential issues in datasets, including biases and invalid inferences, ultimately helping you build better ML models.\u003c/p\u003e\n"],["\u003cp\u003eUnderstanding data limitations and collection conditions is crucial to avoid "data cascades" that lead to poor model performance and wasted resources.\u003c/p\u003e\n"],["\u003cp\u003eThe module explores common data analysis pitfalls, such as mistaking correlation for causation, and emphasizes the importance of proper data exploration and preprocessing in machine learning workflows.\u003c/p\u003e\n"],["\u003cp\u003eBy recognizing common problems in charts and data visualizations, you'll be able to avoid misperceptions and ensure accurate data representation.\u003c/p\u003e\n"]]],[],null,["\u003cbr /\u003e\n\n| **Estimated time:** 1.5 hours\n\nLearning objectives\n\nIn this module, you will learn to:\n\n- Investigate potential issues underlying raw or processed datasets, including collection and quality issues.\n- Identify biases, invalid inferences, and rationalizations.\n- Find common issues in data analysis, including correlation, relatedness, and irrelevance.\n- Examine a chart for common problems, misperceptions, and misleading display and design choices.\n\nML motivation\n\nWhile not as glamorous as model architectures and other downstream model work,\ndata exploration, documentation, and preprocessing are critical to\nML work. ML practitioners can fall into what Nithya Sambasivan et al. called\n[data cascades](https://research.google/blog/data-cascades-in-machine-learning/)\nin their [2021 ACM paper](https://dl.acm.org/doi/10.1145/3411764.3445518)\nif they do not deeply understand:\n\n- the conditions under which their data is collected\n- the quality, characteristics, and limitations of the data\n- what the data can and can't show\n\nIt's very expensive to train models on bad data and\nonly find out at the point of low-quality outputs that there were problems\nwith the data. Likewise, a failure to grasp the limitations of data, human\nbiases in collecting data, or mistaking correlation for causation,\ncan result in over-promising and under-delivering results, which can lead to a\nloss of trust.\n\nThis course walks through common but subtle data traps that ML and data\npractitioners may encounter in their work."]]