با مجموعهها، منظم بمانید ذخیره و طبقهبندی محتوا براساس اولویتهای شما.
پزشکان ML زمان بسیار بیشتری را برای ارزیابی، تمیز کردن و تبدیل داده ها نسبت به ساخت مدل ها صرف می کنند. داده ها به قدری مهم هستند که این دوره سه واحد کامل را به این موضوع اختصاص می دهد:
این واحد بر روی داده های عددی تمرکز می کند، یعنی اعداد صحیح یا مقادیر ممیز شناور که مانند اعداد رفتار می کنند. یعنی افزودنی، قابل شمارش، مرتب و غیره هستند. واحد بعدی بر روی داده های طبقه بندی تمرکز می کند، که می تواند شامل اعدادی باشد که مانند دسته ها رفتار می کنند. بخش سوم بر نحوه آماده سازی داده های شما برای اطمینان از نتایج با کیفیت بالا هنگام آموزش و ارزیابی مدل تمرکز می کند.
نمونه هایی از داده های عددی عبارتند از:
دما
وزن
تعداد آهوهای زمستان گذران در حفاظتگاه طبیعی
در مقابل، کدهای پستی ایالات متحده، علیرغم اینکه اعداد پنج رقمی یا نه رقمی هستند، مانند اعداد رفتار نمی کنند و روابط ریاضی را نشان نمی دهند. کد پستی 40004 (در شهرستان نلسون، کنتاکی) دو برابر کد پستی 20002 (در واشنگتن دی سی) نیست. این اعداد نشان دهنده دسته ها، به ویژه مناطق جغرافیایی هستند و داده های طبقه بندی شده در نظر گرفته می شوند.
تاریخ آخرین بهروزرسانی 2025-07-29 بهوقت ساعت هماهنگ جهانی.
[[["درک آسان","easyToUnderstand","thumb-up"],["مشکلم را برطرف کرد","solvedMyProblem","thumb-up"],["غیره","otherUp","thumb-up"]],[["اطلاعاتی که نیاز دارم وجود ندارد","missingTheInformationINeed","thumb-down"],["بیشازحد پیچیده/ مراحل بسیار زیاد","tooComplicatedTooManySteps","thumb-down"],["قدیمی","outOfDate","thumb-down"],["مشکل ترجمه","translationIssue","thumb-down"],["مشکل کد / نمونهها","samplesCodeIssue","thumb-down"],["غیره","otherDown","thumb-down"]],["تاریخ آخرین بهروزرسانی 2025-07-29 بهوقت ساعت هماهنگ جهانی."],[[["\u003cp\u003eThis module focuses on preparing numerical data, such as temperature or weight, for use in machine learning models.\u003c/p\u003e\n"],["\u003cp\u003eMachine learning practitioners spend significant time on data preparation tasks like cleaning and transformation.\u003c/p\u003e\n"],["\u003cp\u003eThe module covers techniques like feature scaling, outlier detection, and binning to improve data quality for model training.\u003c/p\u003e\n"],["\u003cp\u003eLearners should have a basic understanding of machine learning concepts before starting this module.\u003c/p\u003e\n"],["\u003cp\u003eCategorical data, like postal codes, will be addressed in a separate module due to its distinct characteristics and handling requirements.\u003c/p\u003e\n"]]],[],null,["| **Estimated module length:** 85 minutes\n| **Learning objectives**\n|\n| - Understand feature vectors.\n| - Explore your dataset's potential features visually and mathematically.\n| - Identify outliers.\n| - Understand four different techniques to normalize numerical data.\n| - Understand binning and develop strategies for binning numerical data.\n| - Understand the characteristics of good continuous numerical features.\n| **Prerequisites:**\n|\n| This module assumes you are familiar with the concepts covered in the\n| following module:\n|\n| - [Introduction to Machine Learning](/machine-learning/intro-to-ml)\n\nML practitioners spend far more time evaluating, cleaning, and transforming\ndata than building models.\nData is so important that this course devotes three entire units to the topic:\n\n- Working with numerical data (this unit)\n- [Working with categorical data](/machine-learning/crash-course/categorical-data)\n- [Datasets, generalization, and overfitting](/machine-learning/crash-course/overfitting)\n\nThis unit focuses on\n[**numerical data**](/machine-learning/glossary#numerical-data),\nmeaning integers or floating-point values\nthat behave like numbers. That is, they are additive, countable, ordered,\nand so on. The next unit focuses on\n[**categorical data**](/machine-learning/glossary#categorical-data), which can\ninclude numbers that behave like categories. The third unit focuses on how to\nprepare your data to ensure high-quality results when training and evaluating\nyour model.\n\nExamples of numerical data include:\n\n- Temperature\n- Weight\n- The number of deer wintering in a nature preserve\n\nIn contrast, US postal codes, despite\nbeing five-digit or nine-digit numbers, don't behave like numbers or represent\nmathematical relationships. Postal code 40004 (in Nelson County, Kentucky) is\nnot twice the quantity of postal code 20002 (in Washington, D.C.). These numbers\nrepresent categories, specifically geographic areas, and are considered\ncategorical data.\n| **Key terms:**\n|\n| - [Categorical data](/machine-learning/glossary#categorical-data)\n- [Numerical data](/machine-learning/glossary#numerical-data) \n[Help Center](https://support.google.com/machinelearningeducation)"]]