با مجموعهها، منظم بمانید ذخیره و طبقهبندی محتوا براساس اولویتهای شما.
داده های عددی اغلب توسط ابزارهای علمی یا اندازه گیری های خودکار ثبت می شوند. از سوی دیگر، داده های طبقه بندی شده اغلب توسط انسان ها یا مدل های یادگیری ماشین (ML) دسته بندی می شوند. اینکه چه کسی در مورد دستهها و برچسبها تصمیم میگیرد و چگونه آن تصمیمها را میگیرد، بر قابلیت اطمینان و سودمندی آن دادهها تأثیر میگذارد.
ارزیاب های انسانی
داده هایی که به صورت دستی توسط انسان ها برچسب گذاری می شوند اغلب به عنوان برچسب های طلایی شناخته می شوند و به دلیل کیفیت نسبتاً بهتر داده ها نسبت به داده های برچسب گذاری شده با ماشین برای مدل های آموزشی مطلوب تر در نظر گرفته می شوند.
این لزوما به این معنی نیست که هر مجموعه ای از داده های برچسب گذاری شده توسط انسان از کیفیت بالایی برخوردار است. خطاهای انسانی، سوگیری و سوء نیت را می توان در نقطه جمع آوری داده ها یا در حین پاکسازی و پردازش داده ها معرفی کرد. قبل از تمرین آنها را بررسی کنید.
هر دو انسان ممکن است به یک مثال برچسب متفاوتی بزنند. تفاوت بین تصمیمهای ارزیابیکننده انسانی ، توافق بین ارزیابیکننده نامیده میشود. شما می توانید با استفاده از چندین ارزیاب در هر مثال و اندازه گیری توافق بین ارزیاب ها، حسی از اختلاف نظرات ارزیاب ها را دریافت کنید.
برای آشنایی با معیارهای توافق بین ارزیاب کلیک کنید
روشهای زیر برای اندازهگیری توافق بین ارزیابها هستند:
کاپا کوهن و انواع آن
همبستگی درون طبقاتی (ICC)
آلفای کریپندورف
برای جزئیات بیشتر در مورد کاپا کوهن و همبستگی درون طبقاتی، به هالگرن 2012 مراجعه کنید. برای جزئیات بیشتر در مورد آلفای کریپندورف، به کریپندورف 2011 مراجعه کنید.
ارزیاب ماشین
دادههای برچسبگذاریشده با ماشین، که در آن دستهها بهطور خودکار توسط یک یا چند مدل طبقهبندی تعیین میشوند، اغلب به عنوان برچسبهای نقرهای شناخته میشوند. داده های برچسب گذاری شده با ماشین می توانند از نظر کیفیت بسیار متفاوت باشند. آن را نه تنها از نظر دقت و سوگیری، بلکه از نظر نقض عقل سلیم، واقعیت و نیت نیز بررسی کنید. برای مثال، اگر یک مدل بینایی کامپیوتری عکس چیهواهوا را بهعنوان مافین یا عکس کلوچه را بهعنوان چیهواهوا به اشتباه برچسبگذاری کند، مدلهایی که بر روی آن دادههای برچسبگذاری شده آموزش دیدهاند، کیفیت پایینتری خواهند داشت.
به طور مشابه، یک تحلیلگر احساسات که کلمات خنثی را به عنوان -0.25 نمره می دهد، در حالی که 0.0 مقدار خنثی است، ممکن است همه کلمات را با یک سوگیری منفی اضافی که در واقع در داده ها وجود ندارد، امتیاز دهد. یک آشکارساز سمیت بیش از حد حساس ممکن است به اشتباه بسیاری از عبارات خنثی را به عنوان سمی علامت گذاری کند. سعی کنید قبل از آموزش روی آن، کیفیت و سوگیری برچسب ها و حاشیه نویسی ماشین را در داده های خود درک کنید.
ابعاد بالا
داده های مقوله ای تمایل به تولید بردارهای ویژگی با ابعاد بالا دارند. یعنی بردارهای ویژگی دارای تعداد زیادی عنصر هستند. ابعاد بالا هزینه های آموزش را افزایش می دهد و آموزش را دشوارتر می کند. به این دلایل، کارشناسان ML اغلب به دنبال راه هایی برای کاهش تعداد ابعاد قبل از آموزش هستند.
برای داده های زبان طبیعی، روش اصلی کاهش ابعاد، تبدیل بردارهای ویژگی به بردارهای تعبیه شده است. این در ماژول Embeddings بعداً در این دوره مورد بحث قرار می گیرد.
تاریخ آخرین بهروزرسانی 2024-11-15 بهوقت ساعت هماهنگ جهانی.
[[["درک آسان","easyToUnderstand","thumb-up"],["مشکلم را برطرف کرد","solvedMyProblem","thumb-up"],["غیره","otherUp","thumb-up"]],[["اطلاعاتی که نیاز دارم وجود ندارد","missingTheInformationINeed","thumb-down"],["بیشازحد پیچیده/ مراحل بسیار زیاد","tooComplicatedTooManySteps","thumb-down"],["قدیمی","outOfDate","thumb-down"],["مشکل ترجمه","translationIssue","thumb-down"],["مشکل کد / نمونهها","samplesCodeIssue","thumb-down"],["غیره","otherDown","thumb-down"]],["تاریخ آخرین بهروزرسانی 2024-11-15 بهوقت ساعت هماهنگ جهانی."],[[["\u003cp\u003eCategorical data quality hinges on how categories are defined and labeled, impacting data reliability.\u003c/p\u003e\n"],["\u003cp\u003eHuman-labeled data, known as "gold labels," is generally preferred for training due to its higher quality, but it's essential to check for human errors and biases.\u003c/p\u003e\n"],["\u003cp\u003eMachine-labeled data, or "silver labels," can introduce biases or inaccuracies, necessitating careful quality checks and awareness of potential common-sense violations.\u003c/p\u003e\n"],["\u003cp\u003eHigh-dimensionality in categorical data increases training complexity and costs, leading to techniques like embeddings for dimensionality reduction.\u003c/p\u003e\n"]]],[],null,["Numerical data is often recorded by scientific instruments or\nautomated measurements. Categorical data, on the other hand, is often\ncategorized by human beings or by machine learning (ML) models. *Who* decides\non categories and labels, and *how* they make those decisions, affects the\nreliability and usefulness of that data.\n\nHuman raters\n\nData manually labeled by human beings is often referred to as *gold labels*,\nand is considered more desirable than machine-labeled data for training models,\ndue to relatively better data quality.\n\nThis doesn't necessarily mean that any set of human-labeled data is of high\nquality. Human errors, bias, and malice can be introduced at the point\nof data collection or during data cleaning and processing. Check for them\nbefore training.\n\n\nAny two human beings may label the same example differently. The difference\nbetween human raters' decisions is called\n[**inter-rater\nagreement**](/machine-learning/glossary#inter-rater-agreement).\nYou can get a sense of the variance in raters' opinions by using\nmultiple raters per example and measuring inter-rater agreement.\n\n**Click to learn about inter-rater agreement metrics** \nThe following are ways to measure inter-rater agreement:\n\n- Cohen's kappa and variants\n- Intra-class correlation (ICC)\n- Krippendorff's alpha\n\nFor details on Cohen's kappa and intra-class correlation, see\n[Hallgren\n2012](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3402032/). For details on Krippendorff's alpha, see\n[Krippendorff 2011](https://www.asc.upenn.edu/sites/default/files/2021-03/Computing%20Krippendorff%27s%20Alpha-Reliability.pdf).\n\nMachine raters\n\nMachine-labeled data, where categories are automatically determined by one or\nmore classification models, is often referred to as *silver labels* .\nMachine-labeled data can vary widely in quality. Check it not only for accuracy\nand biases but also for violations of common sense, reality, and intention. For\nexample, if a computer-vision model mislabels a photo of a\n[chihuahua as a muffin](https://www.freecodecamp.org/news/chihuahua-or-muffin-my-search-for-the-best-computer-vision-api-cbda4d6b425d/),\nor a photo of a muffin as a chihuahua, models trained on that labeled data will\nbe of lower quality.\n\nSimilarly, a sentiment analyzer that scores neutral words as -0.25, when 0.0 is\nthe neutral value, might be scoring all words with an additional negative bias\nthat is not actually present in the data. An oversensitive toxicity detector\nmay falsely flag many neutral statements as toxic. Try to get a sense of the\nquality and biases of machine labels and annotations in your data before\ntraining on it.\n\nHigh dimensionality\n\nCategorical data tends to produce high-dimensional feature vectors; that is,\nfeature vectors having a large number of elements.\nHigh dimensionality increases training costs and makes training more\ndifficult. For these reasons, ML experts often seek ways to reduce the number\nof dimensions prior to training.\n\nFor natural-language data, the main method of reducing dimensionality is\nto convert feature vectors to embedding vectors. This is discussed in the\n[Embeddings module](/machine-learning/crash-course/embeddings) later in\nthis course.\n| **Key terms:**\n|\n- [Inter-rater agreement](/machine-learning/glossary#inter-rater-agreement) \n[Help Center](https://support.google.com/machinelearningeducation)"]]