此页面由 Cloud Translation API 翻译。

数据集：标签

本部分重点介绍标签。

直接标签与代理标签

请考虑以下两种不同类型的标签：

直接标签，即与模型尝试进行的预测完全相同的标签。也就是说，模型尝试进行的预测正是以数据集中的列的形式呈现的。例如，对于用于预测某人是否拥有自行车的二元分类模型，名为 bicycle owner 的列就是直接标签。
代理标签：与模型尝试进行的预测类似（但不完全相同）的标签。例如，订阅《Bicycle Bizarre》杂志的人可能（但不一定）拥有自行车。

直接标签通常比代理标签更好。如果您的数据集提供了可能的直接标签，您可能应该使用它。不过，直接标签通常不可用。

代理标签始终是一种折衷方案，是对直接标签的近似估计，并不完美。不过，有些代理标签的近似值足够接近，因此非常有用。使用代理标签的模型的有效性取决于代理标签与预测之间的关联。

回想一下，每个标签都必须在特征向量中表示为浮点数（因为机器学习从根本上讲只是数学运算的巨大集合）。有时，存在直接标签，但无法轻松地在特征向量中表示为浮点数。在这种情况下，请使用代理标签。

练习：检查您的理解情况

贵公司希望实现以下目标：

向自行车所有者邮寄优惠券（“用旧自行车折抵新自行车，立减 15%”）。

因此，您的模型必须执行以下操作：

预测哪些人拥有自行车。

很遗憾，该数据集不包含名为 bike owner 的列。不过，该数据集确实包含一个名为 recently bought a bicycle 的列。

对于此模型，recently bought a bicycle 是合适的代理标签还是不合适的代理标签？

代理标签良好

recently bought a bicycle 列是一个相对较好的代理标签。毕竟，现在购买自行车的大多数人已经拥有自行车。不过，与所有代理标签一样，即使是效果非常好的代理标签，recently bought a bicycle 也无法做到尽善尽美。毕竟，购买商品的人员并不一定是使用（或拥有）该商品的人员。例如，人们有时会购买自行车作为礼物。

代理标签不当

与所有代理标签一样，recently bought a bicycle 并不完美（有些自行车是作为礼物购买的，并赠送给他人）。不过，recently bought a bicycle 仍然是判断用户是否拥有自行车的相对较好的指标。

人工生成的数据

部分数据是由人生成的；也就是说，一个或多个人会检查一些信息并提供一个值（通常是标签）。例如，一位或多位气象学家可以检查天空照片并识别云彩类型。

或者，某些数据是自动生成的。也就是说，软件（可能是另一个机器学习模型）会确定该值。例如，机器学习模型可以检查天空图片并自动识别云彩类型。

本部分将探讨由人类生成的数据的优缺点。

优势

人工审核员可以执行各种任务，即使是复杂的机器学习模型也可能难以胜任。
该流程会迫使数据集所有者制定清晰且一致的标准。

缺点

您通常需要向人工评分员支付费用，因此由人工生成的数据可能很昂贵。
人非圣贤，难免有错。因此，多个人工评分员可能需要评估同一数据。

仔细思考以下问题，确定您的需求：

评价者需要具备怎样的技能？（例如，评价者必须懂特定语言吗？您是否需要对话或自然语言处理应用的语言学家？）
您需要多少个标记示例？您需要多久才能收到？
您的预算是多少？

请务必仔细检查人工评分员的评分。例如，自行标记 1,000 个示例，然后看看您的结果与其他评分者的结果有多一致。如果出现差异，请勿假定您的评分是正确的，尤其是涉及价值判断时。如果人工评分员出现了错误，不妨考虑添加一些说明来帮助他们，然后重试。

点击加号图标，详细了解由人生成的数据。

无论您是如何获取数据的，手动查看数据都是一个很好的做法。Andrej Karpathy 在 ImageNet 上进行了此实验，并撰文介绍了相关经验。

模型可以使用自动生成的标签和人工生成的标签进行训练。不过，对于大多数模型而言，额外提供一组人工生成的标签（可能会过时）通常不值得增加额外的复杂性和维护工作。不过，有时人工生成的标签可以提供自动标签中没有的额外信息。

数据特征（10 分钟）

不平衡数据集（10 分钟）