此页面由 Cloud Translation API 翻译。

生产化

如需为生产环境准备机器学习流水线，您需要执行以下操作：

预配计算资源

运行 ML 流水线需要计算资源，例如 RAM、CPU 和 GPU/TPU。如果没有足够的计算资源，您将无法运行流水线。因此，请务必获取足够的配额，以便预配流水线在生产环境中运行所需的资源。

提供、训练和验证流水线。这些流水线需要 TPU、GPU 或 CPU。根据您的使用情形，您可能会在不同的硬件上进行训练和提供服务，也可能会使用相同的硬件。例如，训练可能在 CPU 上进行，但服务可能使用 TPU，反之亦然。一般来说，在较大的硬件上进行训练，然后在较小的硬件上进行服务是很常见的。

选择硬件时，请考虑以下事项：
- 您能否在价格较低的硬件上进行训练？
- 改用其他硬件是否会提升性能？
- 模型的大小是多少？哪些硬件可以优化其性能？
- 根据模型的架构，理想的硬件是什么？
注意：在硬件之间切换模型时，请考虑迁移模型所需的时间和精力。切换硬件可能会降低模型运行成本，但这样做所需的工程设计工作量可能超过节省的费用，或者工程设计工作量可能更适合优先用于其他工作。
数据流水线。数据流水线需要 RAM 和 CPU 的配额您需要估算流水线生成训练和测试数据集所需的配额。

您可能不会为每个流水线分配配额。您可以改为分配流水线共享的配额。在这种情况下，请验证您是否有足够的配额来运行所有流水线，并设置监控和提醒，以防止单个错误的流水线消耗所有配额。

如需估算数据和训练流水线所需的配额，请查找类似的项目，以便根据这些项目进行估算。如需估算投放配额，请尝试预测服务的每秒查询次数。这些方法提供了一个基准。当您在实验阶段开始为解决方案制作原型时，您将开始获得更精确的配额估算值。

在估算配额时，请务必考虑不仅是生产流水线的配额，还有正在进行的实验的配额。

选择用于提供预测的硬件时，您应始终选择比用于训练模型的硬件更强大的硬件。

错误

正确。通常，训练所需的硬件比服务所需的硬件更大。

正确

记录和监控生产模型的行为至关重要。强大的监控基础架构可确保您的模型提供可靠的高质量预测。

良好的日志记录和监控实践有助于主动发现机器学习流水线中的问题，并减轻潜在的业务影响。如果出现问题，系统会向团队成员发送提醒，而全面的日志有助于诊断问题的根本原因。

您应实现日志记录和监控，以检测机器学习流水线中的以下问题：

流水线	监控
服务	应用数据与训练数据相比出现偏差或漂移预测中的偏差或漂移数据类型问题，例如值缺失或损坏配额用量模型质量指标计算生产模型的质量与计算训练期间的模型的质量不同。在生产环境中，您不一定能访问标准答案，以便将预测结果与标准答案进行比较。相反，您需要编写自定义监控检测代码来捕获可作为模型质量代理的指标。例如，在邮件应用中，您无法实时了解哪些邮件是垃圾邮件。您可以改为监控用户将邮件移至“垃圾内容”文件夹的百分比。如果该数字从 0.5% 跃升至 3%，则表示模型可能存在问题。请注意，比较代理指标的变化比比较原始数字更有意义。
数据	特征值中的偏差和漂移标签值中的偏差和漂移数据类型问题，例如值缺失或损坏配额使用率即将达到配额上限
培训	训练时间训练失败配额用量
验证	测试数据集中的偏差或偏移

您还需要为以下内容设置日志记录、监控和提醒：

以下哪项是记录和监控机器学习流水线的主要原因？

主动发现问题，以免用户受到影响

跟踪配额和资源用量

识别潜在的安全问题

以上皆是

正确。记录和监控机器学习流水线有助于在问题变得严重之前预防和诊断问题。

对于模型部署，您需要记录以下内容：

在自动执行模型训练后，您可能还想自动执行验证和部署。自动化部署可分摊责任，并降低因单个人员而导致部署受阻的可能性。它还可以减少潜在的错误，提高效率和可靠性，并支持轮班待命和 SRE 支持。

通常，您会将新模型部署到一部分用户，以检查模型是否按预期运行。如果确实如此，请继续进行部署。如果不是，您将回滚部署，并开始诊断和调试问题。