你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

自定义文本分类的数据和隐私

重要

仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。

本文提供有关自定义文本分类如何处理数据的概要详细信息。 请记住,你有责任使用和实施这项技术,其中包括遵守适用于你的所有法律和法规。 例如,你有责任:

  • 了解自定义文本分类服务处理和存储数据的位置,以满足应用程序的法规义务。
  • 确保数据集中的内容具有所有必要的许可证、专有权限或其他权限,这些权限用作生成自定义文本分类模型的基础。

你有责任遵守你所在司法管辖区的所有适用的法律和法规。

自定义文本分类处理哪些数据?

自定义文本分类处理以下数据:

  • 用户的数据集和标记文件:作为创建自定义文本分类项目的先决条件,用户需要将其数据集上传到其 Azure Blob 存储容器。 标记文件JSON 格式的文件,其中包含对用户的标记数据和类的引用。 用户可以自带标记,也可以通过 语言工作室中的 UI 体验标记数据。 无论哪种方式,包含标记数据和类的标记文件对于训练至关重要。

    用户的数据集拆分为训练集和测试集,其中拆分可由标记文件中的开发人员预定义,也可以在训练期间随机选择。 训练集和标记文件在训练期间进行处理,以创建自定义文本分类模型。 测试集稍后由训练的模型进行处理,以评估其性能。

  • 自定义文本分类模型:根据用户训练模型的请求,自定义文本分类处理所提供的标记数据以输出训练的模型。 用户可以选择训练新模型或覆盖现有模型。 然后,训练的模型存储在服务端,用于处理模型评估。 开发人员对模型的性能感到满意后,他们请求将模型部署以供消费使用。 部署的模型也存储在服务端,用于处理用户通过分析 API 进行预测的请求。

  • 发送分类的数据:此数据是用户通过 分析 API 从客户的客户端应用程序发送的文本,供自定义机器学习模型处理用于文本分类。 已处理数据的输出包含预测类及其置信度分数。 此输出将返回到客户端应用程序,以执行满足用户请求的作。

自定义文本分类不会收集或存储任何客户数据,以改进其机器学习模型或出于产品改进目的。 我们使用聚合遥测数据(例如使用了哪些 API 以及来自每个订阅和资源的调用次数)来监视服务。

自定义文本分类如何处理数据?

下图演示了数据的处理方式。

显示数据处理过程的示意图。

如何保留数据,以及哪些客户控件可用?

自定义文本分类是用于一般数据保护条例(GDPR)的数据处理工具。 根据 GDPR 策略,自定义文本分类用户完全控制通过 Language Studio 查看、导出或删除任何用户内容,或者通过使用语言 API 以编程方式查看、导出或删除任何用户内容。

你的数据仅存储在你的 Azure 存储帐户中。 自定义文本分类仅在训练期间有权从其中进行读取。

客户控制包括:

  • 用户提供的标记数据作为训练模型的先决条件保存在客户 Azure 存储帐户中,该帐户在创建过程中连接到项目。 客户可以通过 Language Studio 编辑或删除标记。
  • 自定义文本分类项目元数据存储在服务端,直到客户删除该项目。 项目的元数据是创建项目时填写的字段,例如项目名称、说明、语言、连接的 Blob 容器的名称和标记文件位置。
  • 经过训练的自定义文本分类模型存储在服务的 Azure 存储帐户中,直到客户删除它们。 每次用户重新训练模型时,都会覆盖模型。
  • 部署的自定义文本分类模型将保留在服务的 Azure 存储帐户中,直到客户删除部署或删除模型本身。 每次用户部署到相同的部署名称时,都会覆盖模型。

可选:客户数据的安全性

Azure 服务在维护适当的技术和组织措施以保护云中的客户数据的同时实现。

若要详细了解 Microsoft 的隐私和安全承诺,请参阅 Microsoft 信任中心

后续步骤