本文档正在积极开发中,尚未最终定稿。
Skip to content

数据与数据治理——第10条

要求

高风险AI系统的训练、验证和测试数据集须符合特定的数据治理要求。

数据要求

数据集必须:

  • 与预期用途相关
  • 具有充分的代表性,特别是针对受影响的人群
  • 尽可能无错误完整
  • 具备适当的统计特性(包括地理、行为和功能方面)

数据治理措施

提供者必须记录:

  • 数据来源和收集方法
  • 数据处理流程(标注、清洗、增强)
  • 偏差评估及已采取的应对措施
  • 检测和修复数据缺口与缺陷的措施
  • 数据保护法律依据(GDPR合规性)

BAUER GROUP 实施方案

场景方法
BAUER自行训练模型需要完整的数据治理文档
BAUER使用第三方模型(API)记录供应商使用条款,进行输入/输出监控
BAUER微调第三方模型需要微调数据集的数据治理文档

不成比例的工作量

当数据治理要求(特别是训练数据文档化、偏差分析、代表性证明)超过产品价值时 → No-Go EU,仅在第三国市场销售。

文档基于 CC BY-NC 4.0 许可 · 代码基于 MIT 许可