数据与数据治理——第10条
要求
高风险AI系统的训练、验证和测试数据集须符合特定的数据治理要求。
数据要求
数据集必须:
- 与预期用途相关
- 具有充分的代表性,特别是针对受影响的人群
- 尽可能无错误且完整
- 具备适当的统计特性(包括地理、行为和功能方面)
数据治理措施
提供者必须记录:
- 数据来源和收集方法
- 数据处理流程(标注、清洗、增强)
- 偏差评估及已采取的应对措施
- 检测和修复数据缺口与缺陷的措施
- 数据保护法律依据(GDPR合规性)
BAUER GROUP 实施方案
| 场景 | 方法 |
|---|---|
| BAUER自行训练模型 | 需要完整的数据治理文档 |
| BAUER使用第三方模型(API) | 记录供应商使用条款,进行输入/输出监控 |
| BAUER微调第三方模型 | 需要微调数据集的数据治理文档 |
不成比例的工作量
当数据治理要求(特别是训练数据文档化、偏差分析、代表性证明)超过产品价值时 → No-Go EU,仅在第三国市场销售。