关于征集“人工智能 高质量数据集”等六项团体标准参编单位和起草组成员的通知
2025-11-17 21:16:09 来源:
------------------------------------------------------------------------------------------------------------------------------------------------------
关于征集“人工智能 高质量数据集”等六项团体标准参编单位和起草组成员的通知
为促进人工智能产业高质量发展,规范高质量数据集开发与应用,根据《中华人民共和国标准化法》《国家标准化发展规划》等规定和要求,结合我国人工智能领域相关政策和行业发展需要,经协会标委会专家评审,计划开展“人工智能 高质量数据集”团体标准计划项目,并组织标准项目参编单位征集工作。项目清单如下:
表1 “人工智能 高质量数据集”系列团体标准计划项目
为了鼓励更多单位切实参加到标准编制宣贯过程中,提高标准编制宣贯工作的开放性、公正性、透明性,提升标准的创新性、实用性和影响力,现面向人工智能与数据要素领域相关企事业单位、高校院所、检测认证机构等征集标准项目参编单位,具体事项通知如下:
一、 项目背景介绍
随着大模型技术应用的不断深入,人工智能研发的重心正由“模型架构优化”向“模型与数据协同演进”转变,高质量数据在其中的关键作用日益凸显。作为人工智能发展的三大支柱之一,数据已成为大模型训练的核心战略资源,直接决定模型的最终性能与智能水平。加快构建高质量人工智能数据集,夯实人工智能发展的数据根基,对推动“人工智能+”在各场景的规模化落地具有战略意义。
国家高度重视高质量数据集的建设,陆续出台《关于构建数据基础制度更好发挥数据要素作用的意见》《“数据要素X”三年行动计划(2024-2026年)》《关于促进数据产业高质量发展的指导意见》等多项纲领性文件,为高质量数据资源体系建设提供顶层设计和制度保障。2025年8月,国家数据局发布104个高质量数据集典型案例,高质量数据集进入系统化、规模化推进阶段。目前,国家数据局协同多部门、多地区,建立起“部门协同、央地联动”的工作机制,系统化布局助力人工智能生态健康发展。
高质量数据集的应用需求从建立世界的基本认知,到解析复杂场景关系,再到规划执行具体行动,每一层都承载着不同的学习目标和能力要求。通过针对性建设高质量数据集,平衡各层次的发展需求,可以系统的推动人工智能从狭义智能向通用智能演进,实现真正意义上的智能系统。
近年来,全球高质量数据集建设进入加速阶段,欧美等发达经济体在开放共享、标准体系、平台化建设方面走在前列,形成了较为完善的多模态、多领域数据集生态体系;我国虽然在国家顶层设计和多方协同推动下,高质量数据集建设体系逐步完善,区域与行业层面呈现并进发展格局。但是,还存在一些不足:数据供给方面,结构性短缺与流通壁垒;技术实现方面,处理能力与工具链水平薄弱;安全合规方面,风险控制需与开放平衡;成本与模式方面,商业闭环还为形成。这些问题制约了高质量数据集建设的速度与质量,也影响了数据要素价值的有效释放。
高质量数据集目前正在快速发展初期,亟需围绕数据集全生命周期,完善数据集标准规范体系,组织制定数据标注、数据合成、建设运营能力评估、行业应用等系列标准,为高质量数据集建设、流通和应用提供依据。推动其建设从分散、无序走向集约化、规模化,构建一套科学完备的数据集标准体系,催生繁荣的数据要素市场。
二、 标准项目内容
1.人工智能 气象行业高质量数据集评价指南
主要内容:本标准将规定AI气象高质量数据集的评价原则、评价指标(基础质量、领域特性、AI就绪度、治理与合规)、评价方法(多级质量评级,为不同应用场景提供参考)、评价流程与评价报告。
拟解决问题:质量维度不统一问题、数据与场景脱节问题、标准合规缺失问题、评价流程无据可依问题。
2. 人工智能 大模型 高质量数据集采集汇聚要求
主要内容:本标准规定人工智能大模型高质量数据集全流程技术要求和管理规范,规范采集来源(多模态覆盖、多语言文化覆盖、领域均衡)、数据质量与处理要求(完整性、准确性、多样性、时效性,数据清洗与标注要求等)、合规与安全要求(版权审核、隐私保护、安全伦理)、格式规范要求(元数据规范、文档规范)。
拟解决问题:明确何为“高质量”数据,解决数据来源复杂、版权状态不清、个人隐私信息混杂的难题;解决数据社会偏见、歧视性内容以及违法有害信息问题,解决多模态数据统一治理标准缺失的问题,解决数据集构建过程“黑箱化”问题。
3. 人工智能 大模型 高质量文本数据集标注技术要求
主要内容:本标准规定了高质量数据集标注任务分类和标签体系、标注流程(任务定义、规则制定、预标注、人工标注等全流程)、标注人员管理、标注质量控制(一致性、覆盖率、偏差率、合格阈值)、数据安全(内容安全、脱敏处理等)、交付要求(格式、标注手册)。
拟解决问题:解决多标注员、多批次标注中因规则理解差异导致的结果偏差;解决复杂性任务规范缺失难题,解决标注质量难以衡量的问题。
4. 人工智能 大模型 高质量数据集合规要求
核心内容:本标准规定了人工智能高质量数据集知识产权合规(来源风险、授权许可、侵权等)、个人信息保护(识别与分类、脱敏处理、权益保障)、数据安全与跨境要求、内容安全与伦理要求、风险应对机制等内容。
拟解决问题:解决数据采集、标注、使用等环节中合规,破解数据生命周期合规管理合规;解决知识产权合规,解决跨境数据流通中的合规问题。
5. 人工智能 大模型 高质量数据集管理要求
主要内容:本文件规定了人工智能高质量数据集管理体系与职责(组织与角色、管理平台)、全生命周期管理(采集、清洗、标注、存档、共享、销毁)、质量管控与评估机制、版本与权限管理、存储与安全管理、共享与合规管理、持续维护与更新机制。
拟解决问题:解决“用错数据”这一根本性问题;解决数据集“老化”与性能衰减问题:解决数据集信息不透明问题;解决数据集“只生不灭”问题;解决数据集生命周期管理角色职责问题。
6. 数据资产 高质量数据集价值评估指南
主要内容:本标准提供了多维度、多方法的综合评估框架。给出价值评估原则、核心价值维度与指标体系(内在价值、成本价值、市场价值、经济效益价值)、评估方法与模型(成本法、收益法市场法等)、评估流程、结果应用等内容。
拟解决问题:解决数据误判高价值的问题;破解收益法、成本法、市场法在高质量数据集场景中选择依据不明确、参数测算不科学的问题;解决不同机构评估结果差异过大的问题;解决同一数据集在不同业务场景下价值差异问题。
三、 标准编制计划
协会团体标准制定流程需经过“五稿”(工作组讨论稿、征求意见稿、技术审查稿、报批稿、发布稿)、“两会”(征求意见会、技术审查会),整个周期一般控制在8-12个月,工作流程见表2。
根据协会安排,“人工智能 高质量数据集”系列标准预计2025年12月立项,计划5月份召开启动会暨首次研讨会,7月召开征求意见会,9-10月在全国团体标准信息平台公开意见征集,11月份召开技术审查会,12月发布。
表2 协会团体标准编制计划
四、起草单位 起草人资格条件
1.企业近三年(含成立不足三年)未发生较大及以上的安全、环保、质量等事故;
2.起草单位应为标准所涉及的相关领域企事业单位,具有行业代表性以及较高的制造和科研水平,重视标准化工作;
3.愿意承担开展标准化工作所需的资金、技术和人力支持;
4.标准起草人应熟悉行业相关工作,具有丰富的实践经验和较高的理论水平,并能够参与标准起草的各项工作。
五、起草单位、起草人享有以下权利
1.成为标准起草成员在标准文本中体现单位名称和起草人姓名。
2.授权标准起草单位荣誉称号,并颁发起草单位铜牌。
3.有限组织符合条件的单位开展“科技成果评价”。
4.为符合条件参与起草的企事业单位提供证明文件,协助符合条件的企事业单位申请办理财政补贴。
六、起草单位、起草人将承担以下义务
1.服从协会组织安排,能够积极参与该标准的启动、调研、征求意见、审查、报批等起草相关的各项事宜,按时完成标准起草组分配的各项工作任务。
2.在标准起草过程中提供的信息真实、客观、科学。
3.申报单位应严格按照《中国国际科技促进会团体标准制修订管理办法》规定开展工作,确保标准项目按时顺利完成。
七、申报要求
“人工智能 高质量数据集”系列标准由中国国际科技促进会标准化工作委员会联合信创云联(北京)智能技术研究有限公司共同组织,请申请参与标准起草的相关单位填写《起草单位申请表》(见附件)加盖单位公章,于2026年10月30日前将《申请表》以邮件形式送达起草组秘书。
八、参编流程
1.盖章并提交标准参编申请表(见附件);
2.中国国际科技促进会起草组审核;
3.签订协议;
4.加入标准编制组。
九、申报联系方式
标准工作组:CI0005
联系人:何老师
联系电话:15652718626
邮 箱:hewei5@126.com
为促进人工智能产业高质量发展,规范高质量数据集开发与应用,根据《中华人民共和国标准化法》《国家标准化发展规划》等规定和要求,结合我国人工智能领域相关政策和行业发展需要,经协会标委会专家评审,计划开展“人工智能 高质量数据集”团体标准计划项目,并组织标准项目参编单位征集工作。项目清单如下:
表1 “人工智能 高质量数据集”系列团体标准计划项目

为了鼓励更多单位切实参加到标准编制宣贯过程中,提高标准编制宣贯工作的开放性、公正性、透明性,提升标准的创新性、实用性和影响力,现面向人工智能与数据要素领域相关企事业单位、高校院所、检测认证机构等征集标准项目参编单位,具体事项通知如下:
一、 项目背景介绍
随着大模型技术应用的不断深入,人工智能研发的重心正由“模型架构优化”向“模型与数据协同演进”转变,高质量数据在其中的关键作用日益凸显。作为人工智能发展的三大支柱之一,数据已成为大模型训练的核心战略资源,直接决定模型的最终性能与智能水平。加快构建高质量人工智能数据集,夯实人工智能发展的数据根基,对推动“人工智能+”在各场景的规模化落地具有战略意义。
国家高度重视高质量数据集的建设,陆续出台《关于构建数据基础制度更好发挥数据要素作用的意见》《“数据要素X”三年行动计划(2024-2026年)》《关于促进数据产业高质量发展的指导意见》等多项纲领性文件,为高质量数据资源体系建设提供顶层设计和制度保障。2025年8月,国家数据局发布104个高质量数据集典型案例,高质量数据集进入系统化、规模化推进阶段。目前,国家数据局协同多部门、多地区,建立起“部门协同、央地联动”的工作机制,系统化布局助力人工智能生态健康发展。
高质量数据集的应用需求从建立世界的基本认知,到解析复杂场景关系,再到规划执行具体行动,每一层都承载着不同的学习目标和能力要求。通过针对性建设高质量数据集,平衡各层次的发展需求,可以系统的推动人工智能从狭义智能向通用智能演进,实现真正意义上的智能系统。
近年来,全球高质量数据集建设进入加速阶段,欧美等发达经济体在开放共享、标准体系、平台化建设方面走在前列,形成了较为完善的多模态、多领域数据集生态体系;我国虽然在国家顶层设计和多方协同推动下,高质量数据集建设体系逐步完善,区域与行业层面呈现并进发展格局。但是,还存在一些不足:数据供给方面,结构性短缺与流通壁垒;技术实现方面,处理能力与工具链水平薄弱;安全合规方面,风险控制需与开放平衡;成本与模式方面,商业闭环还为形成。这些问题制约了高质量数据集建设的速度与质量,也影响了数据要素价值的有效释放。
高质量数据集目前正在快速发展初期,亟需围绕数据集全生命周期,完善数据集标准规范体系,组织制定数据标注、数据合成、建设运营能力评估、行业应用等系列标准,为高质量数据集建设、流通和应用提供依据。推动其建设从分散、无序走向集约化、规模化,构建一套科学完备的数据集标准体系,催生繁荣的数据要素市场。
二、 标准项目内容
1.人工智能 气象行业高质量数据集评价指南
主要内容:本标准将规定AI气象高质量数据集的评价原则、评价指标(基础质量、领域特性、AI就绪度、治理与合规)、评价方法(多级质量评级,为不同应用场景提供参考)、评价流程与评价报告。
拟解决问题:质量维度不统一问题、数据与场景脱节问题、标准合规缺失问题、评价流程无据可依问题。
2. 人工智能 大模型 高质量数据集采集汇聚要求
主要内容:本标准规定人工智能大模型高质量数据集全流程技术要求和管理规范,规范采集来源(多模态覆盖、多语言文化覆盖、领域均衡)、数据质量与处理要求(完整性、准确性、多样性、时效性,数据清洗与标注要求等)、合规与安全要求(版权审核、隐私保护、安全伦理)、格式规范要求(元数据规范、文档规范)。
拟解决问题:明确何为“高质量”数据,解决数据来源复杂、版权状态不清、个人隐私信息混杂的难题;解决数据社会偏见、歧视性内容以及违法有害信息问题,解决多模态数据统一治理标准缺失的问题,解决数据集构建过程“黑箱化”问题。
3. 人工智能 大模型 高质量文本数据集标注技术要求
主要内容:本标准规定了高质量数据集标注任务分类和标签体系、标注流程(任务定义、规则制定、预标注、人工标注等全流程)、标注人员管理、标注质量控制(一致性、覆盖率、偏差率、合格阈值)、数据安全(内容安全、脱敏处理等)、交付要求(格式、标注手册)。
拟解决问题:解决多标注员、多批次标注中因规则理解差异导致的结果偏差;解决复杂性任务规范缺失难题,解决标注质量难以衡量的问题。
4. 人工智能 大模型 高质量数据集合规要求
核心内容:本标准规定了人工智能高质量数据集知识产权合规(来源风险、授权许可、侵权等)、个人信息保护(识别与分类、脱敏处理、权益保障)、数据安全与跨境要求、内容安全与伦理要求、风险应对机制等内容。
拟解决问题:解决数据采集、标注、使用等环节中合规,破解数据生命周期合规管理合规;解决知识产权合规,解决跨境数据流通中的合规问题。
5. 人工智能 大模型 高质量数据集管理要求
主要内容:本文件规定了人工智能高质量数据集管理体系与职责(组织与角色、管理平台)、全生命周期管理(采集、清洗、标注、存档、共享、销毁)、质量管控与评估机制、版本与权限管理、存储与安全管理、共享与合规管理、持续维护与更新机制。
拟解决问题:解决“用错数据”这一根本性问题;解决数据集“老化”与性能衰减问题:解决数据集信息不透明问题;解决数据集“只生不灭”问题;解决数据集生命周期管理角色职责问题。
6. 数据资产 高质量数据集价值评估指南
主要内容:本标准提供了多维度、多方法的综合评估框架。给出价值评估原则、核心价值维度与指标体系(内在价值、成本价值、市场价值、经济效益价值)、评估方法与模型(成本法、收益法市场法等)、评估流程、结果应用等内容。
拟解决问题:解决数据误判高价值的问题;破解收益法、成本法、市场法在高质量数据集场景中选择依据不明确、参数测算不科学的问题;解决不同机构评估结果差异过大的问题;解决同一数据集在不同业务场景下价值差异问题。
三、 标准编制计划
协会团体标准制定流程需经过“五稿”(工作组讨论稿、征求意见稿、技术审查稿、报批稿、发布稿)、“两会”(征求意见会、技术审查会),整个周期一般控制在8-12个月,工作流程见表2。
根据协会安排,“人工智能 高质量数据集”系列标准预计2025年12月立项,计划5月份召开启动会暨首次研讨会,7月召开征求意见会,9-10月在全国团体标准信息平台公开意见征集,11月份召开技术审查会,12月发布。
表2 协会团体标准编制计划
四、起草单位 起草人资格条件
1.企业近三年(含成立不足三年)未发生较大及以上的安全、环保、质量等事故;
2.起草单位应为标准所涉及的相关领域企事业单位,具有行业代表性以及较高的制造和科研水平,重视标准化工作;
3.愿意承担开展标准化工作所需的资金、技术和人力支持;
4.标准起草人应熟悉行业相关工作,具有丰富的实践经验和较高的理论水平,并能够参与标准起草的各项工作。
五、起草单位、起草人享有以下权利
1.成为标准起草成员在标准文本中体现单位名称和起草人姓名。
2.授权标准起草单位荣誉称号,并颁发起草单位铜牌。
3.有限组织符合条件的单位开展“科技成果评价”。
4.为符合条件参与起草的企事业单位提供证明文件,协助符合条件的企事业单位申请办理财政补贴。
六、起草单位、起草人将承担以下义务
1.服从协会组织安排,能够积极参与该标准的启动、调研、征求意见、审查、报批等起草相关的各项事宜,按时完成标准起草组分配的各项工作任务。
2.在标准起草过程中提供的信息真实、客观、科学。
3.申报单位应严格按照《中国国际科技促进会团体标准制修订管理办法》规定开展工作,确保标准项目按时顺利完成。
七、申报要求
“人工智能 高质量数据集”系列标准由中国国际科技促进会标准化工作委员会联合信创云联(北京)智能技术研究有限公司共同组织,请申请参与标准起草的相关单位填写《起草单位申请表》(见附件)加盖单位公章,于2026年10月30日前将《申请表》以邮件形式送达起草组秘书。
八、参编流程
1.盖章并提交标准参编申请表(见附件);
2.中国国际科技促进会起草组审核;
3.签订协议;
4.加入标准编制组。
九、申报联系方式
标准工作组:CI0005
联系人:何老师
联系电话:15652718626
邮 箱:hewei5@126.com









