数据赋能大模型!高质量数据集采集汇聚标准现公开征集成员单位
高质量数据集已成为推动“人工智能+”在制造、交通、医疗、能源、金融等行业规模落地的重要前提。国家层面高度重视高质量数据资源体系建设,发布了《关于构建数据基础制度更好发挥数据要素作用的意见》《“数据要素X”三年行动计划(2024-2026年)》等政策文件为数据采集、治理、流通与要素化提供了顶层框架。2025年国家数据局发布104个高质量数据集典型案例,标志着我国高质量数据集建设进入系统推进阶段,数据要素市场化开发和人工智能生态建设同步加速。
当前,多模态数据采集、数据治理、数据标注与数据质量评估技术已具备应用基础,但在大规模工程化、跨模态一致性治理、版权与隐私保护、偏见识别与控制等方面仍处于快速迭代期,尚未形成稳定的通用技术体系。作为高质量数据集标准体系的关键组成,制定高质量数据集采集与汇聚标准,构建覆盖多模态、多语言、多领域的数据质量体系,对支撑人工智能产业规范化发展具有战略意义。
基于此,信创云联正在联合国内数据资产领域相关单位起草《人工智能大模型 高质量数据集采集汇聚要求》团体标准,旨在从源头规范数据采集汇聚的全流程,为大模型训练提供高质量、合规、安全的数据 “原料”,夯实 AI 发展根基、释放数据要素价值、提升产业竞争力与治理水平。
1. 标准主要内容

2. 标准核心亮点
01
紧扣国家战略并落地要素价值
构构建统一规范打破数据孤岛、降低流通成本,推动数据从 “训练资源” 向 “战略要素” 转化,同时减少低质量数据重复建设,实现数据建设的绿色化、集约化,为数据要素市场化配置和 “人工智能 +” 行业规模落地提供核心技术支撑。
02
精准锚定大模型时代核心需求
紧扣大模型 “模型与数据协同演进” 的研发范式,针对其对数据质量、多模态、规模化、体系化的专属需求制定规范,精准解决大模型训练中数据来源复杂、多模态治理缺失、过程不透明等行业痛点。
03 体系架构系统完整,直击产业核心痛点
构建了一个覆盖 “来源—质量—合规—格式” 四大关键维度的全生命周期治理框架。形成从源头甄别到汇聚管理、从质量控制到合规追溯的闭环要求,将数据质量控制前置,打造透明、可控、可验证的数据建设体系。
3. 标准参编价值
-
抢占行业话语权:将单位核心技术、实践经验融入标准条款,深度参与标准制定,作为“规则制定者”,引领行业技术发展方向。
-
构筑竞争壁垒:提前洞悉行业发展趋势,布局未来产业发展,规避合规风险,借助标准壁垒形成先发优势,在招投标、市场拓展中抢占先机。
-
生态互联互通:与行业顶尖企业、科研院所、权威专家深度协作,搭建产学研用协同网络,为技术创新、商业落地拓宽通路。
-
赋能品牌升级:作为标准研制单位列入标准文本,获得企业技术实力的硬核背书,显著提升品牌公信力与行业影响力,助力市场拓展与高端人才吸引。
-
享受政策红利:多地对参编标准企业给予专项资金补助,在高新技术企业、专精特新资质认定中享有加分优势,获得政策资源倾斜。
4. 起草组成员单位
信创云联正在组织国内数据要素领域相关单位起草“人工智能大模型 高质量数据集”系列五项团体标准,构成了一个从 “数据生产”到“价值实现”的完整、闭环且递进的高质量数据治理体系。系列标准相互支撑、层层递进,共同服务于人工智能(尤其是大模型)与数据要素产业的发展。项目清单如下:
1. 人工智能大模型 高质量数据集采集汇聚要求(本标准)
2. 人工智能大模型 高质量文本数据集标注技术要求
3. 人工智能大模型 高质量数据集合规规范
4. 人工智能 医疗影像高质量数据集通用要求
5. 数据资产 高质量数据集价值评估指南
-
中国汽车工程研究院股份有限公司
-
中国交通信息科技集团有限公司
-
中国检验认证集团重庆有限公司
-
中国检验认证集团山东有限公司
-
中国软件测评中心
-
中海服信息科技股份有限公司
-
中国价格协会数据价格专业委员会
-
北京理工大学
-
北京智网数科技术有限公司
-
北京字节跳动科技有限公司
-
广州数字科技集团有限公司
-
广州数字健康科技有限公司
-
浪潮电子信息产业股份有限公司
-
天津天融环境科技发展有限公司
-
西安交通大学管理学院
-
中国计量大学
-
更多单位确认中.....
为进一步扩大标准编制与宣贯工作的参与范围,提升标准的创新性、实用性及行业影响力,现面向全行业广泛征集优秀实践案例,诚邀数据要素领域相关单位共同参与标准建设:
数据持有与运营方
数据交易与服务市场
资产评估机构、会计师事务所、律所
投融资与产业创新平台
垂直行业应用方(金融、制造、医疗、教育等)
......
标准项目联系人:何威 联系电话:15652718626(同微信)









