您现在的位置:首页 > 大数据 > 正文

数据赋能大模型!高质量数据集采集汇聚标准现公开征集成员单位

2026-02-09 15:49:07   来源:
------------------------------------------------------------------------------------------------------------------------------------------------------
随着大模型技术应用的不断深入,人工智能研发的重心正由“模型架构优化”向“模型与数据协同演进”转变,高质量数据在其中的关键作用日益凸显。作为人工智能发展的三大支柱之一,数据已成为大模型训练的核心战略资源,直接决定模型的最终性能与智能水平。加快构建高质量人工智能数据集,夯实人工智能发展的数据根基,对推动“人工智能+”在各场景的规模化落地具有战略意义。

 

高质量数据集已成为推动“人工智能+”在制造、交通、医疗、能源、金融等行业规模落地的重要前提。国家层面高度重视高质量数据资源体系建设,发布了《关于构建数据基础制度更好发挥数据要素作用的意见》《“数据要素X”三年行动计划(2024-2026年)》等政策文件为数据采集、治理、流通与要素化提供了顶层框架。2025年国家数据局发布104个高质量数据集典型案例,标志着我国高质量数据集建设进入系统推进阶段,数据要素市场化开发和人工智能生态建设同步加速

 

当前,多模态数据采集、数据治理、数据标注与数据质量评估技术已具备应用基础,但在大规模工程化、跨模态一致性治理、版权与隐私保护、偏见识别与控制等方面仍处于快速迭代期,尚未形成稳定的通用技术体系。作为高质量数据集标准体系的关键组成,制定高质量数据集采集与汇聚标准,构建覆盖多模态、多语言、多领域的数据质量体系,对支撑人工智能产业规范化发展具有战略意义。

基于此,信创云联正在联合国内数据资产领域相关单位起草《人工智能大模型 高质量数据集采集汇聚要求团体标准旨在从源头规范数据采集汇聚的全流程,为大模型训练提供高质量、合规、安全的数据 “原料”,夯实 AI 发展根基、释放数据要素价值、提升产业竞争力与治理水平。

 

1. 标准主要内容


2. 标准核心亮点

01

 

紧扣国家战略并落地要素价值

构构建统一规范打破数据孤岛、降低流通成本,推动数据从 “训练资源” 向 “战略要素” 转化,同时减少低质量数据重复建设,实现数据建设的绿色化、集约化,为数据要素市场化配置和 “人工智能 +” 行业规模落地提供核心技术支撑。

02

 

精准锚定大模型时代核心需求

紧扣大模型 “模型与数据协同演进” 的研发范式,针对其对数据质量、多模态、规模化、体系化的专属需求制定规范,精准解决大模型训练中数据来源复杂、多模态治理缺失、过程不透明等行业痛点。

03  
体系架构系统完整,直击产业核心痛点

构建了一个覆盖 “来源—质量—合规—格式” 四大关键维度的全生命周期治理框架。形成从源头甄别到汇聚管理、从质量控制到合规追溯的闭环要求,将数据质量控制前置,打造透明、可控、可验证的数据建设体系。

3. 标准参编价值

 

  • 抢占行业话语权:将单位核心技术、实践经验融入标准条款,深度参与标准制定,作为“规则制定者”,引领行业技术发展方向。

     

  • 构筑竞争壁垒:提前洞悉行业发展趋势,布局未来产业发展,规避合规风险,借助标准壁垒形成先发优势,在招投标、市场拓展中抢占先机。

     

  • 生态互联互通:与行业顶尖企业、科研院所、权威专家深度协作,搭建产学研用协同网络,为技术创新、商业落地拓宽通路。

     

  • 赋能品牌升级:作为标准研制单位列入标准文本,获得企业技术实力的硬核背书,显著提升品牌公信力与行业影响力,助力市场拓展与高端人才吸引。

     

  • 享受政策红利:多地对参编标准企业给予专项资金补助,在高新技术企业、专精特新资质认定中享有加分优势,获得政策资源倾斜。

 

4. 起草组成员单位

 

信创云联正在组织国内数据要素领域相关单位起草“人工智能大模型 高质量数据集”系列五项团体标准,构成了一个从 “数据生产”到“价值实现”的完整、闭环且递进的高质量数据治理体系系列标准相互支撑、层层递进,共同服务于人工智能(尤其是大模型)与数据要素产业的发展。项目清单如下:

1. 人工智能大模型 高质量数据集采集汇聚要求(本标准)

2. 人工智能大模型 高质量文本数据集标注技术要求

3. 人工智能大模型 高质量数据集合规规范

4. 人工智能 医疗影像高质量数据集通用要求

5. 数据资产 高质量数据集价值评估指南

目前标准起草组核心单位正式确定,研制工作全面启动,部分成员单位名单如下:
    • 中国汽车工程研究院股份有限公司 

    • 中国交通信息科技集团有限公司

    • 中国检验认证集团重庆有限公司

    • 中国检验认证集团山东有限公司

    • 中国软件测评中心

    • 中海服信息科技股份有限公司

    • 中国价格协会数据价格专业委员会

    • 北京理工大学

    • 北京智网数科技术有限公司

    • 北京字节跳动科技有限公司

    • 广州数字科技集团有限公司

    • 广州数字健康科技有限公司

    • 浪潮电子信息产业股份有限公司

    • 津天融环境科技发展有限公司

    • 西安交通大学管理学院

    • 中国计量大学

    • 更多单位确认中.....

    为进一步扩大标准编制与宣贯工作的参与范围,提升标准的创新性、实用性及行业影响力,现面向全行业广泛征集优秀实践案例诚邀数据要素领域相关单位共同参与标准建设

     

    数据持有与运营方

    数据交易与服务市场

    资产评估机构、会计师事务所、律所

    投融资与产业创新平台

    垂直行业应用方(金融、制造、医疗、教育等)

    ......

           标准项目联系人:何威 联系电话:15652718626(同微信)  

    行业会议
    【数据资产标准研讨会】诚邀出席!9月19日于北京,...
    数据资产作为新质资产,已成为企业竞争力的关键要素。数据资产变现一般需要经过数据资源开发利用(数据资源化)—数据资产价值形成(数据资产化)—数据资产...
    2025重大科学问题、工程技术难题和产业技术问题发布
    7月6日,在第二十七届中国科协年会主论坛上,中国科协发布2025重大科学问题、工程技术难题和产业技术问题。十大前沿科学问题包括:流形的拓扑和几何分类;希...
    2025夏季达沃斯论坛将开启,今年有哪些新特点?
    世界经济论坛第十六届新领军者年会(又称夏季达沃斯论坛)将于6月24日至26日在天津举行。作为洞察全球经济脉动和产业变革浪潮的重要窗口,本届夏季达沃斯论坛...
    夏季达沃斯论坛在天津召开
    昨日,第十六届新领军者年会(2025天津夏季达沃斯论坛)嘉宾陆续到达。 记者 孙立伟 摄今天,天津与老朋友——夏季达沃斯论坛再次相会。今起3天,第十六届新...
    2天后!2025中国网络文明大会互联网公益发展论坛将...
    倒计时2天!2025年中国网络文明大会互联网公益发展论坛即将举行!论坛将发布公益倡议,展示公益项目成果,更有行业大咖分享最新实践和前沿路径。让我们一起期...
    企业纪事
    核心单位确认!“人工智能大模型 智能体”系列七...
    一、项目背景人工智能(AI)作为新一轮科技革命和产业变革的核心驱动力,既是技术创新的前沿,也是全球竞争的战略高地。当前,我国正处于加快培育新质生产力...
    OPB一人品牌由京拍档首次提出
    OPB(one person brand)一人品牌,有京拍档CEO王文峰首次提出来,受OPC(one person company)的启发,·一人公司一个人指挥着一群agent工作,...
    我国在水稻科技多个领域取得长足进展
    目前我国在镉低积累水稻新品种培育、无融合生殖固定水稻杂种优势、智慧稻作等水稻科技多个领域的理论创新与应用研究都取得了长足进展,籼粳杂交稻品种正在成...
    邀请函 | 《人工智能数据标注分析师能力评估规范...
    根据《国务院关于印发新一代人工智能发展规划的通知》《国家人工智能产业综合标准化体系建设指南(2024版)》《国家发展改革委等部门关于促进数据标注产业高...
    娱乐
    资讯
    关于我们 | 联系我们 | 友情链接 | 版权声明
    世科网【京ICP备2023019975号
    Copyright © 2023 shikew.cn, All Right Reserved
    版权所有 世科网
    本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。