您现在的位置:首页 > 人工智能 > 正文

红杉中国正式开源AI基准测试xbench评测集

2025-06-19 21:37:58   来源:界面新闻
------------------------------------------------------------------------------------------------------------------------------------------------------
6月18日,红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采用“黑白盒”机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbench的长期有效。
行业会议
2025重大科学问题、工程技术难题和产业技术问题发布
7月6日,在第二十七届中国科协年会主论坛上,中国科协发布2025重大科学问题、工程技术难题和产业技术问题。十大前沿科学问题包括:流形的拓扑和几何分类;希...
2025夏季达沃斯论坛将开启,今年有哪些新特点?
世界经济论坛第十六届新领军者年会(又称夏季达沃斯论坛)将于6月24日至26日在天津举行。作为洞察全球经济脉动和产业变革浪潮的重要窗口,本届夏季达沃斯论坛...
夏季达沃斯论坛在天津召开
昨日,第十六届新领军者年会(2025天津夏季达沃斯论坛)嘉宾陆续到达。 记者 孙立伟 摄今天,天津与老朋友——夏季达沃斯论坛再次相会。今起3天,第十六届新...
2天后!2025中国网络文明大会互联网公益发展论坛将...
倒计时2天!2025年中国网络文明大会互联网公益发展论坛即将举行!论坛将发布公益倡议,展示公益项目成果,更有行业大咖分享最新实践和前沿路径。让我们一起期...
第二届“一带一路”科技交流大会将在成都举办 聚...
记者3日从国新办举行的新闻发布会上获悉,第二届一带一路科技交流大会将于6月10日至12日在四川成都举办,目前已邀请到超过100个国家和国际组织的境外嘉宾出席...
企业纪事
娱乐
资讯
关于我们 | 联系我们 | 友情链接 | 版权声明
世科网【京ICP备2023019975号
Copyright © 2023 shikew.cn, All Right Reserved
版权所有 世科网
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。