当前位置:首页 > 热点关注 > 正文内容

DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

3个月前 (05-01)热点关注86

   DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

   论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

   DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

   Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

相关文章

欢迎神十九回家 搜救演练准备就绪

欢迎神十九回家 搜救演练准备就绪

   按照计划,神舟十九号航天员乘组将于4月29日返回东风着陆场。4月25日,着陆场区组织所有搜救力量进行了最后一次全系统综合演练,做好迎接航天员回家的准备。   ...

中国跳水队“水立方”开练 备战世界杯总决赛

   4月30日,国家游泳中心“水立方”内热闹非凡,陈艺文、陈佳、郑九源等中国跳水队选手在现场进行了训练。2025年世界泳联跳水世界杯总决赛将于5月2日至5月4日在“水立方”举行。中国跳水...

男生旅游被马蝇咬后掉痂 伤口发现寄生虫 非洲游历惊现罕见病例

   近日,江苏南京的一位高同学从非洲旅游归来后,发现自己身上的“蚊子包”里竟然有虫子在动。最终,医生从他的左右腿中各取出一只马蝇幼虫,这段经历在网上引起了热议。   ...

戈贝尔爆砍27分24篮板 创生涯季后赛新高

戈贝尔爆砍27分24篮板 创生涯季后赛新高

   北京时间5月1日,NBA季后赛中,森林狼以103-96战胜湖人,系列赛总比分4-1淘汰对手。比赛中,戈贝尔在禁区内表现出色,出场39分钟,投篮15次命中2球,罚球6中3,贡献了27分...

常远《人生开门红》首波口碑出炉 喜剧黑马潜力股

常远《人生开门红》首波口碑出炉 喜剧黑马潜力股

   五一档来了,终于又有电影可以看了。尽管看起来没有太多大片,但今年的五一电影市场竞争依然激烈。马丽主演的《水饺皇后》声势浩大。刘伟强导演重出江湖,带来了一部女性题材作品,成绩亮眼。漫威...

欧联杯半决赛:毕尔巴鄂竞技0比3曼联 主场惨败创纪录

欧联杯半决赛:毕尔巴鄂竞技0比3曼联 主场惨败创纪录

   毕尔巴鄂竞技在欧联杯半决赛首回合比赛中,主场0-3惨败给曼联,这是该队在欧战主场遭遇的最大失利之一。此前,在2009年12月的欧联杯比赛中,毕尔巴鄂竞技也曾主场0-3输给云达不莱梅。...