DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

3个月前 (05-01)热点话题82

  DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

  论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

  DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

  Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

“DeepSeek新数学模型刷爆记录 刷新多项高难基准测试” 的相关文章

浙江正上演“升温连续剧”,假期开启后,30℃ 将成常态 夏日体验卡上线

浙江正上演“升温连续剧”,假期开启后,30℃ 将成常态 夏日体验卡上线

  浙江正在经历一波升温过程。昨天上午,尽管多地出现大雾,但随着太阳升起,气温迅速攀升,全省最高气温达到约27℃,永嘉和瑞安的气温几乎突破30℃。   ...

《动画大放映》 20250429 18:35 22

  本期节目主要内容:1.《喜羊羊与灰太狼 羊村守护者8 心世界奇遇》 第15集 坚持的尾巴;2.《喜羊羊与灰太狼 羊村守护者8 心世界奇遇》 第16集 劳累的躯干;3.《喜羊羊与灰太狼...

美乌矿产协议预计最早于今日签署 最终细节敲定中

  4月30日,乌克兰第一副总理兼经济部长尤利娅·斯维里登科在美国华盛顿与美方商讨矿产资源协议的技术细节。双方预计最早可能在当天签署该协议。...

五一期间全国高速日均流量增长8.1% 假期出行热度高涨

  据交通运输部路网中心研判,今年“五一”期间全国高速公路日均流量预计达到6200万辆,同比增长8.1%。假期首日,高速流量峰值预计为平日的2.1倍。整个假期中,全国高速小客车的日均流量占...

重庆为观看无人机表演的游客们封路 五一假期出行提示

重庆为观看无人机表演的游客们封路 五一假期出行提示

  五月一日,愉快的“五一”假期正式开始。来渝中区不仅可以购物和品尝美食,还能观看无人机灯光秀。   ...

比尔盖茨患马斯克同款疾病 女儿曝料引热议

比尔盖茨患马斯克同款疾病 女儿曝料引热议

  比尔·盖茨的女儿菲比·盖茨在一次播客节目中透露,她的父亲患有阿斯伯格综合征。这种神经发育障碍性疾病主要表现为社会交往异常和局限且异常的兴趣行为模式。22岁的菲比提到,当她带男友见父亲时...