当前位置:首页 > 热点关注 > 正文内容

DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

5个月前 (05-01)热点关注165

   DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

   论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

   DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

   Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

相关文章

马尔代夫酒店性侵案女子发声 维权艰难旅程

马尔代夫酒店性侵案女子发声 维权艰难旅程

   马尔代夫酒店性侵案女子发声!案发近两年进展缓慢,马尔代夫遭酒店管家性侵女生再发声:“经历误机、改签,好不容易才来的马代,当时想可能这辈子就来一次吧。”女生处处维权,酒店仍拒绝透露更多...

《天网》 20250430 失联的租客

   本期节目主要内容: 2022年12月6日,上海市公安局浦东分局江镇派出所接到报案,一名男子称,自己公司的一辆新能源轿车被人拆解了,车上的贵重零件都消失不见了。经过警方的调查,2023...

女子回应为免费提前半个月上高速 蹭五一免费通行

女子回应为免费提前半个月上高速 蹭五一免费通行

   4月30日,新疆阜康一名女子在自驾游时为了享受五一期间的高速免费政策,提前半个月从黑龙江出发前往乌鲁木齐。全程约3000多公里,预计节省1600余元高速费。徐女士表示,她正好赶上五一...

吃蓝莓前记得给它掏耳朵 蓝莓肚脐眼里的秘密

   蓝莓肚脐眼里的霉菌话题冲上热搜,引发网友热议。有人感叹原来蓝莓这个地方这么脏,甚至开玩笑说难怪蓝莓通便,原来是吃坏肚子了。还有人分享了用棉签清洗蓝莓的方法,建议大家在食用前给蓝莓“掏...

车祸现场白车骑隔离栏将另一车压住 变道引发连环撞

车祸现场白车骑隔离栏将另一车压住 变道引发连环撞

   5月1日上午,杭长高速金溪特大桥发生一起连环车祸。江西公安交管局交警表示,事故由变道引发,未造成人员伤亡。   ...

零食连锁巨头鸣鸣很忙冲刺港股IPO 去年营收净利润翻倍

零食连锁巨头鸣鸣很忙冲刺港股IPO 去年营收净利润翻倍

   并购赵一鸣零食后,连锁零售商鸣鸣很忙向港交所递交了上市申请。据港交所文件,湖南鸣鸣很忙商业连锁股份有限公司已正式提交上市申请。   ...