DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

1个月前 (05-01)热点话题31

  DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

  论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

  DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

  Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

“DeepSeek新数学模型刷爆记录 刷新多项高难基准测试” 的相关文章

女子回家被鸭子堵截狗狗驱赶

女子回家被鸭子堵截狗狗驱赶

  女子回家被鸭子堵截狗狗驱赶。   4月27日,湖南一女子开车回家,来到了村口。一群鸭子大摇大摆的占据了路中间,把路给堵住了。女子猛按喇叭,要鸭子把路让开。鸭子对汽车喇...

震惊!董某博士论文与北科大专利多处雷同 学术不端疑云再起!

   董某博士论文与北科大专利多处雷同   【董某博士论文与北科大专利多处雷同】近日,一则关于董某博士论文与北京科技...

电梯内恐吓幼童面具女已道歉 家长诚恳致歉获谅解

电梯内恐吓幼童面具女已道歉 家长诚恳致歉获谅解

  4月28日,福建龙岩龙地华庭小区两名小女孩在电梯内被一名戴面具的女孩阻止关电梯门并多次恐吓。事发后,两名小女孩的母亲向警方报了案。辖区警方当天出警处理此事。   ...

鲁迅儿媳马新云逝世 文化传承者安详离世

鲁迅儿媳马新云逝世 文化传承者安详离世

  今天下午,鲁迅文化基金会发布讣告,宣布鲁迅先生儿媳、周海婴之妻、鲁迅文化基金会名誉理事长马新云女士于2025年4月29日上午10时在北京家中安详离世,享年94岁。  ...

阿维塔4月汽车销量11681台 创历史新高

  每经快讯,5月1日,阿维塔官方微博公布数据显示,2025年4月汽车销量11681台,同比增长122.6%,创历史新高。每日经济新闻...

中超:泰山1-1海牛遭3轮不胜,枪手旧将破门,谢文能替补送助攻 齐鲁德比平局收场

  北京时间5月1日,2025赛季中超联赛第10轮上演了一场齐鲁德比,山东泰山在主场对阵青岛海牛。上半场比赛双方均未能取得进球。   进入下半场,席尔瓦凭借个人能力突破防...