当前位置:首页 > 热点关注 > 正文内容

DeepSeek-V3.1正式发布 新版本效率大幅提升

2小时前热点关注4

   DeepSeek用户期待的R2模型尚未到来,但V3.1版本已经发布。8月21日,DeepSeek官方公众号宣布最新大语言模型DeepSeek-V3.1正式上线,距离上一个版本DeepSeek-V3-0324已有五个月。

  

   新版本在三个方面进行了升级:混合推理架构、更高的思考效率以及更强的Agent能力。从命名来看热点话题,DeepSeek-V3.1似乎是前一代DeepSeek-V3的小版本迭代。该模型支持两种工作模式——思考模式和非思考模式。面对简单问题时,它以非思考模式快速作答;处理复杂问题时,则切换到思考模式,提供更具深度和逻辑的答案。用户可以通过官方App或网页端的“深度思考”按钮来切换这两种模式。

  

   与之前的DeepSeek-R1-0528相比,DeepSeek-V3.1在思考模式下的效率大幅提升,能在更短时间内给出答案,并且经过思维链压缩训练后热点话题,token消耗量减少了20%至50%,同时保持了与R1-0528相当的任务表现。此外,在非思考模式下,新模型的输出长度也得到了有效控制,能够在输出长度明显减少的情况下保持相同的性能。

   通过Post-Training优化,新模型在工具使用与编程、搜索等智能体任务中的表现大幅提升。在代码修复和命令行终端任务测试中,DeepSeek-V3.1的表现显著优于以往模型。社区第三方测试数据显示,在Aider多语言编程基准测试中,V3.1取得了71.6%的高分,超越了多个知名模型,完成一次编程任务的成本仅为1.01美元,成本效益优势显著。

   随着V3.1的发布,DeepSeek调整了API接口调用价格,并取消了夜间优惠。自北京时间2025年9月6日凌晨起,输入价格方面,缓存命中时为0.5元/百万tokens,缓存未命中时则涨至4元/百万tokens;输出价格调整为12元/百万tokens。DeepSeek还在评论区提到,DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度,并对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。UE8M0 FP8是针对即将发布的下一代国产芯片设计的。DeepSeek-V3.1正式发布 新版本效率大幅提升 DeepSeek-V3.1正式发布 新版本效率大幅提升

相关文章

女生二次入伍上演“女兵突击” 巾帼不让须眉

女生二次入伍上演“女兵突击” 巾帼不让须眉

   看到孩子们清澈的眼神,我意识到自己是一名真正的战士了,有了要去保护的人。陈靓是北京外国语大学的学生,当她告诉母亲自己打算“二次入伍”的想法时,母亲心疼地问:“当兵的苦你已经尝过了,一...

董小姐父母何以跨界指导论文 学术背景引争议

董小姐父母何以跨界指导论文 学术背景引争议

   董小姐父母何以跨界指导论文。某某友好医院的肖医生东窗事发,牵出了一系列问题,其中最受瞩目的是一位名叫董小姐的学生。据说董小姐家境不凡,她来自协和医学院的一个名为“4 + 4”的培养项...

马代遭性侵女子称涉案管家是惯犯 案件两年未决引发关注

马代遭性侵女子称涉案管家是惯犯 案件两年未决引发关注

   马代遭性侵女子称涉案管家是惯犯 案件两年未决引发关注。4月29日,徐女士在马尔代夫旅游期间遭遇酒店管家性侵。她在社交媒体上发文称,案件至今未得到解决。尽管警方承诺尽快公布结果,但两年...

工人怕脚脏不肯进屋避雨 消防员暖心邀请

工人怕脚脏不肯进屋避雨 消防员暖心邀请

   近日,山东济宁,工人到消防站避雨,怕脚脏不肯进屋,消防员暖心邀请并递上热水。      ...

董某莹父亲为国企总经理?官方回应 正在核实中

董某莹父亲为国企总经理?官方回应 正在核实中

   近日,北京中日友好医院胸外科副主任医师肖某被举报婚内出轨多人,此事引发了广泛关注。与此同时,该院规培住院医师、协和医学院4+4博士董某莹也成为了焦点人物。   ...

法拉第未来称就做空启动法律行动 反击虚假信息

   法拉第未来5月1日称,针对对公司的“潜在非法做空行为”及社交媒体上“蓄意传播虚假误导性信息”,该公司已启动法律行动。...