DeepSeek研究员在线爆料：过年都没歇还有大招！

互联网资讯来源：新浪证券 2025-02-05 12:01:35

大年初四Daya Guo发了一条推文，透露了春节期间让他最兴奋的事情，亲眼见证了R1-Zero模型性能曲线的 “持续增长”，并且直言感受到了强化学习（RL）的强大力量。

Daya Guo回复了网友有关DeepSeek R1的一些问题，以及接下来的公司的计划，只能说DeepSeek的R1仅仅只是开始，内部研究还在快速推进，DeepSeek的研究员过年都没歇，一直在爆肝推进研究，接下来DeepSeek还有大招。

网友提问：“如果不是秘密的话：这次RL训练跑了多久？”对此，Daya Guo表示，660B参数的R1-Zero和R1是在V3发布之后才开始跑的，训练大约花了2-3周。

此外，他还表示在尝试将R1应用于形式化证明环境，希望尽快向社区发布更好的模型。听Daya Guo的意思，他们在这方面已经有进展，未来可能会有更重磅的模型发布！期待值拉满！

关注公众号：拾黑（shiheibook）了解更多

友情链接：

*文章为作者独立观点，不代表简单下载站立场

本文由黄甫发表，转载此文章须经作者同意，并请附上出处( 简单下载站 )及本页链接。

原文链接 https ://down.0xu.cn/news/hlw/9381.html

DeepSeek 新浪证券

图库

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接

DeepSeek研究员在线爆料：过年都没歇 还有大招！