DeepSeek 发布 DeepSeek-R1-Lite-Preview 推理能力直逼 o1-preview

DeepSeek发布轻量推理模型R1-Lite-Preview,在AIME和MATH基准上性能接近o1-preview,支持全程可追溯的透明推理。虽解“蜗牛爬井”题耗时24秒(o1-preview约5秒),但通过自我反思修正逻辑错误,最终得出正确答案。模型将开源并开放API。

发布于2024年11月22日 07:03
编辑零重力瓦力
评论0
阅读47

Deepseek 发布了最新的推理模型 DeepSeek-R1-Lite-Preview, 在 AIME 和 MATH 基准测试中性能达到 o1-preview 的级别。新的推理模型提供全透明的推理过程,并会在近期提供开源版模型以及 API。

DeepSeek 发布 DeepSeek-R1-Lite-Preview 推理能力直逼 o1-preview

DeepSeek 发布 DeepSeek-R1-Lite-Preview 推理能力直逼 o1-preview

用经典蜗牛爬井问题对 DeepSeek-R1-Lite-Preview 和 Chatgpt o1-preivew 进行了测试。两者答案都正确,DeepSeek 的推理用了24秒,o1-preivew 用了大约5秒。

ChatGPT o1-preview 推理蜗牛爬井问题

DeepSeek-R1-Lite-Preview 推理蜗牛爬井问题

DeepSeek 详细推理过程

嗯,这道题挺有意思的。一口7米深的井里,有一只蜗牛,它白天往上爬3米,晚上会滑下2米。问蜗牛需要多少天才能爬出井口。首先,我得理解一下这个问题。蜗牛每天实际上净爬升多少呢?白天爬3米,晚上滑下2米,那每天净爬升1米。那如果这样算的话,7米的话,7天就能爬出去。但是,我觉得可能有哪里不对,因为最后一天可能不需要滑下去了,因为如果它已经爬出去了,晚上就不会再滑下去了。

所以,我需要更仔细地想一下。假设井深7米,蜗牛每天白天爬3米,晚上滑下2米。那么,第一天结束时,蜗牛的位置是3-2=1米。第二天结束时,是1+3-2=2米。第三天结束时,2+3-2=3米。第四天结束时,3+3-2=4米。第五天结束时,4+3-2=5米。第六天结束时,5+3-2=6米。第七天结束时,6+3-2=7米。

但是,按照这个计算,第七天结束时才到7米,但实际上,第七天白天爬3米,可以直接从6米爬到9米,已经超过了井口,所以它应该在第七天的白天就已经爬出去了,不需要等到晚上再滑下去。因此,实际上,蜗牛在第七天的白天就已经爬出去了,所以总共需要6天加上白天的一天,也就是7天。

不过,我再想想,第一天结束时1米,第二天2米,第三天3米,第四天4米,第五天5米,第六天6米,第七天白天爬到9米,超过了井深7米,所以确实是在第七天爬出去的。

但是,我觉得可能还有更简单的方法来计算这个问题。比如,考虑蜗牛每天净爬升1米,但是在最后一天,它可能不需要滑下去,所以总天数可能比单纯的净爬升天数少一天。

具体来说,如果井深是7米,蜗牛每天净爬升1米,那么理论上需要7天。但是在实际中,最后一天它可能在白天就已经爬出去了,所以可能少算一天。

不过,根据前面的计算,第七天白天它就爬出去了,所以总天数是7天。

不过,我再看看网上的类似问题,有些说是5天,有些说是7天,好像有不同的答案。可能是因为理解题意不同。

让我再重新理一下逻辑。假设井深7米,蜗牛白天爬3米,晚上滑下2米。

第一天:爬到3米,滑下2米,净1米。

第二天:从1米爬到4米,滑下2米,净2米。

第三天:从2米爬到5米,滑下2米,净3米.

第四天: 从3米爬到6米, 滑下2米, 净4米.

第五天: 从4米爬到7米, 滑下2米, 净5米.

Wait, 这里有问题。如果第五天白天爬到7米,就已经出井了,不需要滑下去了。所以实际上,第五天白天就已经出井了。

Wait, but根据前面的计算,第六天结束时是6米,第七天白天爬到9米,出井。那到底是第五天还是第七天?

看来我哪里算错了。

再重新来过。

第一天结束:1米。

第二天结束:2米.

第三天结束:3米.

第四天结束:4米.

第五天结束:5米.

第六天结束:6米.

第七天白天:从6米爬3米,到9米,出井。

所以,第七天出井。

但是,有人可能认为第五天白天爬到7米就出井了,不需要滑下去,所以第五天就出井了。

所以,可能有不同的理解。

可能题目的意思是井深7米,从井底算起,出井口就算出井了。

所以,如果蜗牛在某一天白天爬到或超过7米,就算出井了,不需要再滑下去。

那么,蜗牛每天早上从当前位置开始爬。

第一天早上:从0米爬到3米,晚上滑下2米,到1米.

第二天早上:从1米爬到4米,晚上滑下2米,到2米.

第三天早上:从2米爬到5米,晚上滑下2米,到3米.

第四天早上:从3米爬到6米,晚上滑下2米,到4米.

第五天早上:从4米爬到7米,出井了,不需要滑下去了.

所以,总共是5天.

看来我之前的计算有误,应该是5天。

可能我混淆了结束时的位置和出井的条件。

所以,正确答案应该是5天。

DeepSeek 详细展示了它的推理过程,尽管前两次推理出现了错误,但它通过反思机制进行了更正。让它发现自身推理错误的具体原因并不明确,看起来它能够通过互联网搜索类似问题的答案(也有可能这些信息来自其训练数据集)。

相关文章

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍
AI 产品工具
2026年6月21日
0 条评论
零重力瓦力

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍

微软研究院联合多所高校发布 Mirage 模型,通过在扩散模型隐空间直接存储三维记忆,解决了 AI 视频生成中场景一致性差及计算昂贵的问题。该方案摒弃传统 RGB 点云渲染流程,使生成速度提升最高 10.57 倍,显存占用降低 55 倍,且长视频边际成本几乎不增。测试显示其三维与光度一致性优于现有方案,虽暂不支持动态物体记忆,但已开源并适用于机器人仿真等静态场景任务。

#世界模型
阅读全文
Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了
AI 产品工具
2026年6月15日
0 条评论
零重力瓦力

Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了

Google 推出 Information Agents 功能,面向 AI Ultra 订阅用户开放。该功能将搜索从被动查询转变为主动监测,智能体可 7×24 小时追踪用户需求并推送变化信息。其底层依托 Personal Intelligence 战略,通过整合 Gmail、Photos 等跨应用数据实现个性化推理。尽管存在隐私与准确性挑战,但凭借二十年数据积累,Google 正推动 AI 助手从对话工具向自主代理进化,重塑“信息找人”的交互范式。

#Google#智能体
阅读全文
Kimi Work 上线:300 个子智能体在你的电脑上同时干活,个人 Agent 之战正式开打
AI 产品工具
2026年6月14日
0 条评论
零重力瓦力

Kimi Work 上线:300 个子智能体在你的电脑上同时干活,个人 Agent 之战正式开打

6 月首周,月之暗面、微软、Google 及 Databricks 密集发布智能体产品,标志着 AI 正从对话助手转向持续行动系统。其中 Kimi Work 主打本地桌面运行,支持多智能体并行与浏览器接管;Microsoft Scout 定位永远在线的个人助理;Google 推出 24 小时信息追踪智能体;Databricks 开源 Omnigent 实现跨智能体互操作。行业共识逐渐形成,智能体将具备自主调度、任务拆解及持续运行能力。

#智能体框架#智能体
阅读全文
互动讨论

评论区

围绕《DeepSeek 发布 DeepSeek-R1-Lite-Preview 推理能力直逼 o1-preview》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。