Ted AI 播客主持人 Bilawal Sidhu 的 Manus AI 测评

Ted AI 主持人 Bilawal Sidhu 实测 Manus AI:33分钟内自主完成无人机合规选址、个性化音乐节行程规划、多维酒店推荐等复杂任务,初步实现“替代人类操作电脑”;受限于上下文长度与网站访问,但已展现智能体实用潜力。

发布于2025年3月11日 11:05
编辑零重力瓦力
评论0
阅读53

Manus 的开放测试已经有一段时间,但目前的实测信息仍然较为有限。Ted AI 播客主持人 Bilawal Sidhu 分享了一段自己的 Manus 实测视频,为我们更客观地了解 Manus 的优缺点提供了宝贵的参考。

在寻找奥斯汀市区无人机飞行地点的测试中,Manus 展现出了超越普通搜索引擎的综合分析能力。它不仅查阅法规、建立初选清单,还通过 Google Maps 和 Google Earth 进行实地考察,最终在33分钟内完成了一份专业的地点推荐。Bilawal 证实他确实曾在其中一处推荐地点成功进行过飞行。

在被要求研究 3D 高斯溅射和实景捕捉技术时,Manus 展现出了强大的信息搜索与整合能力。然而,由于信息量过大,它最终触及了上下文长度的限制。Manus 官方今日早些时候在 X 平台上也提及了因上下文长度受限而导致的性能问题,并表示将对其进行优化。而 Bilawal 则提出,或许可以引入 Gemini 2.0 Flash 作为内部规划模型,利用其高达 200 万 Token 的上下文长度,从而提升 Manus 的处理能力。

在帮助规划西南偏南音乐节行程时,Manus 首先主动研究了 Bilawal 的背景和兴趣,这种个性化的服务方式让推荐更有针对性。而在旧金山酒店推荐任务中,它考虑了从城市环境到区域安全,再到具体设施等多个维度,展示出全面的分析能力。

Bilawal 认为,Manus 最与众不同的地方在于它真正实现了"替代人类操作电脑"的承诺。用户只需提供高层面的目标,它就能自主完成从规划到执行的全过程。相比 Deep Research、Perplexity 或 OpenAI 的产品,Manus 提供的解决方案更加完整和实用。

不过,目前 Manus 仍存在一些局限,除了之前提到的上下文窗口限制问题,对某些网站的访问受到了限制,以及与桌面应用的集成还不够深入。但 Bilawal 对其未来发展持乐观态度,他设想未来能将 Manus 与 ChatGPT、ElevenLabs、Suno、Ideogram 等 AI 工具结合,创建更强大的工作流程。比如,用 ChatGPT 生成脚本,通过 ElevenLabs 处理语音,用 Suno 创建背景音乐,再用 Ideogram 生成配图,最后由 Claude 构建 3D 场景。

随着基础大模型的不断进步,以及更多高性能、专业小型模型的出现,Manus 这类智能体的能力还将进一步提升。它代表了 AI 助手未来发展的方向,不再局限于简单的对话或单一任务,而是一个掌握各种“能力”,能够真正帮助人类完成复杂任务的全能助手。

相关文章

Windsurf 2.0 拆解:Devin 被塞进编辑器,氛围编程终于有了“调度中心”
AI 编程开发
2026年6月2日
0 条评论
零重力瓦力

Windsurf 2.0 拆解:Devin 被塞进编辑器,氛围编程终于有了“调度中心”

Cognition 发布 Windsurf 2.0,深度整合 Devin 实现本地思考与云端执行分工。新版推出 Agent Command Center 支持多智能体可视化管理,搭载自研 SWE-1.5 模型大幅提升代码定位与编辑速度,并引入 Spaces 容器解决上下文延续问题。Pro 版调整为日配额制且包含 Devin 功能。相比 Cursor 3,Windsurf 2.0 凭借自研模型与云端执行能力,更适合处理陌生代码库及长任务自动化场景。

#智能体#AI 编程
阅读全文
多智能体为什么比单智能体强?Anthropic 用 90.2% 的数据给了答案
智能体工程
2026年6月2日
0 条评论
零重力瓦力

多智能体为什么比单智能体强?Anthropic 用 90.2% 的数据给了答案

Anthropic 研究显示,多智能体系统性能比单智能体提升 90.2%,其核心在于主智能体拆解任务与子智能体并行执行。尽管该架构 token 消耗约为单智能体的 15 倍,但在复杂任务中优势显著。业界已总结出五种协作模式,并有 n8n、CAMEL-AI 等落地案例。然而,多智能体仍面临调试难、输出不稳定等挑战。建议仅在任务复杂需并行、分工明确且能承担高成本时采用,简单任务直接使用强模型即可。

#智能体#智能体工程
阅读全文
Claude 新模型发布前让客户极限测试,Agent 落地成核心
AI 新闻资讯
2026年6月1日
0 条评论
小创

Claude 新模型发布前让客户极限测试,Agent 落地成核心

Anthropic 在发布新 Claude 模型前,通过头部客户极限测试验证真实业务表现,比单纯跑分更具参考价值。借助 Agent 能力,新模型在起草法律文件等复杂任务中成功率提升约 20%,实现持续准确输出。当前大模型发展重心已转向 Agent 在垂直场景的落地,边缘案例为下一代优化指明方向。这种与客户深度共创的模式建立了高信任壁垒,值得产品团队借鉴。

#Anthropic#智能体
阅读全文
互动讨论

评论区

围绕《Ted AI 播客主持人 Bilawal Sidhu 的 Manus AI 测评》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。