这个关于 GPT-5 的传闻改变了一切

作者:Alberto Romero
翻译:零重力瓦力
原文链接:https://www.thealgorithmicbridge.com/p/this-rumor-about-gpt-5-changes-everything

让我们以一个令人兴奋的话题开始这一年

如果我告诉你 GPT-5 早已存在? 不仅存在,而且已经在暗中影响着世界。这是我的假设:OpenAI 确实开发出了 GPT-5,但选择将其保留在内部使用,因为这样做的投资回报远超过将其发布给数百万 ChatGPT 用户。而且,他们获得的回报不是金钱,而是其他东西。如你所见,这个想法很简单,挑战在于将那些零散的线索连接起来。这篇文章将深入探讨为什么我认为这一切都说得通。

首先让我说清楚,这纯粹是推测,证据都是公开的,没有泄密或任何内部消息。事实上,我是在写这篇文章的过程中建立起这个理论的,而不是在分享一个既有的理论。我没有什么特殊信息渠道,如果有的话,我也会受到保密协议的约束。而这个假设之所以会令人信服,仅仅因为它很合理。

是否接受我的这种推测取决于你。即使我是错的(最终我们总会知道),我认为这也是一个有趣的探索练习。我邀请你在评论区进行推测,但请保持建设性和深思熟虑。另外,请先阅读全文。除此之外,欢迎所有的讨论。

一、Opus 3.5 的神秘消失

在讨论 GPT-5 之前,我们要先拜访一下它的远亲,同样下落不明的 Anthropic 的 Claude Opus 3.5。

众所周知,三大顶级 AI 实验室,OpenAI、Google DeepMind 和 Anthropic,都提供了一系列模型,旨在覆盖价格/延迟与性能之间的光谱。OpenAI 提供 GPT-4o、GPT-4o mini 以及 o1 和 o1-mini。Google DeepMind 提供Gemini Ultra、Pro 和 Flash,Anthropic 则有 Claude Opus、Sonnet 和 Haiku。目标很明确,满足尽可能多的客户需求。有些客户优先考虑性能,不在乎成本,而其他人则寻求价格适中、足够好用的解决方案。到目前为止,一切正常。

但 2024 年 10 月发生了一些奇怪的事情。所有人都期待 Anthropic 会宣布发布 Claude Opus 3.5 作为对 GPT-4o (2024年5月发布) 的回应。然而,10月22日他们只发布了 Claude Sonnet 3.5 的更新版本(人们开始称之为 Sonnet 3.6)。Opus 3.5 不见踪影,似乎让 Anthropic 失去了与 GPT-4o 直接竞争的产品。很奇怪,对吧? 以下是关于 Opus 3.5 的事件时间表:

  1. 10月28日,我在周评中写道:"有传闻说 Sonnet 3.6 其实是 Opus 3.5 一次失败训练过程中的中间版本。" 同样在10月28日,Reddit上出现一篇帖子:" Claude 3.5 Opus 已被取消",并链接到 Anthropic 的模型页面,截至今日该页面仍未提及 Opus 3.5。有人推测这是为了在即将到来的新一轮融资前保持投资者信心的战略性举动。
  2. 11月11日,Anthropic CEO Dario Amodei 在 Lex Fridman 播客中否认了这些传闻,称他们并未放弃 Opus 3.5:"虽然不能给出具体日期,但据我们所知,推出 Claude 3.5 Opus 的计划仍在进行中。" 虽然回答谨慎且模糊,但也算是一个有效的回应。
  3. 11月13日,彭博社证实了早前的传闻:"在训练后,Anthropic 发现 3.5 Opus 在评估中的表现确实比旧版本好,但考虑到模型的规模以及建造和运行的成本,提升幅度并不如预期。"看来 Dario 之所以不愿给出具体日期,是因为尽管 Opus 3.5 的训练并未失败,但其结果令人失望。注意,重点是性价比,而不是单纯的性能。
  4. 12月11日,半导体专家 Dylan Patel 和他的 Semianalysis 团队带来了最后的转折,提出了一个将所有线索串联成连贯故事的解释:"Anthropic 完成了 Claude 3.5 Opus 的训练,其表现良好,扩展性也合适...但Anthropic 却没有发布它。这是因为他们没有公开发布,而是将 Claude 3.5 Opus 用于生成合成数据,同时结合用户数据,用于改进 Claude 3.5 Sonnet 的奖励建模。"

简而言之,Anthropic 确实训练了 Claude Opus 3.5。他们放弃了这个名字是因为它不够好。Dario 相信不同的训练过程可以改善结果,所以避免给出具体日期。彭博社证实结果确实比现有模型好,但不足以证明推理成本合理(推理既人们使用模型的过程)。Dylan 和他的团队揭示了神秘的 Sonnet 3.6 与消失的 Opus 3.5 之间的联系,后者被内部用来生成合成数据以提升前者的性能。

二、更好但同时更小更便宜?

使用一个强大但昂贵的模型来生成数据以提升稍弱但更便宜的模型性能的过程称为蒸馏。这是一种常见做法。这种技术使 AI 实验室能够将他们的小型模型改进到仅靠额外预训练无法达到的程度。

蒸馏有各种方法,但我们不会深入讨论。你需要记住的是,一个强大的模型作为 "教师" 可以将 "学生" 模型从 [小型、便宜、快速] + 弱,变成 [小型、便宜、快速] + 强大。蒸馏将强大模型变成了金矿。Dylan 解释了为什么 Anthropic 在 Opus 3.5-Sonnet 3.6 组合中这样做是有意义的。

推理成本 [新Sonnet与旧Sonnet相比] 没有显著变化,但模型性能提升了。如果从成本角度来看,发布 3.5 Opus 相比发布经过 3.5 Opus 进一步后训练的 3.5 Sonnet 在经济上并不合理,那为什么要发布3.5 Opus呢?Dylan

我们回到成本问题,蒸馏在保持推理支出低廉的同时提升了性能。这立即解决了彭博社报道的主要问题。Anthropic 选择不发布 Opus 3.5 除了性能不佳外,更重要的是它在内部更有价值。(Dylan说这就是为什么开源社区能这么快赶上 GPT-4,他们直接从 OpenAI 的金矿中获取黄金。)

最令人震惊的发现是什么?Sonnet 3.6 不仅仅是好,它达到了最先进的水平。比 GPT-4o 更好。Anthropic 的中端模型在 Opus 3.5 的蒸馏帮助下(可能还有其他原因,五个月在 AI 领域是很长的时间)超越了 OpenAI 的旗舰产品。突然间,高成本作为高性能的替代指标被证明是一个谬论。

"更大就是更好"的说法怎么了?OpenAI 的 CEO Sam Altman 警告说那个时代结束了。我也写过这个问题。一旦顶级实验室变得保守,小心翼翼地保护他们珍贵的知识,他们就停止分享具体数字。参数数量不再是可靠的衡量标准,我们明智地将注意力转向了基准测试性能。OpenAI 最后一次正式披露的模型规模是 2020 年的 GPT-3,拥有 1750 亿参数。到 2023年6月,有传言称 GPT-4 是一个混合专家模型,总计约有1.8万亿参数。Semianalysis 后来在详细评估中证实了这一点,得出 GPT-4 有 1.76 万亿参数的结论。这是2023年7月的事。

直到2024年12月,一年半之后,EpochAI(一个专注于AI未来影响的组织)的研究员 Ege Erdil 估计,领先的 AI 模型,包括 GPT-4o 和 Sonnet 3.6,比 GPT-4 要小得多(尽管两者在基准测试中都比 GPT-4 表现更好)。

...当前的前沿模型如原始GPT-4o和Claude 3.5 Sonnet可能比GPT-4小一个数量级,4o约有2000亿参数,3.5 Sonnet约有4000亿参数...虽然考虑到我得出这个数字的粗略方式,这个估计很容易有2倍的误差。EpochAI 研究员 Ege Erdil

他详细解释了在实验室不发布任何架构细节的情况下如何得出的这个数字,但这对我们来说并不重要。重要的是迷雾正在散去,Anthropic 和 OpenAI 似乎都在遵循类似的轨迹。他们最新的模型不仅更好,而且比上一代更小更便宜。我们知道 Anthropic 是通过将 Opus 3.5 蒸馏成 Sonnet 3.6 来实现的。但 OpenAI 是怎么做到的呢?

三、推动AI实验室的力量是普遍的

人们可能会认为 Anthropic 的蒸馏方法是由独特情况驱动的,即 Opus 3.5 训练的结果令人失望。但实际上,Anthropic 的情况并不独特。Google DeepMind 和 OpenAI 也都报告了最新训练运行的欠佳结果。(记住欠佳并不等于更差的模型。)造成这种情况的原因对我们来说并不重要。数据不足导致的收益递减、Transformer 架构固有的限制、预训练扩展规律的平台期等。无论如何,Anthropic 的独特情况实际上相当普遍。

但记住彭博社的报道,性能指标的好坏只有在考虑成本的情况下才能判断。这是否也是一个共同因素?是的,Ege 解释了原因,ChatGPT/GPT-4 热潮后需求激增。生成式 AI 的普及速度如此之快,以至于实验室难以跟上,导致亏损不断增加。这种情况促使它们都要降低推理成本(训练运行只做一次,但推理成本随着用户数量和使用量的增加而增加)。如果 3 亿人每周都在使用你的 AI 产品,运营支出就会要了你的命。

无论是什么驱使 Anthropic 将 Sonnet 3.6 从 Opus 3.5 中蒸馏出来,都对 OpenAI 产生了数倍的影响。蒸馏之所以有效,是因为它将这两个普遍挑战转化为优势。你通过提供较小的模型解决推理成本问题,并通过不发布较大的模型来避免公众失望。

Ege 建议 OpenAI 可能选择了另一种方法:过度训练。这个方法是让小型模型学习比正常情况下更多的数据,即使这样做在计算效率上并不是最理想的。"当推理成为模型支出的主要或主导部分时,最好...在更多 Tokens 上训练更小的模型。"但过度训练现在已经不可行了。AI 实验室已经耗尽了预训练的高质量数据源。Elon Musk 和 Ilya Sutskever 最近几周都承认了这一点。

我们又回到了蒸馏。Ege 总结道:"我认为 GPT-4o 和 Claude 3.5 Sonnet 很可能都是从更大的模型中蒸馏而来的。"

到目前为止的每一个拼图都表明,OpenAI 正在做 Anthropic 用 Opus 3.5 做的事情(训练并隐藏),用相同的方式(蒸馏),出于相同的原因(性能欠佳/成本控制)。这是一个发现。但等等,Opus 3.5 依然被隐藏。那 OpenAI 的类似模型在哪里?它是否藏在公司的地下室里?要不要猜一个名字...?

四、开辟道路者必须清理道路

我从研究 Anthropic 的 Opus 3.5 故事开始这个分析,因为这是我们掌握信息最多的故事。然后我用蒸馏的概念搭建了一座通向 OpenAI 的桥梁,并解释了为什么推动 Anthropic 的潜在力量也在推动 OpenAI。然而,我们的理论面临一个新障碍。因为 OpenAI 是先驱,他们可能面临着像 Anthropic 这样的竞争对手尚未遇到的问题。

其中一个障碍是训练 GPT-5 的硬件需求。Sonnet 3.6 与 GPT-4o 相当,但它晚了五个月才发布。我们应该假设 GPT-5 处于另一个层次。更强大更庞大。不仅推理成本高,训练成本也高。我们可能在谈论一个 5 亿美元的训练过程。用当前的硬件能否做到这样的事情?

Ege 再次来救场,为3亿人提供这样一个庞然大物将是负担不起的。但训练?小菜一碟:

"原则上,即使我们当前的硬件也足以服务比 GPT-4 大得多的模型。例如,一个放大 50 倍的 GPT-4 版本,拥有约100万亿参数,可能以每百万输出 Tokens 需要花费 3000 美元的成本和每秒 10-20 个 tokens 的输出速度提供服务。然而,要使这成为可能,这些大型模型必须为使用它们的客户创造大量经济价值。"

然而,即使是微软、谷歌或亚马逊这样的科技巨头(它们分别是 OpenAI、DeepMind 和 Anthropic 的赞助商),也无法证明如此高昂的推理费用是合理的。除非他们能通过向公众提供这种拥有数万亿参数的模型来创造巨大的经济价值,否则这笔支出难以接受。正因如此,他们选择了不同的路径。

他们确实会训练这些模型,并证实了它们"比现有产品表现更好"。但最终不得不接受一个现实:这些进步"还不足以证明持续运营所需的巨大成本是合理的"。(这个措辞是否让你觉得耳熟?它来自《华尔街日报》一个月前关于 GPT-5 的报道,与彭博社此前关于 Opus 3.5 的描述惊人地相似。)

他们报告了令人失望的结果(或多或少准确,他们总是可以在这里玩弄叙事)。他们将其作为大型教师模型保留在内部,用于蒸馏较小的学生模型。然后他们发布这些模型。我们得到了Sonnet 3.6 和 GPT-4o 和 o1,并且非常高兴它们既便宜又相当好用。对 Opus 3.5 和 GPT-5 的期待依然存在,即使我们的耐心在增长。而他们的口袋继续像金矿一样闪耀。

五、Altman 先生,你肯定还有其他理由!

当我在调查中达到这一点时,我仍然不确信。当然,所有证据都表明这对 OpenAI 来说很有道理,甚至可能性很大。但在某事合理甚至可能之间和它成为真实之间存在着差距。我不会为你弥合这个差距,毕竟这只是推测。但我可以进一步加强论据。

是否有任何额外的证据表明 OpenAI 是这样运作的?他们是否有更多理由不公开 GPT-5,除了欠佳的性能和不断增加的损失?我们能从 OpenAI 高管关于 GPT-5 的公开声明中提取什么?他们不断推迟模型发布是否在冒险损害声誉?毕竟,OpenAI 是 AI 革命的标杆,而 Anthropic 在其阴影下运营。Anthropic可以负担得起这些举措,但OpenAI呢?也许会付出更大的代价。

说到钱,让我们挖出一些关于 OpenAI 和微软合作关系的相关细节。首先,每个人都知道的事实:AGI条款。在 OpenAI 关于其公司架构的博客文章中,他们有五个治理条款,描述了它的运作、与非营利组织的关系、与董事会的关系以及与微软的关系。第五条将 AGI 定义为"一个在大多数具有经济价值的工作中超越人类的高度自主系统",并规定一旦 OpenAI 董事会声称已经实现 AGI,"这样的系统将被排除在与微软的 IP 许可和其他商业条款之外,这些条款只适用于前 AGI 技术。"

不用说,OpenAI 和微软都珍视它们的合作关系。虽然 OpenAI 制定了"一旦开发出AGI就要将其公开"的条款,但他们会想方设法避免触发这一条件。他们采取了两种策略:

首先,推迟发布任何可能被认定为 AGI 的系统。你可能会说:"但 GPT-5 显然不是 AGI 啊。"

这就引出了第二个鲜为人知的关键点:OpenAI 和微软在法律协议中对 AGI 有着独特的定义 - 它不是基于科学标准,而是以商业指标来衡量:一个能产生至少1000亿美元利润的 AI 系统才算 AGI。这个定义在科学讨论中可能毫无意义,但它巧妙地构建了两家公司的合作框架。

如果 OpenAI 以还未准备好为借口而扣留 GPT-5,他们将不仅实现成本控制和防止公众反弹,他们还会避免需要声明它是否达到被归类为 AGI 的门槛。虽然 1000 亿美元的利润是一个非凡的数字,但没有什么能阻止雄心勃勃的客户通过在其基础上构建各种应用来实现。另一方面,让我们说清楚,如果 OpenAI 预计 GPT-5 能带来每年 1000 亿美元的经常性收入,他们不会介意触发 AGI 条款并与微软分道扬镳。

对 OpenAI 不发布 GPT-5 的大多数公众反应都基于这样的假设,他们不这样做是因为它不够好。即使这是真的,也有怀疑者认为 OpenAI 可能有比他们从外部获得的任何东西更好的内部工具。创建一个优秀的模型和创建一个可以廉价地服务于 3 亿人的优秀模型之间存在着巨大的差异。如果你做不到,你就不做。但同样,如果你不需要这样做,你就不做。他们之前给我们访问他们最好的模型是因为他们需要我们的数据。现在不那么需要了。他们也不追求我们的钱。那是微软,不是他们。他们想要 AGI 然后是 ASI(Artificial Superintelligence)。他们想要一个遗产。

六、为什么这改变了一切

我们几乎得到了最终答案。我相信我已经提出了足够的论据来建立一个坚实的结论,OpenAI 很可能已经在内部运行着 GPT-5,就像 Anthropic 使用 Opus 3.5 一样。OpenAI 甚至可能永远不会发布 GPT-5。公众现在根据o1/o3 而不仅仅是 GPT-4o 或 Claude Sonnet 3.6 来衡量性能。随着 OpenAI 探索测试时扩展规律, GPT-5 需要跨越的门槛不断提高。考虑到他们生产的速度,他们怎么可能发布一个真正超越 o1、o3 和即将到来的 o 系列模型的 GPT-5 呢?此外,他们不再需要我们的钱或我们的数据了。

训练新的基础模型,例如 GPT-5、GPT-6 及以后的模型,对 OpenAI 内部来说永远有意义,但它们未必是作为一款产品。那可能已经结束了。现在对他们来说唯一重要的目标是继续为下一代模型生成更好的数据。从现在开始,基础模型可能在幕后运作,使其他模型能够实现它们自己无法实现的壮举。就像一个老隐士从秘密山洞中传递智慧,只不过这个山洞是一个庞大的数据中心。无论我们是否见到他,我们都将经历他的智慧带来的后果。

即使 GPT-5 最终发布,这个事实突然显得几乎无关紧要。如果 OpenAI 和 Anthropic 确实启动了"递归自我改进"操作(尽管仍有人类参与),那么他们公开给我们什么都无关紧要。他们将越来越远地领先,就像宇宙膨胀得如此之快,以至于远处星系的光再也无法到达我们这里。

也许这就是 OpenAI 如何在短短三个月内从 o1 跳到 o3。以及他们将如何跳到 o4 和 o5。这可能也是为什么他们最近在社交媒体上如此兴奋。因为他们已经实施了一种新的改进的运作模式。

你真的认为接近 AGI 意味着你能在指尖获得越来越强大的 AI?他们会发布每一个进步供我们使用?你肯定不相信这个。当他们说他们的模型会让他们遥遥领先到任何人都无法追赶时,他们是认真的。每一代新模型都是逃逸速度的引擎。从平流层开始,他们已经在向我们挥手告别了。

至于他们是否会回来,还有待观察。