OpenAI 正式发布了两款开放权重大型语言模型

OpenAI 五年来首次开放模型权重,发布 gpt-oss-120b 与 gpt-oss-20b 两款 MoE 架构大模型,支持代码生成、数学推理等任务;前者可在单卡 GPU 运行,后者适配笔记本;Apache 2.0 开源,已上线 Amazon Bedrock 与 SageMaker。

发布于2025年8月6日 03:19
编辑零重力瓦力
评论0
阅读31

OpenAI 正式发布了两款开放权重大型语言模型

OpenAI 正式发布了两款开放权重的大型语言模型:gpt-oss-120b 和 gpt-oss-20b。这是自 GPT-2 以来,OpenAI 时隔五年再次向公众开放模型权重,并首次在 Amazon Bedrock 与 SageMaker 平台同步上线。此次发布不仅回应了开发者社群和业界对开放模型的长期呼声,也体现了 OpenAI 在全球人工智能开源竞赛中态度的转变。

与早期的开源模型不同,gpt-oss 系列聚焦于推理能力和实际落地场景,强调在代码生成、多步逻辑推理、科学分析、数学问题等任务上的表现。尤其是 120b 参数的 gpt-oss-120b,能够在一块Nvidia 80GB GPU上运行,极大降低了高性能模型的使用门槛。20b 版本则可在消费级设备如笔记本电脑上部署,使个人开发者也能轻松上手。

gpt-oss on Ollama

在性能上,根据 OpenAI 和第三方基准测试,gpt-oss-120b 在 Codeforces 等编程能力测试上超越了 DeepSeek R1 等开源竞品,仅次于 OpenAI 自家的 o3、o4-mini 等最新专有模型。在 Humanity’s Last Exam 等通用推理任务上,gpt-oss 系列也展现出领先的综合实力。不过,和更大规模的专有模型相比,开放权重模型在 “幻觉率” 上仍有提升空间。例如在 PersonQA 等知识准确性测试中,gpt-oss 系列的回答错误率高于 OpenAI 最新的闭源模型。这一现象也被 OpenAI 称之为 “模型规模的限制”,并非完全可控。

gpt-oss on Codeforces

gpt-oss on On Humanity’s Last Exam (HLE)

gpt-oss 系列采用了混合专家(Mixture-of-Experts, MoE)架构,每次仅激活部分子网络以提高效率和推理深度,但具体的路由机制等关键细节并未公开。OpenAI 强调本次开放只涉及已知的技术组件,未披露专有算法与训练方法,以避免知识产权泄露。这一策略平衡了技术共享与商业安全,也与 Meta、Mistral 等公司的做法趋同。

此次发布还 OpenAI 再次强调了他们对安全性的重视。OpenAI 不仅在训练和微调过程中加入了高强度的安全机制,还专门评估了模型在网络安全、生物和化学领域的潜在风险。即便如此,仍有业内观点认为,开放权重模型的可控性和可追溯性将成为行业持续关注的重点。

从应用层面看,gpt-oss 系列的到来极大丰富了云端 AI 模型的生态。通过 Amazon Bedrock 和 SageMaker,开发者和企业能够在安全、合规的环境下进行模型定制、评估和大规模部署。这一开放不仅有助于推动 AI 技术在科研、工业、金融、医疗等行业的创新应用,也为全球开发者提供了更多选择,开放权重模型有望成为未来通用人工智能基础设施的一部分。

OpenAI 此次选择 Apache 2.0 等宽松开源协议,允许企业级用户在不额外授权或支付费用的前提下进行商业化落地。但与部分 “完全开放源代码” 项目不同,OpenAI 仍未公布数据集详情。

总的来说,OpenAI 的 gpt-oss 系列既回应了开发者和市场对高性能开放模型的期待,也反映了大模型时代下,开源与专有、创新与安全之间复杂的动态平衡。未来,随着DeepSeek R2、Meta 新一代模型等竞品的陆续登场,开放权重模型的技术路线、产业标准与治理规范,或将成为通用人工智能领域持续演进的关键看点。

参考链接

  1. OpenAI launches its first open model in years so it can stop being on the ‘wrong side of history’—while still keeping its most valuable IP under wraps
  2. OpenAI open weight models available today on AWS
  3. OpenAI launches two ‘open’ AI reasoning models

相关文章

Claude 自己开机器狗:比人快20 倍,代码量只有十分之一
访谈案例
2026年6月21日
0 条评论
零重力瓦力

Claude 自己开机器狗:比人快20 倍,代码量只有十分之一

Anthropic 实验显示,Claude Opus 4.7 已能全程自主控制机器狗完成任务,速度比人类快约 20 倍,代码量仅为其十分之一。这标志着 AI 智能体正从辅助编程迈向物理工具自主操作阶段。但模型在实时闭环精细控制上仍有局限,且当前成果基于低复杂度任务。该进展体现了通用模型 scaling 的副产物效应,预示物理智能体时代早期来临,但距离解决复杂真实场景仍有差距。

#Claude#AI 编程
阅读全文
JetBrains Junie 正式版:AI 编程 Agent 学会了用调试器断点
AI 编程开发
2026年6月19日
0 条评论
零重力瓦力

JetBrains Junie 正式版:AI 编程 Agent 学会了用调试器断点

JetBrains AI 编程 Agent Junie 正式 GA,在 SWE-Rebench 基准测试中排名第一。其核心优势在于深度集成 IDE 原生工具链,而非模拟替代。主要特性包括:Plan 模式生成结构化计划文档以防跑偏;原生调试器集成支持断点与运行时状态检查;支持异步远程控制长任务;基于项目上下文的交互式代码审查;以及模型自由切换以优化成本。Junie 标志着 AI 编程竞争正从模型能力转向工具集成深度。

#智能体#AI 编程
阅读全文
Claude Fable 5 实测
AI 产品工具
2026年6月13日
0 条评论
小创

Claude Fable 5 实测

Claude Fable 5 发布,定位为 Mythos 降权公开版,核心优势在于长程复杂任务的稳定性。该模型支持 1M token 上下文,在 Stripe 全库迁移等场景中表现优异。安全方面采用运行时分流机制,高风险请求自动路由至 Opus 4.8。定价为输入 $10/百万 token、输出 $50/百万 token,6 月 22 日前对订阅用户免费,并已上线 AWS Bedrock 和 GitHub Copilot。实测显示其代码生成与 3D 建模能力显著优于前代,建议针对长任务场景进行实

#AI 模型#Claude Fable 5
阅读全文
互动讨论

评论区

围绕《OpenAI 正式发布了两款开放权重大型语言模型》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。