Llama 4 开源大模型家族:开启原生多模态 AI 创新的新时代

Meta开源Llama 4系列,含Scout(1000万Token上下文)、Maverick及训练中的Behemoth,原生支持文本、图像、视频多模态理解;采用MoE架构提升效率,多语言训练规模达Llama 3的10倍,安全与偏见控制显著优化。

发布于2025年4月6日 07:03
编辑零重力瓦力
评论0
阅读57

Llama 4 模型家族:开启原生多模态 AI 创新的新时代

Meta 刚刚发布了 Llama 4 系列模型,这标志着 AI 进入了一个原生多模态智能的新纪元。最新发布包括三个重要模型:Llama 4 Scout、Llama 4 Maverick 以及正在训练中的 Llama 4 Behemoth。这些模型不仅支持文本理解,还能无缝处理图像和视频内容,为开发者和用户提供更为个性化的多模态体验。

Llama 4 的核心创新

Llama 4 系列的一大突破是采用了专家混合(MoE)架构。这种架构允许模型在处理每个 Token 时只激活部分参数,从而大幅提高计算效率。例如,Llama 4 Maverick 拥有 17B 活跃参数和 400B 总参数,但每次只激活一部分,著降低了推理成本和延迟。

另一个关键创新是原生多模态能力。通过早期融合技术,模型能将文本和视觉 Token 无缝整合到统一的模型主干中。这使得模型能够联合预训练大量未标记的文本、图像和视频数据。Meta 还改进了视觉编码器,使其更好地适应大语言模型的需求。

最令人惊喜的是,Llama 4 Scout 提供了惊人的 1000 万 Token 上下文窗口,远超其他模型,开创了文档处理、用户活动解析和大型代码库理解的新可能。

三款强大的模型

Llama 4 Scout

Llama 4 Scout

  • 17B 活跃参数,16 个专家,109B 总参数
  • 可在单个 NVIDIA H100 GPU 上运行(使用 Int4 量化)
  • 1000 万 Token 的超长上下文窗口
  • 超越同类的 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1
  • 优秀的图像理解能力,能精确理解视觉内容

Llama 4 Maverick

Llama 4 Maverick

  • 17B 活跃参数,128 个专家,400B 总参数
  • 击败 GPT-4o 和 Gemini 2.0 Flash
  • 在推理和编码方面与 DeepSeek v3 相当,但参数量不到后者的一半
  • 实验性聊天版本在 LMArena 上获得 1417 的 ELO 评分
  • 卓越的图像和文本理解能力

Llama 4 Behemoth(预览版)

Llama 4 Behemoth(预览版)

  • 288B 活跃参数,16 个专家,接近 2 万亿总参数
  • 在多个 STEM 基准测试上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro
  • 作为"教师模型"帮助训练其他 Llama 4 模型
  • 仍在训练中,尚未正式发布

训练创新

Meta 对训练过程进行了全面创新。他们开发了一种称为 MetaP 的新训练技术,用于可靠设置关键模型超参数。Llama 4 在 200 种语言上进行了预训练,其中 100 多种语言各有超过 10 亿 Token,总体多语言 Token 数量是 Llama 3 的 10 倍。

Meta 对训练过程进行了全面创新。他们开发了一种称为 MetaP 的新训练技术,用于可靠设置关键模型超参数。Llama 4 在 200 种语言上进行了预训练,其中 100 多种语言各有超过 10 亿 Token,总体多语言 Token 数量是 Llama 3 的 10 倍。

在后训练阶段,Meta 采用了一种新方法:轻量级监督微调(SFT) > 在线强化学习(RL) > 轻量级直接偏好优化(DPO)。他们发现 SFT 和 DPO 可能过度约束模型,限制在线 RL 阶段的探索并导致次优精度。为解决这一问题,他们使用 Llama 模型作为判断器,去除了 50% 以上被标记为"简单"的数据,并在剩余的更难数据集上进行轻量级 SFT。

Llama 4 Behemoth 作为规模达 2 万亿参数的模型,其训练过程面临了前所未有的挑战。团队开发了全新的异步在线 RL 训练框架,与之前的分布式训练框架相比,效率提高了约 10 倍。

安全保障与偏见减少

Meta 在每个开发层面都整合了保护措施,从预训练到后训练,再到系统级缓解措施。他们开源了多种安全工具,如 Llama Guard、Prompt Guard 和 CyberSecEval,帮助开发者创建符合其需求的安全有效体验。

值得注意的是,Meta 还在解决大语言模型中的偏见问题上取得了重大进展。Llama 4 在争议性政治和社会话题上的拒绝回答率从 Llama 3.3 的 7% 降至 2% 以下,不平等响应拒绝比例现在不到 1%。在一系列有争议的政治或社会话题上表现出强烈政治倾向的比率与 Grok 相当,且仅为 Llama 3.3 的一半。

生态系统与可用性

Meta 将 Llama 4 Scout 和 Llama 4 Maverick 模型在 llama.com 和 Hugging Face 上开放下载,让开发者可以立即开始构建创新体验。同时,用户也可以在 WhatsApp、Messenger、Instagram Direct 和 Meta.AI 网站上体验基于 Llama 4 构建的 Meta AI。

Meta 与众多合作伙伴协作支持 Llama 生态系统,包括 AWS、NVIDIA、Google Cloud、Microsoft Azure 等科技巨头,以及 Hugging Face、Together AI 等 AI 专业机构。

未来展望

Llama 4 系列仅仅是开始。Meta 相信,最智能的系统需要能够采取一般化行动,自然地与人类交谈,并解决以前从未见过的挑战性问题。在这些领域赋予 Llama 超能力将为人们带来更好的产品体验,也为开发者提供更多创新机会。Meta 将在 4 月 29 日的 LlamaCon 大会上分享更多关于其愿景的信息。

对于开发者、企业或对 AI 潜力好奇的普通用户,Llama 4 Scout 和 Llama 4 Maverick 提供了将下一代智能添加到产品中的最佳选择。随着这些强大的开源多模态模型的发布,我们正迎来一个更加个性化、智能化的 AI 新时代。

相关文章

Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了
AI 新闻资讯
2026年6月18日
0 条评论
零重力瓦力

Visa 把支付网络接进了 ChatGPT,AI 智能体终于能自己花钱了

Visa 与 OpenAI 合作将支付网络接入 ChatGPT ,Mastercard 同日发布 Agent Pay for Machines 协议,标志着支付基础设施正式向 AI 智能体开放。Visa 推出 Agent Score 、验证目录及大模型反欺诈工具保障交易安全;Mastercard 则通过链上记录实现权限可验。尽管面临身份碎片化及责任界定等挑战,且短期实用价值有限,但两大巨头同日布局确认了智能体作为经济参与者的地位,开发者命令行支付或成率先落地场景。

#智能体
阅读全文
SpaceX 4320 亿买下 Cursor:马斯克用一场 IPO 的钱,赌 AI 编程的未来
AI 新闻资讯
2026年6月17日
0 条评论
零重力瓦力

SpaceX 4320 亿买下 Cursor:马斯克用一场 IPO 的钱,赌 AI 编程的未来

SpaceX 以 600 亿美元全股票收购 AI 编程工具 Cursor,旨在补齐企业级 AI 产品短板并推广自研 Grok 模型。此举将算力基础设施与产品入口结合,但面临 xAI 团队动荡及文化冲突风险。收购后 Cursor 或调整定价、深度整合 Grok 模型,个人用户权益存变数。交易预计三季度完成,建议开发者关注产品路线图转向及核心人员流失信号,同时该交易也为 AI 编程赛道确立了新估值锚点。

阅读全文
Claude Fable 5 实测
AI 产品工具
2026年6月13日
0 条评论
小创

Claude Fable 5 实测

Claude Fable 5 发布,定位为 Mythos 降权公开版,核心优势在于长程复杂任务的稳定性。该模型支持 1M token 上下文,在 Stripe 全库迁移等场景中表现优异。安全方面采用运行时分流机制,高风险请求自动路由至 Opus 4.8。定价为输入 $10/百万 token、输出 $50/百万 token,6 月 22 日前对订阅用户免费,并已上线 AWS Bedrock 和 GitHub Copilot。实测显示其代码生成与 3D 建模能力显著优于前代,建议针对长任务场景进行实

#AI 模型#Claude Fable 5
阅读全文
互动讨论

评论区

围绕《Llama 4 开源大模型家族:开启原生多模态 AI 创新的新时代》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。