Llama 4 模型家族:开启原生多模态 AI 创新的新时代

Meta 刚刚发布了 Llama 4 系列模型,这标志着 AI 进入了一个原生多模态智能的新纪元。最新发布包括三个重要模型:Llama 4 Scout、Llama 4 Maverick 以及正在训练中的 Llama 4 Behemoth。这些模型不仅支持文本理解,还能无缝处理图像和视频内容,为开发者和用户提供更为个性化的多模态体验。

Llama 4 的核心创新

Llama 4 系列的一大突破是采用了专家混合(MoE)架构。这种架构允许模型在处理每个 Token 时只激活部分参数,从而大幅提高计算效率。例如,Llama 4 Maverick 拥有 17B 活跃参数和 400B 总参数,但每次只激活一部分,著降低了推理成本和延迟。

另一个关键创新是原生多模态能力。通过早期融合技术,模型能将文本和视觉 Token 无缝整合到统一的模型主干中。这使得模型能够联合预训练大量未标记的文本、图像和视频数据。Meta 还改进了视觉编码器,使其更好地适应大语言模型的需求。

最令人惊喜的是,Llama 4 Scout 提供了惊人的 1000 万 Token 上下文窗口,远超其他模型,开创了文档处理、用户活动解析和大型代码库理解的新可能。

三款强大的模型

Llama 4 Scout

Llama 4 Scout

  • 17B 活跃参数,16 个专家,109B 总参数
  • 可在单个 NVIDIA H100 GPU 上运行(使用 Int4 量化)
  • 1000 万 Token 的超长上下文窗口
  • 超越同类的 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1
  • 优秀的图像理解能力,能精确理解视觉内容

Llama 4 Maverick

Llama 4 Maverick

  • 17B 活跃参数,128 个专家,400B 总参数
  • 击败 GPT-4o 和 Gemini 2.0 Flash
  • 在推理和编码方面与 DeepSeek v3 相当,但参数量不到后者的一半
  • 实验性聊天版本在 LMArena 上获得 1417 的 ELO 评分
  • 卓越的图像和文本理解能力

Llama 4 Behemoth(预览版)

Llama 4 Behemoth(预览版)

  • 288B 活跃参数,16 个专家,接近 2 万亿总参数
  • 在多个 STEM 基准测试上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro
  • 作为"教师模型"帮助训练其他 Llama 4 模型
  • 仍在训练中,尚未正式发布

训练创新

Meta 对训练过程进行了全面创新。他们开发了一种称为 MetaP 的新训练技术,用于可靠设置关键模型超参数。Llama 4 在 200 种语言上进行了预训练,其中 100 多种语言各有超过 10 亿 Token,总体多语言 Token 数量是 Llama 3 的 10 倍。

Meta 对训练过程进行了全面创新。他们开发了一种称为 MetaP 的新训练技术,用于可靠设置关键模型超参数。Llama 4 在 200 种语言上进行了预训练,其中 100 多种语言各有超过 10 亿 Token,总体多语言 Token 数量是 Llama 3 的 10 倍。

在后训练阶段,Meta 采用了一种新方法:轻量级监督微调(SFT) > 在线强化学习(RL) > 轻量级直接偏好优化(DPO)。他们发现 SFT 和 DPO 可能过度约束模型,限制在线 RL 阶段的探索并导致次优精度。为解决这一问题,他们使用 Llama 模型作为判断器,去除了 50% 以上被标记为"简单"的数据,并在剩余的更难数据集上进行轻量级 SFT。

Llama 4 Behemoth 作为规模达 2 万亿参数的模型,其训练过程面临了前所未有的挑战。团队开发了全新的异步在线 RL 训练框架,与之前的分布式训练框架相比,效率提高了约 10 倍。

安全保障与偏见减少

Meta 在每个开发层面都整合了保护措施,从预训练到后训练,再到系统级缓解措施。他们开源了多种安全工具,如 Llama Guard、Prompt Guard 和 CyberSecEval,帮助开发者创建符合其需求的安全有效体验。

值得注意的是,Meta 还在解决大语言模型中的偏见问题上取得了重大进展。Llama 4 在争议性政治和社会话题上的拒绝回答率从 Llama 3.3 的 7% 降至 2% 以下,不平等响应拒绝比例现在不到 1%。在一系列有争议的政治或社会话题上表现出强烈政治倾向的比率与 Grok 相当,且仅为 Llama 3.3 的一半。

生态系统与可用性

Meta 将 Llama 4 Scout 和 Llama 4 Maverick 模型在 llama.com 和 Hugging Face 上开放下载,让开发者可以立即开始构建创新体验。同时,用户也可以在 WhatsApp、Messenger、Instagram Direct 和 Meta.AI 网站上体验基于 Llama 4 构建的 Meta AI。

Meta 与众多合作伙伴协作支持 Llama 生态系统,包括 AWS、NVIDIA、Google Cloud、Microsoft Azure 等科技巨头,以及 Hugging Face、Together AI 等 AI 专业机构。

未来展望

Llama 4 系列仅仅是开始。Meta 相信,最智能的系统需要能够采取一般化行动,自然地与人类交谈,并解决以前从未见过的挑战性问题。在这些领域赋予 Llama 超能力将为人们带来更好的产品体验,也为开发者提供更多创新机会。Meta 将在 4 月 29 日的 LlamaCon 大会上分享更多关于其愿景的信息。

对于开发者、企业或对 AI 潜力好奇的普通用户,Llama 4 Scout 和 Llama 4 Maverick 提供了将下一代智能添加到产品中的最佳选择。随着这些强大的开源多模态模型的发布,我们正迎来一个更加个性化、智能化的 AI 新时代。