Llama 4 开源大模型家族：开启原生多模态 AI 创新的新时代

Meta 刚刚发布了 Llama 4 系列模型，这标志着 AI 进入了一个原生多模态智能的新纪元。最新发布包括三个重要模型：Llama 4 Scout、Llama 4 Maverick 以及正在训练中的 Llama 4 Behemoth。这些模型不仅支持文本理解，还能无缝处理图像和视频内容，为开发者和用户提供更为个性化的多模态体验。

Llama 4 的核心创新

Llama 4 系列的一大突破是采用了专家混合(MoE)架构。这种架构允许模型在处理每个 Token 时只激活部分参数，从而大幅提高计算效率。例如，Llama 4 Maverick 拥有 17B 活跃参数和 400B 总参数，但每次只激活一部分，著降低了推理成本和延迟。

另一个关键创新是原生多模态能力。通过早期融合技术，模型能将文本和视觉 Token 无缝整合到统一的模型主干中。这使得模型能够联合预训练大量未标记的文本、图像和视频数据。Meta 还改进了视觉编码器，使其更好地适应大语言模型的需求。

最令人惊喜的是，Llama 4 Scout 提供了惊人的 1000 万 Token 上下文窗口，远超其他模型，开创了文档处理、用户活动解析和大型代码库理解的新可能。

三款强大的模型

Llama 4 Scout

17B 活跃参数，16 个专家，109B 总参数
可在单个 NVIDIA H100 GPU 上运行(使用 Int4 量化)
1000 万 Token 的超长上下文窗口
超越同类的 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1
优秀的图像理解能力，能精确理解视觉内容

Llama 4 Maverick

17B 活跃参数，128 个专家，400B 总参数
击败 GPT-4o 和 Gemini 2.0 Flash
在推理和编码方面与 DeepSeek v3 相当，但参数量不到后者的一半
实验性聊天版本在 LMArena 上获得 1417 的 ELO 评分
卓越的图像和文本理解能力

Llama 4 Behemoth(预览版)

288B 活跃参数，16 个专家，接近 2 万亿总参数
在多个 STEM 基准测试上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro
作为"教师模型"帮助训练其他 Llama 4 模型
仍在训练中，尚未正式发布

训练创新

Meta 对训练过程进行了全面创新。他们开发了一种称为 MetaP 的新训练技术，用于可靠设置关键模型超参数。Llama 4 在 200 种语言上进行了预训练，其中 100 多种语言各有超过 10 亿 Token，总体多语言 Token 数量是 Llama 3 的 10 倍。

在后训练阶段，Meta 采用了一种新方法：轻量级监督微调(SFT) > 在线强化学习(RL) > 轻量级直接偏好优化(DPO)。他们发现 SFT 和 DPO 可能过度约束模型，限制在线 RL 阶段的探索并导致次优精度。为解决这一问题，他们使用 Llama 模型作为判断器，去除了 50% 以上被标记为"简单"的数据，并在剩余的更难数据集上进行轻量级 SFT。

Llama 4 Behemoth 作为规模达 2 万亿参数的模型，其训练过程面临了前所未有的挑战。团队开发了全新的异步在线 RL 训练框架，与之前的分布式训练框架相比，效率提高了约 10 倍。

安全保障与偏见减少

Meta 在每个开发层面都整合了保护措施，从预训练到后训练，再到系统级缓解措施。他们开源了多种安全工具，如 Llama Guard、Prompt Guard 和 CyberSecEval，帮助开发者创建符合其需求的安全有效体验。

值得注意的是，Meta 还在解决大语言模型中的偏见问题上取得了重大进展。Llama 4 在争议性政治和社会话题上的拒绝回答率从 Llama 3.3 的 7% 降至 2% 以下，不平等响应拒绝比例现在不到 1%。在一系列有争议的政治或社会话题上表现出强烈政治倾向的比率与 Grok 相当，且仅为 Llama 3.3 的一半。

生态系统与可用性

Meta 将 Llama 4 Scout 和 Llama 4 Maverick 模型在 llama.com 和 Hugging Face 上开放下载，让开发者可以立即开始构建创新体验。同时，用户也可以在 WhatsApp、Messenger、Instagram Direct 和 Meta.AI 网站上体验基于 Llama 4 构建的 Meta AI。

Meta 与众多合作伙伴协作支持 Llama 生态系统，包括 AWS、NVIDIA、Google Cloud、Microsoft Azure 等科技巨头，以及 Hugging Face、Together AI 等 AI 专业机构。

未来展望

Llama 4 系列仅仅是开始。Meta 相信，最智能的系统需要能够采取一般化行动，自然地与人类交谈，并解决以前从未见过的挑战性问题。在这些领域赋予 Llama 超能力将为人们带来更好的产品体验，也为开发者提供更多创新机会。Meta 将在 4 月 29 日的 LlamaCon 大会上分享更多关于其愿景的信息。

对于开发者、企业或对 AI 潜力好奇的普通用户，Llama 4 Scout 和 Llama 4 Maverick 提供了将下一代智能添加到产品中的最佳选择。随着这些强大的开源多模态模型的发布，我们正迎来一个更加个性化、智能化的 AI 新时代。

Llama 4 的核心创新

三款强大的模型

Llama 4 Scout

Llama 4 Maverick

Llama 4 Behemoth(预览版)

训练创新

安全保障与偏见减少

生态系统与可用性

未来展望

相关文章

GPT-5.6 Sol Ultra 1 小时证明 60 年未解的图论猜想

AI 正在翻译细胞语言，阿尔茨海默症迎来新转机

GPT-5.6 正式发布：三档定价、7.8% ARC-AGI-3、Sol 自主训练 Luna，943 条评论里的真实声音

评论区