Meta 刚刚发布了 Llama 4 系列模型,这标志着 AI 进入了一个原生多模态智能的新纪元。最新发布包括三个重要模型:Llama 4 Scout、Llama 4 Maverick 以及正在训练中的 Llama 4 Behemoth。这些模型不仅支持文本理解,还能无缝处理图像和视频内容,为开发者和用户提供更为个性化的多模态体验。
Llama 4 的核心创新
Llama 4 系列的一大突破是采用了专家混合(MoE)架构。这种架构允许模型在处理每个 Token 时只激活部分参数,从而大幅提高计算效率。例如,Llama 4 Maverick 拥有 17B 活跃参数和 400B 总参数,但每次只激活一部分,著降低了推理成本和延迟。
另一个关键创新是原生多模态能力。通过早期融合技术,模型能将文本和视觉 Token 无缝整合到统一的模型主干中。这使得模型能够联合预训练大量未标记的文本、图像和视频数据。Meta 还改进了视觉编码器,使其更好地适应大语言模型的需求。
最令人惊喜的是,Llama 4 Scout 提供了惊人的 1000 万 Token 上下文窗口,远超其他模型,开创了文档处理、用户活动解析和大型代码库理解的新可能。
三款强大的模型
Llama 4 Scout
- 17B 活跃参数,16 个专家,109B 总参数
- 可在单个 NVIDIA H100 GPU 上运行(使用 Int4 量化)
- 1000 万 Token 的超长上下文窗口
- 超越同类的 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1
- 优秀的图像理解能力,能精确理解视觉内容
Llama 4 Maverick
- 17B 活跃参数,128 个专家,400B 总参数
- 击败 GPT-4o 和 Gemini 2.0 Flash
- 在推理和编码方面与 DeepSeek v3 相当,但参数量不到后者的一半
- 实验性聊天版本在 LMArena 上获得 1417 的 ELO 评分
- 卓越的图像和文本理解能力
Llama 4 Behemoth(预览版)
- 288B 活跃参数,16 个专家,接近 2 万亿总参数
- 在多个 STEM 基准测试上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro
- 作为"教师模型"帮助训练其他 Llama 4 模型
- 仍在训练中,尚未正式发布
训练创新
Meta 对训练过程进行了全面创新。他们开发了一种称为 MetaP 的新训练技术,用于可靠设置关键模型超参数。Llama 4 在 200 种语言上进行了预训练,其中 100 多种语言各有超过 10 亿 Token,总体多语言 Token 数量是 Llama 3 的 10 倍。
在后训练阶段,Meta 采用了一种新方法:轻量级监督微调(SFT) > 在线强化学习(RL) > 轻量级直接偏好优化(DPO)。他们发现 SFT 和 DPO 可能过度约束模型,限制在线 RL 阶段的探索并导致次优精度。为解决这一问题,他们使用 Llama 模型作为判断器,去除了 50% 以上被标记为"简单"的数据,并在剩余的更难数据集上进行轻量级 SFT。
Llama 4 Behemoth 作为规模达 2 万亿参数的模型,其训练过程面临了前所未有的挑战。团队开发了全新的异步在线 RL 训练框架,与之前的分布式训练框架相比,效率提高了约 10 倍。
安全保障与偏见减少
Meta 在每个开发层面都整合了保护措施,从预训练到后训练,再到系统级缓解措施。他们开源了多种安全工具,如 Llama Guard、Prompt Guard 和 CyberSecEval,帮助开发者创建符合其需求的安全有效体验。
值得注意的是,Meta 还在解决大语言模型中的偏见问题上取得了重大进展。Llama 4 在争议性政治和社会话题上的拒绝回答率从 Llama 3.3 的 7% 降至 2% 以下,不平等响应拒绝比例现在不到 1%。在一系列有争议的政治或社会话题上表现出强烈政治倾向的比率与 Grok 相当,且仅为 Llama 3.3 的一半。
生态系统与可用性
Meta 将 Llama 4 Scout 和 Llama 4 Maverick 模型在 llama.com 和 Hugging Face 上开放下载,让开发者可以立即开始构建创新体验。同时,用户也可以在 WhatsApp、Messenger、Instagram Direct 和 Meta.AI 网站上体验基于 Llama 4 构建的 Meta AI。
Meta 与众多合作伙伴协作支持 Llama 生态系统,包括 AWS、NVIDIA、Google Cloud、Microsoft Azure 等科技巨头,以及 Hugging Face、Together AI 等 AI 专业机构。
未来展望
Llama 4 系列仅仅是开始。Meta 相信,最智能的系统需要能够采取一般化行动,自然地与人类交谈,并解决以前从未见过的挑战性问题。在这些领域赋予 Llama 超能力将为人们带来更好的产品体验,也为开发者提供更多创新机会。Meta 将在 4 月 29 日的 LlamaCon 大会上分享更多关于其愿景的信息。
对于开发者、企业或对 AI 潜力好奇的普通用户,Llama 4 Scout 和 Llama 4 Maverick 提供了将下一代智能添加到产品中的最佳选择。随着这些强大的开源多模态模型的发布,我们正迎来一个更加个性化、智能化的 AI 新时代。
评论(0)