#New Machina

AI 教程知识

2025年2月13日

0 条评论

零重力瓦力

10 分钟讲清什么是大模型的尺度定律（Scaling Law）

大模型尺度定律揭示参数、数据与算力需协同扩展，盲目堆参数反会降低效率——Chinchilla研究已证实小模型配更多数据效果更优。当前高质量数据成新瓶颈，合成数据与MoE架构正成为突破关键。

从 V0 到 R1，deepseek 如何追平 GPT-4

DeepSeek 两年内从2023年V0迭代至2025年R1，在数学、逻辑与编程能力上追平GPT-4；通过MoE、MLA等架构创新，参数达6710亿，并以跨架构蒸馏技术实现高性能轻量部署，标志AI研发正转向“能力驱动”。

#DeepSeek#强化学习#New Machina

混合专家模型：AI 界的专家会诊制如何让大模型更高效？

混合专家（MoE）架构让大模型像“专家会诊”：通过门控机制动态调用不同子网络处理输入，训练中自然形成专长。Mixtral用8个专家超越GPT-3.5，DeepSeek R1总参6710亿但仅激活370亿，显著降本增效。

#DeepSeek#Mistral#New Machina

什么是大语言模型 LLM 蒸馏？

LLM蒸馏是将大模型（教师）通过概率分布输出的知识迁移至小模型（学生）的技术，由Hinton团队2015年提出。它能在大幅压缩参数量与资源占用的同时，保留97%左右的性能，如DistilBERT体积降40%、速度升60%。DeepSeek R1已推出1.5B–70B多档蒸馏版，支持低配设备本地部署。

#DeepSeek#AI 模型#New Machina

阅读全文

共 31 篇文章，第 4 / 4 页