资讯标签
资讯首页/#New Machina

#New Machina

10 分钟讲清什么是大模型的尺度定律(Scaling Law)
AI 教程知识
2025年2月13日
0 条评论
零重力瓦力

10 分钟讲清什么是大模型的尺度定律(Scaling Law)

大模型尺度定律揭示参数、数据与算力需协同扩展,盲目堆参数反会降低效率——Chinchilla研究已证实小模型配更多数据效果更优。当前高质量数据成新瓶颈,合成数据与MoE架构正成为突破关键。

#AI 模型#New Machina
阅读全文
从 V0 到 R1,deepseek 如何追平 GPT-4
AI 教程知识
2025年2月10日
0 条评论
零重力瓦力

从 V0 到 R1,deepseek 如何追平 GPT-4

DeepSeek 两年内从2023年V0迭代至2025年R1,在数学、逻辑与编程能力上追平GPT-4;通过MoE、MLA等架构创新,参数达6710亿,并以跨架构蒸馏技术实现高性能轻量部署,标志AI研发正转向“能力驱动”。

#DeepSeek#强化学习#New Machina
阅读全文
混合专家模型:AI 界的专家会诊制如何让大模型更高效?
AI 教程知识
2025年2月9日
0 条评论
零重力瓦力

混合专家模型:AI 界的专家会诊制如何让大模型更高效?

混合专家(MoE)架构让大模型像“专家会诊”:通过门控机制动态调用不同子网络处理输入,训练中自然形成专长。Mixtral用8个专家超越GPT-3.5,DeepSeek R1总参6710亿但仅激活370亿,显著降本增效。

#DeepSeek#Mistral#New Machina
阅读全文
什么是大语言模型 LLM 蒸馏?
AI 教程知识
2025年2月8日
0 条评论
零重力瓦力

什么是大语言模型 LLM 蒸馏?

LLM蒸馏是将大模型(教师)通过概率分布输出的知识迁移至小模型(学生)的技术,由Hinton团队2015年提出。它能在大幅压缩参数量与资源占用的同时,保留97%左右的性能,如DistilBERT体积降40%、速度升60%。DeepSeek R1已推出1.5B–70B多档蒸馏版,支持低配设备本地部署。

#DeepSeek#AI 模型#New Machina
阅读全文
31 篇文章,第 4 / 4