国外技术达人 Mervin Praison 通义千问3 实测

阿里发布通义千问3(Qwen3),全球开源大模型榜首,采用MoE架构,支持0.6B–32B多尺寸及混合思考模式;覆盖119种语言,训练数据翻倍,免费商用并开放权重;实测推理能力强,但在细节任务如单词计数、严格格式生成上仍有优化空间。

发布于2025年4月30日 02:53
编辑零重力瓦力
评论0
阅读24

昨天,阿里正式发布了通义千问3(Qwen3),这款模型在多个权威测评排行榜中表现卓越,一举夺得全球开源大模型的桂冠。相比于之前的模型,它不仅在性能上实现了显著突破,还通过开放的权重和灵活的应用方式,为开发者与企业提供了更多可能性。

Qwen3 的核心优势之一在于其混合专家模型(MoE)架构,这种设计使其在特定任务中能够动态分配计算资源,从而显著提升效率和准确性。据了解,Qwen3 在多个基准测试中明显优于 OpenAI 的 o1、o3 mini 以及 DeepSeek R1 等竞品,这在开源模型中尤为难得。尤其值得一提的是,Qwen3 提供了从 0.6B 到 32B 参数的多种规模模型,其中包括两个混合专家模型(MoE),分别拥有高达 235B 参数(激活参数 22B)和 30B 参数(激活参数 3B)的配置。这种多样性既满足了高性能计算需求,也为资源有限的开发者提供了轻量级选择。

在功能设计上,Qwen3 引入了混合思考模式,支持 “思考模式” 和 “非思考模式” 两种操作方式,前者通过逐步推理解决复杂问题,后者则针对简单问题提供快速响应。用户可以根据任务需求灵活调整,甚至通过简单的指令(如添加 /think 或 /no-think)控制模型的行为。模型默认启用思考模式,确保了在未明确指令的情况下,模型也能以更高的准确性应对问题。

此外,Qwen3 的多语言能力同样不容小觑,支持多达 119 种语言,覆盖了全球主要语种。这种广泛的语言覆盖率,使其在国际化应用中具备了天然优势。无论是学术研究、商业翻译还是跨文化交流,Qwen3 都能提供强有力的支持。从个人角度来看,这种多语言能力或许是未来 AI 模型发展的一个重要方向,尤其是在全球化背景下,如何让技术跨越语言壁垒,将直接影响其普及程度和实际价值。

在训练数据和方法上,Qwen3 也展现了其背后团队的深厚积累。相比前代 Qwen 2.5,训练数据集规模翻倍,涵盖了网页内容、PDF 文档以及通过 Qwen 2.5 生成的合成数据。这种多样化的数据来源为模型提供了更丰富的知识储备。同时,三阶段训练过程,从基础语言技能到编码推理,再到高质量长上下文数据处理,进一步优化了模型在不同任务上的表现。尤其是在后训练阶段,团队通过思维链推理、推理强化学习以及思考模式融合等技术,确保了模型在复杂推理任务中的稳定性和精准性。这样的训练策略,让人不禁思考,未来的模型是否会更加依赖多阶段、多维度的训练方式,以应对日益复杂的需求?

从应用角度看,Qwen3 的开放性为开发者提供了广阔的空间。模型权重和代码分别在 Hugging Face 和 GitHub 上公开,支持通过 Hugging Face Transformers、SGLang 或 vLLM 等框架进行部署。更重要的是,Qwen3 允许免费商用,这对于希望将 AI 技术融入产品或服务的企业而言,是一个重要的利好消息。此外,Qwen3 在工具调用(即智能体行为)和 MCP(模型上下文协议)方面的支持,也为其在智能助手、自动化流程等场景中的应用奠定了基础。

然而,通过视频中的实际测试,我们也能看到 Qwen3 并非完美无瑕。例如,在回答 “以 apple 结尾的句子” 这一任务时,模型生成的句子并未完全符合要求,而在计算单词数量的测试中,模型也给出了错误答案。尽管 Qwen3 在整体性能上令人印象深刻,但在细节处理和特定场景的适应性上仍有改进空间。

相关文章

Genspark 4.0 创作者的专属龙虾
AI 产品工具
2026年4月18日
0 条评论
小创

Genspark 4.0 创作者的专属龙虾

硅谷 AI 独角兽 Genspark 发布 Workspace 4.0,核心升级 Claw 功能专为创作者打造。它能自动化处理调研、邮件、PPT 等跨步骤杂活,并支持串联跨应用重复操作。新增 Clip Genius、AI Designer 及故事板生成工具,可自动提取视频信息、产出品牌素材与分镜脚本。配合 AI Developer,用户仅需自然语言描述即可搭建网站。该工具旨在让创作者从繁琐幕后工作中解放,专注于结果把控。

#智能体
阅读全文
xAI 将于下周发布 Grok Build 和 Grok CLI
AI 产品工具
2026年4月18日
0 条评论
小创

xAI 将于下周发布 Grok Build 和 Grok CLI

xAI 将于下周发布 Grok Build 和 Grok CLI ,正式进军智能体编程赛道,与 Claude Code 、 OpenAI Codex 等竞争。 Grok 4.3 已向订阅用户开放测试。产品采用本地与远程双轨设计,亮点是 Arena 模式,让多个智能体同场竞争,用户直接挑选最佳结果。此外还有 Grok Computer 桌面客户端和第三方服务连接器生态布局,差异化竞争策略明确。

#Grok#AI 编程
阅读全文
Anthropic 推出 Claude Design :快速生成视觉素材
AI 产品工具
2026年4月18日
0 条评论
小创

Anthropic 推出 Claude Design :快速生成视觉素材

Anthropic 推出 Claude Design ,用户通过自然语言描述即可生成原型图、幻灯片等视觉内容,面向缺乏设计背景的创业者和产品经理。该产品定位为与 Canva 互补而非竞争,支持导出多种格式并可导入 Canva 进行精修。企业用户还能利用品牌一致性功能,保持统一的视觉风格。此举被视为 Anthropic 深化企业市场的重要举措,估值或达 8000 亿美元。

#Anthropic
阅读全文
互动讨论

评论区

围绕《国外技术达人 Mervin Praison 通义千问3 实测》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。