国外技术达人 Mervin Praison 通义千问3 实测

昨天，阿里正式发布了通义千问3（Qwen3），这款模型在多个权威测评排行榜中表现卓越，一举夺得全球开源大模型的桂冠。相比于之前的模型，它不仅在性能上实现了显著突破，还通过开放的权重和灵活的应用方式，为开发者与企业提供了更多可能性。

Qwen3 的核心优势之一在于其混合专家模型（MoE）架构，这种设计使其在特定任务中能够动态分配计算资源，从而显著提升效率和准确性。据了解，Qwen3 在多个基准测试中明显优于 OpenAI 的 o1、o3 mini 以及 DeepSeek R1 等竞品，这在开源模型中尤为难得。尤其值得一提的是，Qwen3 提供了从 0.6B 到 32B 参数的多种规模模型，其中包括两个混合专家模型（MoE），分别拥有高达 235B 参数（激活参数 22B）和 30B 参数（激活参数 3B）的配置。这种多样性既满足了高性能计算需求，也为资源有限的开发者提供了轻量级选择。

在功能设计上，Qwen3 引入了混合思考模式，支持 “思考模式” 和 “非思考模式” 两种操作方式，前者通过逐步推理解决复杂问题，后者则针对简单问题提供快速响应。用户可以根据任务需求灵活调整，甚至通过简单的指令（如添加 /think 或 /no-think）控制模型的行为。模型默认启用思考模式，确保了在未明确指令的情况下，模型也能以更高的准确性应对问题。

此外，Qwen3 的多语言能力同样不容小觑，支持多达 119 种语言，覆盖了全球主要语种。这种广泛的语言覆盖率，使其在国际化应用中具备了天然优势。无论是学术研究、商业翻译还是跨文化交流，Qwen3 都能提供强有力的支持。从个人角度来看，这种多语言能力或许是未来 AI 模型发展的一个重要方向，尤其是在全球化背景下，如何让技术跨越语言壁垒，将直接影响其普及程度和实际价值。

在训练数据和方法上，Qwen3 也展现了其背后团队的深厚积累。相比前代 Qwen 2.5，训练数据集规模翻倍，涵盖了网页内容、PDF 文档以及通过 Qwen 2.5 生成的合成数据。这种多样化的数据来源为模型提供了更丰富的知识储备。同时，三阶段训练过程，从基础语言技能到编码推理，再到高质量长上下文数据处理，进一步优化了模型在不同任务上的表现。尤其是在后训练阶段，团队通过思维链推理、推理强化学习以及思考模式融合等技术，确保了模型在复杂推理任务中的稳定性和精准性。这样的训练策略，让人不禁思考，未来的模型是否会更加依赖多阶段、多维度的训练方式，以应对日益复杂的需求？

从应用角度看，Qwen3 的开放性为开发者提供了广阔的空间。模型权重和代码分别在 Hugging Face 和 GitHub 上公开，支持通过 Hugging Face Transformers、SGLang 或 vLLM 等框架进行部署。更重要的是，Qwen3 允许免费商用，这对于希望将 AI 技术融入产品或服务的企业而言，是一个重要的利好消息。此外，Qwen3 在工具调用（即智能体行为）和 MCP（模型上下文协议）方面的支持，也为其在智能助手、自动化流程等场景中的应用奠定了基础。

然而，通过视频中的实际测试，我们也能看到 Qwen3 并非完美无瑕。例如，在回答 “以 apple 结尾的句子” 这一任务时，模型生成的句子并未完全符合要求，而在计算单词数量的测试中，模型也给出了错误答案。尽管 Qwen3 在整体性能上令人印象深刻，但在细节处理和特定场景的适应性上仍有改进空间。

相关文章

Google 为何要开发 Gemma 4 模型

微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

评论区