阿里发布并开源Qwen3

qwenlm.github.io

阿里发布并开源Qwen3

qwenlm.github.io

xiaomi to 数码产品中文 · 1 year ago

Qwen3：思深，行速

qwenlm.github.io

QWEN CHAT GitHub Hugging Face ModelScope Kaggle DEMO DISCORD 引言今天，我们宣布推出 Qwen3，这是 Qwen 系列大型语言模型的最新成员。我们的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比，表现出极具竞争力的结果。此外，小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%，表现更胜一筹，甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。我们开源了两个 MoE 模型的权重：Qwen3-235B-A22B，一个拥有 2350 多亿总参数和 220 多亿激活参数的大模型，以及Qwen3-30B-A3B，一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型。此外，六个 Dense 模型也已开源，包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B，均在 Apache 2.0 许可下开源。 Models Layers Heads (Q / KV) Tie Embedding Context Length Qwen3-0.6B 28 16 / 8 Yes 32K Qwen3-1.

Qwen 团队推出了全新的 Qwen3 系列大型语言模型，包括旗舰 MoE 模型 Qwen3-235B-A22B、小型 MoE 模型 Qwen3-30B-A3B，以及六个 Dense 模型（Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B），并在 Apache 2.0 许可下开源。Qwen3 在代码、数学、推理能力等多个领域展现出强大竞争力，支持 119 种语言，且引入思考模式与非思考模式两种推理模式，用户可根据任务灵活选择。

You must log in or # to comment.

Chat