DeepSeek R1 Distill (Qwen 1.5B)：4GB 手机也能跑推理

Q: 这里的「蒸馏」（distilled）是什么意思？

DeepSeek 拿 Qwen-2.5-Math-1.5B 作为 base 架构，用 671B 参数大教师 DeepSeek-R1 生成的 80 万个推理样本对它做监督微调。学生模型继承了 R1 的链式推理风格，但运行成本只是 R1 的一小部分，硬件门槛也大幅降低。

Q: 和完整版 DeepSeek R1 一样聪明吗？

不一样。1.5B 蒸馏版 AIME 2024 pass@1 是 28.9%（consensus@64 下 52.7%），完整版 R1 pass@1 约 80%；MATH-500 是 83.9% 对比 R1 的 97.3%。它确实在做链式推理，但质量受参数量限制。要把它用在「需要推理模式」而非「与前沿模型对等」的场景。

Q: 哪些设备可以运行 R1 Distill？

几乎任何 4GB+ RAM 设备：Pixel 7 及以上、iPhone 14 及以上、Snapdragon Copilot+ PC，以及任何现代笔记本 CPU。纯 CPU 跑 5-10 token/秒，慢但可用；Apple silicon 笔记本 50-60 token/秒；Snapdragon NPU 加 ONNX 优化下首字延迟 < 70 毫秒。

Q: 许可证真是 Apache 2.0 吗？

对于这个具体的 Qwen-distill 变体来说是的。Qwen 蒸馏版本继承自 Qwen-2.5 base 的 Apache 2.0。注意：完整版 DeepSeek-R1 权重本身是 MIT；Llama 蒸馏版本走 Llama Community License —— 蒸馏版的 license 取决于 base 模型。

Q: 为什么不选 Llama 3.2 1B 或 Gemma 4？

推理任务为主时选 R1 Distill —— 数学、代码、逻辑题。Llama 3.2 1B 和 Gemma 4 是更强的通用聊天模型。R1 Distill 显式用通用流畅度换取每克参数的链式推理能力，这在 1.5B 级别的端侧选项里是独家定位。

参数量	1.5 B
量化后大小	1 GB
上下文长度	32,768 tokens
模态	text
许可证	apache-2.0
最低 RAM	4 GB
版本	DeepSeek-R1-Distill-Qwen-1.5B
发布	2025-01

参数量

1.5 B

量化后大小

1 GB

上下文长度

32,768 tokens

模态

text

许可证

apache-2.0

最低 RAM

4 GB

版本

DeepSeek-R1-Distill-Qwen-1.5B

发布

2025-01

它是什么？

DeepSeek-R1-Distill-Qwen-1.5B 是 DeepSeek R1 蒸馏家族里最小的成员，2025 年 1 月与完整版 DeepSeek-R1 一同发布。蒸馏版以 Qwen-2.5-Math-1.5B 为 base 架构，用 671B 参数的更大教师 R1 生成的 80 万个链式推理样本对其微调。最终得到一个 1.5B 参数的模型，能在数学、代码、逻辑任务上做显式的逐步推理 —— 成本只是 R1 的一小部分，硬件要求也低得多。

核心规格一览

（请参考上方规格卡，数据来自结构化数据层。）

什么设备能跑？

1.5B 版本 Q4 量化下大约 1GB 下载量，几乎在任何设备上都能跑：Pixel 7 及以上、iPhone 14 及以上、Snapdragon Copilot+ PC、任何现代 Intel/AMD 笔记本（纯 CPU 即可）、Apple silicon Mac。纯 CPU 5-10 token/秒，慢但可用；Apple silicon 笔记本或入门 GPU 上 50-60 token/秒；Snapdragon NPU 加 ONNX 优化下短 prompt 首字延迟 < 70 毫秒。

优势与局限

优势。 1.5B 体量下做出真正的链式推理 —— 端侧同行里独一无二。从 Qwen-2.5 base 继承的 Apache 2.0 许可证。小到能与其他模型同设备共存。数学和代码上特别突出；在做推理增强 agent 时无需 prompt 技巧就能自然路由进推理流。

局限。 质量受参数量限制。AIME 2024 pass@1 28.9% 对比完整版 R1 约 80% pass@1 是显著差距 —— 别期待前沿模型水准。仅文本，无视觉、无音频。开放式任务上不如同尺寸的通用聊天模型流畅。推理深度越深延迟越高 —— 链式推理输出本身就比较啰嗦。

适合什么场景？不适合什么场景？

选 R1 Distill 1.5B 当： 你的工作流以推理为主（数学作业助手、代码助手、逻辑 agent）；你要部署到低端硬件（4GB RAM 笔记本、中端手机）；你需要显式的链式推理输出来保证透明度；你看重 Apache 2.0 许可证。

别选它当： 你的工作流是开放式聊天（Gemma 4 或 Qwen 3.5 通用性更好）；你需要多模态（Gemma 4、Phi-4-multimodal、MiniCPM-V）；你需要前沿推理质量（云端跑完整 DeepSeek-R1，或等下一代蒸馏）。

与相似端侧模型对比

最相近的两位：Qwen 3.5 2B（通用、多语种、多模态、262K 上下文）和 Ministral 3B（通用、同样 Apache 2.0、有视觉）。R1 Distill 的差异化是更小尺寸下显式针对推理调优。完整横评见 leaderboard。

在 Cove App 里的真实落地

Cove Voice 用 Gemma 4 整理语音笔记 —— 这是通用聊天式总结，Gemma 更广的流畅度更胜任。R1 Distill 1.5B 适合做推理密集的扩展：用显式逻辑提取行动项、结构化任务拆解、或数学相关转录。我们已经原型化它作为 Cove Voice 的未来模式之一，给希望看到链式推理总结而非 bullet list 的进阶用户使用。

常见问题

这里的「蒸馏」（distilled）是什么意思？

DeepSeek 拿 Qwen-2.5-Math-1.5B 作为 base 架构，用 671B 参数大教师 DeepSeek-R1 生成的 80 万个推理样本对它做监督微调。学生模型继承了 R1 的链式推理风格，但运行成本只是 R1 的一小部分，硬件门槛也大幅降低。

和完整版 DeepSeek R1 一样聪明吗？

不一样。1.5B 蒸馏版 AIME 2024 pass@1 是 28.9%（consensus@64 下 52.7%），完整版 R1 pass@1 约 80%；MATH-500 是 83.9% 对比 R1 的 97.3%。它确实在做链式推理，但质量受参数量限制。要把它用在「需要推理模式」而非「与前沿模型对等」的场景。

哪些设备可以运行 R1 Distill？

几乎任何 4GB+ RAM 设备：Pixel 7 及以上、iPhone 14 及以上、Snapdragon Copilot+ PC，以及任何现代笔记本 CPU。纯 CPU 跑 5-10 token/秒，慢但可用；Apple silicon 笔记本 50-60 token/秒；Snapdragon NPU 加 ONNX 优化下首字延迟 < 70 毫秒。

许可证真是 Apache 2.0 吗？

对于这个具体的 Qwen-distill 变体来说是的。Qwen 蒸馏版本继承自 Qwen-2.5 base 的 Apache 2.0。注意：完整版 DeepSeek-R1 权重本身是 MIT；Llama 蒸馏版本走 Llama Community License —— 蒸馏版的 license 取决于 base 模型。

为什么不选 Llama 3.2 1B 或 Gemma 4？

推理任务为主时选 R1 Distill —— 数学、代码、逻辑题。Llama 3.2 1B 和 Gemma 4 是更强的通用聊天模型。R1 Distill 显式用通用流畅度换取每克参数的链式推理能力，这在 1.5B 级别的端侧选项里是独家定位。

应用

适用场景

了解

获取 Cove

信任

DeepSeek R1 Distill (Qwen 1.5B)：小设备上的推理专家

它是什么？

核心规格一览

什么设备能跑？

优势与局限

适合什么场景？不适合什么场景？

与相似端侧模型对比

在 Cove App 里的真实落地

在 Cove App 里看真实落地

常见问题

引用源

它是什么？

核心规格一览

什么设备能跑？

优势与局限

适合什么场景？不适合什么场景？

与相似端侧模型对比

在 Cove App 里的真实落地

相关模型

在 Cove App 里看真实落地

常见问题

引用源