DeepSeek R1 Distill (Qwen 1.5B):小设备上的推理专家

1.5B 参数、量化 1.0GB、32K 上下文、Apache 2.0 —— DeepSeek 最小的 reasoning 专精模型,4GB RAM 笔记本和 Snapdragon Copilot+ PC 都能跑。

最后校验: 2026 年 5 月
参数量1.5 B
量化后大小1 GB
上下文长度32,768 tokens
模态text
许可证apache-2.0
最低 RAM4 GB
版本DeepSeek-R1-Distill-Qwen-1.5B
发布2025-01

它是什么?

DeepSeek-R1-Distill-Qwen-1.5B 是 DeepSeek R1 蒸馏家族里最小的成员,2025 年 1 月与完整版 DeepSeek-R1 一同发布。蒸馏版以 Qwen-2.5-Math-1.5B 为 base 架构,用 671B 参数的更大教师 R1 生成的 80 万个链式推理样本对其微调。最终得到一个 1.5B 参数的模型,能在数学、代码、逻辑任务上做显式的逐步推理 —— 成本只是 R1 的一小部分,硬件要求也低得多。

核心规格一览

(请参考上方规格卡,数据来自结构化数据层。)

什么设备能跑?

1.5B 版本 Q4 量化下大约 1GB 下载量,几乎在任何设备上都能跑:Pixel 7 及以上、iPhone 14 及以上、Snapdragon Copilot+ PC、任何现代 Intel/AMD 笔记本(纯 CPU 即可)、Apple silicon Mac。纯 CPU 5-10 token/秒,慢但可用;Apple silicon 笔记本或入门 GPU 上 50-60 token/秒;Snapdragon NPU 加 ONNX 优化下短 prompt 首字延迟 < 70 毫秒。

优势与局限

优势。 1.5B 体量下做出真正的链式推理 —— 端侧同行里独一无二。从 Qwen-2.5 base 继承的 Apache 2.0 许可证。小到能与其他模型同设备共存。数学和代码上特别突出;在做推理增强 agent 时无需 prompt 技巧就能自然路由进推理流。

局限。 质量受参数量限制。AIME 2024 pass@1 28.9% 对比完整版 R1 约 80% pass@1 是显著差距 —— 别期待前沿模型水准。仅文本,无视觉、无音频。开放式任务上不如同尺寸的通用聊天模型流畅。推理深度越深延迟越高 —— 链式推理输出本身就比较啰嗦。

适合什么场景?不适合什么场景?

选 R1 Distill 1.5B 当: 你的工作流以推理为主(数学作业助手、代码助手、逻辑 agent);你要部署到低端硬件(4GB RAM 笔记本、中端手机);你需要显式的链式推理输出来保证透明度;你看重 Apache 2.0 许可证。

别选它当: 你的工作流是开放式聊天(Gemma 4 或 Qwen 3.5 通用性更好);你需要多模态(Gemma 4、Phi-4-multimodal、MiniCPM-V);你需要前沿推理质量(云端跑完整 DeepSeek-R1,或等下一代蒸馏)。

与相似端侧模型对比

最相近的两位:Qwen 3.5 2B(通用、多语种、多模态、262K 上下文)和 Ministral 3B(通用、同样 Apache 2.0、有视觉)。R1 Distill 的差异化是更小尺寸下显式针对推理调优。完整横评见 leaderboard

在 Cove App 里的真实落地

Cove Voice 用 Gemma 4 整理语音笔记 —— 这是通用聊天式总结,Gemma 更广的流畅度更胜任。R1 Distill 1.5B 适合做推理密集的扩展:用显式逻辑提取行动项、结构化任务拆解、或数学相关转录。我们已经原型化它作为 Cove Voice 的未来模式之一,给希望看到链式推理总结而非 bullet list 的进阶用户使用。

在 Cove App 里看真实落地

常见问题

这里的「蒸馏」(distilled)是什么意思?

DeepSeek 拿 Qwen-2.5-Math-1.5B 作为 base 架构,用 671B 参数大教师 DeepSeek-R1 生成的 80 万个推理样本对它做监督微调。学生模型继承了 R1 的链式推理风格,但运行成本只是 R1 的一小部分,硬件门槛也大幅降低。

和完整版 DeepSeek R1 一样聪明吗?

不一样。1.5B 蒸馏版 AIME 2024 pass@1 是 28.9%(consensus@64 下 52.7%),完整版 R1 pass@1 约 80%;MATH-500 是 83.9% 对比 R1 的 97.3%。它确实在做链式推理,但质量受参数量限制。要把它用在「需要推理模式」而非「与前沿模型对等」的场景。

哪些设备可以运行 R1 Distill?

几乎任何 4GB+ RAM 设备:Pixel 7 及以上、iPhone 14 及以上、Snapdragon Copilot+ PC,以及任何现代笔记本 CPU。纯 CPU 跑 5-10 token/秒,慢但可用;Apple silicon 笔记本 50-60 token/秒;Snapdragon NPU 加 ONNX 优化下首字延迟 < 70 毫秒。

许可证真是 Apache 2.0 吗?

对于这个具体的 Qwen-distill 变体来说是的。Qwen 蒸馏版本继承自 Qwen-2.5 base 的 Apache 2.0。注意:完整版 DeepSeek-R1 权重本身是 MIT;Llama 蒸馏版本走 Llama Community License —— 蒸馏版的 license 取决于 base 模型。

为什么不选 Llama 3.2 1B 或 Gemma 4?

推理任务为主时选 R1 Distill —— 数学、代码、逻辑题。Llama 3.2 1B 和 Gemma 4 是更强的通用聊天模型。R1 Distill 显式用通用流畅度换取每克参数的链式推理能力,这在 1.5B 级别的端侧选项里是独家定位。

引用源