DeepSeek R1 Distill (Qwen 1.5B):小型デバイス向け推論特化モデル

1.5B パラメータ、量子化 1.0GB、32K コンテキスト、Apache 2.0 —— DeepSeek の最小推論特化モデルは 4GB RAM ノート PC と Snapdragon Copilot+ PC で動作する。

最終校閲: 2026年5月
パラメータ数1.5 B
量子化後サイズ1 GB
コンテキスト長32,768 tokens
モダリティtext
ライセンスapache-2.0
最低 RAM4 GB
バージョンDeepSeek-R1-Distill-Qwen-1.5B
リリース2025-01

概要

DeepSeek-R1-Distill-Qwen-1.5B は DeepSeek R1 蒸留ファミリーで最小のメンバー、2025 年 1 月に完全版 DeepSeek-R1 と同時リリース。蒸留版は Qwen-2.5-Math-1.5B を base アーキテクチャとして、671B パラメータの教師 R1 が生成した 80 万件の連鎖推論サンプルで微調整されている。結果として、数学・コード・論理タスクに対して明示的に段階的推論を行う 1.5B パラメータのモデルが得られる —— R1 のコストの一部、はるかに手軽なハードウェアで。

主要スペック

(上記スペックカードを参照。構造化データから自動描画。)

動作デバイス

1.5B 版を Q4 量子化すると約 1GB のダウンロードで、ほぼあらゆる端末で動作する:Pixel 7 以降、iPhone 14 以降、Snapdragon Copilot+ PC、任意の現代 Intel/AMD ノート PC(CPU のみ)、Apple silicon Mac。CPU のみで 5-10 トークン/秒は遅いが実用的、Apple silicon ノート PC や軽量 GPU で 50-60 トークン/秒。Snapdragon NPU + ONNX 最適化により、短プロンプトの初回トークンまで 70ms 未満を実現。

強みと制約

強み。 1.5B のフットプリントで本物の連鎖推論を実現 —— 端末同類では他に類を見ない。Qwen-2.5 base から継承した Apache 2.0 ライセンス。小さいので同一デバイス上で他モデルと共存可能。数学・コードに特に強く、推論拡張エージェントへ自然にルーティングされる(プロンプトテクニックが不要)。

制約。 品質はパラメータ数に縛られる。AIME 2024 pass@1 28.9% 対完全版 R1 約 80% pass@1 は意味のある差 —— フロンティアレベルを期待しないこと。テキストのみ、ビジョン・音声なし。同サイズの汎用チャットモデルと比較してオープンエンドタスクでの流暢性は劣る。推論深度が深いほどレイテンシが増加 —— 連鎖推論は設計上冗長。

どんな場面で選ぶか / 選ばないか

R1 Distill 1.5B を選ぶ場面: ワークロードが推論支配(数学宿題ヘルパー、コードアシスタント、論理エージェント);ローエンドハードウェア(4GB RAM ノート PC、ミドルレンジスマホ)に展開する必要;透明性のために明示的な連鎖推論出力が欲しい;Apache 2.0 ライセンスが重要。

選ばない場面: オープンエンドチャットがメイン(Gemma 4 や Qwen 3.5 のほうが汎用性が高い);マルチモダリティが必要(Gemma 4、Phi-4-multimodal、MiniCPM-V);フロンティアレベルの推論品質が必要(クラウド版完全 DeepSeek-R1、または次世代蒸留を待つ)。

類似モデルとの比較

最も近い 2 つ:Qwen 3.5 2B(汎用、多言語、マルチモーダル、262K コンテキスト)と Ministral 3B(汎用、同じく Apache 2.0、画像対応)。R1 Distill の差別化は、より小さいサイズで明示的に推論調整されている点。完全な横並び比較は leaderboard を参照。

実際の Cove アプリで

Cove Voice は Gemma 4 を使って音声メモを要約している —— これは汎用チャット風の要約で、Gemma の広い流暢性が勝つ。R1 Distill 1.5B は推論重視のアドオン用途に向く:明示的論理によるアクションアイテム抽出、構造化タスク分解、数学関連の転写。すでに将来の Cove Voice モードとしてプロトタイプ化済み —— bullet list ではなく連鎖推論による要約を求めるパワーユーザー向け。

実際のCoveアプリで体験する

よくある質問

ここで言う「蒸留 (distilled)」とは?

DeepSeek は Qwen-2.5-Math-1.5B を base アーキテクチャとして、671B パラメータの教師 DeepSeek-R1 が生成した 80 万件の連鎖推論サンプルで教師付き微調整を行った。生徒モデルは R1 の連鎖推論スタイルを継承するが、実行コストは R1 の一部、ハードウェア要件も劇的に低い。

完全版 DeepSeek R1 と同じ賢さ?

違う。1.5B 蒸留版は AIME 2024 pass@1 で 28.9%(consensus@64 で 52.7%)、完全版 R1 は pass@1 約 80%。MATH-500 では 83.9% 対 97.3%。連鎖推論は本物だが、品質はパラメータ数に縛られる。「推論パターンが必要」な場面で使うべきで、「フロンティアモデルと同等」を期待しないこと。

どのデバイスで R1 Distill は動作する?

ほぼ何でも:Pixel 7 以降、iPhone 14 以降、Snapdragon Copilot+ PC、現代の Intel/AMD ノート PC、Apple silicon Mac。CPU のみで 5-10 トークン/秒(遅いが実用)、Apple silicon で 50-60 トークン/秒。Snapdragon NPU で ONNX 最適化時、短プロンプトの初回トークンまで 70ms 未満。

ライセンスは本当に Apache 2.0?

この Qwen 蒸留版に限って言えば、はい。Qwen 蒸留バリアントは Qwen-2.5 base の Apache 2.0 を継承する。ただし完全版 DeepSeek-R1 の重み自体は MIT、Llama 蒸留版は Llama Community License に従う —— 蒸留版のライセンスは base モデル次第。

なぜ Llama 3.2 1B や Gemma 4 ではなく R1 Distill?

推論が支配的なワークロード(数学、コード、論理パズル)なら R1 Distill。Llama 3.2 1B と Gemma 4 は汎用チャットの方が強い。R1 Distill は「単位パラメータあたりの連鎖推論能力」と引き換えに汎用流暢性を犠牲にしており、1.5B クラスの端末向け選択肢として独自のポジション。

出典