端末AIモデル比較 2026：主要8モデル徹底比較

最終校閲: 2026年5月

モデル	ベンダー	パラメータ	量子化サイズ	コンテキスト	モダリティ	ライセンス	最低RAM	Cove採用	詳細
Gemma 4 E2B	Google DeepMind	2.3B	1.5 GB	128,000	text+vision+audio	apache-2.0	4 GB	✓	見る →
Microsoft Phi-4 multimodal	Microsoft Research	5.6B	3.5 GB	128,000	text+vision+audio	mit	6 GB	✓	見る →
Apple Foundation Models	Apple	3B	未公開	未公開	text+vision	apple-proprietary	8 GB	✓	見る →
Llama 3.2 Mobile	Meta AI	3B	2 GB	128,000	text	llama-community	6 GB	✓	見る →
Qwen 3.5 2B	Alibaba Cloud	2B	1.5 GB	262,000	text+vision	apache-2.0	4 GB	✓	見る →
Ministral 3B	Mistral AI	3B	2 GB	32,768	text+vision	apache-2.0	4 GB	✓	見る →
DeepSeek R1 Distill (Qwen 1.5B)	DeepSeek	1.5B	1 GB	32,768	text	apache-2.0	4 GB	✓	見る →
MiniCPM-V 4.0	ModelBest / OpenBMB	4.1B	2.5 GB	32,768	text+vision	modelbest-terms	4 GB	✓	見る →

方法論

この比較表の作り方。 8 モデルを同一の指標で評価 — パラメータ数・量子化後サイズ・コンテキスト長・モダリティ・ライセンス・最低デバイス RAM — データは各ベンダーの公式モデルカード（Hugging Face・ベンダーブログ・公式ドキュメント）に基づき、上記「最終校閲」バッジ時点のもの。当社では独自ベンチマークは実施せず、データ点ごとに 2〜3 の権威ある情報源を相互参照し、矛盾時はベンダー自身の主張を優先する。実機での挙動は ±10〜20% 程度ずれることがあり、量子化スキーム（Q4_K_M / AWQ / GPTQ）・推論ランタイム（LiteRT / MediaPipe / ExecuTorch / llama.cpp / Core ML）・サーマルスロットリングに依存する。各モデルカードに `lastReviewed` フィールドがあり、本ページは四半期ごとに更新する。矛盾・曖昧点は公開 GitHub リポジトリで追跡している。

用途別おすすめ

翻訳

Gemma 4 E2B — 1.5GB でテキスト+ビジョン+音声、最もバランスの取れた選択
Apple Foundation Models — iOS 26 にネイティブ統合、Apple ユーザーはダウンロード不要
Qwen 3.5 2B — 262K コンテキストで長文に強く、中国語・多言語対応

音声・メモ

DeepSeek R1 Distill (Qwen 1.5B) — 1.5B 推論特化、4GB RAM スマホでも動作
Ministral 3B — Ministral 3B — 日常メモタスクの堅実な万能選手
Microsoft Phi-4 multimodal — Phi-4 multimodal は音声・テキスト・画像を 1 モデルで処理

画像・写真

MiniCPM-V 4.0 — ビジョンタスク特化、4B でクラス越えの実力
Gemma 4 E2B — ネイティブビジョン+音声がわずか 1.5GB、主要フラッグシップで動作
Microsoft Phi-4 multimodal — 5.6B マルチモーダル — ビジョン+推論で最強の組み合わせ

デバイス別おすすめ

フラッグシップ (8GB+ RAM)

モバイル最適化の最大モデルを快適に

ミッドレンジ (6GB RAM)

サイズと能力のバランスが最良

旧機種 (4GB RAM)

小型でも実用的な価値を提供

アプリ

ユースケース

学ぶ

Cove を入手

信頼