端末AIモデル比較 2026:主要8モデル徹底比較

最終校閲: 2026年5月
モデルベンダーパラメータ量子化サイズコンテキストモダリティライセンス最低RAMCove採用詳細
Gemma 4 E2B Google DeepMind 2.3B 1.5 GB 128,000 text+vision+audio apache-2.0 4 GB 見る →
Microsoft Phi-4 multimodal Microsoft Research 5.6B 3.5 GB 128,000 text+vision+audio mit 6 GB 見る →
Apple Foundation Models Apple 3B 未公開 未公開 text+vision apple-proprietary 8 GB 見る →
Llama 3.2 Mobile Meta AI 3B 2 GB 128,000 text llama-community 6 GB 見る →
Qwen 3.5 2B Alibaba Cloud 2B 1.5 GB 262,000 text+vision apache-2.0 4 GB 見る →
Ministral 3B Mistral AI 3B 2 GB 32,768 text+vision apache-2.0 4 GB 見る →
DeepSeek R1 Distill (Qwen 1.5B) DeepSeek 1.5B 1 GB 32,768 text apache-2.0 4 GB 見る →
MiniCPM-V 4.0 ModelBest / OpenBMB 4.1B 2.5 GB 32,768 text+vision modelbest-terms 4 GB 見る →

方法論

この比較表の作り方。 8 モデルを同一の指標で評価 — パラメータ数・量子化後サイズ・コンテキスト長・モダリティ・ライセンス・最低デバイス RAM — データは各ベンダーの公式モデルカード(Hugging Face・ベンダーブログ・公式ドキュメント)に基づき、上記「最終校閲」バッジ時点のもの。当社では独自ベンチマークは実施せず、データ点ごとに 2〜3 の権威ある情報源を相互参照し、矛盾時はベンダー自身の主張を優先する。実機での挙動は ±10〜20% 程度ずれることがあり、量子化スキーム(Q4_K_M / AWQ / GPTQ)・推論ランタイム(LiteRT / MediaPipe / ExecuTorch / llama.cpp / Core ML)・サーマルスロットリングに依存する。各モデルカードに `lastReviewed` フィールドがあり、本ページは四半期ごとに更新する。矛盾・曖昧点は公開 GitHub リポジトリで追跡している。

用途別おすすめ

翻訳

  • Gemma 4 E2B — 1.5GB でテキスト+ビジョン+音声、最もバランスの取れた選択
  • Apple Foundation Models — iOS 26 にネイティブ統合、Apple ユーザーはダウンロード不要
  • Qwen 3.5 2B — 262K コンテキストで長文に強く、中国語・多言語対応

画像・写真

  • MiniCPM-V 4.0 — ビジョンタスク特化、4B でクラス越えの実力
  • Gemma 4 E2B — ネイティブビジョン+音声がわずか 1.5GB、主要フラッグシップで動作
  • Microsoft Phi-4 multimodal — 5.6B マルチモーダル — ビジョン+推論で最強の組み合わせ

デバイス別おすすめ