概要
MiniCPM-V 4.0 は ModelBest と OpenBMB(清華大学からスピンオフしたオープンソースコミュニティ)が 2025 年 8 月に公開した MiniCPM-V シリーズのモバイル最適化メンバー。シリーズ全体は特定のニッチを狙う:ビジョン特化のマルチモーダルモデルで、エッジ展開可能なオープンウェイト。Gemma 4 や Qwen 3.5 がビジョンを汎用 LLM の副次能力として追加するのに対し、MiniCPM-V は最初から画像理解タスクに特化して訓練されている —— そして 4.1B パラメータ版は実力以上の成果を上げ、OpenCompass ビジョンベンチで GPT-4.1-mini を超える性能を、サイズの一部で達成している。
主要スペック
(上記スペックカードを参照。構造化データから自動描画。)
動作デバイス
4.1B 版を Q4 量子化すると約 2.5GB のストレージと、ビジョンエンコーダ用に 3-4GB の RAM 余裕が必要。これにより Pixel 8 以降、iPhone 15 Pro 以降、iPhone 16 Pro Max(OpenBMB 公式ベンチマーク機、17.9 トークン/秒・初回トークンレイテンシ 2 秒未満を達成)、4GB+ RAM の主要なモダン Android スマートフォンが対象。ビジョンエンコーダの実行はメモリのボトルネックとなり得る —— ミドルレンジ機ではスループット維持のため、より積極的な量子化または小さい入力画像が必要になる場合がある。
強みと制約
強み。 ビジョン特化訓練がベンチマークで効果を発揮:MiniCPM-V 4.0 は OpenCompass で 69.0 を獲得し、GPT-4.1-mini(2025 年 4 月公開)を超え、半分のパラメータ数で前世代の MiniCPM-V 2.6(8B)に匹敵。端末上の実測も実用的:iPhone 16 Pro Max で 17.9 トークン/秒、初回トークンレイテンシ 2 秒未満、サーマルスロットリングなし。LLaVA-UHD アーキテクチャによる強力な OCR と文書分析、OCRBench でリード。活発な OpenBMB コミュニティが頻繁にアップデートを公開。(「6 フレームを 64 トークンに圧縮、96× 圧縮率」は MiniCPM-V 4.5 で新たに導入された 3D-Resampler の機能 —— 上記 FAQ「V 4.0 と 4.5 の違い」を参照。)
制約。 独自 ModelBest ライセンスは Apache 2.0 / MIT 系の代替案より手続きが多い。32K コンテキストは小さめ —— Gemma 4 の 128K の半分、Qwen 3.5 の 262K と比べると桁違いに少ない。汎用性は同類より低い —— MiniCPM-V はビジョンに優れるが、純テキストチャットや長文推論では最適ではない。MiniCPM-o バリアントは音声を追加するが 9B パラメータに跳ね上がる。
どんな場面で選ぶか / 選ばないか
MiniCPM-V 4.0 を選ぶ場面: ビジョンが価値の主軸(OCR、画像 Q&A、文書理解、動画要約);中程度のデバイスで SOTA ベンチマーク精度が必要;ModelBest ライセンス登録の手続きをこなせる。
選ばない場面: テキスト主体の汎用チャットが必要(Gemma 4、Qwen 3.5、Ministral 3B のほうが汎用性で勝る);最もシンプルなライセンスが必要(Apache 2.0 系の代替が勝る);長文コンテキストが必要(Qwen 3.5 の 262K は別次元);同一モデルで音声が必要(MiniCPM-o 4.5 は音声を追加するが 9B、Gemma 4 と Phi-4-multimodal がより小型でカバー)。
類似モデルとの比較
最も近い 2 つ:Llama 3.2 Mobile(テキスト専用、ビジョンなし)と Qwen 3.5 2B(ビジョンもあるがより汎用)。MiniCPM-V 4.0 の差別化はビジョンを add-on として扱うのではなく、ビジョンベンチマークに特化して訓練されている点。完全な横並び比較は leaderboard を参照。
実際の Cove アプリで
Cove Photo は Gemma 4 を使って画像理解を行う —— 同一モデルがコンテキスト要約のようなテキスト重視タスクも処理する必要があるからだ。Cove Photo の価値が視覚精度のみに絞られていれば(例:レシートスキャナーや美術館の作品解説アプリ)、MiniCPM-V 4.0 が第一候補となる。MiniCPM-V のアーキテクチャ的な洞察 —— 積極的なビジョントークン圧縮が品質を保つ —— は、Cove Photo のアルバムモードでの長い写真シーケンス処理の設計に影響を与えている。