MiniCPM-V 4.0:ビジョン特化型端末マルチモーダルモデル

4.1B パラメータ、量子化 2.5GB、32K コンテキスト、ネイティブビジョン特化 —— MiniCPM-V 4.0 は OpenBMB のモバイル最適化ビジョンモデルで、OpenCompass で実力以上の成果を出す。

最終校閲: 2026年5月
パラメータ数4.1 B
量子化後サイズ2.5 GB
コンテキスト長32,768 tokens
モダリティtext+vision
ライセンスmodelbest-terms
最低 RAM4 GB
バージョンMiniCPM-V 4.0 (4.1B)
リリース2025-08

概要

MiniCPM-V 4.0 は ModelBest と OpenBMB(清華大学からスピンオフしたオープンソースコミュニティ)が 2025 年 8 月に公開した MiniCPM-V シリーズのモバイル最適化メンバー。シリーズ全体は特定のニッチを狙う:ビジョン特化のマルチモーダルモデルで、エッジ展開可能なオープンウェイト。Gemma 4 や Qwen 3.5 がビジョンを汎用 LLM の副次能力として追加するのに対し、MiniCPM-V は最初から画像理解タスクに特化して訓練されている —— そして 4.1B パラメータ版は実力以上の成果を上げ、OpenCompass ビジョンベンチで GPT-4.1-mini を超える性能を、サイズの一部で達成している。

主要スペック

(上記スペックカードを参照。構造化データから自動描画。)

動作デバイス

4.1B 版を Q4 量子化すると約 2.5GB のストレージと、ビジョンエンコーダ用に 3-4GB の RAM 余裕が必要。これにより Pixel 8 以降、iPhone 15 Pro 以降、iPhone 16 Pro Max(OpenBMB 公式ベンチマーク機、17.9 トークン/秒・初回トークンレイテンシ 2 秒未満を達成)、4GB+ RAM の主要なモダン Android スマートフォンが対象。ビジョンエンコーダの実行はメモリのボトルネックとなり得る —— ミドルレンジ機ではスループット維持のため、より積極的な量子化または小さい入力画像が必要になる場合がある。

強みと制約

強み。 ビジョン特化訓練がベンチマークで効果を発揮:MiniCPM-V 4.0 は OpenCompass で 69.0 を獲得し、GPT-4.1-mini(2025 年 4 月公開)を超え、半分のパラメータ数で前世代の MiniCPM-V 2.6(8B)に匹敵。端末上の実測も実用的:iPhone 16 Pro Max で 17.9 トークン/秒、初回トークンレイテンシ 2 秒未満、サーマルスロットリングなし。LLaVA-UHD アーキテクチャによる強力な OCR と文書分析、OCRBench でリード。活発な OpenBMB コミュニティが頻繁にアップデートを公開。(「6 フレームを 64 トークンに圧縮、96× 圧縮率」は MiniCPM-V 4.5 で新たに導入された 3D-Resampler の機能 —— 上記 FAQ「V 4.0 と 4.5 の違い」を参照。)

制約。 独自 ModelBest ライセンスは Apache 2.0 / MIT 系の代替案より手続きが多い。32K コンテキストは小さめ —— Gemma 4 の 128K の半分、Qwen 3.5 の 262K と比べると桁違いに少ない。汎用性は同類より低い —— MiniCPM-V はビジョンに優れるが、純テキストチャットや長文推論では最適ではない。MiniCPM-o バリアントは音声を追加するが 9B パラメータに跳ね上がる。

どんな場面で選ぶか / 選ばないか

MiniCPM-V 4.0 を選ぶ場面: ビジョンが価値の主軸(OCR、画像 Q&A、文書理解、動画要約);中程度のデバイスで SOTA ベンチマーク精度が必要;ModelBest ライセンス登録の手続きをこなせる。

選ばない場面: テキスト主体の汎用チャットが必要(Gemma 4、Qwen 3.5、Ministral 3B のほうが汎用性で勝る);最もシンプルなライセンスが必要(Apache 2.0 系の代替が勝る);長文コンテキストが必要(Qwen 3.5 の 262K は別次元);同一モデルで音声が必要(MiniCPM-o 4.5 は音声を追加するが 9B、Gemma 4 と Phi-4-multimodal がより小型でカバー)。

類似モデルとの比較

最も近い 2 つ:Llama 3.2 Mobile(テキスト専用、ビジョンなし)と Qwen 3.5 2B(ビジョンもあるがより汎用)。MiniCPM-V 4.0 の差別化はビジョンを add-on として扱うのではなく、ビジョンベンチマークに特化して訓練されている点。完全な横並び比較は leaderboard を参照。

実際の Cove アプリで

Cove Photo は Gemma 4 を使って画像理解を行う —— 同一モデルがコンテキスト要約のようなテキスト重視タスクも処理する必要があるからだ。Cove Photo の価値が視覚精度のみに絞られていれば(例:レシートスキャナーや美術館の作品解説アプリ)、MiniCPM-V 4.0 が第一候補となる。MiniCPM-V のアーキテクチャ的な洞察 —— 積極的なビジョントークン圧縮が品質を保つ —— は、Cove Photo のアルバムモードでの長い写真シーケンス処理の設計に影響を与えている。

実際のCoveアプリで体験する

よくある質問

ビジョンタスクで Gemma 4 や Qwen 3.5 ではなく MiniCPM-V を選ぶ理由は?

MiniCPM-V はビジョンタスクに特化して訓練されている。4.0 バリアントは OpenCompass ビジョンベンチで GPT-4.1-mini を超える性能を、わずかなサイズで達成。Gemma 4 と Qwen 3.5 はビジョンを副次的能力として追加するが、MiniCPM-V はこの比較セット内で唯一のビジョン特化モデル。

MiniCPM-V 4.0 と 4.5 の違いは?

両方ともビジョン特化。4.0 (4.1B パラメータ) はモバイル最適化版でスマートフォン推奨 —— Q4 量子化で 2.5GB、4GB RAM デバイスで動作。4.5 (8B) は OpenCompass で 77.0 を達成し Qwen2.5-VL 72B を上回り、新たに統一 3D-Resampler を導入して 6 フレームの動画を 64 トークンに圧縮(96× 圧縮率)し効率的な動画理解を実現 —— ただしより重く、スマートフォンではなく iPad とノート PC が対象。

MiniCPM-o 4.5 とは?オムニモーダル版?

MiniCPM-o 4.5 は 9B のオムニモーダル兄弟:MiniCPM-V のビジョン能力に加え音声入出力と全二重ライブストリーミングを搭載。MiniCPM-V 4.5 + 音声と理解できる —— 能力範囲は Gemini 2.5 Flash に匹敵するが iPad M4 で動作。V 4.0 のモバイルスイートスポットより大型デバイス向け。

MiniCPM-V 4.0 はどのデバイスで動作する?

Pixel 8 以降、iPhone 15 Pro 以降、iPhone 16 Pro Max(OpenBMB 公式ベンチマーク機 —— 17.9 トークン/秒、初回トークンレイテンシ 2 秒未満)、4GB+ RAM の主要なモダン Android スマホ。4.1B パラメータモデルを Q4 量子化すると約 2.5GB ストレージ + 画像処理用に 3-4GB RAM の余裕が必要。ミドルレンジ機ではより積極的な量子化や小さい入力画像が必要かもしれない。

MiniCPM のライセンス条件は?

ModelBest 独自規約(当社スキーマで modelbest-terms)。ライセンスは商用利用と改変を許可するが登録が必要。Apache 2.0(Gemma 4、Qwen 3.5、Mistral)や MIT(Phi)よりも手間がかかるが、合理的な条件で企業展開は可能。

出典