Microsoft Phi-4 multimodal:テキスト・ビジョン・音声を 1 モデルで

5.6B パラメータ、128K コンテキスト、MIT ライセンス、ネイティブのテキスト+ビジョン+音声 —— Phi-4-multimodal は 2026 年に Microsoft が提供する端末向け最強の小型マルチモーダルモデルだ。

最終校閲: 2026年5月
パラメータ数5.6 B
量子化後サイズ3.5 GB
コンテキスト長128,000 tokens
モダリティtext+vision+audio
ライセンスmit
最低 RAM6 GB
バージョンPhi-4-multimodal
リリース2025-02

概要

Microsoft Phi-4-multimodal は Microsoft が 2025 年 2 月に公開した 56 億パラメータのオープンウェイトモデル。音声・ビジョン・テキスト処理を統一アーキテクチャに統合している。Phi-4 ファミリーの一員で、Microsoft の位置付けは「小さくも強い」—— コンシューマー機器で動くサイズに収めつつ、品質優先のデータカリキュラムでパラメータ規模以上の性能を引き出している。多くのマルチモーダルモデルがビジョンエンコーダを後付けする中、Phi-4-multimodal はクロスモーダルでエンドツーエンドに学習されている。

主要スペック

(上記スペックカードを参照。構造化データから自動描画。)

動作デバイス

Phi-4-multimodal は 4-bit 量子化推論に最低 6GB RAM の余裕が必要。これにより最低条件はフラッグシップ Android(Pixel 8 以降、Galaxy S24+、OnePlus 12+)と iPhone 15 Pro 以降。Snapdragon X Copilot+ PC や近年の MacBook Air / Pro でも快適に動作し、高いメモリ帯域幅がビジョンエンコーダに有利に働く。中位・旧型機(4-6GB RAM)は技術的にインストール可能だが、トークン生成速度は一桁台に落ちる。

強みと制約

強み。 真のマルチモーダル —— 音声・ビジョン・テキストを 1 つのモデルで処理し、3 つの寄せ集めではない。同サイズクラスでは推論性能が際立ち、特に数学・コーディングが強い。MIT ライセンスはオープンモデル界で最も寛容な部類。ONNX Runtime + Olive により Windows / iOS / Android への成熟したデプロイ経路が確保されている。

制約。 端末同類より大きい(5.6B vs Gemma 4 の 2.3B 有効)ため、フラッグシップ級ハードウェアが必須。同一デバイスでも小型モデルよりトークン処理速度は劣る。128K コンテキストは寛大だが、長文時の attention メモリが端末 RAM の上限を押し上げやすい。

どんな場面で選ぶか / 選ばないか

Phi-4-multimodal を選ぶ場面: 画像・音声・テキストを 1 つのユーザーフローで混在させる;Gemma 4 を超える推論力が必要;フラッグシップ級ハードウェアのみを対象;MIT ライセンスで企業契約レビューを簡素化したい。

選ばない場面: ターゲットユーザーに旧式機が含まれる(Gemma 4 や DeepSeek-R1 Distill のメモリ要件が低い);テキストのみのワークロード(Phi-4 mini 3.8B の方が小型・低コスト);端末上での微調整が必要(LoRA は Llama / Qwen で成熟)。

類似モデルとの比較

最も近い 2 つ:Gemma 4 E2B(より小型・高速、同じくテキスト+ビジョン+音声対応、Apache 2.0)と Ministral 3B(さらに小型、テキスト+ビジョン対応だが音声なし、同じく Apache 2.0)。完全な横並び比較は leaderboard を参照。

実際の Cove アプリで

Cove Photo と Cove Voice は現在、Phi-4-multimodal ではなく Gemma 4 を採用している —— Gemma 4 のより小さなフットプリントが当社のターゲットデバイス範囲によりよく適合するためだ。しかし Phi-4-multimodal は「端末上で統一されたテキスト+ビジョン+音声」がどう見えるかの最も明快な参考であり、そのアーキテクチャの発想(クロスモーダル attention など)は、同一セッションで写真と音声プロンプトを処理する Cove の設計に影響を与えている。

実際のCoveアプリで体験する

よくある質問

Phi-4-multimodal は私のスマートフォンで動作するか?

はい、フラッグシップ Android(Pixel 8+、Galaxy S24+)と iPhone 15 Pro 以降で動作する。5.6B パラメータモデルは 4-bit 量子化で最低 6GB RAM とコンテキスト用余裕が必要なため、旧式・廉価機種では厳しい。

実際のダウンロードサイズはどのくらい?

Q4_K_M 量子化後で約 3.5GB、非量子化 FP16 重みは約 11GB。ほとんどの端末向けフレームワークは量子化版を配布する。ONNX Runtime + Olive でデバイス階層別に精度をカスタマイズ可能。

Phi-4 mini との違いは?

Phi-4 mini は 3.8B のテキスト専用モデル。Phi-4-multimodal は 5.6B で、音声・ビジョン・テキストを統一アーキテクチャ内でネイティブに処理する。テキストのみで小さくしたいなら mini、1 モデルで何でもこなしたいなら multimodal。

Phi-4-multimodal は本当に MIT ライセンス?

はい、モデル重みは MIT ライセンスで公開されている —— 商用利用可能なオープンモデル系で最も寛容なライセンスの一つ。Microsoft は企業導入の法務審査ハードルを下げるため、Phi-4 ファミリー全体を MIT で公開した。

Gemma 4 と比較するとどう?

Phi-4-multimodal はパラメータが多く(5.6B vs Gemma 4 の 2.3B 有効)推論力で優位だが、Gemma 4 はより高速で、ハードウェア要件も低い(最低 4GB RAM)。両者ともテキスト+ビジョン+音声対応。推論重視なら Phi、より広いデバイスカバレッジなら Gemma。

出典