概要
Microsoft Phi-4-multimodal は Microsoft が 2025 年 2 月に公開した 56 億パラメータのオープンウェイトモデル。音声・ビジョン・テキスト処理を統一アーキテクチャに統合している。Phi-4 ファミリーの一員で、Microsoft の位置付けは「小さくも強い」—— コンシューマー機器で動くサイズに収めつつ、品質優先のデータカリキュラムでパラメータ規模以上の性能を引き出している。多くのマルチモーダルモデルがビジョンエンコーダを後付けする中、Phi-4-multimodal はクロスモーダルでエンドツーエンドに学習されている。
主要スペック
(上記スペックカードを参照。構造化データから自動描画。)
動作デバイス
Phi-4-multimodal は 4-bit 量子化推論に最低 6GB RAM の余裕が必要。これにより最低条件はフラッグシップ Android(Pixel 8 以降、Galaxy S24+、OnePlus 12+)と iPhone 15 Pro 以降。Snapdragon X Copilot+ PC や近年の MacBook Air / Pro でも快適に動作し、高いメモリ帯域幅がビジョンエンコーダに有利に働く。中位・旧型機(4-6GB RAM)は技術的にインストール可能だが、トークン生成速度は一桁台に落ちる。
強みと制約
強み。 真のマルチモーダル —— 音声・ビジョン・テキストを 1 つのモデルで処理し、3 つの寄せ集めではない。同サイズクラスでは推論性能が際立ち、特に数学・コーディングが強い。MIT ライセンスはオープンモデル界で最も寛容な部類。ONNX Runtime + Olive により Windows / iOS / Android への成熟したデプロイ経路が確保されている。
制約。 端末同類より大きい(5.6B vs Gemma 4 の 2.3B 有効)ため、フラッグシップ級ハードウェアが必須。同一デバイスでも小型モデルよりトークン処理速度は劣る。128K コンテキストは寛大だが、長文時の attention メモリが端末 RAM の上限を押し上げやすい。
どんな場面で選ぶか / 選ばないか
Phi-4-multimodal を選ぶ場面: 画像・音声・テキストを 1 つのユーザーフローで混在させる;Gemma 4 を超える推論力が必要;フラッグシップ級ハードウェアのみを対象;MIT ライセンスで企業契約レビューを簡素化したい。
選ばない場面: ターゲットユーザーに旧式機が含まれる(Gemma 4 や DeepSeek-R1 Distill のメモリ要件が低い);テキストのみのワークロード(Phi-4 mini 3.8B の方が小型・低コスト);端末上での微調整が必要(LoRA は Llama / Qwen で成熟)。
類似モデルとの比較
最も近い 2 つ:Gemma 4 E2B(より小型・高速、同じくテキスト+ビジョン+音声対応、Apache 2.0)と Ministral 3B(さらに小型、テキスト+ビジョン対応だが音声なし、同じく Apache 2.0)。完全な横並び比較は leaderboard を参照。
実際の Cove アプリで
Cove Photo と Cove Voice は現在、Phi-4-multimodal ではなく Gemma 4 を採用している —— Gemma 4 のより小さなフットプリントが当社のターゲットデバイス範囲によりよく適合するためだ。しかし Phi-4-multimodal は「端末上で統一されたテキスト+ビジョン+音声」がどう見えるかの最も明快な参考であり、そのアーキテクチャの発想(クロスモーダル attention など)は、同一セッションで写真と音声プロンプトを処理する Cove の設計に影響を与えている。