Microsoft Phi-4 multimodal：5.6B 端末 LLM 完全レビュー

パラメータ数	5.6 B
量子化後サイズ	3.5 GB
コンテキスト長	128,000 tokens
モダリティ	text+vision+audio
ライセンス	mit
最低 RAM	6 GB
バージョン	Phi-4-multimodal
リリース	2025-02

パラメータ数

5.6 B

量子化後サイズ

3.5 GB

コンテキスト長

128,000 tokens

モダリティ

text+vision+audio

ライセンス

mit

最低 RAM

6 GB

バージョン

Phi-4-multimodal

リリース

2025-02

概要

Microsoft Phi-4-multimodal は Microsoft が 2025 年 2 月に公開した 56 億パラメータのオープンウェイトモデル。音声・ビジョン・テキスト処理を統一アーキテクチャに統合している。Phi-4 ファミリーの一員で、Microsoft の位置付けは「小さくも強い」—— コンシューマー機器で動くサイズに収めつつ、品質優先のデータカリキュラムでパラメータ規模以上の性能を引き出している。多くのマルチモーダルモデルがビジョンエンコーダを後付けする中、Phi-4-multimodal はクロスモーダルでエンドツーエンドに学習されている。

主要スペック

（上記スペックカードを参照。構造化データから自動描画。）

動作デバイス

Phi-4-multimodal は 4-bit 量子化推論に最低 6GB RAM の余裕が必要。これにより最低条件はフラッグシップ Android（Pixel 8 以降、Galaxy S24+、OnePlus 12+）と iPhone 15 Pro 以降。Snapdragon X Copilot+ PC や近年の MacBook Air / Pro でも快適に動作し、高いメモリ帯域幅がビジョンエンコーダに有利に働く。中位・旧型機（4-6GB RAM）は技術的にインストール可能だが、トークン生成速度は一桁台に落ちる。

強みと制約

強み。 真のマルチモーダル —— 音声・ビジョン・テキストを 1 つのモデルで処理し、3 つの寄せ集めではない。同サイズクラスでは推論性能が際立ち、特に数学・コーディングが強い。MIT ライセンスはオープンモデル界で最も寛容な部類。ONNX Runtime + Olive により Windows / iOS / Android への成熟したデプロイ経路が確保されている。

制約。 端末同類より大きい（5.6B vs Gemma 4 の 2.3B 有効）ため、フラッグシップ級ハードウェアが必須。同一デバイスでも小型モデルよりトークン処理速度は劣る。128K コンテキストは寛大だが、長文時の attention メモリが端末 RAM の上限を押し上げやすい。

どんな場面で選ぶか / 選ばないか

Phi-4-multimodal を選ぶ場面： 画像・音声・テキストを 1 つのユーザーフローで混在させる；Gemma 4 を超える推論力が必要；フラッグシップ級ハードウェアのみを対象；MIT ライセンスで企業契約レビューを簡素化したい。

選ばない場面： ターゲットユーザーに旧式機が含まれる（Gemma 4 や DeepSeek-R1 Distill のメモリ要件が低い）；テキストのみのワークロード（Phi-4 mini 3.8B の方が小型・低コスト）；端末上での微調整が必要（LoRA は Llama / Qwen で成熟）。

類似モデルとの比較

最も近い 2 つ：Gemma 4 E2B（より小型・高速、同じくテキスト+ビジョン+音声対応、Apache 2.0）と Ministral 3B（さらに小型、テキスト+ビジョン対応だが音声なし、同じく Apache 2.0）。完全な横並び比較は leaderboard を参照。

実際の Cove アプリで

Cove Photo と Cove Voice は現在、Phi-4-multimodal ではなく Gemma 4 を採用している —— Gemma 4 のより小さなフットプリントが当社のターゲットデバイス範囲によりよく適合するためだ。しかし Phi-4-multimodal は「端末上で統一されたテキスト+ビジョン+音声」がどう見えるかの最も明快な参考であり、そのアーキテクチャの発想（クロスモーダル attention など）は、同一セッションで写真と音声プロンプトを処理する Cove の設計に影響を与えている。

よくある質問

Phi-4-multimodal は私のスマートフォンで動作するか？

はい、フラッグシップ Android（Pixel 8+、Galaxy S24+）と iPhone 15 Pro 以降で動作する。5.6B パラメータモデルは 4-bit 量子化で最低 6GB RAM とコンテキスト用余裕が必要なため、旧式・廉価機種では厳しい。

実際のダウンロードサイズはどのくらい？

Q4_K_M 量子化後で約 3.5GB、非量子化 FP16 重みは約 11GB。ほとんどの端末向けフレームワークは量子化版を配布する。ONNX Runtime + Olive でデバイス階層別に精度をカスタマイズ可能。

Phi-4 mini との違いは？

Phi-4 mini は 3.8B のテキスト専用モデル。Phi-4-multimodal は 5.6B で、音声・ビジョン・テキストを統一アーキテクチャ内でネイティブに処理する。テキストのみで小さくしたいなら mini、1 モデルで何でもこなしたいなら multimodal。

Phi-4-multimodal は本当に MIT ライセンス？

はい、モデル重みは MIT ライセンスで公開されている —— 商用利用可能なオープンモデル系で最も寛容なライセンスの一つ。Microsoft は企業導入の法務審査ハードルを下げるため、Phi-4 ファミリー全体を MIT で公開した。

Gemma 4 と比較するとどう？

Phi-4-multimodal はパラメータが多く（5.6B vs Gemma 4 の 2.3B 有効）推論力で優位だが、Gemma 4 はより高速で、ハードウェア要件も低い（最低 4GB RAM）。両者ともテキスト+ビジョン+音声対応。推論重視なら Phi、より広いデバイスカバレッジなら Gemma。

アプリ

ユースケース

学ぶ

Cove を入手

信頼

Microsoft Phi-4 multimodal：テキスト・ビジョン・音声を 1 モデルで

概要

主要スペック

動作デバイス

強みと制約

どんな場面で選ぶか / 選ばないか

類似モデルとの比較

実際の Cove アプリで

実際のCoveアプリで体験する

よくある質問

出典

概要

主要スペック

動作デバイス

強みと制約

どんな場面で選ぶか / 選ばないか

類似モデルとの比較

実際の Cove アプリで

関連モデル

実際のCoveアプリで体験する

よくある質問

出典