Gemma 4 E2B:Google のポケット端末 LLM

1.5GB 量子化サイズ、テキスト+ビジョン+音声マルチモーダル、Apache 2.0 ライセンス —— Gemma 4 E2B は 2026 年最も導入しやすい端末向け大規模言語モデルの一つ。

最終校閲: 2026年5月
パラメータ数2.3 B
量子化後サイズ1.5 GB
コンテキスト長128,000 tokens
モダリティtext+vision+audio
ライセンスapache-2.0
最低 RAM4 GB
バージョンGemma 4 E2B-it
リリース2026-04

概要

Gemma 4 E2B は Google DeepMind の Gemma 4 ファミリーで、モバイル向けに最適化された モデル。2026 年 4 月に公開された。Per-Layer Embedding アーキテクチャによる 2.3B の有効パラメータと 1.5GB の量子化サイズを実現し、設計段階からコンシューマー向けスマートフォンでの動作を前提としている —— クラウド呼び出し不要、ストリーミング不要、プライバシーへの妥協ゼロ。Cove は 4 つの全アプリ(Travel / Voice / Photo / Health)で Gemma 4 を採用しており、現時点で実消費者シナリオへ最も広く展開されている端末 LLM の一つだ。

パラメータ数についての注意:公式表記は「E2B = 2.3B 有効パラメータ」で、各前向き計算で実際にアクティブとなる重みを指す。PLE(Per-Layer Embedding)ルックアップテーブルにより総重み数は約 5.1B になるが、これらのテーブルは選択的に参照されるだけで全計算に参加しない。スマートフォンのストレージに実際に載るのは 1.5GB 量子化サイズの方。

主要スペック

(上記スペックカードを参照。構造化データから自動描画。)

動作デバイス

Gemma 4 E2B はフラッグシップ Android(Pixel 8 以降、Galaxy S24+、OnePlus 12+)と iPhone 15 Pro / Pro Max / 16 シリーズで快適に動作する。技術的には 6GB RAM でもインストール可能だが、8GB 未満ではトークン生成速度が顕著に低下する。iPad M シリーズ、近年の MacBook Air / Pro でも対応し、メモリ帯域の余裕を活かしてより快適な体験が得られる。

強みと制約

強み。 一般テキストタスクではサイズ対品質比でクラス最高水準、テキスト+ビジョン+音声のマルチモーダルをネイティブサポート、Apache 2.0 の友好的ライセンス、四半期ごとに更新される Google の手厚いメンテナンス。より大きい Gemini ファミリーからの蒸留により、パラメータ数以上の知識幅を獲得している。

制約。 数学・推論ベンチマークでは Phi-4-multimodal にわずかに及ばない。128K コンテキストは Llama 3.2 と同水準となり長文処理のボトルネックではなくなったが、多言語品質には偏りがある。上位 20 言語は強いが、ロングテール言語は弱め。

どんな場面で選ぶか / 選ばないか

Gemma 4 E2B を選ぶ場面: 汎用バランス重視の端末モデルが欲しい、テキスト+ビジョン+音声を 1 つのランタイムで扱いたい、RAM 4GB 以上の端末をターゲットにしている、ライセンスのシンプルさが重要。

選ばない場面: 推論が重い処理を多用する(Phi-4-multimodal や DeepSeek-R1 Distill が良い)、100 万トークン級コンテキストが必要(依然クラウド独占領域)、Apple エコシステム専用かつ純正ツール優先(Apple Foundation Models が良い)。

類似モデルとの比較

最も近い 2 つの兄弟:Microsoft Phi-4-multimodal(パラメータ規模が大きく推論が鋭い、MIT ライセンス、同じくテキスト+ビジョン+音声対応)と Qwen 3.5 2B(中国語・多言語に強い、規模が同等、262K コンテキスト)。完全な横並び比較は leaderboard を参照。

実際の Cove アプリで

Cove Travel は Gemma 4 でカメラベースのメニュー翻訳とオフライン音声翻訳を実現し、Cove Voice は AI による音声メモの要約に活用している。両アプリは、Gemma 4 E2B が研究デモではなく、コンシューマー向けプロダクションに耐える本物のモデルであることを示している。

実際のCoveアプリで体験する

よくある質問

Gemma 4 E2B は iPhone で動作する?

はい。iPhone 15 Pro 以降で快適に動作し、Apple Neural Engine と 8GB ユニファイドメモリを活用する。iPhone 14 以前は RAM 余力が不足し、4-bit 量子化の 2.3B パラメータ推論には厳しい。

実際のダウンロードサイズはどのくらい?

4-bit 量子化後で約 1.5GB —— Gemma 4 が導入した Per-Layer Embedding (PLE) アーキテクチャの恩恵。非量子化重みは約 4GB、Cove 等のアプリはユーザーのストレージ負担を抑えるため量子化版を配布する。

Gemma 4 E2B はオープンソース?

はい。Gemma 4 世代から従来の Gemma カスタムライセンスを廃し、Apache 2.0 へ移行した。重みは完全に公開され、Apache の標準的なクレジット表記要件のみで商用利用が可能。

スマートフォン上の推論速度は?

フラッグシップ機(Pixel 8 Pro、iPhone 15 Pro、Galaxy S24+)で約 20-40 トークン/秒、ミドルレンジでは 5-10 トークン/秒に低下。初回トークンまでの時間(TTFT)はプロンプト長次第で 200-500ms。

Gemma 4 E2B と Phi-4-multimodal、どちらを選ぶ?

Gemma 4 E2B は小型(2.3B 有効パラメータ vs 5.6B)で同一ハードウェア下では高速、Phi-4-multimodal は推論能力で優位。両者ともテキスト+ビジョン+音声をネイティブ対応するため、判断基準は主に RAM 予算。詳細は Phi-4 比較記事を参照。

出典