オンデバイス AI の仕組み（専門用語なし、約束）

4 ビリオンパラメータのモデルがあなたのスマホで何をしているのか？オンデバイス AI の動作原理を、Wikipedia で午後を潰さなくても済む平易な日本語で解説します。コストもトレードオフも正直に。

著者 Cove 個人開発者 2026年4月1日

そもそも、これって物理的に成立するの？

知人にスマホを見せて「これ、機内モードでも翻訳できるんですよ」と言うと、ほぼ毎回返ってくるのは同じ反応だ。

「いや、こっそりネットつないでない？」

その疑問はもっともだ。ChatGPT は誰でも使ったことがあるし、その裏側にはビル何棟分かの GPU が並んでいる、というのも何となく聞いたことがある。それが、片手で持てるスマートフォン、たかだかバッテリー 1 個分の電力で、本当に「このメニューを日本語に訳して」というレベルのモデルを動かせるのか？

答えは、ざっくり 2 つに分けて説明できる：

オリジナルモデルは確かにモンスター級。データセンター級の GPU を要求するという話も、誇張ではない
ただしスマホに載るのはその弟分——いくつかの工学的工夫を組み合わせて、ちょうど収まるサイズに削ってある

この記事は Wikipedia の写経を狙わない。Cove Travel があなたの端末の中で何をしているのか気にはなるけれど、論文で午後を溶かす気はない人向けに、「なぜ収まるか」と「収めた後どう動くか」という 2 点を、できるだけ平易な言葉で説明していく。

まずは「AI モデル」の正体から

現代の言語モデルは、つまらないエンジニアリング的視点では、巨大な数字のグリッドです。何十億もの。「hello を日本語に訳して」と入力すると、スマホはそれらの数字との膨大な乗算と加算を行い、もう一方の端から「こんにちは」という単語が出てきます。

その数字のグリッドは、モデルが 学習された 時に生成されたものです。 Google の人々が読み取り可能なインターネットのほとんどを多言語で食わせ、任意の文の次に来る単語を予測できるように数字を調整しました。その学習ステップこそがデータセンターを食う部分です。それは 1 回限りのコストです。

学習が終わると、モデルは単なるグリッド。コピーできます。スマホに出荷できます。スマホはグリッドを使うのにデータセンターを必要としません — 保持できる十分なメモリと、単語ごとに 1 度乗算を通すための十分な計算スループットがあれば良いだけです。

なぜ 4 ビリオンパラメータがポケットに収まるのか

「4 ビリオンパラメータ」のモデルはグリッドにそれらの数字が 40 億個あります。膨大に聞こえる、実際膨大 — しかし各数字は小さい（1–2 バイト）し、現代のスマホには驚くほどの RAM があります（Pixel 9 や最近の iPhone で 8–12 GB）。

ナプキン計算：

項目	サイズ
圧縮なし生 4B モデル	16 GB
8-bit 量子化	4–5 GB
4-bit 量子化	2–3 GB
あなたのスマホの RAM	8–12 GB
あなたのスマホのストレージ	128–512 GB

量子化 がトリックです。40 億の数字をフル精度で保存する代わりに、より少ないビット数に丸めます — 写真を TIFF ではなく JPEG として保存するようなものです。圧縮されたモデルは非圧縮のものより数 % 悪化しますが、サイズは 1/4 になります。Cove Travel にとって、これがスマホに収まるか否かの分かれ目です。

あなたが質問した時にスマホが実際にすること

Cove Travel を日本語メニューに向けたとき、おおまかな順序：

カメラがフレームをキャプチャし、画像データとしてモデルに送る。
モデルが画像を内部「トークン」のシーケンスに変換 — 意味のチャンクを表すモデル独自の方法。
モデルは数字のグリッドを歩き、これまで見たすべてを基に次のトークンを予測する。これを連続で何百回も行い、ステップごとに 1 トークンを生成。
トークンがテキストに戻され画面に表示される。

これらの「グリッドを歩く」ステップ各々が、最近のスマホで数十ミリ秒かかります。短い翻訳は 500 ms 未満で終わります。長いものは数秒。

これを瞬間と感じる速さにするのは特別なチップ — NPU（Neural Processing Unit）— で、ほぼすべての 2019 年以降のフラッグシップ Android や iPhone に搭載されています。NPU は言語モデルが行う種類の計算用に専用設計されています。同じモデルを通常の CPU で動かすと 5–10× 遅く、バッテリーもずっと早く消費します。

トレードオフは実際何か

ここがほとんどのマーケティングページが省略する部分。より小さなオンデバイスモデルは、クラウドの兄弟と比べて 3 つの正直な意味で実際に劣ります：

マイナーな事実への知識が少ない。 4B モデルはクラウド規模の 200B+ モデルより読んでいる量が少ない。希少な地名、ニッチな技術用語、マイナーな歴史的言及を時々誤ります。旅行ではほとんど問題にならない；法的調査では問題になります。
「文脈窓」が短い。 モデルは会話を一度に覚えられる量が少ない。クラウドモデルは 100,000+ トークンの文脈を保持できる；スマホ向けモデルは通常 8,000 程度。翻訳アプリには十分；「私の本全体を要約して」には不十分。
「創造的範囲」が狭い。 クラウドモデルにブレストを頼むと、より大きなパラメータ数がより多様な言い回しの生成を助ける。小さなモデルはより保守的。

あなたが行うトレードは：奇妙な入力のロングテールで数 % の精度を諦め、その代わりに 500 ms 未満のレイテンシ、ネットワーク依存ゼロ、データがスマホを離れることゼロを得る。東京の地下鉄で動く旅行翻訳ツールには、それが正しいトレード。法的契約書ドラフトには、違います。

「オンデバイス」がプライバシーで重要な理由

クラウド AI はあなたの入力をクラウドに送り、サーバーでモデルを動かし、答えを送り返すことで動作します。サーバーはあなたの入力をログします。厳格なプライバシーポリシーを持つ企業でも、パターン再構成に十分なメタデータを保持します。プライバシー境界は「見ないと約束します」です。

オンデバイス AI はモデルをあなたのスマホで動かします。あなたの入力は端末を離れません。ループにサーバーがないので、サーバーがログするものが何もない。プライバシー境界は端末境界です — それが実際に守られる唯一の境界です。

これが「プライベートクラウド AI」が矛盾している理由でもあります。あなたのデータがネットワークを通り、誰か別の人のハードウェアで処理される必要がある限り、信頼要件は「彼らを信じる」です。オンデバイスはそれを取り除きます。

Cove ではどう見えるか

Cove Travel は Google Gemma 4 E2B — オンデバイス展開向けに設計された Google の特定の 4 ビリオンパラメータモデル — を同梱します。アプリを初めて開く時、モデルが 1 度ダウンロードされます（約 2.5 GB）。その後：

すべての翻訳はあなたのスマホの NPU で動作。
カメラを向けたすべての写真がローカルで分析される — 決してアップロードされない。
双方向音声モードのすべての会話は端末内に留まる。
アプリをアンインストールするとモデル全体が削除される。

同じアーキテクチャは Cove ファミリー全体に拡張されます — 近日公開の Voice / Photo / Health アプリすべてが同じオンデバイスアプローチを共有。モデルは 1 回のダウンロード；アプリはそれを使う異なる方法です。

さらに読むなら

この記事が参照する 2 つの記事：

より長いオフライン AI 翻訳ガイドは、2026 年に何が変わってオンデバイスを viable にしたかを歩きます。
なぜオンデバイス AI は旅行でクラウド翻訳に勝つのかはレイテンシと信頼性の次元の論証です。

エンジニアリングの深さが欲しければ、公式 Gemma モデルカードにパラメータ数、学習データ詳細、ベンチマークスコアがあります。上記の記事は、技術を使う側の人向け、構築する側ではないバージョンです。

なぜオンデバイス AI は旅行でクラウド翻訳に勝つのか
観光客でいる時、レイテンシ・プライバシー・信頼性はすべてオンデバイス AI へ向かいます。その論証、横並びテスト、そしてクラウドが今でも勝つ正直な例外を、Pixel 9 + Gemma 4 E2B の実機データと共に解説します。
オフライン AI 翻訳：完全ガイド（2026 年版）
オンデバイス AI 翻訳は旅行用途においてクラウド API と肩を並べました。2026 年に何を見るべきか、Cove Travel が何を違う形で提供するかを解説します。

オフライン AI 翻訳を、ご自身でお試しください。

Cove Travel をダウンロード — 一度の購入で、ずっと使えます。

Cove をダウンロード → なぜオフラインか

著者 Cove 個人開発者

アプリ

ユースケース

学ぶ

Cove を入手

信頼

オンデバイス AI の仕組み（専門用語なし、約束）

そもそも、これって物理的に成立するの？

まずは「AI モデル」の正体から

なぜ 4 ビリオンパラメータがポケットに収まるのか

あなたが質問した時にスマホが実際にすること

トレードオフは実際何か

「オンデバイス」がプライバシーで重要な理由

Cove ではどう見えるか

さらに読むなら

オフライン AI 翻訳を、ご自身でお試しください。

そもそも、これって物理的に成立するの？

まずは「AI モデル」の正体から

なぜ 4 ビリオン パラメータがポケットに収まるのか

あなたが質問した時にスマホが実際にすること

トレードオフは実際何か

「オンデバイス」がプライバシーで重要な理由

Cove ではどう見えるか

さらに読むなら

続けて読む

オフライン AI 翻訳を、ご自身でお試しください。

なぜ 4 ビリオンパラメータがポケットに収まるのか