← ブログ

オンデバイス AI の仕組み(専門用語なし、約束)

4 ビリオン パラメータのモデルがあなたのスマホで何をしているのか?オンデバイス AI の動作原理を、Wikipedia で午後を潰さなくても済む平易な日本語で解説します。コストもトレードオフも正直に。

そもそも、これって物理的に成立するの?

知人にスマホを見せて「これ、機内モードでも翻訳できるんですよ」と言うと、 ほぼ毎回返ってくるのは同じ反応だ。

「いや、こっそりネットつないでない?」

その疑問はもっともだ。ChatGPT は誰でも使ったことがあるし、その裏側には ビル何棟分かの GPU が並んでいる、というのも何となく聞いたことがある。 それが、片手で持てるスマートフォン、たかだかバッテリー 1 個分の電力で、 本当に「このメニューを日本語に訳して」というレベルのモデルを動かせるのか?

答えは、ざっくり 2 つに分けて説明できる:

  • オリジナルモデルは確かにモンスター級。データセンター級の GPU を 要求するという話も、誇張ではない
  • ただしスマホに載るのはその弟分——いくつかの工学的工夫を組み合わせて、 ちょうど収まるサイズに削ってある

この記事は Wikipedia の写経を狙わない。Cove Travel があなたの端末の中で 何をしているのか気にはなるけれど、論文で午後を溶かす気はない人向けに、 「なぜ収まるか」と「収めた後どう動くか」という 2 点を、できるだけ 平易な言葉で説明していく。

まずは「AI モデル」の正体から

現代の言語モデルは、つまらないエンジニアリング的視点では、巨大な数字の グリッドです。何十億もの。「hello を日本語に訳して」と入力すると、スマホは それらの数字との膨大な乗算と加算を行い、もう一方の端から「こんにちは」と いう単語が出てきます。

その数字のグリッドは、モデルが 学習された 時に生成されたものです。 Google の人々が読み取り可能なインターネットのほとんどを多言語で食わせ、 任意の文の次に来る単語を予測できるように数字を調整しました。その学習 ステップこそがデータセンターを食う部分です。それは 1 回限りのコストです。

学習が終わると、モデルは単なるグリッド。コピーできます。スマホに出荷 できます。スマホはグリッドを 使う のにデータセンターを必要としません — 保持できる十分なメモリと、単語ごとに 1 度乗算を通すための十分な計算 スループットがあれば良いだけです。

なぜ 4 ビリオン パラメータがポケットに収まるのか

「4 ビリオン パラメータ」のモデルはグリッドにそれらの数字が 40 億個 あります。膨大に聞こえる、実際膨大 — しかし各数字は小さい(1–2 バイト)し、 現代のスマホには驚くほどの RAM があります(Pixel 9 や最近の iPhone で 8–12 GB)。

ナプキン計算:

項目サイズ
圧縮なし生 4B モデル16 GB
8-bit 量子化4–5 GB
4-bit 量子化2–3 GB
あなたのスマホの RAM8–12 GB
あなたのスマホのストレージ128–512 GB

量子化 がトリックです。40 億の数字をフル精度で保存する代わりに、 より少ないビット数に丸めます — 写真を TIFF ではなく JPEG として保存する ようなものです。圧縮されたモデルは非圧縮のものより数 % 悪化しますが、 サイズは 1/4 になります。Cove Travel にとって、これがスマホに収まるか 否かの分かれ目です。

あなたが質問した時にスマホが実際にすること

Cove Travel を日本語メニューに向けたとき、おおまかな順序:

  1. カメラがフレームをキャプチャし、画像データとしてモデルに送る。
  2. モデルが画像を内部「トークン」のシーケンスに変換 — 意味のチャンクを 表すモデル独自の方法。
  3. モデルは数字のグリッドを歩き、これまで見たすべてを基に次のトークンを 予測する。これを連続で何百回も行い、ステップごとに 1 トークンを生成。
  4. トークンがテキストに戻され画面に表示される。

これらの「グリッドを歩く」ステップ各々が、最近のスマホで数十ミリ秒 かかります。短い翻訳は 500 ms 未満で終わります。長いものは数秒。

これを瞬間と感じる速さにするのは特別なチップ — NPU(Neural Processing Unit)— で、ほぼすべての 2019 年以降のフラッグシップ Android や iPhone に搭載されています。NPU は言語モデルが行う種類の計算用に専用設計 されています。同じモデルを通常の CPU で動かすと 5–10× 遅く、バッテリーも ずっと早く消費します。

トレードオフは実際何か

ここがほとんどのマーケティングページが省略する部分。より小さなオンデバイス モデルは、クラウドの兄弟と比べて 3 つの正直な意味で実際に劣ります:

  • マイナーな事実への知識が少ない。 4B モデルはクラウド規模の 200B+ モデルより読んでいる量が少ない。希少な地名、ニッチな技術用語、マイナーな 歴史的言及を時々誤ります。旅行ではほとんど問題にならない;法的調査では 問題になります。
  • 「文脈窓」が短い。 モデルは会話を一度に覚えられる量が少ない。クラウド モデルは 100,000+ トークンの文脈を保持できる;スマホ向けモデルは通常 8,000 程度。翻訳アプリには十分;「私の本全体を要約して」には不十分。
  • 「創造的範囲」が狭い。 クラウドモデルにブレストを頼むと、より大きな パラメータ数がより多様な言い回しの生成を助ける。小さなモデルはより保守的。

あなたが行うトレードは:奇妙な入力のロングテールで数 % の精度を諦め、 その代わりに 500 ms 未満のレイテンシ、ネットワーク依存ゼロ、データが スマホを離れることゼロを得る。東京の地下鉄で動く旅行翻訳ツールには、 それが正しいトレード。法的契約書ドラフトには、違います。

「オンデバイス」がプライバシーで重要な理由

クラウド AI はあなたの入力をクラウドに送り、サーバーでモデルを動かし、 答えを送り返すことで動作します。サーバーはあなたの入力をログします。 厳格なプライバシーポリシーを持つ企業でも、パターン再構成に十分なメタ データを保持します。プライバシー境界は「見ないと約束します」です。

オンデバイス AI はモデルをあなたのスマホで動かします。あなたの入力は 端末を離れません。ループにサーバーがないので、サーバーがログするものが 何もない。プライバシー境界は端末境界です — それが実際に守られる唯一の 境界です。

これが「プライベートクラウド AI」が矛盾している理由でもあります。あなたの データがネットワークを通り、誰か別の人のハードウェアで処理される必要が ある限り、信頼要件は「彼らを信じる」です。オンデバイスはそれを取り除きます。

Cove ではどう見えるか

Cove Travel は Google Gemma 4 E2B — オンデバイス 展開向けに設計された Google の特定の 4 ビリオン パラメータ モデル — を 同梱します。アプリを初めて開く時、モデルが 1 度ダウンロードされます (約 2.5 GB)。その後:

  • すべての翻訳はあなたのスマホの NPU で動作。
  • カメラを向けたすべての写真がローカルで分析される — 決してアップロード されない。
  • 双方向音声モードのすべての会話は端末内に留まる。
  • アプリをアンインストールするとモデル全体が削除される。

同じアーキテクチャは Cove ファミリー 全体に拡張されます — 近日公開の Voice / Photo / Health アプリすべてが同じオンデバイス アプローチを共有。モデルは 1 回のダウンロード;アプリはそれを使う異なる 方法です。

さらに読むなら

この記事が参照する 2 つの記事:

エンジニアリングの深さが欲しければ、公式 Gemma モデルカード にパラメータ数、学習データ詳細、ベンチマークスコアがあります。上記の 記事は、技術を 使う 側の人向け、構築する側ではないバージョンです。