端末AI 用語集:量子化・KVキャッシュ・NPU など

最適化

量子化

モデルの重みを16-bitから4-bitなど低精度に圧縮し、サイズ削減と引き換えに精度を若干犠牲にする手法。

量子化は端末AIを実現可能にした最重要技術。7Bパラメータモデルは FP16 で約 14 GB だが、4-bit 量子化で約 4 GB に縮小し、一般用途では品質劣化を抑えつつ消費者向けスマートフォンで動作する。代表的形式に GGUF Q4_K_M / AWQ / GPTQ。

関連: 端末AI / オンデバイスAI , KVキャッシュ , GGUF ファイル形式 , AWQ(アクティベーション認識量子化)

プルーニング

出力への寄与が小さい重みやニューロンを削除し、品質をほぼ保ったままモデルを小型化する手法。

プルーニングには非構造化(個別の重みをゼロにする方式、実ハードでは高速化が難しい)と構造化(チャネルや注意ヘッドごと削除、実際に推論が高速化)の2種類がある。現代の端末モデルは 2:4 構造化スパース(NVIDIA方式)と量子化を組み合わせることが多い。典型的成果:サイズ30-50%削減、ベンチマーク低下は2ポイント未満。

関連: 量子化 , 知識蒸留

LoRA(低ランク適応)

元モデルの重みを凍結し、上に乗せる小さな低ランク行列だけを学習する微調整手法。タスク別アダプタは数MBの小ファイルになる。

7Bモデルの完全微調整には数百GBのGPUメモリが必要だが、LoRAはランクrの低ランク更新のみ学習することで学習可能パラメータを1000-10000倍削減する(通常 r=8 や 16)。端末側の意義は大きい:1つのベースモデルに対して切替可能な複数の LoRA アダプタ(各 5-50 MB)を持てるため、スマホアプリが「翻訳モード」「要約モード」の重みを持っても完全モデルを2つ保存する必要がない。

関連: 量子化 , 知識蒸留

GGUF ファイル形式

llama.cppエコシステムの主流単一ファイル形式。重み・トークナイザ・メタデータを1つにまとめ、メモリマップで高速ロード可能。

GGUFは2023年に旧GGML形式を置き換え、オープンソース端末AIコミュニティの標準となった。同一形式内で複数の量子化レベル(Q2_K~Q8_0)に対応、チャットテンプレート内蔵、mmap対応レイアウトにより4GBモデルが数ミリ秒でロード可能。今日スマホでの「モデルをダウンロード」体験(LM Studio / llama.cpp / Ollama)はほぼ全てGGUFを消費する。

関連: 量子化 , 推論ランタイム , AWQ(アクティベーション認識量子化)

AWQ(アクティベーション認識量子化)

4-bit量子化手法の1つ。大きな活性化値に関わる重要な重みを保護し、素朴な量子化より精度を保つ。

AWQの核心は、品質に不釣り合いな影響を持つ重みは全体の約1%しかなく、小さなキャリブレーションデータから活性化統計を観察することで特定できるという洞察。これらの重みは高精度を保ち、残りは積極的に4-bit量子化する。GPTQと比較して推論が速く、instruction-followingベンチマークでやや安定。一般的な組み合わせ:AWQ量子化重み + GGUFまたはsafetensorsコンテナ。

関連: 量子化 , GGUF ファイル形式

デプロイ

端末AI / オンデバイスAI

モデルをスマートフォンやノートPC上で直接実行し、クラウド経由しない方式。プライバシー保護・オフライン動作・低遅延が特徴。

端末AIはCoveのようなアプリの設計選択。クラウド方式と比較すると、利用可能なモデルサイズはスマホのRAM/ストレージに制約されるが、即時応答・入力データの完全プライバシー・呼び出しコスト無しが得られる。2026年時点、4-bit 量子化の 2-4B モデルがハイエンドスマートフォンで快適に動作する。

関連: 量子化 , NPU(ニューラル処理ユニット) , エッジAI , プライバシー・バイ・デフォルト , 推論ランタイム

エッジAI

端末AIより広い概念。スマホ・PC・IoTセンサ・車載計算機・エッジサーバなど中央クラウド以外で動くAIを総称する。

エッジAIと端末AIはしばしば同義に使われるが、エッジが上位概念。Raspberry Piで物体検出する監視カメラ、5G基地局で異常検知する工場センサ、スマホでLLMを動かすアプリは全てエッジAIだが、厳密に端末AIなのは最後だけ。三者の設計圧力(ローカル演算・限られたメモリ・低遅延要件)は完全に同じため、端末AIの最適化技術はほぼそのままエッジ展開へ転用できる。

関連: 端末AI / オンデバイスAI , プライバシー・バイ・デフォルト , 推論ランタイム

連合学習

多数の端末が共有モデルを協調的に改善する学習方式。中央サーバへ送るのは重みの更新のみで、ユーザーの生データは端末から外に出ない。

連合学習は「モデル改善にはデータが必要」「プライバシーは守りたい」という対立を解決する。有名な実装:Gboardの次単語予測は数億台のスマホで学習されるが、キー入力データは1度も端末から出ない。secure aggregationや差分プライバシーと組み合わせれば、重みの更新からも個人情報は漏れない。端末推論+連合学習で完結したプライバシー保護MLループが構成される。

関連: 端末AI / オンデバイスAI , プライバシー・バイ・デフォルト , エッジAI

プライバシー・バイ・デフォルト

ユーザーデータは端末に留まり、明示的なオプトインが無い限り外に送らないという設計思想。プライバシーが既定値である。

プライバシー・バイ・デフォルトは、入力を全てアップロードするクラウドAIの既定値を反転させる。Apple Intelligence、Coveシリーズアプリ、近年の多くの端末AI製品がこの立場を取る:写真・音声・健康・翻訳の入力はスマホから出ない。技術的基盤は端末推論・改善ループとしての連合学習・オプトイン機能の明確な分離。マーケティング面でも「データはスマホから出ない」がクラウド専業の競合に対する堀になりつつある。

関連: 端末AI / オンデバイスAI , 連合学習 , エッジAI

LLM と SLM の違い

大規模言語モデル(しばしば70B+パラメータ、クラウド専用)と小規模言語モデル(通常8B以下、端末向けに設計)の対比。

境界は曖昧で動的。2026年時点で「SLM」は通常8Bパラメータ以下、量子化後にスマホ4-8GB RAMで動くモデルを指す(Phi / Gemma 3 small / MiniCPM / Llama 3 8B mobile)。70B-1T のLLMは依然クラウドに住む。興味深い中間域は 13-30B で、M系Macでは快適に動くがスマホでは動かない。これがプライバシー志向の後段として「パーソナルクラウド」階層を生んでいる。

関連: 知識蒸留 , 端末AI / オンデバイスAI , 量子化 , MoE(混合エキスパート)

マルチモーダル

同一アーキテクチャ内で複数の入力タイプ(テキスト+画像・音声・動画など)を受け取り推論できるモデル。

マルチモーダルLLMは通常、言語モデルに視覚エンコーダ(小型ViTなど)や音声エンコーダを接続し、それらの出力をテキストトークンと同じembedding空間へ射影する。2026年の端末代表例:Gemma 4 multimodal / 視覚対応の Apple Foundation Models / Phi-4-multimodal。Coveシリーズはこの能力に強く依存:Cove Photoは画像説明、Cove Voiceは文字起こしと要約、Cove Travelはカメラ入力から看板を読む——すべて同一のマルチモーダルモデル発。

関連: 埋め込み(Embedding) , Transformer , 推論ランタイム

推論ランタイム

端末でモデルを実際に実行するライブラリやエンジン。例:LiteRT / MediaPipe / ExecuTorch / Core ML / llama.cpp。

ランタイムは量子化形式の取り扱い・メモリマッピング・NPU/GPUへのディスパッチ・KVキャッシュ管理・並列推論のMutex制御を担う。選定は重要:iOSでANEを使うなら Core ML と Apple Foundation Models、Androidでは Hexagon/Tensor 対応の LiteRT と MediaPipe が主流、ExecuTorch(PyTorch Edge)はクロスプラットフォーム勢力として伸長中、llama.cpp は GGUF モデルのオープンソース既定。Coveシリーズは InferenceEngine ラッパー経由で LiteRT-LM に依存する。

関連: NPU(ニューラル処理ユニット) , Apple Neural Engine (ANE) , Qualcomm Hexagon , GGUF ファイル形式 , 端末AI / オンデバイスAI

推論

コンテキスト長

モデルが一度に読める最大トークン数。大きいほど長文処理が可能だが、推論時のRAM消費も増加する。

4Kコンテキストウィンドウは英語約3,000語に相当。2026年の端末AIは通常 8K-128K のコンテキストをサポートする。コンテキストが長いほど注意機構レイヤーで二次関数的にメモリを消費するため、モバイル向けモデルはクラウド版より上限が低い。

関連: KVキャッシュ , アテンション機構 , トークン

トークン

LLMの入出力の基本単位。多くは単語片・句読点・短いバイト列のいずれかに相当する。

トークナイザがモデル入力前にテキストをトークンへ分割する。英語は1単語あたり約0.75トークン、中国語・日本語は1文字あたり1-2トークンが平均(マルチバイトUTF-8の扱いがトークナイザごとに異なるため)。クラウドLLMはトークン課金、端末スループットもトークン/秒で報告される。「コンテキスト長」「最大出力長」もほぼ全てトークン基準で文字数ではない。

関連: コンテキスト長 , スループット , 埋め込み(Embedding)

スループット

生成フェーズで毎秒生成されるトークン数。端末LLMが最初のトークンを出した後の最重要速度指標。

参考値:人間の読書速度は約5-10 tok/s、快適なstreamingチャットには15+ tok/sが必要。2026年時点、iPhone 15 Pro での 3B 4-bit モデルは通常 25-40 tok/s、M4 Pro では同モデルが 100 tok/s を超える。自己回帰生成フェーズではスループットはほぼメモリ帯域で律速され、プロンプト prefill 段階では生の演算性能で律速される。

関連: レイテンシ(最初のトークンまでの時間) , メモリ帯域幅 , トークン

レイテンシ(最初のトークンまでの時間)

ユーザーが最初の生成トークンを目にするまでの待ち時間。主にプロンプト長と prefill フェーズの演算速度で決まる。

TTFT(最初のトークンまでの時間)とスループットは別指標。TTFT はプロンプト prefill(入力全体の KV キャッシュ計算)を含み、スループットはその後のストリーミングフェーズを支配する。4K トークンのプロンプトは速いハードでも最初の応答トークンに 1-2 秒かかることがある。UX 観点では system prompt を短く保ち、streaming アニメや「thinking...」表示で待ちを隠す。

関連: スループット , コンテキスト長 , KVキャッシュ

テンパラチャ(temperature)

サンプリングパラメータ。低温度ではモデルは決定的で焦点が定まり、高温度では創造的だが発散しがち。

数学的には temperature は softmax 前にモデルの logit を除算する。低いほど確率分布が鋭く、高いほど平坦になる。T=0 は常に最高確率トークンを選ぶ(決定的)、T=1.0 はモデル本来の分布、T=1.5+ は明確にランダム性を注入する。実用指針:翻訳・要約・構造化出力では 0.0-0.3、創作・ブレインストーミングでは 0.7-1.0 を使う。

関連: Top-p(核サンプリング) , トークン

Top-p(核サンプリング)

サンプリング打ち切り手法。確率の累積和が p(例:0.9)になる最小候補集合からのみ次トークンを選ぶ。

Top-pサンプリングはモデルの確信度に適応する:モデルが確信しているときは核に2-3トークンしかなく、迷っているときは数十まで広がる。固定の top-k より優れているのは、事実的な質問では鋭さを保ちつつ自由質問では多様性を維持できる点。一般的な組み合わせはバランス型のデフォルトとして temperature 0.7 + top-p 0.9。

関連: テンパラチャ(temperature) , トークン

アーキテクチャ

KVキャッシュ

生成時にattentionの中間計算結果をキャッシュし、トークン生成を大幅に高速化するが、RAM消費が大きい。

KVキャッシュ無しでは新しいトークンを生成するたびに過去全トークンに対するattentionを再計算する(二次関数的コスト)。キャッシュ有りで線形コストに償却される。キャッシュサイズはコンテキスト長とモデル次元に比例し、長文処理では端末メモリの主要消費要因になる。

関連: コンテキスト長 , 量子化 , アテンション機構 , メモリ帯域幅

Transformer

現代のほぼ全てのLLMを支えるニューラル網アーキテクチャ。self-attention層を多段に積み重ねた構造。

2017年に Google の論文 "Attention Is All You Need" で提案された。RNN/LSTMを置き換え、トークンを逐次ではなく並列処理する点が革新的。端末向けLLMは通常 24-40 段の Transformer ブロックを積み、各ブロックは多頭注意とフィードフォワード網で構成される。端末AIの効率化技術(KVキャッシュ・量子化・MoE)は全て Transformer 内部構造への改良。

関連: アテンション機構 , KVキャッシュ , 埋め込み(Embedding) , MoE(混合エキスパート)

アテンション機構

Transformerの中核機構。次のトークンを予測する際に、どの過去トークンが重要かをモデルが重み付けする仕組み。

アテンションはクエリとキーのベクトル内積から重みを学習し、過去全トークンに対する加重和を計算する。現代LLMは多頭注意(通常16-32ヘッド)を使い、ヘッドごとに異なる関係を専門化できる。推論で最も計算量・メモリ消費が多い部分のため、Flash Attention / Grouped Query Attention / KVキャッシュなどの最適化が端末性能に直結する。

関連: Transformer , KVキャッシュ , コンテキスト長

MoE(混合エキスパート)

各トークンを多数のエキスパート部分網のうち少数だけに振り分け、総パラメータは大きいが実行時計算量は小さくする手法。

典型的なMoEは 8-64 のエキスパートを持つがトークンごとに2つだけ起動するため、56Bパラメータの MoE が 8B 稠密モデルと同程度の計算量で動く。代表例:Mixtral / DeepSeek-MoE / Gemma 4 の一部。端末では総パラメータ全てがRAMに常駐する必要があるため、MoEは積極的な量子化やエキスパートオフロードと組み合わせて初めて有用になる。

関連: Transformer , 量子化 , LLM と SLM の違い

知識蒸留

小さな生徒モデルが大きな教師モデルを模倣するように学習し、能力を小サイズに移し替える手法。

蒸留は端末モデルが小サイズで高品質を実現する主要因。生徒は最終解答だけでなく教師モデルの出力確率分布(ソフトラベル)から学び、教師が考慮した細かいニュアンスまで取り込む。Gemma 3 / Phi / MiniCPM はいずれも蒸留に強く依存する。結果として 3B の蒸留モデルが同データで一から学習した 7B モデルを上回ることも珍しくない。

関連: LLM と SLM の違い , 量子化 , Transformer

埋め込み(Embedding)

トークンや文章を高次元ベクトルで表現する手法。意味的に近いものはベクトル空間で近い位置になる。

全てのTransformerは入力トークンを埋め込みベクトル(通常1024-4096次元)に変換することから始まる。同じ考え方が意味検索やRAGの基盤:文書とクエリを同じベクトル空間に符号化しコサイン類似度で最近傍を求める。端末向け埋め込みモデル(MiniLM / GTE-small 等)は100MB未満と小型のため、スマホ上のローカル意味検索が実用化されている。

関連: Transformer , トークン , アテンション機構

ハードウェア

NPU(ニューラル処理ユニット)

ニューラルネットワーク実行に特化したチップ。最新スマートフォンには NPU(Apple ANE / Google Tensor / Hexagon)が搭載され、高速・省電力なAI推論を実現。

NPUはAIワークロードでCPUより5-10倍高速、GPUより2-3倍省電力。2026年の主要モバイルNPU:Apple ANE(A17 Proで16コア)/ Google Tensor TPU / Qualcomm Hexagon。Core ML / MediaPipe / ONNX Runtime などのフレームワークが自動的にテンソル演算をNPUに振り分ける。

関連: 端末AI / オンデバイスAI , Apple Neural Engine (ANE) , Qualcomm Hexagon , 推論ランタイム

Apple Neural Engine (ANE)

AppleがA系列・M系列チップに搭載する専用NPU。iOS / macOSでは Core ML フレームワーク経由で利用される。

Neural EngineはA11(2017年)に2コアで初搭載され、A17 Proでは16コア・約35 TOPSに進化した。重要なのは ANE が専用SRAMを持ちCPU/GPUと資源競合しない点で、UI処理と並行してMLワークロードを持続可能にする。FoundationModels フレームワークや Core ML を使う iOS アプリは適格なオペレーションを自動的に ANE へ振り分ける。

関連: NPU(ニューラル処理ユニット) , 推論ランタイム

Tensor Core

NVIDIAのTegraモバイルチップやデスクトップGPUに搭載される行列積演算の専用ハードウェアユニット。Transformerの稠密matmulを大幅に加速する。

Tensor Coreは1サイクルで小行列積(4×4 × 4×4 → 4×4 など)を実行する、LLM推論で支配的な演算そのもの。モバイル関連では NVIDIA Tegra Orin(Switch後継・車載・ロボット用)が数百のTensor Coreを搭載し、スマホ以外で最強クラスのモバイルAIプラットフォームになる。FP16 / BF16 / INT8 / FP8 を原生サポートし、量子化ワークフローの出力形式と直接対応する。

関連: NPU(ニューラル処理ユニット) , 量子化

Qualcomm Hexagon

QualcommのSnapdragon系モバイル/PCチップに搭載されるNPU/DSP一体型プロセッサ。QNN SDKやSnapdragon AI Engine経由で利用する。

Hexagonは音声・画像処理用DSPから発展し、現在は本格的なニューラル加速器となった。Snapdragon 8 Gen 3 と X Elite に搭載される Hexagon NPU は 45+ TOPS を提供し、端末LLMにおいて Apple ANE と同等レベルにある。Android 側で支配的なモバイルNPUであり、クロスプラットフォームLLMアプリは TensorFlow Lite / ONNX Runtime / Qualcomm QNN 経由で利用するのが一般的。

関連: NPU(ニューラル処理ユニット) , Apple Neural Engine (ANE) , 推論ランタイム

RAM と VRAM の違い

デスクトップGPUではモデル重みは専用VRAMに収まる必要があるが、スマホはCPU・GPU・NPUが同じRAMを共有するunified memoryアーキテクチャ。

RTX 4090 搭載デスクトップでは 24 GB の VRAM はシステム RAM と分離されており、モデルロードは PCIe 経由のコピーを伴う。スマホや Apple Silicon は unified memory:同じ物理チップが CPU / GPU / NPU に同時に提供される。このため 8 GB RAM のスマホが 24 GB VRAM のデスクトップ GPU と同等に 4 GB モデルを動かせる。2026年において 8 GB+ の iPhone Pro が本格的な端末 LLM の実用下限とされる理由でもある。

関連: メモリ帯域幅 , 端末AI / オンデバイスAI , 量子化

メモリ帯域幅

モデル重みがメモリから演算ユニットへ転送される速度。端末LLMでは生のTOPSより、こちらが本当のボトルネックになる。

1トークンの生成にはモデルの全重みを読む必要がある。4 GB 量子化モデルが 30 tok/s で動くと 120 GB/s の帯域が要る。iPhone 15 Pro は最大約 50 GB/s、M4 Pro は約 273 GB/s。TOPS の数字が実性能を過大評価する理由はここにある:100 TOPS でも 30 GB/s 帯域のチップは LLM 推論で memory-bound のまま。量子化は重み1つあたりの読み込み量も減らすため、この観点でも二重に効く。

関連: RAM と VRAM の違い , 量子化 , KVキャッシュ , スループット