コンテキスト長
モデルが一度に読める最大トークン数。大きいほど長文処理が可能だが、推論時のRAM消費も増加する。
4Kコンテキストウィンドウは英語約3,000語に相当。2026年の端末AIは通常 8K-128K のコンテキストをサポートする。コンテキストが長いほど注意機構レイヤーで二次関数的にメモリを消費するため、モバイル向けモデルはクラウド版より上限が低い。
関連: KVキャッシュ , アテンション機構 , トークン
トークン
LLMの入出力の基本単位。多くは単語片・句読点・短いバイト列のいずれかに相当する。
トークナイザがモデル入力前にテキストをトークンへ分割する。英語は1単語あたり約0.75トークン、中国語・日本語は1文字あたり1-2トークンが平均(マルチバイトUTF-8の扱いがトークナイザごとに異なるため)。クラウドLLMはトークン課金、端末スループットもトークン/秒で報告される。「コンテキスト長」「最大出力長」もほぼ全てトークン基準で文字数ではない。
関連: コンテキスト長 , スループット , 埋め込み(Embedding)
スループット
生成フェーズで毎秒生成されるトークン数。端末LLMが最初のトークンを出した後の最重要速度指標。
参考値:人間の読書速度は約5-10 tok/s、快適なstreamingチャットには15+ tok/sが必要。2026年時点、iPhone 15 Pro での 3B 4-bit モデルは通常 25-40 tok/s、M4 Pro では同モデルが 100 tok/s を超える。自己回帰生成フェーズではスループットはほぼメモリ帯域で律速され、プロンプト prefill 段階では生の演算性能で律速される。
関連: レイテンシ(最初のトークンまでの時間) , メモリ帯域幅 , トークン
レイテンシ(最初のトークンまでの時間)
ユーザーが最初の生成トークンを目にするまでの待ち時間。主にプロンプト長と prefill フェーズの演算速度で決まる。
TTFT(最初のトークンまでの時間)とスループットは別指標。TTFT はプロンプト prefill(入力全体の KV キャッシュ計算)を含み、スループットはその後のストリーミングフェーズを支配する。4K トークンのプロンプトは速いハードでも最初の応答トークンに 1-2 秒かかることがある。UX 観点では system prompt を短く保ち、streaming アニメや「thinking...」表示で待ちを隠す。
関連: スループット , コンテキスト長 , KVキャッシュ
テンパラチャ(temperature)
サンプリングパラメータ。低温度ではモデルは決定的で焦点が定まり、高温度では創造的だが発散しがち。
数学的には temperature は softmax 前にモデルの logit を除算する。低いほど確率分布が鋭く、高いほど平坦になる。T=0 は常に最高確率トークンを選ぶ(決定的)、T=1.0 はモデル本来の分布、T=1.5+ は明確にランダム性を注入する。実用指針:翻訳・要約・構造化出力では 0.0-0.3、創作・ブレインストーミングでは 0.7-1.0 を使う。
関連: Top-p(核サンプリング) , トークン
Top-p(核サンプリング)
サンプリング打ち切り手法。確率の累積和が p(例:0.9)になる最小候補集合からのみ次トークンを選ぶ。
Top-pサンプリングはモデルの確信度に適応する:モデルが確信しているときは核に2-3トークンしかなく、迷っているときは数十まで広がる。固定の top-k より優れているのは、事実的な質問では鋭さを保ちつつ自由質問では多様性を維持できる点。一般的な組み合わせはバランス型のデフォルトとして temperature 0.7 + top-p 0.9。
関連: テンパラチャ(temperature) , トークン