端侧 AI 术语词典：量化 / KV 缓存 / NPU 等核心概念

优化

量化

把模型权重从 16-bit 压缩到 4-bit 等更低精度，体积大幅减少、精度略损。

量化是端侧 AI 落地的核心技术。7B 参数模型 FP16 约 14 GB；量化到 4-bit 缩到约 4 GB，能在消费级手机上跑且大多数场景下质量损失可忽略。常见格式包括 GGUF Q4_K_M / AWQ / GPTQ。

剪枝

剪掉对输出贡献小的权重或整个神经元，在质量基本不掉的前提下缩小模型。

剪枝分两种：非结构化（把单个权重置零，硬件上很难真正加速）和结构化（移除整个通道或注意力头，能真正提速）。现代端侧模型常把 2:4 结构化稀疏（NVIDIA 风格）与量化结合使用。典型效果：体积减少 30-50%，benchmark 下降不到 2 个百分点。

相关： 量化 , 知识蒸馏

LoRA（低秩适应）

冻结主模型权重，只训练一组很小的低秩矩阵作为任务 adapter，产物是几 MB 的小文件。

完整微调 7B 模型需要几百 GB 显存；LoRA 通过只学习 rank-r 的低秩更新（通常 r=8 或 16）把可训练参数减少 1000-10000 倍。端侧意义重大：一个 base 模型可以挂多个可热切换的 LoRA adapter（每个 5-50 MB），让手机 App 可以同时持有「翻译模式」「摘要模式」权重而不需要存两份完整模型。

相关： 量化 , 知识蒸馏

GGUF 文件格式

llama.cpp 生态主流的单文件模型格式，把权重 / tokenizer / 元数据打包，支持 mmap 快速加载。

GGUF 在 2023 年取代了旧的 GGML 格式，成为开源端侧社区的默认。关键特性：同一格式族支持多种量化等级（Q2_K 到 Q8_0）、内置 chat template、mmap 友好的布局让 4 GB 模型几毫秒就能加载。今天手机上「下载模型」的体验（LM Studio / llama.cpp / Ollama）几乎都最终消费 GGUF 文件。

相关： 量化 , 推理 runtime , AWQ（激活感知权重量化）

AWQ（激活感知权重量化）

一种 4-bit 量化方法，保护那些与大激活值相关的关键权重，比朴素量化精度高。

AWQ 的核心洞察：只有约 1% 的权重对模型质量有不成比例的影响，可以通过一小批校准数据观察激活统计找出来。这些权重保留更高精度，其余则激进量化到 4-bit。和 GPTQ 相比，AWQ 推理更快、在 instruction-following benchmark 上稍稳定。常见组合：AWQ 量化的权重 + GGUF 或 safetensors 容器。

相关： 量化 , GGUF 文件格式

部署

端侧 AI

模型直接跑在你的手机/电脑上，不走云端，离线可用、隐私保护、延迟低。

端侧 AI 是 Cove 这类应用的核心架构选择。和云端方案相比：可用模型规模受限于手机 RAM/存储，但获得即时响应、输入数据零外泄、零调用成本。2026 年 4-bit 量化的 2-4B 模型已能在旗舰手机上流畅运行。

边缘 AI

比端侧 AI 范围更宽的概念，涵盖手机 / 电脑 / IoT 传感器 / 车载计算 / 边缘服务器，凡是非中心云的位置都算。

边缘 AI 和端侧 AI 经常互换使用，但 edge 是更大的伞：树莓派上跑物体检测的安防摄像头、在 5G 基站做异常检测的工厂传感器、手机上跑 LLM 的 App，都属于边缘 AI；只有最后一个严格是端侧。三者面对的设计压力完全相同 —— 本地算力 / 内存有限 / 延迟敏感 —— 所以端侧的优化技术几乎都能迁移到边缘部署。

联邦学习

一种训练范式：多个设备协同改进共享模型，只把权重更新发回中心服务器，原始用户数据始终不离开设备。

联邦学习解决了「需要数据才能改进模型」和「尊重隐私」之间的矛盾。著名案例：Gboard 的下一个单词预测在几亿台手机上训练，但没有任何按键数据离开过设备。配合 secure aggregation 和差分隐私，连权重更新都无法泄露个体信息。端侧推理 + 联邦学习构成一个完整的隐私保护 ML 闭环。

默认隐私（Private by Default）

一种设计哲学：用户数据默认留在设备上，除非用户主动选择上传 —— 隐私是初始状态而非可选项。

默认隐私翻转了主流云 AI 模型「默认上传所有输入」的设定。Apple Intelligence、Cove 系列 App、和很多近期端侧产品都做了这个承诺：照片 / 语音 / 健康 / 翻译输入永远不离开手机。技术支撑包括端侧推理、用联邦学习做改进闭环、以及把任何 opt-in 特性清晰分离。营销层面，「你的数据永远不离开手机」正在成为对纯云端竞品的护城河。

相关： 端侧 AI , 联邦学习 , 边缘 AI

LLM 和 SLM 的区别

大语言模型（常 70B+ 参数，仅云端）vs 小语言模型（通常 8B 以下，专为端侧设计）。

界限是模糊的，且在变化中。2026 年「SLM」通常指 8B 以下、量化后能在 4-8 GB 手机 RAM 内运行的模型（Phi / Gemma 3 small / MiniCPM / Llama 3 8B mobile）。70B-1T 区间的 LLM 还住在云端。中间地带 13-30B 在 M 系列 Mac 上跑得动但手机跑不动，催生出一种「个人云」层级 —— 一些产品把它当成隐私友好的后备。

相关： 知识蒸馏 , 端侧 AI , 量化 , MoE（混合专家）

多模态

能在同一个架构里同时接收并推理多种输入（文本 + 图像、音频或视频）的模型。

多模态 LLM 通常在一个语言模型上挂载视觉编码器（如小型 ViT）和/或音频编码器，把它们的输出投影到和 text token 相同的 embedding 空间。2026 年的端侧代表：Gemma 4 multimodal / 带视觉的 Apple Foundation Models / Phi-4-multimodal。Cove 系列重度依赖这能力：Cove Photo 描述图片、Cove Voice 转写并总结、Cove Travel 从摄像头识别路牌 —— 都来自同一个多模态模型。

推理 runtime

在设备上真正执行模型的库或引擎，例如 LiteRT / MediaPipe / ExecuTorch / Core ML / llama.cpp。

Runtime 负责处理量化格式、内存映射、NPU/GPU 分发、KV 缓存管理、以及并发推理的 Mutex。选型重要：iOS 上要用 ANE 就走 Core ML 和 Apple Foundation Models；Android 上 LiteRT 和 MediaPipe 主导（支持 Hexagon / Tensor）；ExecuTorch（PyTorch Edge）跨平台势头增长；llama.cpp 仍是 GGUF 模型的开源默认。Cove 系列通过 InferenceEngine 封装层依赖 LiteRT-LM。

推理

上下文长度

模型一次能读多少 token 的上限，越大能处理越长的文档，但推理时占用更多 RAM。

4K 上下文窗口约能读 3,000 个英文单词。2026 年端侧模型通常支持 8K-128K 上下文。更长的上下文在 attention 层需要二次方内存，这是手机模型上限低于云端模型的原因。

相关： KV 缓存 , 注意力机制 , Token（词元）

Token（词元）

LLM 的基本输入 / 输出单位 —— 通常是一个 word piece、一个标点或一小段字节。

Tokenizer 在模型看到文本之前先把它切成 token。英文平均约 0.75 token 一个单词；中文和日文平均一个汉字 / 假名 1-2 个 token，因为 tokenizer 处理多字节 UTF-8 的方式不同。云端 LLM 按 token 计费，端侧吞吐量也按 token/秒上报。「上下文长度」「最大输出长度」几乎都是按 token 而不是字符计的。

相关： 上下文长度 , 吞吐量 , Embedding（向量表示）

吞吐量

生成阶段每秒产出的 token 数 —— 端侧 LLM 在首 token 之后最关键的速度指标。

参考值：人类阅读速度约 5-10 tok/s；流畅 streaming 聊天体验大概需要 15+ tok/s。2026 年 iPhone 15 Pro 跑 3B 4-bit 模型通常 25-40 tok/s；同模型在 M4 Pro 上能突破 100 tok/s。在自回归生成阶段吞吐量几乎完全受内存带宽限制，prompt prefill 阶段则受算力限制。

相关： 延迟（首 token 时间） , 内存带宽 , Token（词元）

延迟（首 token 时间）

用户等到第一个 token 出现的时间，主要由 prompt 长度和 prefill 阶段算力决定。

首 token 时间（TTFT）和吞吐量是两个不同指标 —— TTFT 覆盖 prompt prefill 阶段（为整个输入计算 KV 缓存），吞吐量管它之后的流式阶段。一个 4K token 的 prompt 即便在快设备上也可能要 1-2 秒才出首个响应 token。UX 启示：缩短 system prompt，并用 streaming 动画或「thinking...」指示器掩盖延迟。

相关： 吞吐量 , 上下文长度 , KV 缓存

温度（temperature）

采样参数，控制随机度 —— 低温度让模型确定且专注，高温度让模型有创造力但发散。

数学上 temperature 在 softmax 前除以模型 logit —— 越低概率分布越尖锐，越高越平坦。T=0 代表永远选最高概率 token（完全确定）；T=1.0 是模型原始分布；T=1.5+ 会显著注入随机度。实用建议：翻译 / 摘要 / 结构化输出用 0.0-0.3；创意写作和头脑风暴用 0.7-1.0。

相关： Top-p（核采样） , Token（词元）

Top-p（核采样）

一种采样截断方式：只从概率累计达到 p（如 0.9）的最小候选集中抽取下一个 token。

Top-p 采样会自适应模型的确信度：模型自信时核里可能只有 2-3 个 token，模型犹豫时核会扩到几十个。比固定 top-k 更可取，因为它在事实问答时仍尖锐、在开放式提示时仍多样。常见组合：temperature 0.7 + top-p 0.9 作为偏创意的折中默认。

相关： 温度（temperature） , Token（词元）

模型架构

KV 缓存

生成时缓存 attention 中间结果，大幅加速逐 token 输出，但占用大量 RAM。

没有 KV 缓存时每生成一个新 token 都要对所有历史 token 重算 attention（二次方代价）；有了 KV 缓存就摊销成线性。缓存大小与上下文长度和模型维度成正比，长上下文时往往成为端侧主要内存负担。

相关： 上下文长度 , 量化 , 注意力机制 , 内存带宽

Transformer 架构

现代几乎所有 LLM 的底层架构，由多层 self-attention 堆叠构成。

Google 2017 年论文《Attention Is All You Need》提出。Transformer 取代了早期 RNN/LSTM，关键差异是并行而非串行地处理 token。一个典型端侧 LLM 堆叠 24-40 个 transformer block，每个 block 包含多头注意力 + 前馈网络。端侧 AI 的大多数优化（KV 缓存、量化、MoE）都是针对 transformer 内部结构的改造。

注意力机制

Transformer 的核心机制：让模型在预测下一个 token 时学会权衡哪些历史 token 更重要。

Attention 通过 query 和 key 向量的点积学习权重，对所有历史 token 做加权求和。现代 LLM 使用多头注意力（通常 16-32 头），不同头可专注不同的语义关系。Attention 是推理中最吃算力和内存的环节，所以 Flash Attention / GQA / KV 缓存等优化对端侧性能至关重要。

相关： Transformer 架构 , KV 缓存 , 上下文长度

MoE（混合专家）

把每个 token 路由给少数几个专家子网络，让总参数量大、激活算力小的架构。

典型 MoE 模型可能有 8-64 个专家，但每个 token 只激活其中 2 个，所以 56B 参数 MoE 实际算力开销和 8B 稠密模型相当。代表：Mixtral / DeepSeek-MoE / 部分 Gemma 4。端侧场景下取舍不同：所有专家仍需驻留 RAM，所以 MoE 对手机只有在配合激进量化或专家卸载时才有用。

知识蒸馏

训练一个小的学生模型去模仿大的老师模型，把能力压进更小的体积里。

蒸馏是端侧模型质量/体积比异常高的主因。学生不是只看最终答案，而是学习老师输出的概率分布（soft label），能捕捉老师考虑过的细微差别。Gemma 3 / Phi / MiniCPM 都重度依赖蒸馏。结果是：一个 3B 蒸馏模型往往打得过同等数据从零训练的 7B 模型。

Embedding（向量表示）

把 token 或句子表示成向量，语义相近的内容在高维空间里彼此靠近。

每个 transformer 的第一步都是把输入 token 映射成 embedding 向量（通常 1024-4096 维）。同一思想支撑了语义搜索和 RAG：把文档和查询编码到同一向量空间，按余弦相似度找最近邻。端侧 embedding 模型（MiniLM / GTE-small 等）非常小（不到 100 MB），让手机本地语义搜索成为可能。

硬件

NPU（神经网络处理器）

专门跑神经网络的芯片单元。现代手机内置 NPU（Apple ANE / Google Tensor / 高通 Hexagon），实现高速低功耗 AI 推理。

NPU 在 AI 工作负载上比 CPU 快 5-10 倍，比 GPU 省电 2-3 倍。2026 年主流移动 NPU：Apple ANE（A17 Pro 16 核）/ Google Tensor TPU / 高通 Hexagon。Core ML / MediaPipe / ONNX Runtime 等框架会自动把张量运算分发到 NPU。

Apple Neural Engine (ANE)

Apple 在 A 系列和 M 系列芯片里集成的专用 NPU，通过 Core ML 框架在 iOS / macOS 调用。

Neural Engine 最早出现在 A11（2017）有 2 个核心；A17 Pro 已升到 16 核约 35 TOPS。关键优势：ANE 有自己的 SRAM，运行时不和 CPU/GPU 抢资源，可以在跑 ML 的同时让芯片其余部分处理 UI。使用 FoundationModels 框架或 Core ML 的 iOS App 会自动把合格的算子路由到 ANE。

相关： NPU（神经网络处理器） , 推理 runtime

Tensor Core

NVIDIA 在 Tegra 移动芯片和桌面 GPU 上的矩阵乘法专用硬件单元，加速 transformer 内部的稠密 matmul。

Tensor Core 在一个时钟周期内完成一个小矩阵乘法（如 4×4 × 4×4 → 4×4），正好是 LLM 推理的主导操作。移动场景：NVIDIA Tegra Orin（Switch 后继 / 车载 / 机器人）内置数百个 Tensor Core，是手机外最强的移动级 AI 平台之一。Tensor Core 原生支持 FP16 / BF16 / INT8 / FP8，正是量化产物的格式。

相关： NPU（神经网络处理器） , 量化

高通 Hexagon

高通骁龙移动 / PC 芯片里 NPU + DSP 二合一的处理器，通过 QNN SDK 和 Snapdragon AI Engine 调用。

Hexagon 从最早的音频 / 图像 DSP 进化成完整的神经网络加速器。骁龙 8 Gen 3 和 X Elite 内置的 Hexagon NPU 提供 45+ TOPS，已经能和 Apple ANE 同台跑端侧 LLM。Hexagon 是 Android 侧主导的移动 NPU；跨平台 LLM App 在 Android 上通常通过 TensorFlow Lite / ONNX Runtime / 高通自家 QNN 调用它。

RAM 和 VRAM 的区别

桌面 GPU 上模型权重必须装进独立 VRAM；手机上 CPU / GPU / NPU 共享同一块 unified RAM。

桌面 RTX 4090 上 24 GB VRAM 和系统 RAM 是分开的，加载模型需要走 PCIe 复制。手机和 Apple Silicon 用 unified memory：同一组物理芯片同时服务 CPU / GPU / NPU。所以一台 8 GB RAM 的手机能像 24 GB VRAM 的桌面 GPU 一样顺畅地跑 4 GB 模型，也是为什么 2026 年 8 GB+ 的 iPhone Pro 是认真跑端侧 LLM 的实际下限。

相关： 内存带宽 , 端侧 AI , 量化

内存带宽

模型权重从内存搬到计算单元的速度。对端侧 LLM 来说这才是真正瓶颈，TOPS 反而其次。

生成一个 token 要读完整个模型的所有权重 —— 一个 4 GB 量化模型跑到 30 tok/s 就需要 120 GB/s 的带宽。iPhone 15 Pro 顶配带宽约 50 GB/s；M4 Pro 约 273 GB/s。这就是 TOPS 数字会高估真实性能的原因：100 TOPS 但 30 GB/s 带宽的芯片在 LLM 推理时仍然是 memory-bound。量化在这里有双重收益 —— 每次读取的权重也变小了。

相关： RAM 和 VRAM 的区别 , 量化 , KV 缓存 , 吞吐量