端侧 AI 术语词典:量化 / KV 缓存 / NPU 等核心概念

优化

量化

把模型权重从 16-bit 压缩到 4-bit 等更低精度,体积大幅减少、精度略损。

量化是端侧 AI 落地的核心技术。7B 参数模型 FP16 约 14 GB;量化到 4-bit 缩到约 4 GB,能在消费级手机上跑且大多数场景下质量损失可忽略。常见格式包括 GGUF Q4_K_M / AWQ / GPTQ。

相关: 端侧 AI , KV 缓存 , GGUF 文件格式 , AWQ(激活感知权重量化)

剪枝

剪掉对输出贡献小的权重或整个神经元,在质量基本不掉的前提下缩小模型。

剪枝分两种:非结构化(把单个权重置零,硬件上很难真正加速)和结构化(移除整个通道或注意力头,能真正提速)。现代端侧模型常把 2:4 结构化稀疏(NVIDIA 风格)与量化结合使用。典型效果:体积减少 30-50%,benchmark 下降不到 2 个百分点。

相关: 量化 , 知识蒸馏

LoRA(低秩适应)

冻结主模型权重,只训练一组很小的低秩矩阵作为任务 adapter,产物是几 MB 的小文件。

完整微调 7B 模型需要几百 GB 显存;LoRA 通过只学习 rank-r 的低秩更新(通常 r=8 或 16)把可训练参数减少 1000-10000 倍。端侧意义重大:一个 base 模型可以挂多个可热切换的 LoRA adapter(每个 5-50 MB),让手机 App 可以同时持有「翻译模式」「摘要模式」权重而不需要存两份完整模型。

相关: 量化 , 知识蒸馏

GGUF 文件格式

llama.cpp 生态主流的单文件模型格式,把权重 / tokenizer / 元数据打包,支持 mmap 快速加载。

GGUF 在 2023 年取代了旧的 GGML 格式,成为开源端侧社区的默认。关键特性:同一格式族支持多种量化等级(Q2_K 到 Q8_0)、内置 chat template、mmap 友好的布局让 4 GB 模型几毫秒就能加载。今天手机上「下载模型」的体验(LM Studio / llama.cpp / Ollama)几乎都最终消费 GGUF 文件。

相关: 量化 , 推理 runtime , AWQ(激活感知权重量化)

AWQ(激活感知权重量化)

一种 4-bit 量化方法,保护那些与大激活值相关的关键权重,比朴素量化精度高。

AWQ 的核心洞察:只有约 1% 的权重对模型质量有不成比例的影响,可以通过一小批校准数据观察激活统计找出来。这些权重保留更高精度,其余则激进量化到 4-bit。和 GPTQ 相比,AWQ 推理更快、在 instruction-following benchmark 上稍稳定。常见组合:AWQ 量化的权重 + GGUF 或 safetensors 容器。

相关: 量化 , GGUF 文件格式

部署

端侧 AI

模型直接跑在你的手机/电脑上,不走云端,离线可用、隐私保护、延迟低。

端侧 AI 是 Cove 这类应用的核心架构选择。和云端方案相比:可用模型规模受限于手机 RAM/存储,但获得即时响应、输入数据零外泄、零调用成本。2026 年 4-bit 量化的 2-4B 模型已能在旗舰手机上流畅运行。

相关: 量化 , NPU(神经网络处理器) , 边缘 AI , 默认隐私(Private by Default) , 推理 runtime

边缘 AI

比端侧 AI 范围更宽的概念,涵盖手机 / 电脑 / IoT 传感器 / 车载计算 / 边缘服务器,凡是非中心云的位置都算。

边缘 AI 和端侧 AI 经常互换使用,但 edge 是更大的伞:树莓派上跑物体检测的安防摄像头、在 5G 基站做异常检测的工厂传感器、手机上跑 LLM 的 App,都属于边缘 AI;只有最后一个严格是端侧。三者面对的设计压力完全相同 —— 本地算力 / 内存有限 / 延迟敏感 —— 所以端侧的优化技术几乎都能迁移到边缘部署。

相关: 端侧 AI , 默认隐私(Private by Default) , 推理 runtime

联邦学习

一种训练范式:多个设备协同改进共享模型,只把权重更新发回中心服务器,原始用户数据始终不离开设备。

联邦学习解决了「需要数据才能改进模型」和「尊重隐私」之间的矛盾。著名案例:Gboard 的下一个单词预测在几亿台手机上训练,但没有任何按键数据离开过设备。配合 secure aggregation 和差分隐私,连权重更新都无法泄露个体信息。端侧推理 + 联邦学习构成一个完整的隐私保护 ML 闭环。

相关: 端侧 AI , 默认隐私(Private by Default) , 边缘 AI

默认隐私(Private by Default)

一种设计哲学:用户数据默认留在设备上,除非用户主动选择上传 —— 隐私是初始状态而非可选项。

默认隐私翻转了主流云 AI 模型「默认上传所有输入」的设定。Apple Intelligence、Cove 系列 App、和很多近期端侧产品都做了这个承诺:照片 / 语音 / 健康 / 翻译输入永远不离开手机。技术支撑包括端侧推理、用联邦学习做改进闭环、以及把任何 opt-in 特性清晰分离。营销层面,「你的数据永远不离开手机」正在成为对纯云端竞品的护城河。

相关: 端侧 AI , 联邦学习 , 边缘 AI

LLM 和 SLM 的区别

大语言模型(常 70B+ 参数,仅云端)vs 小语言模型(通常 8B 以下,专为端侧设计)。

界限是模糊的,且在变化中。2026 年「SLM」通常指 8B 以下、量化后能在 4-8 GB 手机 RAM 内运行的模型(Phi / Gemma 3 small / MiniCPM / Llama 3 8B mobile)。70B-1T 区间的 LLM 还住在云端。中间地带 13-30B 在 M 系列 Mac 上跑得动但手机跑不动,催生出一种「个人云」层级 —— 一些产品把它当成隐私友好的后备。

相关: 知识蒸馏 , 端侧 AI , 量化 , MoE(混合专家)

多模态

能在同一个架构里同时接收并推理多种输入(文本 + 图像、音频或视频)的模型。

多模态 LLM 通常在一个语言模型上挂载视觉编码器(如小型 ViT)和/或音频编码器,把它们的输出投影到和 text token 相同的 embedding 空间。2026 年的端侧代表:Gemma 4 multimodal / 带视觉的 Apple Foundation Models / Phi-4-multimodal。Cove 系列重度依赖这能力:Cove Photo 描述图片、Cove Voice 转写并总结、Cove Travel 从摄像头识别路牌 —— 都来自同一个多模态模型。

相关: Embedding(向量表示) , Transformer 架构 , 推理 runtime

推理 runtime

在设备上真正执行模型的库或引擎,例如 LiteRT / MediaPipe / ExecuTorch / Core ML / llama.cpp。

Runtime 负责处理量化格式、内存映射、NPU/GPU 分发、KV 缓存管理、以及并发推理的 Mutex。选型重要:iOS 上要用 ANE 就走 Core ML 和 Apple Foundation Models;Android 上 LiteRT 和 MediaPipe 主导(支持 Hexagon / Tensor);ExecuTorch(PyTorch Edge)跨平台势头增长;llama.cpp 仍是 GGUF 模型的开源默认。Cove 系列通过 InferenceEngine 封装层依赖 LiteRT-LM。

相关: NPU(神经网络处理器) , Apple Neural Engine (ANE) , 高通 Hexagon , GGUF 文件格式 , 端侧 AI

推理

上下文长度

模型一次能读多少 token 的上限,越大能处理越长的文档,但推理时占用更多 RAM。

4K 上下文窗口约能读 3,000 个英文单词。2026 年端侧模型通常支持 8K-128K 上下文。更长的上下文在 attention 层需要二次方内存,这是手机模型上限低于云端模型的原因。

相关: KV 缓存 , 注意力机制 , Token(词元)

Token(词元)

LLM 的基本输入 / 输出单位 —— 通常是一个 word piece、一个标点或一小段字节。

Tokenizer 在模型看到文本之前先把它切成 token。英文平均约 0.75 token 一个单词;中文和日文平均一个汉字 / 假名 1-2 个 token,因为 tokenizer 处理多字节 UTF-8 的方式不同。云端 LLM 按 token 计费,端侧吞吐量也按 token/秒 上报。「上下文长度」「最大输出长度」几乎都是按 token 而不是字符计的。

相关: 上下文长度 , 吞吐量 , Embedding(向量表示)

吞吐量

生成阶段每秒产出的 token 数 —— 端侧 LLM 在首 token 之后最关键的速度指标。

参考值:人类阅读速度约 5-10 tok/s;流畅 streaming 聊天体验大概需要 15+ tok/s。2026 年 iPhone 15 Pro 跑 3B 4-bit 模型通常 25-40 tok/s;同模型在 M4 Pro 上能突破 100 tok/s。在自回归生成阶段吞吐量几乎完全受内存带宽限制,prompt prefill 阶段则受算力限制。

相关: 延迟(首 token 时间) , 内存带宽 , Token(词元)

延迟(首 token 时间)

用户等到第一个 token 出现的时间,主要由 prompt 长度和 prefill 阶段算力决定。

首 token 时间(TTFT)和吞吐量是两个不同指标 —— TTFT 覆盖 prompt prefill 阶段(为整个输入计算 KV 缓存),吞吐量管它之后的流式阶段。一个 4K token 的 prompt 即便在快设备上也可能要 1-2 秒才出首个响应 token。UX 启示:缩短 system prompt,并用 streaming 动画或「thinking...」指示器掩盖延迟。

相关: 吞吐量 , 上下文长度 , KV 缓存

温度(temperature)

采样参数,控制随机度 —— 低温度让模型确定且专注,高温度让模型有创造力但发散。

数学上 temperature 在 softmax 前除以模型 logit —— 越低概率分布越尖锐,越高越平坦。T=0 代表永远选最高概率 token(完全确定);T=1.0 是模型原始分布;T=1.5+ 会显著注入随机度。实用建议:翻译 / 摘要 / 结构化输出用 0.0-0.3;创意写作和头脑风暴用 0.7-1.0。

相关: Top-p(核采样) , Token(词元)

Top-p(核采样)

一种采样截断方式:只从概率累计达到 p(如 0.9)的最小候选集中抽取下一个 token。

Top-p 采样会自适应模型的确信度:模型自信时核里可能只有 2-3 个 token,模型犹豫时核会扩到几十个。比固定 top-k 更可取,因为它在事实问答时仍尖锐、在开放式提示时仍多样。常见组合:temperature 0.7 + top-p 0.9 作为偏创意的折中默认。

相关: 温度(temperature) , Token(词元)

模型架构

KV 缓存

生成时缓存 attention 中间结果,大幅加速逐 token 输出,但占用大量 RAM。

没有 KV 缓存时每生成一个新 token 都要对所有历史 token 重算 attention(二次方代价);有了 KV 缓存就摊销成线性。缓存大小与上下文长度和模型维度成正比,长上下文时往往成为端侧主要内存负担。

相关: 上下文长度 , 量化 , 注意力机制 , 内存带宽

Transformer 架构

现代几乎所有 LLM 的底层架构,由多层 self-attention 堆叠构成。

Google 2017 年论文《Attention Is All You Need》提出。Transformer 取代了早期 RNN/LSTM,关键差异是并行而非串行地处理 token。一个典型端侧 LLM 堆叠 24-40 个 transformer block,每个 block 包含多头注意力 + 前馈网络。端侧 AI 的大多数优化(KV 缓存、量化、MoE)都是针对 transformer 内部结构的改造。

相关: 注意力机制 , KV 缓存 , Embedding(向量表示) , MoE(混合专家)

注意力机制

Transformer 的核心机制:让模型在预测下一个 token 时学会权衡哪些历史 token 更重要。

Attention 通过 query 和 key 向量的点积学习权重,对所有历史 token 做加权求和。现代 LLM 使用多头注意力(通常 16-32 头),不同头可专注不同的语义关系。Attention 是推理中最吃算力和内存的环节,所以 Flash Attention / GQA / KV 缓存等优化对端侧性能至关重要。

相关: Transformer 架构 , KV 缓存 , 上下文长度

MoE(混合专家)

把每个 token 路由给少数几个专家子网络,让总参数量大、激活算力小的架构。

典型 MoE 模型可能有 8-64 个专家,但每个 token 只激活其中 2 个,所以 56B 参数 MoE 实际算力开销和 8B 稠密模型相当。代表:Mixtral / DeepSeek-MoE / 部分 Gemma 4。端侧场景下取舍不同:所有专家仍需驻留 RAM,所以 MoE 对手机只有在配合激进量化或专家卸载时才有用。

相关: Transformer 架构 , 量化 , LLM 和 SLM 的区别

知识蒸馏

训练一个小的学生模型去模仿大的老师模型,把能力压进更小的体积里。

蒸馏是端侧模型质量/体积比异常高的主因。学生不是只看最终答案,而是学习老师输出的概率分布(soft label),能捕捉老师考虑过的细微差别。Gemma 3 / Phi / MiniCPM 都重度依赖蒸馏。结果是:一个 3B 蒸馏模型往往打得过同等数据从零训练的 7B 模型。

相关: LLM 和 SLM 的区别 , 量化 , Transformer 架构

Embedding(向量表示)

把 token 或句子表示成向量,语义相近的内容在高维空间里彼此靠近。

每个 transformer 的第一步都是把输入 token 映射成 embedding 向量(通常 1024-4096 维)。同一思想支撑了语义搜索和 RAG:把文档和查询编码到同一向量空间,按余弦相似度找最近邻。端侧 embedding 模型(MiniLM / GTE-small 等)非常小(不到 100 MB),让手机本地语义搜索成为可能。

相关: Transformer 架构 , Token(词元) , 注意力机制

硬件

NPU(神经网络处理器)

专门跑神经网络的芯片单元。现代手机内置 NPU(Apple ANE / Google Tensor / 高通 Hexagon),实现高速低功耗 AI 推理。

NPU 在 AI 工作负载上比 CPU 快 5-10 倍,比 GPU 省电 2-3 倍。2026 年主流移动 NPU:Apple ANE(A17 Pro 16 核)/ Google Tensor TPU / 高通 Hexagon。Core ML / MediaPipe / ONNX Runtime 等框架会自动把张量运算分发到 NPU。

相关: 端侧 AI , Apple Neural Engine (ANE) , 高通 Hexagon , 推理 runtime

Apple Neural Engine (ANE)

Apple 在 A 系列和 M 系列芯片里集成的专用 NPU,通过 Core ML 框架在 iOS / macOS 调用。

Neural Engine 最早出现在 A11(2017)有 2 个核心;A17 Pro 已升到 16 核约 35 TOPS。关键优势:ANE 有自己的 SRAM,运行时不和 CPU/GPU 抢资源,可以在跑 ML 的同时让芯片其余部分处理 UI。使用 FoundationModels 框架或 Core ML 的 iOS App 会自动把合格的算子路由到 ANE。

相关: NPU(神经网络处理器) , 推理 runtime

Tensor Core

NVIDIA 在 Tegra 移动芯片和桌面 GPU 上的矩阵乘法专用硬件单元,加速 transformer 内部的稠密 matmul。

Tensor Core 在一个时钟周期内完成一个小矩阵乘法(如 4×4 × 4×4 → 4×4),正好是 LLM 推理的主导操作。移动场景:NVIDIA Tegra Orin(Switch 后继 / 车载 / 机器人)内置数百个 Tensor Core,是手机外最强的移动级 AI 平台之一。Tensor Core 原生支持 FP16 / BF16 / INT8 / FP8,正是量化产物的格式。

相关: NPU(神经网络处理器) , 量化

高通 Hexagon

高通骁龙移动 / PC 芯片里 NPU + DSP 二合一的处理器,通过 QNN SDK 和 Snapdragon AI Engine 调用。

Hexagon 从最早的音频 / 图像 DSP 进化成完整的神经网络加速器。骁龙 8 Gen 3 和 X Elite 内置的 Hexagon NPU 提供 45+ TOPS,已经能和 Apple ANE 同台跑端侧 LLM。Hexagon 是 Android 侧主导的移动 NPU;跨平台 LLM App 在 Android 上通常通过 TensorFlow Lite / ONNX Runtime / 高通自家 QNN 调用它。

相关: NPU(神经网络处理器) , Apple Neural Engine (ANE) , 推理 runtime

RAM 和 VRAM 的区别

桌面 GPU 上模型权重必须装进独立 VRAM;手机上 CPU / GPU / NPU 共享同一块 unified RAM。

桌面 RTX 4090 上 24 GB VRAM 和系统 RAM 是分开的,加载模型需要走 PCIe 复制。手机和 Apple Silicon 用 unified memory:同一组物理芯片同时服务 CPU / GPU / NPU。所以一台 8 GB RAM 的手机能像 24 GB VRAM 的桌面 GPU 一样顺畅地跑 4 GB 模型,也是为什么 2026 年 8 GB+ 的 iPhone Pro 是认真跑端侧 LLM 的实际下限。

相关: 内存带宽 , 端侧 AI , 量化

内存带宽

模型权重从内存搬到计算单元的速度。对端侧 LLM 来说这才是真正瓶颈,TOPS 反而其次。

生成一个 token 要读完整个模型的所有权重 —— 一个 4 GB 量化模型跑到 30 tok/s 就需要 120 GB/s 的带宽。iPhone 15 Pro 顶配带宽约 50 GB/s;M4 Pro 约 273 GB/s。这就是 TOPS 数字会高估真实性能的原因:100 TOPS 但 30 GB/s 带宽的芯片在 LLM 推理时仍然是 memory-bound。量化在这里有双重收益 —— 每次读取的权重也变小了。

相关: RAM 和 VRAM 的区别 , 量化 , KV 缓存 , 吞吐量