← 博客

端侧 AI 到底怎么跑?一篇没有黑话的解释

一个 20 亿参数的模型为什么能塞进手机?这是一篇用人话讲清楚端侧 AI 工作原理、量化压缩、NPU 加速和真实代价的科普文章——不需要工程背景就能读完,二十分钟看明白。

这事儿在物理上怎么可能?

每次有朋友看到我手机里那个”飞行模式还能翻译”的 demo,第一反应都是同 一句话:「这玩意儿是不是其实偷偷连了网?」

这种怀疑挺合理。毕竟 ChatGPT 大家都用过——大家也都听说过它背后是几栋 楼那么多的 GPU。一台手机,一块电池,凭什么能跑得动一个能听懂”把这盘 菜翻译成日语”的模型?

答案分两半:

  • 原版模型确实是怪兽体型,几栋楼的 GPU 也不夸张
  • 装到手机上的是它的小号弟弟——加上几个工程小聪明,刚好能塞进去

这篇文章不打算抄维基百科。我会用尽量人话的方式把”为什么塞得进、塞进 去之后跑得动”这两件事讲明白——主要是给那些好奇 Cove Travel 在你手机 里到底干了什么,但又不打算花一下午翻论文的人看。

先说清楚「AI 模型」到底是什么

现代语言模型从工程视角看,本质上是一张巨大的数字表格。几十亿个数。 当你输入「把 hello 翻译成日语」,手机会用这堆数字做巨量乘法和加法, 最后另一头出来一个词「こんにちは」。

这堆数字是模型「训练」出来的——Google 的人喂给它互联网上几乎所有 能读的内容,覆盖几十种语言,然后反复调整这些数,直到模型能猜出任意 句子的下一个词。训练这一步才是消耗数据中心的地方,且只要做一次。

训练完成后,模型就只剩这堆数字。你可以把它复制走,可以把它装到手机 里。手机不需要数据中心来「使用」它——只需要足够的内存来放下,加上 足够的算力来过一遍。

20 亿参数为什么能塞进口袋

「20 亿参数」的模型就是表格里有 40 亿个数。听起来吓人,但每个数其实 不大(1-2 字节),而现代手机内存意外地多(Pixel 9 或近几代 iPhone 普遍 8-12 GB)。

粗算一下:

项目大小
原始 4B 模型,未压缩16 GB
8 位量化4-5 GB
4 位量化2-3 GB
你手机的 RAM8-12 GB
你手机的存储128-512 GB

量化 是关键的小聪明。不再用全精度存这 40 亿个数,而是把它们四舍 五入到更少的比特位——类似把照片从 TIFF 存成 JPEG。压缩后的模型比 未压缩的差几个百分点,但占用空间只有四分之一。对 Cove Travel 而言, 这就是「能装进手机」与「装不进去」的分界线。

你提问后,手机到底在干什么

当你用 Cove Travel 对着日文菜单时,大致流程是:

  1. 相机拍下一帧,把图像数据交给模型。
  2. 模型把图像转成内部的一串「token」——模型自己用来表达意义片段的 单位。
  3. 模型穿过那张数字表格,根据已经看到的内容预测下一个 token。它会 重复这一动作几百次,每次产出一个 token。
  4. token 再被转回文字,显示在屏幕上。

每一次「过表格」在近代手机上耗时几十毫秒。一句短翻译能在 500 毫秒 内完成;长一点的需要一两秒。

让这一切快到看起来「瞬间出结果」的关键是一块专用芯片——NPU (神经网络处理单元)。2019 年以来几乎所有旗舰 Android 和 iPhone 都 配了 NPU,它专门为大语言模型这种数学场景设计。同样的模型如果只用 普通 CPU 跑,会慢 5-10 倍,电池也会撑不住。

真实的代价是什么

这是大部分营销页不愿意写的部分。比起云端版,更小的端侧模型在三个 方面诚实地更弱:

  • 冷门事实更欠缺。 4B 模型读的内容远少于云端 200B+ 规模的模型。 它有时会在罕见地名、专业小众术语、冷僻历史引用上出错。对旅行场景 这通常不是大问题;对法律检索就完全不行。
  • 「上下文窗口」更短。 模型能同时记住的对话片段更少。云端模型 可以容纳十万 token 以上的上下文;手机友好模型通常只能装下八千左右。 翻译够用;让它「总结整本书」就不行。
  • 「创意范围」更窄。 让云端模型脑暴时,更大的参数量帮它生成更 多样的措辞。小模型更保守。

你做的取舍是:放弃几个百分点的”长尾输入准确率”,换来 500 毫秒以内 的延迟、零网络依赖、零数据离开手机。对一个东京地铁里要用的旅行翻译 器,这是对的取舍。对起草法律合同,则不是。

为什么「端侧」对隐私有意义

云端 AI 的工作方式是:把你的输入发到云端,在服务器上跑模型,把答案 发回来。服务器记录了你的输入。即使是隐私政策严格的公司,仍会保留 足够的元数据可以拼出行为模式。隐私边界是「我们承诺不看」。

端侧 AI 的工作方式是:模型直接在你手机上跑。你的输入不离开设备。 没有服务器需要记录,因为流程里没有服务器。 隐私边界 = 设备边界 ——这是唯一真正可强制的边界。

这也是为什么”私有云 AI”是个矛盾词组。只要你的数据需要跨过网络、被 别人的硬件处理,信任要求就是「相信他们」。端侧把这层信任直接拿掉。

Cove 上具体长什么样

Cove Travel 装的是 Google Gemma 4 E2B ——Google 出的一个专为端侧部署设计的 20 亿参数模型。第一次打开 app 时,模型下载一次(约 2.5 GB)。之后:

  • 每一次翻译都跑在你手机的 NPU 上。
  • 每一张你对着拍的照片都在本地分析——绝不上传。
  • 双向语音对话也只在设备上完成。
  • 卸载 app 就把整个模型删掉。

同一套架构会延伸到 Cove 全家——即将上线的 Voice、Photo、 Health 共享同一种端侧方案。模型只下一次,应用是不同的使用方式。

进一步阅读

文中提到的两篇前置:

如果想看工程深度的版本, Gemma 模型官方说明 列出了参数量、训练 数据细节、benchmark 分数。本文的目标是给「想用这个技术」而不是 「想造这个技术」的人看的。