端侧 AI 到底怎么跑？一篇没有黑话的解释

一个 20 亿参数的模型为什么能塞进手机？这是一篇用人话讲清楚端侧 AI 工作原理、量化压缩、NPU 加速和真实代价的科普文章——不需要工程背景就能读完，二十分钟看明白。

撰写：Cove 独立开发者 2026年4月1日

这事儿在物理上怎么可能？

每次有朋友看到我手机里那个”飞行模式还能翻译”的 demo，第一反应都是同一句话：「这玩意儿是不是其实偷偷连了网？」

这种怀疑挺合理。毕竟 ChatGPT 大家都用过——大家也都听说过它背后是几栋楼那么多的 GPU。一台手机，一块电池，凭什么能跑得动一个能听懂”把这盘菜翻译成日语”的模型？

答案分两半：

原版模型确实是怪兽体型，几栋楼的 GPU 也不夸张
但装到手机上的是它的小号弟弟——加上几个工程小聪明，刚好能塞进去

这篇文章不打算抄维基百科。我会用尽量人话的方式把”为什么塞得进、塞进去之后跑得动”这两件事讲明白——主要是给那些好奇 Cove Travel 在你手机里到底干了什么，但又不打算花一下午翻论文的人看。

先说清楚「AI 模型」到底是什么

现代语言模型从工程视角看，本质上是一张巨大的数字表格。几十亿个数。当你输入「把 hello 翻译成日语」，手机会用这堆数字做巨量乘法和加法，最后另一头出来一个词「こんにちは」。

这堆数字是模型「训练」出来的——Google 的人喂给它互联网上几乎所有能读的内容，覆盖几十种语言，然后反复调整这些数，直到模型能猜出任意句子的下一个词。训练这一步才是消耗数据中心的地方，且只要做一次。

训练完成后，模型就只剩这堆数字。你可以把它复制走，可以把它装到手机里。手机不需要数据中心来「使用」它——只需要足够的内存来放下，加上足够的算力来过一遍。

20 亿参数为什么能塞进口袋

「20 亿参数」的模型就是表格里有 40 亿个数。听起来吓人，但每个数其实不大（1-2 字节），而现代手机内存意外地多（Pixel 9 或近几代 iPhone 普遍 8-12 GB）。

粗算一下：

项目	大小
原始 4B 模型，未压缩	16 GB
8 位量化	4-5 GB
4 位量化	2-3 GB
你手机的 RAM	8-12 GB
你手机的存储	128-512 GB

量化是关键的小聪明。不再用全精度存这 40 亿个数，而是把它们四舍五入到更少的比特位——类似把照片从 TIFF 存成 JPEG。压缩后的模型比未压缩的差几个百分点，但占用空间只有四分之一。对 Cove Travel 而言，这就是「能装进手机」与「装不进去」的分界线。

你提问后，手机到底在干什么

当你用 Cove Travel 对着日文菜单时，大致流程是：

相机拍下一帧，把图像数据交给模型。
模型把图像转成内部的一串「token」——模型自己用来表达意义片段的单位。
模型穿过那张数字表格，根据已经看到的内容预测下一个 token。它会重复这一动作几百次，每次产出一个 token。
token 再被转回文字，显示在屏幕上。

每一次「过表格」在近代手机上耗时几十毫秒。一句短翻译能在 500 毫秒内完成；长一点的需要一两秒。

让这一切快到看起来「瞬间出结果」的关键是一块专用芯片——NPU （神经网络处理单元）。2019 年以来几乎所有旗舰 Android 和 iPhone 都配了 NPU，它专门为大语言模型这种数学场景设计。同样的模型如果只用普通 CPU 跑，会慢 5-10 倍，电池也会撑不住。

真实的代价是什么

这是大部分营销页不愿意写的部分。比起云端版，更小的端侧模型在三个方面诚实地更弱：

冷门事实更欠缺。 4B 模型读的内容远少于云端 200B+ 规模的模型。它有时会在罕见地名、专业小众术语、冷僻历史引用上出错。对旅行场景这通常不是大问题；对法律检索就完全不行。
「上下文窗口」更短。 模型能同时记住的对话片段更少。云端模型可以容纳十万 token 以上的上下文；手机友好模型通常只能装下八千左右。翻译够用；让它「总结整本书」就不行。
「创意范围」更窄。 让云端模型脑暴时，更大的参数量帮它生成更多样的措辞。小模型更保守。

你做的取舍是：放弃几个百分点的”长尾输入准确率”，换来 500 毫秒以内的延迟、零网络依赖、零数据离开手机。对一个东京地铁里要用的旅行翻译器，这是对的取舍。对起草法律合同，则不是。

为什么「端侧」对隐私有意义

云端 AI 的工作方式是：把你的输入发到云端，在服务器上跑模型，把答案发回来。服务器记录了你的输入。即使是隐私政策严格的公司，仍会保留足够的元数据可以拼出行为模式。隐私边界是「我们承诺不看」。

端侧 AI 的工作方式是：模型直接在你手机上跑。你的输入不离开设备。 没有服务器需要记录，因为流程里没有服务器。 隐私边界 = 设备边界 ——这是唯一真正可强制的边界。

这也是为什么”私有云 AI”是个矛盾词组。只要你的数据需要跨过网络、被别人的硬件处理，信任要求就是「相信他们」。端侧把这层信任直接拿掉。

Cove 上具体长什么样

Cove Travel 装的是 Google Gemma 4 E2B ——Google 出的一个专为端侧部署设计的 20 亿参数模型。第一次打开 app 时，模型下载一次（约 2.5 GB）。之后：

每一次翻译都跑在你手机的 NPU 上。
每一张你对着拍的照片都在本地分析——绝不上传。
双向语音对话也只在设备上完成。
卸载 app 就把整个模型删掉。

同一套架构会延伸到 Cove 全家——即将上线的 Voice、Photo、 Health 共享同一种端侧方案。模型只下一次，应用是不同的使用方式。

进一步阅读

文中提到的两篇前置：

更长的离线 AI 翻译器完整指南讲了 2026 年发生了什么让端侧变得可行。
为什么本机 AI 比云端更适合旅行专门展开延迟和可靠性维度的论证。

如果想看工程深度的版本， Gemma 模型官方说明列出了参数量、训练数据细节、benchmark 分数。本文的目标是给「想用这个技术」而不是「想造这个技术」的人看的。

为什么本机 AI 在旅行场景胜过云端翻译
在外旅行时，延迟、隐私、可靠性这三条原本独立的论据居然都指向同一个方向——本机 AI。本文用 Pixel 9 上的实测数据系统地摆出论据，也诚实承认云端仍胜出的三类专业翻译场景。
离线 AI 翻译工具完整指南（2026 版）
本机 AI 翻译终于在旅行场景上追平了云端 API。本文聊聊 2026 年评估一个离线 AI 翻译工具应该看什么、它为什么重要，以及 Cove Travel 不一样的地方。

想亲自试一下离线 AI 翻译？

下载 Cove Travel，装一次就用一辈子。

去下载页 → 为什么坚持离线

撰写：Cove 独立开发者

应用

适用场景

了解

获取 Cove

信任

端侧 AI 到底怎么跑？一篇没有黑话的解释

这事儿在物理上怎么可能？

先说清楚「AI 模型」到底是什么

20 亿参数为什么能塞进口袋

你提问后，手机到底在干什么

真实的代价是什么

为什么「端侧」对隐私有意义

Cove 上具体长什么样

进一步阅读

想亲自试一下离线 AI 翻译？

这事儿在物理上怎么可能？

先说清楚「AI 模型」到底是什么

20 亿参数为什么能塞进口袋

你提问后，手机到底在干什么

真实的代价是什么

为什么「端侧」对隐私有意义

Cove 上具体长什么样

进一步阅读

继续阅读

想亲自试一下离线 AI 翻译？