弱光与信号死区下的相机翻译：一份现场实测

云端 OCR 在昏暗餐厅、镜头沾污、地铁信号死区、远距离招牌四种条件下会按可预测的方式失败。这篇讲端侧相机翻译在这些「非理想」条件下到底做了什么不同，附两分钟出门前清单。

撰写：Cove 独立开发者 2026年4月27日

评测视频里看不到的东西

我看过太多相机翻译的评测视频了，大多数都长一个样：菜单铺平、正对镜头、厨房白光打亮，演员一只手稳稳举着手机，零点几秒就识别出来。

可那不是真实环境。

真实环境是：晚上九点你蹲在曼谷夜市某家档口前面，霓虹灯、油烟、行人挤来挤去；或者清晨六点的柏林中央车站，列车快开了你举着手机在隧道入口对着站牌——光线不够、信号忽强忽弱、手在抖、人在催。这些条件下相机翻译的行为，跟评测视频里完全是两个东西。

这篇文章想做的就是把这个差距说清楚。具体做法：拿端侧相机翻译（Cove Travel 和 Cove Photo）跟云端 OCR（Google Lens、ChatGPT Vision）在 四种真实非理想条件下对比一遍。不上 benchmark 数字——只写你自己肉眼能看到的差异。

条件一：餐厅昏暗灯光

典型的居酒屋、拉面馆、酒吧桌面照度只有 30-80 勒克斯——大约是正午室外的 1%。相机 ISO 必须拉到 800-3200，意味着 OCR 看到的图像噪点很重。

云端 vs 端侧的行为差异：

行为	云端 OCR	端侧（Cove）
第一次尝试	2-5 秒来回，然后「无法识别」	不到 1 秒，给出最佳猜测 + 低置信度标记
第二次（你重新对准）	又是 2-5 秒来回	又是不到 1 秒
弱光下的用户行为	倾向于等，最终放弃	倾向于不停调整角度直到模型给出高置信度结果

云端「等然后失败」的循环在弱光下是最差的模式，因为它把相机噪声的代价转嫁给用户去等。端侧「不确定也快速给答案」的体验更好——你能在几秒内试多个角度，而不是几分钟。

条件二：镜头沾污或指纹

手机相机镜头一直在沾污——脸蹭过去、抓手机时手指碰到。旅行相机尤其容易脏，因为你在出汗的手里握着手机几小时。

镜头脏的本质是把 OCR 变成一个概率问题——文字在那里但模糊。云端 OCR 通常的反应是：

「无法识别文字」（假阴性）
把一个污点自信地认成某个汉字（假阳性）

Cove 端侧的行为更有用：标「低置信度」+ 建议你重拍。模型训练数据里包含了大量不完美的手机相机输入，所以它学会了「我看到模糊的东西，可能是 X，但请你核对」这种谦虚的表达。

条件三：网络死区（地铁 / 地下 / 隧道）

这一条决定一切。下面这些地方手机信号是真的零格：

东京地铁隧道（尤其丸之内线、日比谷线）
首尔地铁 2 号线深站台
曼谷 BTS / MRT 地下段
欧洲主要火车站站台间的地下走廊
大多数国际机场安检线内部

这些区域里云端 OCR 会返回网络错误，fallback 是「等你联网时再重试」——对你想在下班车到站前看懂招牌的瞬间，这毫无帮助。

Cove Travel 和 Cove Photo 都把 Google Gemma 4 E2B 跑在你手机的 NPU 上。基站有没有信号跟相机能不能工作没关系。这一条写起来最无聊，实际用最关键。

条件四：距离与角度

寺庙匾额在你头顶 4 米高。公交车终点牌 30 米远。餐厅吧台后墙的菜单板距离你 6 米。

云端和端侧 OCR 都有距离 / 角度的物理上限，但失败方式不同：

云端 OCR：倾向于”自信地猜并失败”。即使源文字小到不够准，仍会返回某个结果。
端侧 OCR（Cove）：返回置信度标记。当源文字像素小于某阈值，会告诉你”靠近一点再拍”而不是瞎猜。

诚实版本：两个工具都不替代你向招牌走 5 米。但端侧版告诉你需要走近这一点比”瞎猜”对游客更有用。

「诚实」在实际场景里长什么样

相机条件差时，问题不是”哪家更准”——两家都被相机捕获质量物理限制。问题是”哪家的失败模式更有用”。

Cove 在退化条件下的失败模式：

即使不确定也快速给出结果。
标置信度让你知道是否值得信。
建议重试而不是把锅扣给用户。
不管 OCR 置信度如何，地铁隧道里照样工作。

云端 OCR 的失败模式：

答案救不回来时仍长时间来回。
偶尔自信地报错（污点 → 汉字）。
在最需要快速答案的时刻返回网络错误。
把失败代价转嫁给用户（等更好的 Wi-Fi 再重试）。

如果你把”失败模式有用度”和”标称准确度”看得同样重，端侧选项在退化条件下胜出——正因为这些场景里网络添加的是时间而不是价值。

这对你实际选择哪款 app 意味着什么

对 Cove Travel ——主要在户外、出行中、移动状态下用——退化条件是中位条件而非 edge case。端侧选择是对的，因为”网络敌对的 90%“按使用场景定义本来就占 90%。

对 Cove Photo ——更广义的视觉问答 app——情况不同。室内灯光好的 Photo 场景很常见（你在公寓里识植物、看冰箱内容、做厨房桌上的作业题）。这些场景下网络 OCR 完全可用。端侧仍在隐私上占优（照片本身就是孩子作业 / 你厨房内容的字面证据），但延迟优势更小。

出门前两分钟相机准备清单

两分钟：

出酒店前用超细纤维布擦一遍手机镜头。污点是单个最可预防的输入质量问题。
在酒店大堂对一个标牌测一次相机翻译——确认在酒店典型的中等灯光下能识别。
打开飞行模式再测一次同一个标牌。如果结果变了或工作不了，说明你装的不是真正的端侧工具。
注意手机弱光下的行为：ISO 升高 + 快门变慢 = 运动模糊。把肘支稳或双手握。

这就是全部相机前置准备。剩下的是实际旅行。

进一步阅读

文中最常引用的两篇前置：

端侧 AI 到底怎么跑解释模型大小和 NPU 访问为什么对相机延迟重要。
为什么本机 AI 比云端更适合旅行把”网络敌对的 90%“论点完整展开。

对日本场景（汉字菜单、车站招牌）的相机条件， 2026 年日本旅行：最实用的离线翻译方案在单国语境里走过同样的退化条件。

端侧 AI 到底怎么跑？一篇没有黑话的解释
一个 20 亿参数的模型为什么能塞进手机？这是一篇用人话讲清楚端侧 AI 工作原理、量化压缩、NPU 加速和真实代价的科普文章——不需要工程背景就能读完，二十分钟看明白。
为什么本机 AI 在旅行场景胜过云端翻译
在外旅行时，延迟、隐私、可靠性这三条原本独立的论据居然都指向同一个方向——本机 AI。本文用 Pixel 9 上的实测数据系统地摆出论据，也诚实承认云端仍胜出的三类专业翻译场景。
2026 年日本旅行：最实用的离线翻译方案
日本游对翻译工具是真正的全方位考验——汉字密集、敬语分级、地铁信号死区、便利店凌晨场景。这是我在 2026 年会实际装在手机上的离线翻译方案，附诚实劣势与起飞前清单。

想亲自试一下离线 AI 翻译？

下载 Cove Travel，装一次就用一辈子。

去下载页 → 为什么坚持离线

撰写：Cove 独立开发者

应用

适用场景

了解

获取 Cove

信任

弱光与信号死区下的相机翻译：一份现场实测

评测视频里看不到的东西

条件一：餐厅昏暗灯光

条件二：镜头沾污或指纹

条件三：网络死区（地铁 / 地下 / 隧道）

条件四：距离与角度

「诚实」在实际场景里长什么样

这对你实际选择哪款 app 意味着什么

出门前两分钟相机准备清单

进一步阅读

想亲自试一下离线 AI 翻译？

评测视频里看不到的东西

条件一：餐厅昏暗灯光

条件二：镜头沾污或指纹

条件三：网络死区（地铁 / 地下 / 隧道）

条件四：距离与角度

「诚实」在实际场景里长什么样

这对你实际选择哪款 app 意味着什么

出门前两分钟相机准备清单

进一步阅读

继续阅读

想亲自试一下离线 AI 翻译？