评测视频里看不到的东西
我看过太多相机翻译的评测视频了,大多数都长一个样:菜单铺平、正对镜头、 厨房白光打亮,演员一只手稳稳举着手机,零点几秒就识别出来。
可那不是真实环境。
真实环境是:晚上九点你蹲在曼谷夜市某家档口前面,霓虹灯、油烟、行人挤 来挤去;或者清晨六点的柏林中央车站,列车快开了你举着手机在隧道入口对 着站牌——光线不够、信号忽强忽弱、手在抖、人在催。这些条件下相机翻译 的行为,跟评测视频里完全是两个东西。
这篇文章想做的就是把这个差距说清楚。具体做法:拿端侧相机翻译(Cove Travel 和 Cove Photo)跟云端 OCR(Google Lens、ChatGPT Vision)在 四种真实非理想条件下对比一遍。不上 benchmark 数字——只写你自己肉 眼能看到的差异。
条件一:餐厅昏暗灯光
典型的居酒屋、拉面馆、酒吧桌面照度只有 30-80 勒克斯——大约是正午 室外的 1%。相机 ISO 必须拉到 800-3200,意味着 OCR 看到的图像 噪点很重。
云端 vs 端侧的行为差异:
| 行为 | 云端 OCR | 端侧(Cove) |
|---|---|---|
| 第一次尝试 | 2-5 秒来回,然后「无法识别」 | 不到 1 秒,给出最佳猜测 + 低置信度标记 |
| 第二次(你重新对准) | 又是 2-5 秒来回 | 又是不到 1 秒 |
| 弱光下的用户行为 | 倾向于等,最终放弃 | 倾向于不停调整角度直到模型给出高置信度结果 |
云端「等然后失败」的循环在弱光下是最差的模式,因为它把相机噪声的 代价转嫁给用户去等。端侧「不确定也快速给答案」的体验更好——你能 在几秒内试多个角度,而不是几分钟。
条件二:镜头沾污或指纹
手机相机镜头一直在沾污——脸蹭过去、抓手机时手指碰到。旅行相机 尤其容易脏,因为你在出汗的手里握着手机几小时。
镜头脏的本质是把 OCR 变成一个概率问题——文字在那里但模糊。云端 OCR 通常的反应是:
- 「无法识别文字」(假阴性)
- 把一个污点自信地认成某个汉字(假阳性)
Cove 端侧的行为更有用:标「低置信度」+ 建议你重拍。模型训练数据 里包含了大量不完美的手机相机输入,所以它学会了「我看到模糊的东西, 可能是 X,但请你核对」这种谦虚的表达。
条件三:网络死区(地铁 / 地下 / 隧道)
这一条决定一切。下面这些地方手机信号是真的零格:
- 东京地铁隧道(尤其丸之内线、日比谷线)
- 首尔地铁 2 号线深站台
- 曼谷 BTS / MRT 地下段
- 欧洲主要火车站站台间的地下走廊
- 大多数国际机场安检线内部
这些区域里云端 OCR 会返回网络错误,fallback 是「等你联网时再 重试」——对你想在下班车到站前看懂招牌的瞬间,这毫无帮助。
Cove Travel 和 Cove Photo 都把 Google Gemma 4 E2B 跑在你 手机的 NPU 上。基站有没有信号跟相机能不能工作没关系。这一条写 起来最无聊,实际用最关键。
条件四:距离与角度
寺庙匾额在你头顶 4 米高。公交车终点牌 30 米远。餐厅吧台后墙的 菜单板距离你 6 米。
云端和端侧 OCR 都有距离 / 角度的物理上限,但失败方式不同:
- 云端 OCR:倾向于”自信地猜并失败”。即使源文字小到不够准, 仍会返回某个结果。
- 端侧 OCR(Cove):返回置信度标记。当源文字像素小于某阈值, 会告诉你”靠近一点再拍”而不是瞎猜。
诚实版本:两个工具都不替代你向招牌走 5 米。但端侧版告诉你需要 走近这一点比”瞎猜”对游客更有用。
「诚实」在实际场景里长什么样
相机条件差时,问题不是”哪家更准”——两家都被相机捕获质量物理 限制。问题是”哪家的失败模式更有用”。
Cove 在退化条件下的失败模式:
- 即使不确定也快速给出结果。
- 标置信度让你知道是否值得信。
- 建议重试而不是把锅扣给用户。
- 不管 OCR 置信度如何,地铁隧道里照样工作。
云端 OCR 的失败模式:
- 答案救不回来时仍长时间来回。
- 偶尔自信地报错(污点 → 汉字)。
- 在最需要快速答案的时刻返回网络错误。
- 把失败代价转嫁给用户(等更好的 Wi-Fi 再重试)。
如果你把”失败模式有用度”和”标称准确度”看得同样重,端侧选项在 退化条件下胜出——正因为这些场景里网络添加的是时间而不是价值。
这对你实际选择哪款 app 意味着什么
对 Cove Travel ——主要在户外、出行中、移动 状态下用——退化条件是中位条件而非 edge case。端侧选择是对的, 因为”网络敌对的 90%“按使用场景定义本来就占 90%。
对 Cove Photo ——更广义的视觉问答 app——情况 不同。室内灯光好的 Photo 场景很常见(你在公寓里识植物、看冰箱 内容、做厨房桌上的作业题)。这些场景下网络 OCR 完全可用。端侧 仍在隐私上占优(照片本身就是孩子作业 / 你厨房内容的字面证据), 但延迟优势更小。
出门前两分钟相机准备清单
两分钟:
- 出酒店前用超细纤维布擦一遍手机镜头。污点是单个最可预防的输入 质量问题。
- 在酒店大堂对一个标牌测一次相机翻译——确认在酒店典型的中等 灯光下能识别。
- 打开飞行模式再测一次同一个标牌。如果结果变了或工作不了,说明 你装的不是真正的端侧工具。
- 注意手机弱光下的行为:ISO 升高 + 快门变慢 = 运动模糊。把肘 支稳或双手握。
这就是全部相机前置准备。剩下的是实际旅行。
进一步阅读
文中最常引用的两篇前置:
- 端侧 AI 到底怎么跑 解释模型大小 和 NPU 访问为什么对相机延迟重要。
- 为什么本机 AI 比云端更适合旅行 把”网络敌对的 90%“论点完整展开。
对日本场景(汉字菜单、车站招牌)的相机条件, 2026 年日本旅行:最实用的离线翻译方案 在单国语境里走过同样的退化条件。