← 博客

弱光与信号死区下的相机翻译:一份现场实测

云端 OCR 在昏暗餐厅、镜头沾污、地铁信号死区、远距离招牌四种条件下会按可预测的方式失败。这篇讲端侧相机翻译在这些「非理想」条件下到底做了什么不同,附两分钟出门前清单。

评测视频里看不到的东西

我看过太多相机翻译的评测视频了,大多数都长一个样:菜单铺平、正对镜头、 厨房白光打亮,演员一只手稳稳举着手机,零点几秒就识别出来。

可那不是真实环境。

真实环境是:晚上九点你蹲在曼谷夜市某家档口前面,霓虹灯、油烟、行人挤 来挤去;或者清晨六点的柏林中央车站,列车快开了你举着手机在隧道入口对 着站牌——光线不够、信号忽强忽弱、手在抖、人在催。这些条件下相机翻译 的行为,跟评测视频里完全是两个东西。

这篇文章想做的就是把这个差距说清楚。具体做法:拿端侧相机翻译(Cove Travel 和 Cove Photo)跟云端 OCR(Google Lens、ChatGPT Vision)在 四种真实非理想条件下对比一遍。不上 benchmark 数字——只写你自己肉 眼能看到的差异。

条件一:餐厅昏暗灯光

典型的居酒屋、拉面馆、酒吧桌面照度只有 30-80 勒克斯——大约是正午 室外的 1%。相机 ISO 必须拉到 800-3200,意味着 OCR 看到的图像 噪点很重。

云端 vs 端侧的行为差异:

行为云端 OCR端侧(Cove)
第一次尝试2-5 秒来回,然后「无法识别」不到 1 秒,给出最佳猜测 + 低置信度标记
第二次(你重新对准)又是 2-5 秒来回又是不到 1 秒
弱光下的用户行为倾向于等,最终放弃倾向于不停调整角度直到模型给出高置信度结果

云端「等然后失败」的循环在弱光下是最差的模式,因为它把相机噪声的 代价转嫁给用户去等。端侧「不确定也快速给答案」的体验更好——你能 在几秒内试多个角度,而不是几分钟。

条件二:镜头沾污或指纹

手机相机镜头一直在沾污——脸蹭过去、抓手机时手指碰到。旅行相机 尤其容易脏,因为你在出汗的手里握着手机几小时。

镜头脏的本质是把 OCR 变成一个概率问题——文字在那里但模糊。云端 OCR 通常的反应是:

  • 「无法识别文字」(假阴性)
  • 把一个污点自信地认成某个汉字(假阳性)

Cove 端侧的行为更有用:标「低置信度」+ 建议你重拍。模型训练数据 里包含了大量不完美的手机相机输入,所以它学会了「我看到模糊的东西, 可能是 X,但请你核对」这种谦虚的表达。

条件三:网络死区(地铁 / 地下 / 隧道)

这一条决定一切。下面这些地方手机信号是真的零格:

  • 东京地铁隧道(尤其丸之内线、日比谷线)
  • 首尔地铁 2 号线深站台
  • 曼谷 BTS / MRT 地下段
  • 欧洲主要火车站站台间的地下走廊
  • 大多数国际机场安检线内部

这些区域里云端 OCR 会返回网络错误,fallback 是「等你联网时再 重试」——对你想在下班车到站前看懂招牌的瞬间,这毫无帮助。

Cove TravelCove Photo 都把 Google Gemma 4 E2B 跑在你 手机的 NPU 上。基站有没有信号跟相机能不能工作没关系。这一条写 起来最无聊,实际用最关键。

条件四:距离与角度

寺庙匾额在你头顶 4 米高。公交车终点牌 30 米远。餐厅吧台后墙的 菜单板距离你 6 米。

云端和端侧 OCR 都有距离 / 角度的物理上限,但失败方式不同:

  • 云端 OCR:倾向于”自信地猜并失败”。即使源文字小到不够准, 仍会返回某个结果。
  • 端侧 OCR(Cove):返回置信度标记。当源文字像素小于某阈值, 会告诉你”靠近一点再拍”而不是瞎猜。

诚实版本:两个工具都不替代你向招牌走 5 米。但端侧版告诉你需要 走近这一点比”瞎猜”对游客更有用。

「诚实」在实际场景里长什么样

相机条件差时,问题不是”哪家更准”——两家都被相机捕获质量物理 限制。问题是”哪家的失败模式更有用”。

Cove 在退化条件下的失败模式:

  • 即使不确定也快速给出结果。
  • 标置信度让你知道是否值得信。
  • 建议重试而不是把锅扣给用户。
  • 不管 OCR 置信度如何,地铁隧道里照样工作。

云端 OCR 的失败模式:

  • 答案救不回来时仍长时间来回。
  • 偶尔自信地报错(污点 → 汉字)。
  • 在最需要快速答案的时刻返回网络错误。
  • 把失败代价转嫁给用户(等更好的 Wi-Fi 再重试)。

如果你把”失败模式有用度”和”标称准确度”看得同样重,端侧选项在 退化条件下胜出——正因为这些场景里网络添加的是时间而不是价值。

这对你实际选择哪款 app 意味着什么

Cove Travel ——主要在户外、出行中、移动 状态下用——退化条件是中位条件而非 edge case。端侧选择是对的, 因为”网络敌对的 90%“按使用场景定义本来就占 90%。

Cove Photo ——更广义的视觉问答 app——情况 不同。室内灯光好的 Photo 场景很常见(你在公寓里识植物、看冰箱 内容、做厨房桌上的作业题)。这些场景下网络 OCR 完全可用。端侧 仍在隐私上占优(照片本身就是孩子作业 / 你厨房内容的字面证据), 但延迟优势更小。

出门前两分钟相机准备清单

两分钟:

  • 出酒店前用超细纤维布擦一遍手机镜头。污点是单个最可预防的输入 质量问题。
  • 在酒店大堂对一个标牌测一次相机翻译——确认在酒店典型的中等 灯光下能识别。
  • 打开飞行模式再测一次同一个标牌。如果结果变了或工作不了,说明 你装的不是真正的端侧工具。
  • 注意手机弱光下的行为:ISO 升高 + 快门变慢 = 运动模糊。把肘 支稳或双手握。

这就是全部相机前置准备。剩下的是实际旅行。

进一步阅读

文中最常引用的两篇前置:

对日本场景(汉字菜单、车站招牌)的相机条件, 2026 年日本旅行:最实用的离线翻译方案 在单国语境里走过同样的退化条件。