← ブログ

暗所と電波圏外でのカメラ翻訳:実地テスト 2026

クラウド OCR は薄暗いレストラン、汚れたレンズ、地下鉄圏外で予測通り失敗します。オンデバイスのカメラ翻訳が何を違う形で行うのか、4 つの実シーンで観察できる挙動を解説します。

レビュー動画には絶対映らないやつ

カメラ翻訳のレビュー動画を、たぶん 30 本以上は見ている。どれも判で押した ように同じ画作りだ——メニューを平らに広げて、正面から、キッチンの白い光 で照らされて、レビュアーがピタッとスマホを構えて、コンマ何秒で訳が出る。

でも、それは現実ではない。

現実は、夜 9 時のバンコクの屋台で、ネオンの照り返しと油煙、すり抜ける 人波の中でしゃがんでスマホを構える状況だ。あるいは朝 6 時のベルリン中央駅、 発車間際のホームでトンネル入口の標識にレンズを向ける状況——光は足りない、 電波は揺れる、手は震える、急かされる。これらの条件下でのカメラ翻訳の 振る舞いは、レビュー動画とはまったく別物である。

この記事はその差を埋めるためのものだ。やり方はシンプルで、 オンデバイスのカメラ翻訳(Cove Travel と Cove Photo)と、 クラウド OCR(Google レンズ、ChatGPT Vision)を、4 つのリアルな 「理想とほど遠い」条件で並べて比較する。ベンチマーク数字は出さない—— あなた自身が肉眼で観察できる挙動の差だけを書く。

条件 1:薄暗いレストランの照明

典型的な居酒屋、ラーメンカウンター、ワインバーはテーブル位置で 30–80 ルクス — 真昼の屋外の約 1%。カメラの ISO は 800–3200 域に上がる必要が あり、つまり OCR が見る画像にノイズが多く乗ります。

クラウドとオンデバイスで何が変わるか:

挙動クラウド OCRオンデバイス(Cove)
1 回目の試行2–5 秒の往復後に「これは読めません」1 秒未満で最良推測 + 低信頼度フラグ
2 回目の試行(再照準)また 2–5 秒の往復また 1 秒未満
暗所でのユーザー挙動待ってから諦めがちモデルが信頼度を示すまで角度を調整し続けがち

クラウド版の「待って失敗」ループは暗所で最悪のパターン — カメラの ノイズに対してユーザーを罰します。オンデバイスの「不確かでも素早く答える」 は良い UX — 角度を分単位ではなく秒単位でループできます。

条件 2:指紋や汚れの付いたレンズ

スマホのカメラは常に汚れを拾います — 顔がレンズに触れ、スマホをつかむ 時に指が触れる。旅行中のカメラは特に汚れます — 手汗の中で何時間も スマホを握っているからです。

汚れたレンズは OCR を確率問題に変えます。テキストはあるがぼやけている。 クラウド OCR の応答は通常以下のどちらか:

  • 「テキストを認識できませんでした」(False Negative)
  • 汚れを似ている中国文字として自信を持って誤認(False Positive)

Cove のオンデバイスの挙動はより役立つ:結果に「低信頼度」フラグを付け、 再撮影を提案します。モデルの学習データには多くの不完全なモバイルカメラ 入力が含まれており、「ぼやけた何かが見えて X かもしれませんが確認して ください」と言うことを学んでいます。

条件 3:ネットワーク圏外(地下鉄、地下、トンネル)

これがすべてを決める条件。スマホの電波が完全にゼロになる実在の場所が あります:

  • 東京メトロのトンネル(特に丸ノ内線と日比谷線)
  • ソウル地下鉄 2 号線の深い駅
  • バンコク BTS / MRT の地下区間
  • ヨーロッパ主要鉄道駅のプラットフォーム間の地下
  • ほとんどの国際空港のセキュリティラインの中

これらのゾーンでクラウド OCR はネットワークエラーを返します。フォール バックは「オンラインに戻ったら再試行します」 — 次の電車が来る前に 看板を読もうとしている実際の瞬間には無用です。

Cove TravelCove Photo は 両方とも Google Gemma 4 E2B をスマホの NPU で動かします。基地局の有無はカメラが動くかどうかに無関係です。 4 つの条件の中で書くのに最も退屈で、実用上最も重要です。

条件 4:距離と角度

頭上 4 メートルの寺院の額。30 メートル先のバスの行先標。6 メートル奥の レストランの裏壁のメニューボード。

クラウド OCR とオンデバイス OCR は両方ともここで苦戦しますが、違う 形で:

  • クラウド OCR:自信を持って試行して失敗しがち。原文が小さすぎて 正確に読めない時でも 何か を返す。
  • オンデバイス OCR(Cove):信頼度フラグを返す。原文テキストが ピクセル閾値以下になると、推測ではなく「もっと近づいて」と伝える。

正直版:どちらのツールも看板に 5 メートル近づくことの代わりにはなり ません。しかしオンデバイス版のほうが「もっと近づく必要があると 伝える」 のが上手で、それが観光客にとって役立つ挙動です。

「正直」が実際にどう見えるか

カメラ条件が悪い時、問いは「どちらのツールがより正確か」ではなく — どちらも カメラが物理的に捕える内容で等しく制限されています — 「どちらのツールの 失敗モードがより役立つか」です。

劣化条件下での Cove の失敗モード:

  • 不確かでも素早く結果を返す。
  • 信頼度レベルにフラグを立てるので信頼すべきかわかる。
  • ユーザーに対して激怒終了するのではなく再試行を提案する。
  • OCR 信頼度に関係なく地下鉄トンネルで動作する。

クラウド OCR の失敗モード:

  • 答えが回復不能な時でも長い往復。
  • 時々自信を持って間違った結果を返す(汚れ → 漢字)。
  • 速答を最も求められる瞬間にネットワークエラーを返す。
  • 失敗コストをユーザーに押し戻す(より良い Wi-Fi で再試行)。

失敗モードの有用性を名目精度と同じくらい重視するなら、オンデバイス選択は 劣化条件下で勝ちます — それらの条件こそネットワークが時間を加えて 価値を加えない条件だから。

あなたが手を伸ばすアプリにとって何を意味するか

Cove Travel — 主に屋外、移動中、外出時に使う翻訳 ツール — にとって、劣化条件は中央条件であり、エッジケースではありません。 オンデバイスアプローチが正しいのは、ユースケースのネットワーク敵対的 90% が、定義によりユースケースのネットワーク敵対的 90% だから。

Cove Photo — より広い視覚質問アプリ — はミックスが 違います。屋内のよく明るい Photo 条件は一般的(アパートの植物が何か、 冷蔵庫の中身、キッチンテーブルの宿題)。それらにはネットワーク OCR が うまく動きます。オンデバイス選択は今でもプライバシーで勝ちます(写真は あなたの子供の宿題やキッチンの中身の文字通りの証拠)が、レイテンシ 優位性は小さくなります。

旅行前カメラ準備チェックリスト

2 分:

  • ホテルを出る前にマイクロファイバークロスでスマホのレンズを拭く。 汚れは最も予防できる入力品質問題の単独最大要因。
  • ホテルのロビーで 1 つの看板でカメラ翻訳をテスト — ホテルの典型的な そこそこの照明下で読めることを確認。
  • 機内モードに切り替えて同じ看板を再テスト。答えが変わるか動かなく なれば、本物のオンデバイスツールではありません。
  • 暗所でのスマホの挙動に注意:ISO 上昇 + 遅いシャッター = モーション ブラーが増える。肘を固定するか両手で持つ。

それがカメラ準備の全部。残りは実際の旅行です。

さらに読むなら

この記事が最も参照する 2 つの記事:

日本特有のカメラシーン(漢字メニュー、駅看板)であれば、 2026 年版:日本旅行に最適なオフライン翻訳アプリ が単一国コンテキストで同じ条件を扱います。