レビュー動画には絶対映らないやつ
カメラ翻訳のレビュー動画を、たぶん 30 本以上は見ている。どれも判で押した ように同じ画作りだ——メニューを平らに広げて、正面から、キッチンの白い光 で照らされて、レビュアーがピタッとスマホを構えて、コンマ何秒で訳が出る。
でも、それは現実ではない。
現実は、夜 9 時のバンコクの屋台で、ネオンの照り返しと油煙、すり抜ける 人波の中でしゃがんでスマホを構える状況だ。あるいは朝 6 時のベルリン中央駅、 発車間際のホームでトンネル入口の標識にレンズを向ける状況——光は足りない、 電波は揺れる、手は震える、急かされる。これらの条件下でのカメラ翻訳の 振る舞いは、レビュー動画とはまったく別物である。
この記事はその差を埋めるためのものだ。やり方はシンプルで、 オンデバイスのカメラ翻訳(Cove Travel と Cove Photo)と、 クラウド OCR(Google レンズ、ChatGPT Vision)を、4 つのリアルな 「理想とほど遠い」条件で並べて比較する。ベンチマーク数字は出さない—— あなた自身が肉眼で観察できる挙動の差だけを書く。
条件 1:薄暗いレストランの照明
典型的な居酒屋、ラーメンカウンター、ワインバーはテーブル位置で 30–80 ルクス — 真昼の屋外の約 1%。カメラの ISO は 800–3200 域に上がる必要が あり、つまり OCR が見る画像にノイズが多く乗ります。
クラウドとオンデバイスで何が変わるか:
| 挙動 | クラウド OCR | オンデバイス(Cove) |
|---|---|---|
| 1 回目の試行 | 2–5 秒の往復後に「これは読めません」 | 1 秒未満で最良推測 + 低信頼度フラグ |
| 2 回目の試行(再照準) | また 2–5 秒の往復 | また 1 秒未満 |
| 暗所でのユーザー挙動 | 待ってから諦めがち | モデルが信頼度を示すまで角度を調整し続けがち |
クラウド版の「待って失敗」ループは暗所で最悪のパターン — カメラの ノイズに対してユーザーを罰します。オンデバイスの「不確かでも素早く答える」 は良い UX — 角度を分単位ではなく秒単位でループできます。
条件 2:指紋や汚れの付いたレンズ
スマホのカメラは常に汚れを拾います — 顔がレンズに触れ、スマホをつかむ 時に指が触れる。旅行中のカメラは特に汚れます — 手汗の中で何時間も スマホを握っているからです。
汚れたレンズは OCR を確率問題に変えます。テキストはあるがぼやけている。 クラウド OCR の応答は通常以下のどちらか:
- 「テキストを認識できませんでした」(False Negative)
- 汚れを似ている中国文字として自信を持って誤認(False Positive)
Cove のオンデバイスの挙動はより役立つ:結果に「低信頼度」フラグを付け、 再撮影を提案します。モデルの学習データには多くの不完全なモバイルカメラ 入力が含まれており、「ぼやけた何かが見えて X かもしれませんが確認して ください」と言うことを学んでいます。
条件 3:ネットワーク圏外(地下鉄、地下、トンネル)
これがすべてを決める条件。スマホの電波が完全にゼロになる実在の場所が あります:
- 東京メトロのトンネル(特に丸ノ内線と日比谷線)
- ソウル地下鉄 2 号線の深い駅
- バンコク BTS / MRT の地下区間
- ヨーロッパ主要鉄道駅のプラットフォーム間の地下
- ほとんどの国際空港のセキュリティラインの中
これらのゾーンでクラウド OCR はネットワークエラーを返します。フォール バックは「オンラインに戻ったら再試行します」 — 次の電車が来る前に 看板を読もうとしている実際の瞬間には無用です。
Cove Travel と Cove Photo は 両方とも Google Gemma 4 E2B をスマホの NPU で動かします。基地局の有無はカメラが動くかどうかに無関係です。 4 つの条件の中で書くのに最も退屈で、実用上最も重要です。
条件 4:距離と角度
頭上 4 メートルの寺院の額。30 メートル先のバスの行先標。6 メートル奥の レストランの裏壁のメニューボード。
クラウド OCR とオンデバイス OCR は両方ともここで苦戦しますが、違う 形で:
- クラウド OCR:自信を持って試行して失敗しがち。原文が小さすぎて 正確に読めない時でも 何か を返す。
- オンデバイス OCR(Cove):信頼度フラグを返す。原文テキストが ピクセル閾値以下になると、推測ではなく「もっと近づいて」と伝える。
正直版:どちらのツールも看板に 5 メートル近づくことの代わりにはなり ません。しかしオンデバイス版のほうが「もっと近づく必要があると 伝える」 のが上手で、それが観光客にとって役立つ挙動です。
「正直」が実際にどう見えるか
カメラ条件が悪い時、問いは「どちらのツールがより正確か」ではなく — どちらも カメラが物理的に捕える内容で等しく制限されています — 「どちらのツールの 失敗モードがより役立つか」です。
劣化条件下での Cove の失敗モード:
- 不確かでも素早く結果を返す。
- 信頼度レベルにフラグを立てるので信頼すべきかわかる。
- ユーザーに対して激怒終了するのではなく再試行を提案する。
- OCR 信頼度に関係なく地下鉄トンネルで動作する。
クラウド OCR の失敗モード:
- 答えが回復不能な時でも長い往復。
- 時々自信を持って間違った結果を返す(汚れ → 漢字)。
- 速答を最も求められる瞬間にネットワークエラーを返す。
- 失敗コストをユーザーに押し戻す(より良い Wi-Fi で再試行)。
失敗モードの有用性を名目精度と同じくらい重視するなら、オンデバイス選択は 劣化条件下で勝ちます — それらの条件こそネットワークが時間を加えて 価値を加えない条件だから。
あなたが手を伸ばすアプリにとって何を意味するか
Cove Travel — 主に屋外、移動中、外出時に使う翻訳 ツール — にとって、劣化条件は中央条件であり、エッジケースではありません。 オンデバイスアプローチが正しいのは、ユースケースのネットワーク敵対的 90% が、定義によりユースケースのネットワーク敵対的 90% だから。
Cove Photo — より広い視覚質問アプリ — はミックスが 違います。屋内のよく明るい Photo 条件は一般的(アパートの植物が何か、 冷蔵庫の中身、キッチンテーブルの宿題)。それらにはネットワーク OCR が うまく動きます。オンデバイス選択は今でもプライバシーで勝ちます(写真は あなたの子供の宿題やキッチンの中身の文字通りの証拠)が、レイテンシ 優位性は小さくなります。
旅行前カメラ準備チェックリスト
2 分:
- ホテルを出る前にマイクロファイバークロスでスマホのレンズを拭く。 汚れは最も予防できる入力品質問題の単独最大要因。
- ホテルのロビーで 1 つの看板でカメラ翻訳をテスト — ホテルの典型的な そこそこの照明下で読めることを確認。
- 機内モードに切り替えて同じ看板を再テスト。答えが変わるか動かなく なれば、本物のオンデバイスツールではありません。
- 暗所でのスマホの挙動に注意:ISO 上昇 + 遅いシャッター = モーション ブラーが増える。肘を固定するか両手で持つ。
それがカメラ準備の全部。残りは実際の旅行です。
さらに読むなら
この記事が最も参照する 2 つの記事:
- オンデバイス AI の仕組み はモデルサイズと NPU アクセスがカメラレイテンシで重要な理由を説明。
- なぜオンデバイス AI は旅行でクラウドに勝つのか はネットワーク敵対的 90% の広い論証。
日本特有のカメラシーン(漢字メニュー、駅看板)であれば、 2026 年版:日本旅行に最適なオフライン翻訳アプリ が単一国コンテキストで同じ条件を扱います。