← Blog

Kamera-Übersetzung bei wenig Licht und ohne Signal: ein Feldtest

Cloud-OCR scheitert in dunklen Restaurants, bei verschmierten Linsen und in U-Bahn-Funklöchern. Was On-Device anders macht.

Die Bedingungen, denen Kamera-Übersetzung tatsächlich begegnet

Reviews zur Kamera-Übersetzung werden meist unter Studio­bedingungen fotografiert. Eine flache Speisekarte, frontal, in einer gut ausgeleuchteten Küche. Das ist nicht die Bedingung, der Sie um 21 Uhr auf einem Bangkoker Nachtmarkt oder um 6 Uhr morgens hinten in einem Tunnel des Berliner Hauptbahnhofs begegnen.

Dieser Beitrag vergleicht, wie On-Device-Kamera-Übersetzung (Cove Travel und Cove Photo) sich gegenüber Cloud-OCR (Google Lens, ChatGPT Vision) unter vier echten „nicht-idealen” Bedingungen verhält. Keine Benchmark-Zahlen — nur das Verhalten, das Sie selbst beobachten können.

Bedingung 1: Schwaches Restaurant-Licht

Ein typisches Izakaya, eine Ramen-Theke oder eine Weinbar läuft auf 30–80 Lux am Tisch — etwa 1 % des Mittagslichts draußen. Die ISO der Kamera muss in den Bereich 800–3200 klettern, was bedeutet: starkes Rauschen auf dem Bild, das die OCR sieht.

Was sich zwischen Cloud und On-Device ändert:

VerhaltenCloud-OCROn-Device (Cove)
Erster Versuch2–5 Sekunden Roundtrip, dann „Wir konnten das nicht lesen”Unter 1 Sekunde, gibt beste Schätzung plus Niedrig-Konfidenz-Markierung
Zweiter Versuch (Sie zielen neu)Weitere 2–5 Sekunden RoundtripWeitere Sub-Sekunde
Nutzer­verhalten bei wenig LichtTendenz zum Warten, irgendwann AufgebenTendenz, den Winkel weiter anzupassen, bis das Modell Sicherheit signalisiert

Die „Warten-dann-Scheitern”-Schleife der Cloud-Variante ist das schlechteste Muster bei wenig Licht, weil sie die Nutzerin für das Kamera-Rauschen bestraft. On-Devices „schnell antworten, auch wenn unsicher” ist die bessere UX, weil es Ihnen erlaubt, in Sekunden statt Minuten durch Winkel zu blättern.

Bedingung 2: Verschmierte oder mit Fingerabdrücken bedeckte Linse

Telefon­kameras sammeln ständig Schmutz — Ihr Gesicht streift die Linse, Ihr Finger berührt sie, wenn Sie das Telefon greifen. Reise-Kameras werden besonders schmutzig, weil Sie das Telefon stunden­lang unter Hand­schweiß-Bedingungen halten.

Eine verschmierte Linse macht aus OCR ein probabilistisches Problem. Der Text ist da, aber unscharf. Die Cloud-OCR-Antwort ist meist eines:

  • „Wir konnten keinen Text erkennen” (Falsch-Negativ)
  • Ein selbstbewusst falsches Lesen eines Schmierfleck als chinesisches Zeichen, das er vage ähnelt (Falsch-Positiv)

Coves On-Device-Verhalten ist nützlicher: Es markiert das Ergebnis mit „niedriger Konfidenz” und schlägt eine Wiederholung vor. Die Trainingsdaten des Modells enthalten viele unvollkommene Mobil­kamera-Eingaben, also hat es gelernt, „Ich sehe etwas Unscharfes, das X sein könnte, aber prüfe mich” zu sagen.

Bedingung 3: Netz-Funklöcher (U-Bahn, Keller, Tunnel)

Das ist die Bedingung, die alles entscheidet. Es gibt echte Orte, an denen Ihr Telefon null Signal hat:

  • Tokyo-Metro-Tunnel (besonders die Marunouchi- und Hibiya-Linien)
  • Tiefe Stationen der Seouler U-Bahn-Linie 2
  • BTS-/MRT-Untergrundabschnitte in Bangkok
  • Das Untergeschoss jedes größeren europäischen Bahnhofs zwischen Bahnsteigen
  • Innerhalb der Sicherheits­schlange an den meisten internationalen Flughäfen

In diesen Zonen geben Cloud-OCRs Netzwerk-Fehler zurück. Der Fallback ist „Wir versuchen es erneut, wenn Sie wieder online sind” — nutzlos für den eigentlichen Moment, in dem Sie versuchen, ein Schild zu lesen, bevor der nächste Zug eintrifft.

Cove Travel und Cove Photo lassen beide Google Gemma 4 E2B auf der NPU Ihres Telefons laufen. Ob ein Mobilfunkmast da ist oder nicht, ist für die Kamera-Funktion irrelevant. Dies ist die langweiligste der vier Bedingungen, über die man schreiben kann — und in der Praxis die wichtigste.

Bedingung 4: Abstand und Winkel

Sie sehen eine Tempel-Tafel 4 Meter über Ihrem Kopf. Sie sehen ein Bus-Zielschild 30 Meter die Straße runter. Sie sehen eine Speisekarten­tafel an der Rückwand eines 6 Meter tiefen Restaurants.

Cloud-OCR und On-Device-OCR kämpfen hier beide, aber auf unterschiedliche Weise:

  • Cloud-OCR: tendiert dazu, selbstbewusst zu versuchen und zu scheitern. Liefert etwas zurück, selbst wenn die Quelle zu klein ist, um genau gelesen zu werden.
  • On-Device-OCR (Cove): gibt eine Konfidenz-Markierung zurück. Wenn der Quelltext unter einer bestimmten Pixel-Schwelle liegt, sagt es Ihnen, näher zu kommen, statt zu raten.

Die ehrliche Version: Kein Werkzeug ersetzt 5 Meter näher zum Schild zu gehen. Aber die On-Device-Version ist besser darin, Ihnen zu sagen, dass Sie näher kommen müssen — was das nützliche Verhalten für eine reisende Person ist.

Wie „ehrlich” in der Praxis aussieht

Wenn die Kamera-Bedingungen schlecht sind, ist die Frage nicht „welches Werkzeug ist genauer” — beide sind gleich begrenzt durch das, was die Kamera physikalisch erfasst. Die Frage ist „welcher Failure-Mode ist nützlicher”.

Coves Failure-Mode unter degradierten Bedingungen:

  • Liefert ein Ergebnis schnell, auch wenn unsicher.
  • Markiert die Konfidenz, damit Sie wissen, ob Sie ihm vertrauen können.
  • Schlägt eine Wiederholung vor, statt der Nutzerin gegenüber wütend abzubrechen.
  • Funktioniert überhaupt in U-Bahn-Tunneln, unabhängig von der OCR-Konfidenz.

Cloud-OCRs Failure-Mode:

  • Lange Roundtrip-Zeit, selbst wenn die Antwort nicht wieder­herstellbar ist.
  • Liefert manchmal selbstbewusste falsche Ergebnisse (Schmierfleck → Kanji).
  • Liefert Netzwerk-Fehler genau in den Momenten, die schnelle Antworten am dringendsten brauchen.
  • Schiebt die Failure-Kosten zurück auf die Nutzerin (Wiederholung bei besserem WLAN).

Wenn Sie die Nützlichkeit des Failure-Modes genauso gewichten wie die nominelle Genauigkeit, gewinnt die On-Device-Wahl unter degradierten Bedingungen — gerade weil das die Bedingungen sind, in denen das Netz Zeit hinzufügt, nicht Wert.

Was das für die Apps bedeutet, zu denen Sie greifen

Für Cove Travel — ein Übersetzungs-Tool, das Sie meist draußen, unterwegs, im Transit nutzen — sind degradierte Bedingungen die Median-Bedingung, kein Edge-Case. Der On-Device-Ansatz ist richtig, weil die netz­feindlichen 90 % des Anwendungsfalls per Definition die netz­feindlichen 90 % des Anwendungsfalls sind.

Für Cove Photo — eine breitere visuelle Frage-App — sieht die Mischung anders aus. Innen­raum mit guter Beleuchtung sind für Photo häufige Bedingungen (Sie fragen, was eine Pflanze in Ihrer Wohnung ist, was im Kühlschrank steht, eine Hausaufgabe am Küchentisch). Dafür funktioniert Netz-OCR gut. Die On-Device-Wahl gewinnt weiterhin beim Datenschutz (das Foto ist buchstäbliche Evidenz für die Hausaufgabe Ihres Kindes oder Ihren Kühlschrank-Inhalt), aber der Latenz-Vorteil ist kleiner.

Eine Pre-Trip-Kamera-Bereitschafts-Checkliste

Zwei Minuten:

  • Wischen Sie die Linse Ihres Telefons mit einem Microfaser-Tuch ab, bevor Sie das Hotel verlassen. Schmutzflecken sind das größte vermeidbare Eingabe-Qualitäts­problem.
  • Testen Sie die Kamera-Übersetzung an einem Schild in der Hotel-Lobby — bestätigen Sie, dass sie unter der typischen mittelmäßigen Beleuchtung des Hotels lesen kann.
  • Aktivieren Sie den Flugmodus und testen Sie dasselbe Schild erneut. Wenn die Antwort sich ändert oder aussetzt, haben Sie kein echtes On-Device-Tool.
  • Beachten Sie das Verhalten Ihres Telefons bei wenig Licht: höhere ISO + langsamerer Verschluss = mehr Bewegungs­unschärfe. Stützen Sie Ihre Ellbogen ab oder halten Sie das Telefon mit beiden Händen.

Das ist die gesamte Vor-Kamera-Vorbereitung. Der Rest ist die eigentliche Reise.

Wo Sie weiterlesen können

Die zwei Texte, auf die dieser Artikel am häufigsten verweist:

Für Japan-spezifische Kamera-Szenarien (Kanji-Speisekarten, Bahnhofs­schilder) geht Bester Offline-Übersetzer für die Japan-Reise 2026 durch dieselben Bedingungen in einem Einzel­land-Kontext.