Les conditions que la traduction caméra rencontre vraiment
Les tests de traduction caméra sont généralement tournés dans des conditions de studio. Un menu plat, vu de face, dans une cuisine bien éclairée. Ce n’est pas la condition que vous rencontrez à 21 h dans un marché de nuit de Bangkok ou à 6 h dans le fond d’un tunnel de la Hauptbahnhof de Berlin.
Cet article compare comment la traduction caméra embarquée (Cove Travel et Cove Photo) se comporte vs l’OCR cloud (Google Lens, ChatGPT Vision) sous quatre conditions « non idéales » réelles. Pas de chiffres de benchmark — juste les comportements que vous pouvez observer vous-même.
Condition 1 : Lumière tamisée de restaurant
Une izakaya typique, un comptoir de ramen ou un bar à vin tournent à 30 à 80 lux à table — environ 1 % de l’extérieur en plein midi. La sensibilité ISO de la caméra doit grimper dans la plage 800-3200, ce qui signifie beaucoup de bruit dans l’image que voit l’OCR.
Ce qui change entre cloud et embarqué :
| Comportement | OCR cloud | Embarqué (Cove) |
|---|---|---|
| Première tentative | Aller-retour de 2 à 5 secondes puis « impossible de lire ceci » | Sous la seconde, renvoie une meilleure approximation et un drapeau « confiance basse » |
| Deuxième tentative (vous re-cadrez) | Encore 2 à 5 secondes d’aller-retour | Encore en sous-seconde |
| Comportement de l’utilisateur en faible lumière | Tendance à attendre, finir par abandonner | Tendance à continuer d’ajuster l’angle jusqu’à ce que le modèle signale la confiance |
La boucle « attendre puis échouer » de la version cloud est le pire schéma en faible lumière, parce qu’elle punit l’utilisateur pour le bruit de la caméra. Le « réponds vite, même incertain » de l’embarqué est la meilleure UX, parce qu’il vous laisse boucler les angles en secondes, pas en minutes.
Condition 2 : Objectif sali ou marqué d’empreintes
Les caméras de téléphone attrapent des saletés en permanence — votre visage frôle l’objectif, votre doigt y touche en saisissant le téléphone. Les caméras de voyage ont tendance à être particulièrement sales parce que vous tenez le téléphone des heures dans la sueur.
Un objectif sale transforme l’OCR en problème probabiliste. Le texte est là mais flou. La réponse de l’OCR cloud est généralement l’une des deux :
- « Aucun texte reconnu » (faux négatif)
- Une lecture confiamment fausse d’une tache comme un caractère chinois qu’elle rappelle vaguement (faux positif)
Le comportement embarqué de Cove est plus utile : il drapeau le résultat « confiance basse » et propose une nouvelle tentative. Les données d’entraînement du modèle incluent beaucoup d’entrée caméra mobile imparfaite, donc il a appris à dire « je vois quelque chose de flou qui pourrait être X, mais vérifiez ».
Condition 3 : Zones blanches réseau (métro, sous-sol, tunnels)
Voilà ce qui décide de tout. Il y a de vrais endroits où votre téléphone n’a aucun signal :
- Tunnels du métro de Tokyo (surtout les lignes Marunouchi et Hibiya)
- Stations profondes de la ligne 2 du métro de Séoul
- Sections souterraines du BTS / MRT de Bangkok
- Sous-sol de toute grande gare européenne entre les quais
- À l’intérieur des files de sécurité de la plupart des aéroports internationaux
Dans ces zones, l’OCR cloud renvoie des erreurs réseau. Le repli est « on réessaie quand tu seras à nouveau en ligne » — inutile pour le moment réel où vous essayez de lire un panneau avant l’arrivée du prochain train.
Cove Travel et Cove Photo font tous deux tourner Google Gemma 4 E2B sur le NPU de votre téléphone. La présence ou l’absence d’une antenne cellulaire est sans rapport avec le fait que la caméra fonctionne. C’est la plus banale des quatre conditions à raconter, et la plus importante en pratique.
Condition 4 : Distance et angle
Vous voyez une plaque de temple 4 mètres au-dessus de votre tête. Vous voyez un panneau de destination de bus à 30 mètres dans la rue. Vous voyez un tableau de menu sur le mur du fond d’un restaurant de 6 mètres de profondeur.
L’OCR cloud et l’OCR embarqué luttent tous les deux ici, mais différemment :
- OCR cloud : tend à essayer puis à échouer avec confiance. Il renvoie quelque chose même quand la source est trop petite pour être lue avec précision.
- OCR embarqué (Cove) : renvoie un drapeau de confiance. Quand le texte source est sous un certain seuil de pixels, il vous dit de vous rapprocher plutôt que de deviner.
La version honnête : aucun outil ne remplace le fait de marcher 5 mètres plus près du panneau. Mais la version embarquée est meilleure pour vous dire que vous devez vous rapprocher, ce qui est le comportement utile pour un touriste.
À quoi ressemble l’« honnêteté » en pratique
Quand les conditions caméra sont mauvaises, la question n’est pas « quel outil est plus précis » — les deux sont également limités par ce que la caméra capte physiquement. La question est « quel mode d’échec est plus utile ».
Le mode d’échec de Cove en conditions dégradées :
- Renvoie un résultat rapidement même incertain.
- Drapeau le niveau de confiance pour que vous sachiez quoi croire.
- Propose une nouvelle tentative plutôt que de claquer la porte sur l’utilisateur.
- Fonctionne tout court dans les tunnels du métro, indépendamment de la confiance OCR.
Le mode d’échec de l’OCR cloud :
- Long aller-retour même quand la réponse est irrécupérable.
- Renvoie parfois des résultats confiamment faux (tache → kanji).
- Renvoie des erreurs réseau aux moments qui exigent les réponses les plus rapides.
- Repousse le coût de l’échec sur l’utilisateur (réessayer sur un meilleur Wi-Fi).
Si vous pondérez l’utilité du mode d’échec autant que la précision nominale, le choix embarqué gagne en conditions dégradées précisément parce que ce sont les conditions où le réseau ajoute du temps, pas de la valeur.
Ce que cela implique pour les applications que vous saisissez
Pour Cove Travel — un outil de traduction que vous utilisez surtout en extérieur, en transit, en déplacement — les conditions dégradées sont la condition médiane, pas le cas limite. L’approche embarquée est juste parce que les 90 % hostiles au réseau du cas d’usage sont, par définition, les 90 % hostiles au réseau du cas d’usage.
Pour Cove Photo — application visuelle plus large — le mélange est différent. Les conditions Photo en intérieur bien éclairé sont courantes (vous demandez ce qu’est une plante de votre appartement, le contenu du frigo, un problème de devoirs à la table de cuisine). Pour celles-ci, l’OCR réseau fonctionne bien. Le choix embarqué gagne encore sur la confidentialité (la photo est la preuve littérale des devoirs de votre enfant ou du contenu de votre cuisine) mais l’avantage de latence est plus petit.
Une checklist de préparation caméra avant le voyage
Deux minutes :
- Essuyez l’objectif de votre téléphone avec un chiffon microfibre avant de quitter l’hôtel. Les saletés sont le problème de qualité d’entrée évitable le plus important.
- Testez la traduction caméra sur un panneau dans le hall de votre hôtel — confirmez qu’elle lit sous l’éclairage typiquement médiocre de l’hôtel.
- Activez le mode avion et re-testez le même panneau. Si la réponse change ou cesse de fonctionner, vous n’avez pas un vrai outil embarqué.
- Notez le comportement de votre téléphone en faible lumière : ISO élevée + obturateur plus lent = plus de flou de bougé. Calez vos coudes ou utilisez les deux mains.
C’est toute la préparation caméra. Le reste, c’est le vrai voyage.
Où lire plus loin
Les deux pièces que cet article référence le plus :
- Comment fonctionne réellement l’IA embarquée explique pourquoi la taille du modèle et l’accès au NPU comptent pour la latence caméra.
- Pourquoi l’IA embarquée bat le cloud pour le voyage est l’argumentaire plus large pour les 90 % hostiles au réseau.
Pour les scénarios caméra spécifiques au Japon (menus en kanji, panneaux de gare), le meilleur traducteur hors ligne pour le Japon en 2026 parcourt les mêmes conditions dans un contexte mono-pays.