As condições que a tradução por câmera de fato encontra
Reviews de tradução por câmera costumam ser gravadas em condições de estúdio. Um cardápio plano, de frente, numa cozinha bem iluminada. Essa não é a condição que você encontra às 21h num mercado noturno de Bangkok ou às 6h no fundo de um túnel da Hauptbahnhof de Berlim.
Esta peça compara como a tradução por câmera no dispositivo (Cove Travel e Cove Photo) se comporta vs OCR em nuvem (Google Lens, ChatGPT Vision) em quatro condições reais “não ideais”. Sem números de benchmark — só os comportamentos que você mesmo pode observar.
Condição 1: Iluminação fraca de restaurante
Um izakaya típico, uma barra de ramen ou um wine bar funcionam a 30-80 lux na mesa — cerca de 1% do exterior ao meio-dia. O ISO da câmera precisa subir para a faixa 800-3200, o que significa ruído pesado na imagem que o OCR vê.
O que muda entre nuvem e no dispositivo:
| Comportamento | OCR em nuvem | No dispositivo (Cove) |
|---|---|---|
| Primeira tentativa | Ida e volta de 2-5 segundos e depois “não conseguimos ler isso” | Menos de 1 segundo, devolve melhor palpite + sinalização de baixa confiança |
| Segunda tentativa (você reposiciona) | Outra ida e volta de 2-5 segundos | Outro abaixo de um segundo |
| Comportamento do usuário em pouca luz | Tendência a esperar e eventualmente desistir | Tendência a continuar ajustando ângulo até o modelo sinalizar confiança |
O laço “esperar e falhar” da versão em nuvem é o pior padrão em pouca luz porque pune o usuário pelo ruído da câmera. O “responde rápido mesmo se incerto” no dispositivo é a UX melhor porque te deixa percorrer ângulos em segundos, não minutos.
Condição 2: Lente manchada ou com digital
Câmeras de celular pegam mancha o tempo todo — seu rosto encosta na lente, seu dedo toca quando você pega o celular. Câmeras de viagem costumam estar especialmente manchadas porque você segura o aparelho por horas em condição de suor de mão.
Uma lente manchada transforma o OCR num problema probabilístico. O texto está ali, mas borrado. A resposta do OCR em nuvem geralmente é uma de:
- “Não conseguimos reconhecer texto” (falso negativo)
- Uma leitura confiante e errada de uma mancha como um caractere chinês que vagamente se parece (falso positivo)
O comportamento no dispositivo do Cove é mais útil: sinaliza o resultado com “baixa confiança” e sugere refazer. Os dados de treino do modelo incluem muita entrada de câmera móvel imperfeita, então ele aprendeu a dizer “vejo algo borrado que pode ser X, mas confira”.
Condição 3: Zonas mortas de rede (metrô, subsolo, túnel)
Esta é a que decide tudo. Há lugares reais onde o seu celular tem zero sinal:
- Túneis do metrô de Tóquio (especialmente as linhas Marunouchi e Hibiya)
- Estações profundas da linha 2 do metrô de Seul
- Trechos subterrâneos do BTS / MRT de Bangkok
- O subsolo de qualquer estação de trem europeia importante entre plataformas
- Dentro da fila de segurança da maioria dos aeroportos internacionais
Nessas zonas, o OCR em nuvem devolve erros de rede. O fallback é “vamos tentar de novo quando você estiver online” — inútil para o momento real em que você está tentando ler uma placa antes do próximo trem chegar.
Cove Travel e Cove Photo rodam ambos Google Gemma 4 E2B na NPU do seu celular. Presença ou ausência de torre de celular é irrelevante para se a câmera funciona. Esta é a mais chata das quatro condições para escrever sobre e a mais importante na prática.
Condição 4: Distância e ângulo
Você vê uma placa de templo a 4 metros acima da sua cabeça. Você vê um destino de ônibus a 30 metros rua abaixo. Você vê um quadro de cardápio na parede de fundo de um restaurante de 6 metros de profundidade.
OCR em nuvem e OCR no dispositivo têm dificuldade aqui, mas de formas diferentes:
- OCR em nuvem: tende a tentar e falhar com confiança. Devolve alguma coisa mesmo quando a fonte é pequena demais para ler com precisão.
- OCR no dispositivo (Cove): devolve sinalização de confiança. Quando o texto-fonte está abaixo de certo limiar de pixel, ele te diz para chegar mais perto em vez de adivinhar.
A versão honesta: nenhuma ferramenta substitui andar 5 metros mais perto da placa. Mas a versão no dispositivo é melhor em te dizer que você precisa chegar mais perto, que é o comportamento útil para um turista.
O que parece “honesto” na prática
Quando as condições da câmera são ruins, a pergunta não é “qual ferramenta é mais precisa” — as duas estão igualmente limitadas pelo que a câmera fisicamente captura. A pergunta é “qual modo de falha de qual ferramenta é mais útil”.
O modo de falha do Cove em condições degradadas:
- Devolve resultado rápido mesmo quando incerto.
- Sinaliza o nível de confiança para você saber se confia.
- Sugere refazer em vez de abandonar o usuário com raiva.
- Funciona, ponto, em túneis de metrô, independentemente da confiança do OCR.
O modo de falha do OCR em nuvem:
- Ida e volta longa mesmo quando a resposta é irrecuperável.
- Às vezes devolve resultados confiantes e errados (mancha → kanji).
- Devolve erros de rede nos momentos que mais exigem respostas rápidas.
- Empurra o custo da falha de volta para o usuário (refaça em Wi-Fi melhor).
Se você pesa a utilidade do modo de falha tanto quanto a precisão nominal, a opção no dispositivo vence em condições degradadas justamente porque essas são as condições em que a rede acrescenta tempo, não valor.
O que isso significa para os apps que você acessa
Para o Cove Travel — uma ferramenta de tradução que você usa principalmente ao ar livre, em trânsito, em movimento — condições degradadas são a condição mediana, não o caso limite. A abordagem no dispositivo é certa porque os 90% hostis à rede do caso de uso são os 90% hostis à rede do caso de uso, por definição.
Para o Cove Photo — app mais amplo de pergunta visual — a mistura é diferente. Condições internas com boa iluminação no Photo são comuns (você está perguntando que planta é a do apartamento, o conteúdo da geladeira, um problema de lição de casa na mesa da cozinha). Para esses, o OCR em rede funciona bem. A escolha no dispositivo ainda vence em privacidade (a foto é evidência literal do dever de casa do seu filho ou do conteúdo da sua cozinha), mas a vantagem de latência é menor.
Uma checklist pré-viagem de prontidão da câmera
Dois minutos:
- Limpe a lente do celular com um pano de microfibra antes de sair do hotel. Manchas são o problema de qualidade de entrada prevenível mais grande.
- Teste a tradução por câmera numa placa do lobby do hotel — confirme que ela lê na iluminação medíocre típica do hotel.
- Ative o modo avião e refaça o teste na mesma placa. Se a resposta muda ou para de funcionar, você não tem uma ferramenta no dispositivo de verdade.
- Note o comportamento do seu celular em pouca luz: ISO maior + obturador mais lento = mais blur de movimento. Apoie os cotovelos ou use as duas mãos.
Essa é toda a preparação de câmera. O resto é a viagem em si.
Para ler depois
As duas peças que este artigo mais referencia:
- Como funciona a IA no dispositivo explica por que tamanho do modelo e acesso a NPU importam para a latência da câmera.
- Por que IA no dispositivo vence a nuvem em viagens é o argumento mais amplo para os 90% hostis à rede.
Para cenários de câmera específicos do Japão (cardápios em kanji, placas de estação), melhor tradutor offline para uma viagem ao Japão em 2026 percorre as mesmas condições no contexto de um único país.