리뷰 영상에는 절대 안 나오는 그림
카메라 번역 리뷰 영상을 아마 30 편 이상은 봤을 것이다. 거의 다 같은 그림 이다 — 메뉴를 평평하게 펼쳐놓고, 정면에서, 주방의 흰 조명을 받으며, 리뷰어 가 휴대폰을 안정적으로 들고 있고, 1 초도 안 돼서 인식이 끝난다.
하지만 그건 현실이 아니다.
현실은, 밤 9 시 방콕 야시장의 어느 가판대 앞에 쪼그려 앉아 휴대폰을 들고 있는 상황이다 — 네온 조명의 반사광, 기름 연기, 사람들이 비좁은 통로를 지나가며 어깨를 부딪치는 환경. 또는 새벽 6 시 베를린 중앙역, 곧 출발할 열차 앞 플랫폼에서 터널 입구의 표지판에 렌즈를 들이대는 상황 — 빛이 부족 하고, 신호가 출렁이고, 손이 떨리고, 시간에 쫓긴다. 이런 조건에서 카메라 번역의 행동은 리뷰 영상과 완전히 다른 물건 이다.
이 글은 그 간극을 메우려는 시도다. 방법은 단순하다. 온디바이스 카메라 번역(Cove Travel 과 Cove Photo)과 클라우드 OCR(Google Lens, ChatGPT Vision)을, 4 가지 현실적인 “이상과 거리가 먼” 조건 에서 나란히 놓고 비교한다. 벤치마크 숫자는 내놓지 않는다 — 당신이 직접 눈으로 확인할 수 있는 차이만 적는다.
조건 1: 어두운 식당 조명
전형적인 이자카야, 라멘 카운터, 와인 바는 테이블 위치에서 30–80 럭스 — 한낮 옥외의 약 1%. 카메라 ISO는 800–3200 범위로 올라가야 하며, 즉 OCR이 보는 이미지에 노이즈가 많이 실립니다.
클라우드와 온디바이스에서 무엇이 바뀌는가:
| 동작 | 클라우드 OCR | 온디바이스(Cove) |
|---|---|---|
| 첫 시도 | 2–5 초 왕복 후 「읽을 수 없음」 | 1 초 미만에 최선 추측 + 낮은 신뢰도 플래그 |
| 두 번째 시도(재조준) | 또 2–5 초 왕복 | 또 1 초 미만 |
| 어두운 곳에서 사용자 동작 | 기다리다 결국 포기 경향 | 모델이 신뢰도를 표시할 때까지 각도 조정 경향 |
클라우드 버전의 「기다리다 실패」 루프는 어두운 곳에서 최악의 패턴 — 카메라의 노이즈에 대해 사용자를 처벌합니다. 온디바이스의 「불확실해도 빠르게 답」은 좋은 UX — 각도를 분 단위가 아닌 초 단위로 루프할 수 있습니다.
조건 2: 지문이나 얼룩이 묻은 렌즈
스마트폰 카메라는 끊임없이 얼룩을 잡습니다 — 얼굴이 렌즈에 닿고, 스마트 폰을 잡을 때 손가락이 닿습니다. 여행 중 카메라는 특히 얼룩집니다 — 손에 땀이 나는 상태에서 몇 시간이고 스마트폰을 들고 있기 때문입니다.
얼룩진 렌즈는 OCR을 확률 문제로 바꿉니다. 텍스트는 있지만 흐릿합니다. 클라우드 OCR의 응답은 보통 둘 중 하나:
- 「텍스트를 인식할 수 없음」 (False Negative)
- 얼룩을 비슷한 중국 문자로 자신 있게 오인 (False Positive)
Cove의 온디바이스 동작은 더 유용합니다: 결과에 「낮은 신뢰도」 플래그를 붙이고 재촬영을 제안합니다. 모델의 학습 데이터에는 많은 불완전한 모바일 카메라 입력이 포함되어 있어, 「흐릿한 무언가가 보이고 X일 수도 있지만 확인해 주세요」 라고 말하는 것을 배웠습니다.
조건 3: 네트워크 권외(지하철, 지하, 터널)
이것이 모든 것을 결정하는 조건. 스마트폰 전파가 완전히 0이 되는 실재 하는 장소가 있습니다:
- 도쿄 메트로 터널(특히 마루노우치선과 히비야선)
- 서울 지하철 2 호선의 깊은 역
- 방콕 BTS / MRT 지하 구간
- 유럽 주요 철도역 플랫폼 간의 지하
- 대부분 국제공항의 보안 라인 안
이러한 구역에서 클라우드 OCR은 네트워크 오류를 반환합니다. 폴백은 「온라인으로 돌아오면 재시도」 — 다음 열차가 오기 전에 표지판을 읽으려는 실제 순간에는 무용지물입니다.
Cove Travel 과 Cove Photo 는 양쪽 모두 Google Gemma 4 E2B 를 스마트 폰의 NPU에서 돌립니다. 기지국의 유무는 카메라가 동작하는지와 무관합니다. 4 가지 조건 중 글로 쓰기에 가장 지루하고 실용상 가장 중요합니다.
조건 4: 거리와 각도
머리 위 4 미터의 사찰 현판. 30 미터 떨어진 버스 행선지 표지. 6 미터 깊이의 식당 뒷벽 메뉴 보드.
클라우드 OCR과 온디바이스 OCR은 둘 다 여기서 고전하지만 다른 방식으로:
- 클라우드 OCR: 자신 있게 시도하고 실패하는 경향. 원문이 너무 작아 정확히 읽을 수 없을 때도 무언가 를 반환.
- 온디바이스 OCR(Cove): 신뢰도 플래그를 반환. 원문 텍스트가 픽셀 임계값 이하가 되면, 추측이 아닌 「더 가까이 가세요」 라고 알립니다.
정직 버전: 어떤 도구도 표지판에 5 미터 가까이 다가가는 것을 대체할 수 없습니다. 하지만 온디바이스 버전이 「더 가까이 가야 한다고 알려주는」 것을 더 잘하며, 그것이 관광객에게 유용한 동작입니다.
「정직」이 실제로 어떻게 보이는가
카메라 조건이 나쁠 때, 질문은 「어느 도구가 더 정확한가」가 아니라 — 둘 다 카메라가 물리적으로 포착하는 것에 동등하게 제한됩니다 — 「어느 도구의 실패 모드가 더 유용한가」입니다.
열화 조건에서의 Cove의 실패 모드:
- 불확실해도 빠르게 결과를 반환.
- 신뢰도 레벨에 플래그를 붙여 신뢰할지 알 수 있게 함.
- 사용자에 대해 격노 종료하는 게 아니라 재시도를 제안.
- OCR 신뢰도와 무관하게 지하철 터널에서 동작.
클라우드 OCR의 실패 모드:
- 답이 회복 불가능할 때도 긴 왕복.
- 때때로 자신 있게 잘못된 결과를 반환(얼룩 → 한자).
- 빠른 답이 가장 요구되는 순간에 네트워크 오류를 반환.
- 실패 비용을 사용자에게 떠넘김(더 좋은 Wi-Fi에서 재시도).
실패 모드의 유용성을 명목 정확도만큼 중시한다면, 온디바이스 선택은 열화 조건에서 이깁니다 — 그것들이 바로 네트워크가 시간만 추가하고 가치를 추가하지 않는 조건이기 때문입니다.
당신이 손을 뻗는 앱에 대해 무엇을 의미하는가
Cove Travel — 주로 옥외, 이동 중, 외출 시에 사용 하는 번역 도구 — 에게 열화 조건은 중간 조건이지 엣지 케이스가 아닙니다. 온디바이스 접근법이 옳은 이유는, 유스케이스의 네트워크 적대적 90%가 정의상 유스케이스의 네트워크 적대적 90%이기 때문입니다.
Cove Photo — 더 넓은 시각 질문 앱 — 은 믹스가 다릅니다. 실내의 잘 밝은 Photo 조건은 일반적(아파트의 식물이 무엇인지, 냉장고 내용물, 부엌 식탁의 숙제). 그것들에는 네트워크 OCR이 잘 동작합니다. 온디바이스 선택은 지금도 프라이버시에서 이깁니다(사진은 당신의 자녀 숙제나 부엌 내용물의 글자 그대로의 증거)지만, 지연 이점은 작아집니다.
여행 전 카메라 준비 체크리스트
2 분:
- 호텔을 나가기 전에 마이크로파이버 천으로 스마트폰 렌즈를 닦음. 얼룩은 가장 예방 가능한 입력 품질 문제의 단일 최대 요인.
- 호텔 로비의 한 표지판에서 카메라 번역 테스트 — 호텔의 전형적 보통 조명 아래에서 읽히는지 확인.
- 비행기 모드로 전환하고 같은 표지판을 재테스트. 답이 바뀌거나 동작 하지 않으면 진짜 온디바이스 도구가 아닙니다.
- 어두운 곳에서 스마트폰의 동작 주의: ISO 상승 + 느린 셔터 = 모션 블러 증가. 팔꿈치를 고정하거나 양손으로 들기.
그것이 카메라 준비의 전부. 나머지는 실제 여행입니다.
더 읽으려면
이 글이 가장 참조하는 두 가지 글:
- 온디바이스 AI는 실제로 어떻게 동작하는가 는 모델 크기와 NPU 액세스가 카메라 지연에서 중요한 이유를 설명.
- 왜 온디바이스 AI는 여행에서 클라우드를 이기는가 는 네트워크 적대적 90%의 넓은 논증.
일본 특유의 카메라 시나리오(한자 메뉴, 역 표지판)이라면, 2026 년판: 일본 여행에 최적인 오프라인 번역 앱 이 단일 국가 컨텍스트에서 같은 조건을 다룹니다.