← 블로그

온디바이스 AI는 실제로 어떻게 동작하는가 (전문 용어 없음, 약속)

20 억 파라미터 모델이 당신의 스마트폰에서 무엇을 하고 있는가? 온디바이스 AI의 동작 원리를 위키피디아에 오후를 쓰지 않아도 되는 평이한 한국어로, 비용과 트레이드오프까지 정직하게 설명합니다.

이게 물리적으로 가능한 일인가?

지인에게 “이 앱, 비행기 모드에서도 번역돼요” 라고 휴대폰을 보여주면, 거의 매번 같은 반응이 돌아온다.

“몰래 인터넷 연결돼 있는 거 아니야?”

이 의심은 합리적이다. ChatGPT 는 누구나 한 번쯤 써봤고, 그 뒤에 빌딩 몇 채 분량의 GPU 가 줄지어 있다는 이야기도 어렴풋이 들어봤기 때문이다. 한 손에 들리는 휴대폰, 배터리 한 개 분량의 전력으로, 정말로 “이 메뉴를 한국어로 번역해 줘” 라는 수준의 모델을 굴릴 수 있는 건가?

답은 두 갈래로 나눠 설명하면 깔끔하다:

  • 원본 모델은 진짜로 괴물 사이즈 다. 데이터센터급 GPU 가 필요하다는 말도 과장이 아니다
  • 다만 휴대폰에 들어가는 건 그 모델의 동생 이다 — 몇 가지 엔지니어링 트릭을 더해, 딱 들어맞는 크기로 깎아낸 버전

이 글은 위키피디아 베끼기를 노리지 않는다. Cove Travel 이 당신 휴대폰 안에서 무슨 일을 하는지는 궁금한데, 논문으로 오후를 통째로 태우고 싶지는 않은 사람들을 대상으로, “왜 들어가는가” 와 “들어간 다음 어떻게 돌아가는가” 두 가지를 가능한 한 평이한 말로 풀어낸다.

우선 「AI 모델」이라는 게 뭔지부터

현대 언어 모델은, 지루한 엔지니어링 관점에서 보면 거대한 숫자 그리드 입니다. 수십억 개의. 「hello를 한국어로 번역」 이라고 입력하면, 스마트폰은 그 숫자들과의 막대한 곱셈과 덧셈을 수행하고, 반대편 끝에서 「안녕하세요」 라는 단어가 나옵니다.

그 숫자 그리드는 모델이 학습되었을 때 생성된 것입니다. Google의 사람들이 읽기 가능한 인터넷의 대부분을 다국어로 먹였고, 어떤 문장이든 다음에 올 단어를 예측할 수 있도록 숫자를 조정했습니다. 그 학습 단계가 데이터센터를 먹는 부분입니다. 그것은 1 회성 비용입니다.

학습이 끝나면 모델은 단순한 그리드. 복사할 수 있습니다. 스마트폰으로 출시할 수 있습니다. 스마트폰은 그리드를 사용하는 데 데이터센터가 필요하지 않습니다 — 보유할 충분한 메모리와 단어당 1 번 곱셈을 통과시킬 충분한 연산 처리량만 있으면 됩니다.

왜 20 억 파라미터가 주머니에 들어가는가

「20 억 파라미터」 모델은 그리드에 그 숫자가 40 억 개 있습니다. 거대하게 들리고 실제로 거대 — 하지만 각 숫자는 작고(1–2 바이트), 현대 스마트폰 에는 놀라울 정도의 RAM이 있습니다 (Pixel 9 또는 최근 iPhone에 8–12 GB).

냅킨 계산:

항목크기
압축 없는 원본 4B 모델16 GB
8-bit 양자화4–5 GB
4-bit 양자화2–3 GB
당신의 스마트폰 RAM8–12 GB
당신의 스마트폰 스토리지128–512 GB

양자화 가 트릭입니다. 40 억 개 숫자를 풀 정밀도로 저장하는 대신 더 적은 비트로 반올림합니다 — 사진을 TIFF가 아닌 JPEG로 저장하는 것과 비슷합니다. 압축된 모델은 비압축본보다 수 % 나쁘지만 크기는 1/4가 됩니다. Cove Travel에게 이것이 스마트폰에 들어가는지 아닌지의 분기점입니다.

당신이 질문할 때 스마트폰이 실제로 하는 것

Cove Travel을 일본어 메뉴에 향했을 때, 대략적인 순서:

  1. 카메라가 프레임을 캡처하고 이미지 데이터로 모델에 전송.
  2. 모델이 이미지를 내부 「토큰」 시퀀스로 변환 — 의미의 청크를 표현하는 모델 고유의 방식.
  3. 모델이 숫자 그리드를 걸으며, 지금까지 본 모든 것을 바탕으로 다음 토큰을 예측. 이를 연속해서 수백 번 수행, 스텝당 1 토큰 생성.
  4. 토큰이 텍스트로 변환되어 화면에 표시.

이 「그리드를 걷는」 스텝 각각은 최근 스마트폰에서 수십 밀리초가 걸립니다. 짧은 번역은 500 ms 미만에 끝납니다. 긴 것은 몇 초.

이를 즉각으로 느낄 수 있는 속도로 만드는 것은 특별한 칩 — NPU(Neural Processing Unit) — 이며, 거의 모든 2019 년 이후의 플래그십 Android나 iPhone에 탑재되어 있습니다. NPU는 언어 모델이 수행하는 종류의 연산용 으로 전용 설계되어 있습니다. 같은 모델을 일반 CPU에서 돌리면 5–10× 느리고 배터리도 훨씬 빨리 소모합니다.

트레이드오프는 실제로 무엇인가

여기가 대부분의 마케팅 페이지가 생략하는 부분. 더 작은 온디바이스 모델은 클라우드 형제와 비교해 3 가지 정직한 의미에서 실제로 떨어집니다:

  • 마이너 사실에 대한 지식이 적음. 4B 모델은 클라우드 규모 200B+ 모델보다 읽은 양이 적습니다. 희귀 지명, 틈새 기술 용어, 마이너한 역사적 언급을 때때로 틀립니다. 여행에서는 거의 문제가 안 되지만, 법적 조사에서는 문제가 됩니다.
  • 「문맥 창」이 짧음. 모델이 한 번에 기억할 수 있는 대화의 양이 적음. 클라우드 모델은 100,000+ 토큰의 문맥을 보유할 수 있음; 스마트폰 친화 모델은 보통 8,000 정도. 번역 앱에는 충분; 「내 책 전체를 요약해 줘」에는 불충분.
  • 「창의적 범위」가 좁음. 클라우드 모델에 브레인스토밍을 부탁하면 더 큰 파라미터 수가 더 다양한 표현 생성을 돕습니다. 작은 모델은 더 보수적.

당신이 하는 트레이드는: 이상한 입력의 롱테일에서 수 %의 정확도를 포기하고, 그 대신 500 ms 미만의 지연, 네트워크 의존 제로, 데이터가 스마트폰을 떠나는 일 제로를 얻습니다. 도쿄 지하철에서 동작하는 여행 번역기에는 그것이 올바른 트레이드. 법적 계약서 초안에는 아닙니다.

「온디바이스」가 프라이버시에서 중요한 이유

클라우드 AI는 당신의 입력을 클라우드로 보내고, 서버에서 모델을 돌리고, 답을 돌려보내는 식으로 동작합니다. 서버는 당신의 입력을 로깅합니다. 엄격한 개인정보 정책을 가진 회사도 패턴을 재구성하기에 충분한 메타데이터를 보유합니다. 프라이버시 경계는 「보지 않겠다고 약속합니다」 입니다.

온디바이스 AI는 모델을 당신의 스마트폰에서 돌립니다. 당신의 입력은 기기를 떠나지 않습니다. 루프에 서버가 없으니 서버가 로깅할 것이 없습니다. 프라이버시 경계는 기기 경계 — 실제로 지켜지는 유일한 경계 — 입니다.

이것이 「프라이빗 클라우드 AI」가 모순인 이유이기도 합니다. 당신의 데이터가 네트워크를 통과하고 다른 사람의 하드웨어에서 처리되어야 하는 한, 신뢰 요건은 「그들을 믿어라」 입니다. 온디바이스는 그것을 제거합니다.

Cove에서는 어떻게 보이는가

Cove Travel은 Google Gemma 4 E2B — 온디바이스 배포용으로 설계된 Google의 특정한 20 억 파라미터 모델 — 을 함께 제공합니다. 앱을 처음 열 때 모델이 한 번 다운로드됩니다 (약 2.5 GB). 그 이후:

  • 모든 번역은 당신의 스마트폰의 NPU에서 동작.
  • 카메라를 향한 모든 사진이 로컬에서 분석됩니다 — 절대 업로드되지 않음.
  • 양방향 음성 모드의 모든 대화가 기기 안에 머뭅니다.
  • 앱을 제거하면 모델 전체가 삭제됩니다.

같은 아키텍처가 Cove 패밀리 전체로 확장됩니다 — 곧 공개될 Voice / Photo / Health 앱 모두가 같은 온디바이스 접근법을 공유. 모델은 1 회 다운로드; 앱은 그것을 사용하는 다른 방식들입니다.

더 읽으려면

이 글이 참조하는 두 가지 글:

엔지니어링의 깊이를 원한다면, 공식 Gemma 모델 카드 에 파라미터 수, 학습 데이터 세부 사항, 벤치마크 점수가 있습니다. 위 글은 기술을 사용하는 사람을 위한 버전이며, 구축하는 사람을 위한 것이 아닙니다.