← Blog

Como funciona a IA no dispositivo (sem jargão, prometo)

O que faz um modelo de 2 bilhões de parâmetros no seu celular? Uma explicação em português claro de como funciona IA no dispositivo — e qual o custo.

Por que este artigo existe

Se você baixou um app que promete “IA no seu celular, sem internet necessária”, é razoável se perguntar como isso é fisicamente possível. Seu celular tem bateria, não data center. O ChatGPT não precisa de um prédio inteiro de GPU para responder uma pergunta?

A resposta curta é: sim, os modelos originais são enormes — mas os que rodam no seu celular são primos pequenos, e alguns truques de engenharia os deixam pequenos o suficiente para caber. Abaixo vai uma explicação em português claro de como funciona de fato, escrita para quem está curioso pelo que acontece dentro da tradução do Cove Travel mas não quer passar a tarde na Wikipédia.

O que é, na prática, um “modelo de IA”

Um modelo de linguagem moderno é, no nível chato de engenharia, uma grade gigante de números. Bilhões deles. Quando você digita “traduza hello para japonês”, o celular faz uma quantidade enorme de multiplicação e soma com esses números, e do outro lado sai a palavra “こんにちは”.

Essa grade de números é o que foi produzido quando o modelo foi treinado — gente no Google deu para ele a maior parte da internet legível, em vários idiomas, e ajustou os números até que o modelo conseguisse prever qual palavra vem depois em qualquer frase. Esse passo de treino é o que come data center. É um custo único.

Uma vez treinado, o modelo é só a grade. Dá para copiar. Dá para mandar para um celular. O celular não precisa de data center para usar a grade — só precisa de memória suficiente para guardá-la e desempenho de cálculo suficiente para multiplicar uma vez por palavra.

Por que 2 bilhões de parâmetros cabem no seu bolso

Um modelo de “2 bilhões de parâmetros” tem 4 bilhões desses números na grade. Parece enorme — e é. Mas cada número é pequeno (1-2 bytes), e celulares modernos têm uma quantidade surpreendente de RAM (8-12 GB num Pixel 9 ou iPhone recente).

As contas de guardanapo:

ItemTamanho
Modelo 4B bruto, sem compressão16 GB
Quantizado em 8 bits4-5 GB
Quantizado em 4 bits2-3 GB
RAM do seu celular8-12 GB
Armazenamento do seu celular128-512 GB

A quantização é o truque. Em vez de guardar cada um dos 4 bilhões de números em precisão completa, você arredonda para menos bits — como salvar uma foto em JPEG em vez de TIFF. O modelo comprimido fica um pouco pior do que o sem compressão, mas ocupa um quarto. Para o Cove Travel, é a diferença entre caber e não caber.

O que o celular de fato faz quando você pergunta algo

Quando você aponta o Cove Travel para um cardápio japonês, esta é a sequência aproximada:

  1. A câmera captura um quadro e envia ao modelo como dados de imagem.
  2. O modelo converte a imagem em uma sequência de “tokens” internos — a forma própria dele de representar pedaços de significado.
  3. O modelo percorre a grade de números, prevendo o próximo token dado tudo o que viu. Faz isso centenas de vezes seguidas, gerando um token por passo.
  4. Os tokens são convertidos de volta em texto e mostrados na tela.

Cada um desses passos de “percorrer a grade” leva dezenas de milissegundos num celular recente. Uma tradução curta termina em menos de 500 ms. Uma mais longa leva alguns segundos.

O que torna isso rápido o suficiente para parecer instantâneo é um chip especial — a NPU (Neural Processing Unit) — que quase todos os Android e iPhone topo de linha têm desde por volta de 2019. A NPU foi construída especificamente para o tipo de matemática que os modelos de linguagem fazem. Rodar o mesmo modelo na CPU comum seria 5-10× mais lento e gastaria bateria muito mais rápido.

Quais são, de fato, os trade-offs

Esta é a parte que a maioria das páginas de marketing pula. Os modelos no dispositivo, menores, são honestamente piores que os equivalentes em nuvem em três frentes:

  • Menos conhecimento de fatos obscuros. Um modelo 4B leu menos que um de escala-nuvem com 200B+. Às vezes erra topônimos raros, termos técnicos de nicho ou referências históricas obscuras. Para viagem, raramente importa; para pesquisa jurídica, importa.
  • “Janela de contexto” mais curta. O modelo consegue lembrar menos da conversa de uma vez. Modelos em nuvem podem manter 100.000+ tokens; um amigável para celular mantém uns 8.000. Para um app de tradução é suficiente; para “resuma o livro inteiro” não é.
  • “Faixa criativa” menor. Quando você pede a um modelo na nuvem que faça brainstorming, a contagem maior de parâmetros ajuda a gerar mais variedade. Um modelo menor é mais conservador.

O acordo que você faz é: abre mão de alguns pontos percentuais de precisão na cauda longa de entradas raras e em troca ganha latência abaixo de 500 ms, zero dependência de rede e zero dado saindo do seu celular. Para um tradutor de viagem no metrô de Tóquio, é o acordo certo. Para redigir um contrato jurídico, não é.

Por que “no dispositivo” importa para privacidade

A IA na nuvem funciona enviando sua entrada para a nuvem, executando o modelo num servidor e mandando a resposta de volta. O servidor registra a sua entrada. Mesmo empresas com políticas de privacidade estritas conservam metadado suficiente para reconstruir padrões. O limite de privacidade é “prometemos não olhar”.

A IA no dispositivo funciona executando o modelo no seu celular. Sua entrada nunca sai do dispositivo. Não há nada que um servidor possa registrar porque não há servidor no caminho. O limite de privacidade é o limite do dispositivo — o único que de fato se sustenta.

Por isso “IA privada na nuvem” é uma contradição. Enquanto os seus dados precisarem atravessar a rede e ser processados por hardware de outra pessoa, o requisito de confiança é “confiar neles”. O dispositivo elimina isso.

Como isso aparece no Cove

O Cove Travel embarca Google Gemma 4 E2B — um modelo específico de 2 bilhões de parâmetros do Google projetado para deploy no dispositivo. Na primeira vez que você abre o app, ele baixa o modelo uma vez (cerca de 2,5 GB). Depois:

  • Cada tradução roda na NPU do seu celular.
  • Cada foto para qual você aponta a câmera é analisada localmente — nunca enviada.
  • Cada conversa no modo voz nos dois sentidos fica no dispositivo.
  • Desinstalar o app apaga o modelo inteiro.

A mesma arquitetura se estende pela família Cove — os próximos apps Voice, Photo e Health compartilham a mesma abordagem no dispositivo. O modelo é um único download; os apps são formas diferentes de usá-lo.

Para ler depois

As duas peças que este artigo referencia:

Se você quer profundidade de engenharia, a ficha oficial do modelo Gemma tem contagens de parâmetros, detalhes de dados de treino e pontuações de benchmark. O artigo acima é a versão para quem quer usar a tecnologia, não construí-la.