← Blog

Cómo funciona la IA en el dispositivo (sin jerga, lo prometo)

¿Qué hace un modelo de 2 mil millones de parámetros en tu teléfono? Una explicación en español llano de cómo funciona la IA en el dispositivo — y qué cuesta.

Por qué existe este artículo

Si has descargado una app que promete “IA en tu teléfono, sin internet necesario”, es razonable que te preguntes cómo eso es físicamente posible. Tu teléfono tiene una batería, no un centro de datos. ¿No necesita ChatGPT un edificio entero de GPU para responder una pregunta?

La respuesta corta es: sí, los modelos originales son enormes — pero los que corren en tu teléfono son hermanos pequeños, y unos cuantos trucos de ingeniería los hacen lo bastante pequeños para caber. Abajo hay una explicación en español llano de cómo funciona realmente, escrita para alguien curioso por lo que pasa dentro de la traducción de Cove Travel pero que no quiere pasar la tarde en Wikipedia.

Qué es realmente un “modelo de IA”

Un modelo de lenguaje moderno es, al nivel aburrido de ingeniería, una cuadrícula gigante de números. Miles de millones de ellos. Cuando escribes “traduce hello al japonés”, el teléfono hace una cantidad enorme de multiplicación y suma con esos números, y por el otro lado sale la palabra “こんにちは”.

Esa cuadrícula de números es lo que se produjo cuando se entrenó el modelo — gente en Google le dio la mayor parte de internet legible, en muchos idiomas, y ajustó los números hasta que el modelo pudiera predecir qué palabra viene después en cualquier frase. Ese paso de entrenamiento es lo que se come centros de datos. Es un coste único.

Una vez entrenado, el modelo es solo la cuadrícula. Puedes copiarla. Puedes enviarla a un teléfono. El teléfono no necesita un centro de datos para usar la cuadrícula — solo necesita memoria suficiente para guardarla y rendimiento de cálculo suficiente para multiplicar una vez por palabra.

Por qué 2 mil millones de parámetros caben en tu bolsillo

Un modelo de “2 mil millones de parámetros” tiene 4 mil millones de esos números en la cuadrícula. Suena enorme — y lo es. Pero cada número es pequeño (1-2 bytes), y los teléfonos modernos tienen una cantidad sorprendente de RAM (8-12 GB en un Pixel 9 o iPhone reciente).

Las cuentas de servilleta:

ElementoTamaño
Modelo 4B en bruto, sin compresión16 GB
Cuantizado a 8 bits4-5 GB
Cuantizado a 4 bits2-3 GB
RAM de tu teléfono8-12 GB
Almacenamiento de tu teléfono128-512 GB

La cuantización es el truco. En lugar de guardar cada uno de los 4 mil millones de números a precisión completa, los redondeas a menos bits — como guardar una foto en JPEG en lugar de TIFF. El modelo comprimido es un poco peor que el sin comprimir pero ocupa una cuarta parte. Para Cove Travel, esa es la diferencia entre caber y no caber.

Qué hace realmente el teléfono cuando le preguntas algo

Cuando apuntas Cove Travel a un menú japonés, esta es la secuencia aproximada:

  1. La cámara captura un cuadro y lo envía al modelo como datos de imagen.
  2. El modelo convierte la imagen en una secuencia de “tokens” internos — su propia forma de representar trozos de significado.
  3. El modelo recorre la cuadrícula de números, prediciendo el siguiente token dado todo lo que ha visto. Lo hace cientos de veces seguidas, generando un token por paso.
  4. Los tokens se vuelven a convertir en texto y se muestran en pantalla.

Cada uno de esos pasos de “recorrer la cuadrícula” toma decenas de milisegundos en un teléfono reciente. Una traducción corta termina en menos de 500 ms. Una más larga toma un par de segundos.

Lo que hace esto suficientemente rápido para sentirse instantáneo es un chip especial — la NPU (Neural Processing Unit) — que casi todos los Android e iPhone insignia tienen desde alrededor de 2019. La NPU está construida específicamente para el tipo de matemáticas que hacen los modelos de lenguaje. Correr el mismo modelo en la CPU normal sería 5-10× más lento y agotaría la batería mucho más rápido.

Cuáles son realmente las contrapartidas

Esta es la parte que la mayoría de las páginas de marketing omiten. Los modelos en el dispositivo más pequeños son honestamente peores que sus equivalentes en la nube en tres formas:

  • Menos conocimiento de hechos oscuros. Un modelo 4B ha leído menos que uno de escala-nube de 200B+. A veces se equivoca con topónimos raros, términos técnicos de nicho o referencias históricas oscuras. Para viajes, rara vez importa; para investigación legal, sí.
  • “Ventana de contexto” más corta. El modelo puede recordar menos de la conversación a la vez. Los modelos en la nube pueden guardar 100 000+ tokens; uno amigable para teléfono guarda unos 8 000. Para una app de traducción es suficiente; para “resúmeme todo el libro” no lo es.
  • “Rango creativo” más pequeño. Cuando le pides a un modelo en la nube que haga lluvia de ideas, el mayor recuento de parámetros ayuda a generar más variedad. Un modelo más pequeño es más conservador.

El intercambio que haces es: cedes unos puntos porcentuales de precisión en la cola larga de entradas raras, y a cambio obtienes latencia bajo 500 ms, cero dependencia de red y cero datos saliendo de tu teléfono. Para un traductor de viaje en el metro de Tokio, ese es el intercambio correcto. Para redactar un contrato legal, no lo es.

Por qué “en el dispositivo” importa para la privacidad

La IA en la nube funciona enviando tu entrada a la nube, ejecutando el modelo en un servidor y enviando la respuesta de vuelta. El servidor registra tu entrada. Incluso empresas con políticas de privacidad estrictas conservan suficiente metadato para reconstruir patrones. El límite de privacidad es “te prometemos que no miraremos”.

La IA en el dispositivo funciona ejecutando el modelo en tu teléfono. Tu entrada nunca sale del dispositivo. No hay nada que un servidor pueda registrar porque no hay servidor en el bucle. El límite de privacidad es el límite del dispositivo — el único que realmente se sostiene.

Por eso “IA privada en la nube” es una contradicción. Mientras tus datos tengan que atravesar la red y ser procesados por hardware de otra persona, el requisito de confianza es “confiar en ellos”. El dispositivo elimina eso.

Cómo se ve esto en Cove

Cove Travel lleva Google Gemma 4 E2B — un modelo específico de 2 mil millones de parámetros de Google diseñado para despliegue en dispositivo. La primera vez que abres la app, descarga el modelo una vez (unos 2,5 GB). Después:

  • Cada traducción corre en la NPU de tu teléfono.
  • Cada foto a la que apuntas la cámara se analiza localmente — nunca se sube.
  • Cada conversación en el modo voz bidireccional se queda en el dispositivo.
  • Desinstalar la app borra el modelo entero.

La misma arquitectura se extiende por la familia Cove — las próximas apps Voice, Photo y Health comparten el mismo enfoque en el dispositivo. El modelo es una sola descarga; las apps son distintas formas de usarlo.

Para leer más

Las dos piezas que este artículo referencia:

Si quieres profundidad de ingeniería, la ficha oficial del modelo Gemma tiene los recuentos de parámetros, detalles de datos de entrenamiento y puntuaciones de benchmark. El artículo de arriba es la versión para alguien que quiere usar la tecnología, no construirla.