← Blog

Comment fonctionne réellement l'IA embarquée (sans jargon, promis)

Que fait un modèle de 2 milliards de paramètres sur votre téléphone ? Explication en français simple — et ce que ça coûte.

Pourquoi cet article existe

Si vous avez téléchargé une application qui promet « de l’IA sur votre téléphone, sans Internet », il est raisonnable de vous demander comment c’est même physiquement possible. Votre téléphone a une batterie, pas un data center. ChatGPT n’a-t-il pas besoin d’un bâtiment plein de GPU pour répondre à une seule question ?

La réponse courte : oui, les modèles originaux sont énormes — mais ceux qui tournent sur votre téléphone sont des petits frères, et quelques astuces d’ingénierie les rendent assez petits pour tenir. Voici une explication en français simple, écrite pour quelqu’un qui est curieux de ce qui se passe à l’intérieur de la traduction Cove Travel mais ne veut pas y consacrer un après-midi sur Wikipedia.

Ce qu’est vraiment un « modèle d’IA »

Un modèle de langage moderne est, au niveau ingénierie ennuyeux, une gigantesque grille de nombres. Des milliards. Quand vous tapez « traduire bonjour en japonais », le téléphone fait une énorme quantité de multiplications et d’additions avec ces nombres, et de l’autre côté sort le mot « こんにちは ».

Cette grille de nombres est ce qui a été produit quand le modèle a été entraîné — des gens chez Google lui ont fait avaler la majeure partie d’Internet en plusieurs langues, et ont ajusté les nombres jusqu’à ce que le modèle puisse prédire quel mot vient ensuite dans n’importe quelle phrase. Cette étape d’entraînement est ce qui mange des data centers. C’est un coût unique.

Une fois entraîné, le modèle n’est qu’une grille. Vous pouvez la copier. Vous pouvez l’expédier sur un téléphone. Le téléphone n’a pas besoin d’un data center pour utiliser la grille — il a juste besoin d’assez de mémoire pour la tenir et d’assez de débit de calcul pour la multiplier une fois par mot.

Pourquoi 2 milliards de paramètres tient dans votre poche

Un modèle « 2 milliards de paramètres » a 4 milliards de ces nombres dans la grille. Cela paraît énorme, et ça l’est — mais chaque nombre est petit (1 à 2 octets), et les téléphones modernes ont une quantité de RAM surprenante (8 à 12 Go sur un Pixel 9 ou un iPhone récent).

Voici le calcul de coin de table :

ÉlémentTaille
Modèle 4B brut, sans compression16 Go
Quantifié 8 bits4 à 5 Go
Quantifié 4 bits2 à 3 Go
RAM de votre téléphone8 à 12 Go
Stockage de votre téléphone128 à 512 Go

La quantification est l’astuce. Au lieu de stocker chacun de ces 4 milliards de nombres en pleine précision, vous les arrondissez à moins de bits — comme stocker une photo en JPEG plutôt qu’en TIFF. Le modèle compressé est de quelques pourcents moins bon que le non compressé mais prend un quart de la taille. Pour Cove Travel, c’est la différence entre tenir sur votre téléphone et pas.

Ce que le téléphone fait vraiment quand vous lui demandez quelque chose

Quand vous pointez Cove Travel sur un menu japonais, voici la séquence approximative :

  1. La caméra capture une image et l’envoie au modèle comme données d’image.
  2. Le modèle convertit l’image en une suite de « tokens » internes — sa propre manière de représenter des morceaux de sens.
  3. Le modèle parcourt la grille de nombres, prédisant le prochain token à partir de tout ce qu’il a vu jusqu’ici. Il fait cela des centaines de fois d’affilée, générant un token par étape.
  4. Les tokens sont reconvertis en texte et affichés à l’écran.

Chacune de ces étapes « parcourir la grille » prend quelques dizaines de millisecondes sur un téléphone récent. Une courte traduction se termine en moins de 500 ms. Une plus longue prend deux secondes.

Ce qui rend cela assez rapide pour sembler instantané est une puce spéciale — le NPU (Neural Processing Unit) — que presque tout flagship Android ou iPhone a depuis 2019. Le NPU est dédié au type de calcul que font les modèles de langage. Faire tourner le même modèle sur le CPU ordinaire serait 5 à 10× plus lent et drainerait la batterie bien plus vite.

Quels sont vraiment les compromis

C’est la partie que la plupart des pages marketing omettent. Les modèles embarqués plus petits sont réellement moins bons que leurs homologues cloud sur trois axes honnêtes :

  • Moins de connaissance des faits obscurs. Un modèle 4B a lu moins qu’un modèle cloud 200B et plus. Il se trompera parfois sur des noms de lieux rares, des termes techniques de niche ou des références historiques obscures. Pour le voyage, cela compte rarement ; pour la recherche juridique, oui.
  • « Fenêtre de contexte » plus courte. Le modèle se souvient de moins de conversation à la fois. Les modèles cloud peuvent tenir 100 000+ tokens de contexte ; un modèle adapté au téléphone en tient généralement 8 000. Pour une application de traduction, c’est large ; pour « résume mon livre entier », non.
  • « Étendue créative » plus petite. Quand vous demandez à un modèle cloud de remue-méninger, le plus grand nombre de paramètres l’aide à générer des formulations plus variées. Un modèle plus petit est plus conservateur.

Le compromis que vous faites : vous abandonnez quelques pourcents de précision sur la longue traîne d’entrées étranges, et en échange vous obtenez une latence sous 500 ms, zéro dépendance réseau et zéro donnée quittant votre téléphone. Pour un traducteur de voyage qui tourne dans un métro de Tokyo, c’est le bon compromis. Pour rédiger un contrat juridique, non.

Pourquoi « embarqué » compte pour la confidentialité

L’IA cloud fonctionne en envoyant votre saisie au cloud, en faisant tourner le modèle sur un serveur et en renvoyant la réponse. Le serveur journalise votre saisie. Même les entreprises aux politiques de confidentialité strictes conservent assez de métadonnées pour reconstruire des motifs. La frontière de confidentialité est « on promet de ne pas regarder ».

L’IA embarquée fonctionne en faisant tourner le modèle sur votre téléphone. Votre saisie ne quitte jamais l’appareil. Il n’y a rien à journaliser pour un serveur parce qu’il n’y a pas de serveur dans la boucle. La frontière de confidentialité est la frontière de l’appareil — la seule qui tient vraiment.

C’est aussi pour cela que « IA cloud privée » est une contradiction. Tant que vos données doivent traverser le réseau et être traitées par le matériel de quelqu’un d’autre, l’exigence de confiance est « leur faire confiance ». L’embarqué supprime ça.

À quoi cela ressemble dans Cove

Cove Travel embarque Google Gemma 4 E2B — un modèle spécifique à 2 milliards de paramètres de Google, conçu pour le déploiement embarqué. La première fois que vous ouvrez l’application, elle télécharge le modèle une fois (environ 2,5 Go). Ensuite :

  • Chaque traduction tourne sur le NPU de votre téléphone.
  • Chaque photo sur laquelle vous pointez la caméra est analysée localement — jamais envoyée.
  • Chaque conversation en mode voix bidirectionnelle reste sur l’appareil.
  • Désinstaller l’application supprime tout le modèle.

La même architecture s’étend à travers la famille Cove — les futures applications Voice, Photo et Health partagent toutes la même approche embarquée. Le modèle est un seul téléchargement ; les applications sont différentes manières de l’utiliser.

Où lire plus loin

Les deux pièces que cet article référence :

Si vous voulez la profondeur ingénierie, la fiche modèle Gemma officielle a les nombres de paramètres, les détails des données d’entraînement et les scores de benchmark. L’article ci-dessus est la version pour quelqu’un qui veut utiliser la technologie, pas la construire.