Comment fonctionne réellement l'IA embarquée (sans jargon, promis)

Que fait un modèle de 2 milliards de paramètres sur votre téléphone ? Explication en français simple — et ce que ça coûte.

Écrit par Le développeur indépendant Cove 1 avril 2026

Pourquoi cet article existe

Si vous avez téléchargé une application qui promet « de l’IA sur votre téléphone, sans Internet », il est raisonnable de vous demander comment c’est même physiquement possible. Votre téléphone a une batterie, pas un data center. ChatGPT n’a-t-il pas besoin d’un bâtiment plein de GPU pour répondre à une seule question ?

La réponse courte : oui, les modèles originaux sont énormes — mais ceux qui tournent sur votre téléphone sont des petits frères, et quelques astuces d’ingénierie les rendent assez petits pour tenir. Voici une explication en français simple, écrite pour quelqu’un qui est curieux de ce qui se passe à l’intérieur de la traduction Cove Travel mais ne veut pas y consacrer un après-midi sur Wikipedia.

Ce qu’est vraiment un « modèle d’IA »

Un modèle de langage moderne est, au niveau ingénierie ennuyeux, une gigantesque grille de nombres. Des milliards. Quand vous tapez « traduire bonjour en japonais », le téléphone fait une énorme quantité de multiplications et d’additions avec ces nombres, et de l’autre côté sort le mot « こんにちは ».

Cette grille de nombres est ce qui a été produit quand le modèle a été entraîné — des gens chez Google lui ont fait avaler la majeure partie d’Internet en plusieurs langues, et ont ajusté les nombres jusqu’à ce que le modèle puisse prédire quel mot vient ensuite dans n’importe quelle phrase. Cette étape d’entraînement est ce qui mange des data centers. C’est un coût unique.

Une fois entraîné, le modèle n’est qu’une grille. Vous pouvez la copier. Vous pouvez l’expédier sur un téléphone. Le téléphone n’a pas besoin d’un data center pour utiliser la grille — il a juste besoin d’assez de mémoire pour la tenir et d’assez de débit de calcul pour la multiplier une fois par mot.

Pourquoi 2 milliards de paramètres tient dans votre poche

Un modèle « 2 milliards de paramètres » a 4 milliards de ces nombres dans la grille. Cela paraît énorme, et ça l’est — mais chaque nombre est petit (1 à 2 octets), et les téléphones modernes ont une quantité de RAM surprenante (8 à 12 Go sur un Pixel 9 ou un iPhone récent).

Voici le calcul de coin de table :

Élément	Taille
Modèle 4B brut, sans compression	16 Go
Quantifié 8 bits	4 à 5 Go
Quantifié 4 bits	2 à 3 Go
RAM de votre téléphone	8 à 12 Go
Stockage de votre téléphone	128 à 512 Go

La quantification est l’astuce. Au lieu de stocker chacun de ces 4 milliards de nombres en pleine précision, vous les arrondissez à moins de bits — comme stocker une photo en JPEG plutôt qu’en TIFF. Le modèle compressé est de quelques pourcents moins bon que le non compressé mais prend un quart de la taille. Pour Cove Travel, c’est la différence entre tenir sur votre téléphone et pas.

Ce que le téléphone fait vraiment quand vous lui demandez quelque chose

Quand vous pointez Cove Travel sur un menu japonais, voici la séquence approximative :

La caméra capture une image et l’envoie au modèle comme données d’image.
Le modèle convertit l’image en une suite de « tokens » internes — sa propre manière de représenter des morceaux de sens.
Le modèle parcourt la grille de nombres, prédisant le prochain token à partir de tout ce qu’il a vu jusqu’ici. Il fait cela des centaines de fois d’affilée, générant un token par étape.
Les tokens sont reconvertis en texte et affichés à l’écran.

Chacune de ces étapes « parcourir la grille » prend quelques dizaines de millisecondes sur un téléphone récent. Une courte traduction se termine en moins de 500 ms. Une plus longue prend deux secondes.

Ce qui rend cela assez rapide pour sembler instantané est une puce spéciale — le NPU (Neural Processing Unit) — que presque tout flagship Android ou iPhone a depuis 2019. Le NPU est dédié au type de calcul que font les modèles de langage. Faire tourner le même modèle sur le CPU ordinaire serait 5 à 10× plus lent et drainerait la batterie bien plus vite.

Quels sont vraiment les compromis

C’est la partie que la plupart des pages marketing omettent. Les modèles embarqués plus petits sont réellement moins bons que leurs homologues cloud sur trois axes honnêtes :

Moins de connaissance des faits obscurs. Un modèle 4B a lu moins qu’un modèle cloud 200B et plus. Il se trompera parfois sur des noms de lieux rares, des termes techniques de niche ou des références historiques obscures. Pour le voyage, cela compte rarement ; pour la recherche juridique, oui.
« Fenêtre de contexte » plus courte. Le modèle se souvient de moins de conversation à la fois. Les modèles cloud peuvent tenir 100 000+ tokens de contexte ; un modèle adapté au téléphone en tient généralement 8 000. Pour une application de traduction, c’est large ; pour « résume mon livre entier », non.
« Étendue créative » plus petite. Quand vous demandez à un modèle cloud de remue-méninger, le plus grand nombre de paramètres l’aide à générer des formulations plus variées. Un modèle plus petit est plus conservateur.

Le compromis que vous faites : vous abandonnez quelques pourcents de précision sur la longue traîne d’entrées étranges, et en échange vous obtenez une latence sous 500 ms, zéro dépendance réseau et zéro donnée quittant votre téléphone. Pour un traducteur de voyage qui tourne dans un métro de Tokyo, c’est le bon compromis. Pour rédiger un contrat juridique, non.

Pourquoi « embarqué » compte pour la confidentialité

L’IA cloud fonctionne en envoyant votre saisie au cloud, en faisant tourner le modèle sur un serveur et en renvoyant la réponse. Le serveur journalise votre saisie. Même les entreprises aux politiques de confidentialité strictes conservent assez de métadonnées pour reconstruire des motifs. La frontière de confidentialité est « on promet de ne pas regarder ».

L’IA embarquée fonctionne en faisant tourner le modèle sur votre téléphone. Votre saisie ne quitte jamais l’appareil. Il n’y a rien à journaliser pour un serveur parce qu’il n’y a pas de serveur dans la boucle. La frontière de confidentialité est la frontière de l’appareil — la seule qui tient vraiment.

C’est aussi pour cela que « IA cloud privée » est une contradiction. Tant que vos données doivent traverser le réseau et être traitées par le matériel de quelqu’un d’autre, l’exigence de confiance est « leur faire confiance ». L’embarqué supprime ça.

À quoi cela ressemble dans Cove

Cove Travel embarque Google Gemma 4 E2B — un modèle spécifique à 2 milliards de paramètres de Google, conçu pour le déploiement embarqué. La première fois que vous ouvrez l’application, elle télécharge le modèle une fois (environ 2,5 Go). Ensuite :

Chaque traduction tourne sur le NPU de votre téléphone.
Chaque photo sur laquelle vous pointez la caméra est analysée localement — jamais envoyée.
Chaque conversation en mode voix bidirectionnelle reste sur l’appareil.
Désinstaller l’application supprime tout le modèle.

La même architecture s’étend à travers la famille Cove — les futures applications Voice, Photo et Health partagent toutes la même approche embarquée. Le modèle est un seul téléchargement ; les applications sont différentes manières de l’utiliser.

Où lire plus loin

Les deux pièces que cet article référence :

Le guide du traducteur IA hors ligne plus long parcourt ce qui a changé en 2026 pour rendre l’embarqué viable.
Pourquoi l’IA embarquée bat le cloud pour le voyage est l’argumentaire pour les dimensions latence et fiabilité spécifiquement.

Si vous voulez la profondeur ingénierie, la fiche modèle Gemma officielle a les nombres de paramètres, les détails des données d’entraînement et les scores de benchmark. L’article ci-dessus est la version pour quelqu’un qui veut utiliser la technologie, pas la construire.

Pourquoi l'IA embarquée bat la traduction cloud pour le voyage
En voyage, latence, confidentialité et fiabilité poussent dans la même direction — vers l'IA embarquée. L'argumentaire avec ses exceptions.
Traducteur IA hors ligne : le guide complet (2026)
L'IA embarquée a rattrapé les API cloud pour la traduction de voyage. Voici ce qu'il faut chercher en 2026 et comment Cove Travel le livre différemment.

Essayez vous-même la traduction IA hors ligne.

Téléchargez Cove Travel — achetez une fois, gardez à vie.

Télécharger Cove → Pourquoi hors ligne

Écrit par Le développeur indépendant Cove

Applications

Cas d'usage

Apprendre

Obtenir Cove

Confiance

Comment fonctionne réellement l'IA embarquée (sans jargon, promis)

Pourquoi cet article existe

Ce qu’est vraiment un « modèle d’IA »

Pourquoi 2 milliards de paramètres tient dans votre poche

Ce que le téléphone fait vraiment quand vous lui demandez quelque chose

Quels sont vraiment les compromis

Pourquoi « embarqué » compte pour la confidentialité

À quoi cela ressemble dans Cove

Où lire plus loin

Essayez vous-même la traduction IA hors ligne.

Pourquoi cet article existe

Ce qu’est vraiment un « modèle d’IA »

Pourquoi 2 milliards de paramètres tient dans votre poche

Ce que le téléphone fait vraiment quand vous lui demandez quelque chose

Quels sont vraiment les compromis

Pourquoi « embarqué » compte pour la confidentialité

À quoi cela ressemble dans Cove

Où lire plus loin

Continuez la lecture

Essayez vous-même la traduction IA hors ligne.