Warum dieser Artikel existiert
Wenn Sie eine App heruntergeladen haben, die „KI auf Ihrem Telefon, kein Internet nötig” verspricht, haben Sie sich vermutlich gefragt, wie das physikalisch überhaupt geht. Ihr Telefon hat einen Akku, kein Rechenzentrum. Braucht ChatGPT nicht einen ganzen GPU-gefüllten Gebäude-Block, um eine Frage zu beantworten?
Die kurze Antwort: Ja, die Original-Modelle sind riesig — aber die, die auf Ihrem Telefon laufen, sind kleinere Geschwister, und ein paar Engineering-Tricks machen sie klein genug, um zu passen. Unten folgt eine klare Erklärung in normalem Deutsch, geschrieben für jemanden, der neugierig ist, was bei der Cove-Travel-Übersetzung im Inneren passiert, aber keinen ganzen Nachmittag auf Wikipedia verbringen möchte.
Was ein „KI-Modell” eigentlich ist
Ein modernes Sprachmodell ist auf der unspektakulären Engineering-Ebene ein riesiges Raster aus Zahlen. Milliarden davon. Wenn Sie „übersetze hello ins Japanische” tippen, führt das Telefon eine enorme Menge an Multiplikationen und Additionen mit diesen Zahlen aus, und am anderen Ende kommt das Wort „こんにちは” heraus.
Dieses Zahlen-Raster wurde produziert, als das Modell trainiert wurde — Mitarbeiterinnen und Mitarbeiter bei Google haben ihm den Großteil des lesbaren Internets in vielen Sprachen gefüttert und die Zahlen so lange angepasst, bis das Modell vorhersagen konnte, welches Wort als Nächstes in einem beliebigen Satz kommt. Dieser Trainings-Schritt ist es, der Rechenzentren auffrisst. Das ist eine einmalige Investition.
Einmal trainiert, ist das Modell nur noch das Raster. Sie können es kopieren. Sie können es auf ein Telefon ausliefern. Das Telefon braucht kein Rechenzentrum, um das Raster zu nutzen — es braucht nur genug Speicher, um es zu halten, und genug Rechendurchsatz, um einmal pro Wort durch das Raster zu multiplizieren.
Warum 2 Milliarden Parameter in Ihre Hosentasche passen
Ein „2-Milliarden-Parameter-Modell” hat 4 Milliarden dieser Zahlen im Raster. Das klingt riesig — und ist es auch. Aber jede Zahl ist klein (1–2 Bytes), und moderne Telefone haben überraschend viel RAM (8–12 GB auf einem Pixel 9 oder einem aktuellen iPhone).
Hier die Servietten-Mathematik:
| Element | Größe |
|---|---|
| Rohes 4B-Modell, ohne Komprimierung | 16 GB |
| 8-Bit-quantisiert | 4–5 GB |
| 4-Bit-quantisiert | 2–3 GB |
| RAM Ihres Telefons | 8–12 GB |
| Speicher Ihres Telefons | 128–512 GB |
Quantisierung ist der Trick. Statt jede dieser 4 Milliarden Zahlen mit voller Präzision zu speichern, runden Sie sie auf weniger Bits — wie ein Foto als JPEG statt als TIFF zu speichern. Das komprimierte Modell ist ein paar Prozent schlechter als das unkomprimierte, nimmt aber ein Viertel der Größe ein. Für Cove Travel ist das der Unterschied zwischen „passt aufs Telefon” und „passt nicht”.
Was das Telefon wirklich tut, wenn Sie es etwas fragen
Wenn Sie Cove Travel auf eine japanische Speisekarte richten, ist das hier die ungefähre Abfolge:
- Die Kamera erfasst ein Bild und schickt es als Bilddaten an das Modell.
- Das Modell wandelt das Bild in eine Sequenz interner „Tokens” um — die eigene Art des Modells, Bedeutungsfragmente zu repräsentieren.
- Das Modell läuft durch das Zahlen-Raster und sagt das nächste Token vorher, basierend auf allem, was es bisher gesehen hat. Das tut es hunderte Male hintereinander, ein Token pro Schritt.
- Die Tokens werden zurück in Text umgewandelt und auf dem Bildschirm angezeigt.
Jeder dieser „durchs Raster laufen”-Schritte dauert auf einem aktuellen Telefon einige zehntel Millisekunden. Eine kurze Übersetzung ist in unter 500 ms fertig. Eine längere braucht ein paar Sekunden.
Was das schnell genug macht, um sich sofort anzufühlen, ist ein spezieller Chip — die NPU (Neural Processing Unit) — die fast jedes Android-Flaggschiff und jedes iPhone seit etwa 2019 hat. Die NPU ist zweckgebaut für genau die Art von Mathematik, die Sprachmodelle ausführen. Dasselbe Modell auf der normalen CPU laufen zu lassen wäre 5–10× langsamer und würde den Akku deutlich schneller leeren.
Was die wirklichen Trade-offs sind
Das ist der Teil, den die meisten Marketing-Seiten weglassen. Kleinere On-Device-Modelle sind ehrlich gesagt schlechter als ihre Cloud-Geschwister — in drei nachvollziehbaren Punkten:
- Weniger Wissen über exotische Fakten. Ein 4B-Modell hat weniger gelesen als ein Cloud-Modell mit 200B+. Es macht manchmal Fehler bei seltenen Ortsnamen, Nischen-Fachbegriffen oder obskuren historischen Bezügen. Für Reisen spielt das selten eine Rolle; für juristische Recherche schon.
- Kürzeres „Kontextfenster”. Das Modell kann sich weniger vom Gespräch auf einmal merken. Cloud-Modelle halten 100.000+ Tokens an Kontext; ein telefon-freundliches Modell hält etwa 8.000. Für eine Übersetzungs-App reicht das locker; für „fasse mein ganzes Buch zusammen” nicht.
- Kleinerer „kreativer Spielraum”. Wenn Sie ein Cloud-Modell um Brainstorming bitten, hilft die größere Parameterzahl, mehr Vielfalt zu erzeugen. Ein kleineres Modell ist konservativer.
Der Tausch, den Sie eingehen: Sie geben ein paar Prozent Genauigkeit am langen Ende seltsamer Eingaben auf, und im Gegenzug erhalten Sie Latenz unter 500 ms, null Netz-Abhängigkeit und null Daten, die Ihr Telefon verlassen. Für einen Reise-Übersetzer in der Tokioter U-Bahn ist das der richtige Tausch. Für das Verfassen eines juristischen Vertrags nicht.
Warum „auf dem Gerät” für den Datenschutz zählt
Cloud-KI funktioniert, indem Ihre Eingabe an die Cloud geschickt, das Modell auf einem Server ausgeführt und die Antwort zurückgeschickt wird. Der Server protokolliert Ihre Eingabe. Selbst Unternehmen mit strengen Datenschutzrichtlinien behalten genug Metadaten, um Muster zu rekonstruieren. Die Datenschutz-Grenze ist „wir versprechen, nicht hinzuschauen”.
On-Device-KI funktioniert, indem das Modell auf Ihrem Telefon läuft. Ihre Eingabe verlässt das Gerät niemals. Es gibt nichts, was ein Server protokollieren könnte, weil kein Server in der Schleife ist. Die Datenschutz-Grenze ist die Geräte-Grenze — die einzige, die wirklich hält.
Genau deshalb ist „private Cloud-KI” ein Widerspruch in sich. Solange Ihre Daten das Netz überqueren und auf der Hardware eines anderen verarbeitet werden müssen, ist die Vertrauensanforderung „vertraue denen”. On-Device entfernt das.
Wie das in Cove aussieht
Cove Travel liefert Google Gemma 4 E2B mit — ein konkretes 2-Milliarden-Parameter-Modell von Google, das speziell für On-Device-Deployment entworfen wurde. Beim ersten Öffnen der App lädt diese das Modell einmal herunter (etwa 2,5 GB). Danach gilt:
- Jede Übersetzung läuft auf der NPU Ihres Telefons.
- Jedes Foto, auf das Sie die Kamera richten, wird lokal analysiert — niemals hochgeladen.
- Jedes Gespräch im Zwei-Wege-Sprachmodus bleibt auf dem Gerät.
- Die App deinstallieren löscht das gesamte Modell.
Die gleiche Architektur erstreckt sich über die Cove-Familie — die kommenden Voice-, Photo- und Health-Apps teilen sich denselben On-Device-Ansatz. Das Modell ist ein Download; die Apps sind verschiedene Arten, es zu nutzen.
Wo Sie weiterlesen können
Die zwei Texte, auf die dieser Artikel verweist:
- Der längere Offline-KI-Übersetzer-Leitfaden geht durch, was sich 2026 geändert hat, damit On-Device praktikabel wurde.
- Warum KI auf dem Gerät die Cloud beim Reisen schlägt ist die Begründung speziell für die Latenz- und Zuverlässigkeits-Dimensionen.
Wenn Sie technische Tiefe wollen, hat die offizielle Gemma-Modellkarte die Parameter- Anzahl, Details zu den Trainingsdaten und Benchmark-Werte. Der Artikel oben ist die Version für jemanden, der die Technologie nutzen will, nicht bauen.