端侧 AI 模型 Leaderboard 2026：8 主流大模型横评

最后校验: 2026 年 5 月

模型	厂商	参数	量化大小	上下文	模态	许可证	最低 RAM	Cove 用了吗	详情
Gemma 4 E2B	Google DeepMind	2.3B	1.5 GB	128,000	text+vision+audio	apache-2.0	4 GB	✓	查看 →
Microsoft Phi-4 multimodal	Microsoft Research	5.6B	3.5 GB	128,000	text+vision+audio	mit	6 GB	✓	查看 →
Apple Foundation Models	Apple	3B	未公开	未公开	text+vision	apple-proprietary	8 GB	✓	查看 →
Llama 3.2 Mobile	Meta AI	3B	2 GB	128,000	text	llama-community	6 GB	✓	查看 →
Qwen 3.5 2B	Alibaba Cloud	2B	1.5 GB	262,000	text+vision	apache-2.0	4 GB	✓	查看 →
Ministral 3B	Mistral AI	3B	2 GB	32,768	text+vision	apache-2.0	4 GB	✓	查看 →
DeepSeek R1 Distill (Qwen 1.5B)	DeepSeek	1.5B	1 GB	32,768	text	apache-2.0	4 GB	✓	查看 →
MiniCPM-V 4.0	ModelBest / OpenBMB	4.1B	2.5 GB	32,768	text+vision	modelbest-terms	4 GB	✓	查看 →

方法论

这份对比表怎么做出来的。 8 款模型按相同维度对比 —— 参数量、量化后大小、上下文窗口、模态、许可证、最低设备 RAM —— 数据来源是各厂商官方模型卡（Hugging Face、厂商博客、官方文档），截止日期见上方「最后校验」徽章。我们不跑自己的 benchmark，而是对每个数据点交叉验证 2-3 个权威源，遇到矛盾时优先采纳厂商自身声明。实际表现可能与本表偏差 ±10-20%，取决于量化方案（Q4_K_M / AWQ / GPTQ 各有差异）、推理 runtime（LiteRT / MediaPipe / ExecuTorch / llama.cpp / Core ML）、以及设备热降频。每个模型卡都有自己的 `lastReviewed` 字段，本页每季度刷新一次。冲突与歧义在我们的 GitHub 公开 repo 里追踪。

按用途选模型

翻译

Gemma 4 E2B — 1.5GB 多模态文本+视觉+音频，综合最均衡之选
Apple Foundation Models — iOS 26 原生集成 —— Apple 用户零下载
Qwen 3.5 2B — 262K 上下文长文档强；中文/多语全面

语音与笔记

DeepSeek R1 Distill (Qwen 1.5B) — 1.5B 推理专精，4GB RAM 手机也能跑
Ministral 3B — Ministral 3B —— 日常笔记任务的可靠多面手
Microsoft Phi-4 multimodal — Phi-4 multimodal 一模型搞定语音+文本+图像

看图与照片

MiniCPM-V 4.0 — 视觉任务专精，4B 模型表现超规格
Gemma 4 E2B — 原生视觉+音频仅 1.5GB；主流旗舰皆可跑
Microsoft Phi-4 multimodal — 5.6B 多模态 —— 视觉+推理最强组合

按设备选模型

旗舰 (8GB+ RAM)

舒适跑动 mobile 优化的最大模型

中端 (6GB RAM)

大小与能力平衡的最佳点

老机型 (4GB RAM)

小模型仍能提供真实价值

应用

适用场景

了解

获取 Cove

信任