它是什么?
Llama 3.2 Mobile 是 Meta 在 2024 年 9 月发布、专为端侧设计的小型语言模型家族。Meta 将 1B 与 3B 两个版本发布为纯文本模型 —— 与同代的 11B 和 90B 视觉模型区隔,后者目标大型设备。Mobile 双版本是用 Llama 3.1 大模型的结构化剪枝加知识蒸馏合成的:预训练阶段用 Llama 3.1 8B 和 70B 模型的 logits 作为 token 级别监督目标,在如此小的尺寸下保留了惊人的推理能力。截至 2026 年中,这两个仍是 Meta 端侧主力 —— Llama 4 同尺寸级别没有直接继任者。
核心规格一览
(请参考上方规格卡,数据来自结构化数据层。)
什么设备能跑?
3B 版本在 Pixel 8 及以上、iPhone 15 Pro 及以上、Snapdragon 8 Gen 3+ 安卓手机流畅运行。Meta 与 Qualcomm 和 MediaTek 合作完成发布日级别的优化,并通过 Grouped-Query Attention 深度调优 ARM CPU。1B 版本要求大幅放宽,2022 年起的手机带 4GB RAM 即可运行。两个版本都可通过 llama.cpp、MLC、PyTorch ExecuTorch 部署。
优势与局限
优势。 巨大的 128K 上下文 —— 与 Gemma 4 E2B 持平,领先大多数端侧同行。同尺寸下推理能力突出,得益于从 Llama 3.1 8B 和 70B 教师模型蒸馏而来。生态成熟:llama.cpp、LM Studio、Ollama、MLC,以及数十种微调版本。发布日级别的移动芯片优化。开源权重,易于微调。
局限。 仅文本 —— 无图像、无音频。Llama Community License 的 7 亿月活条款使大型服务的合同协商复杂化。Llama 4 同代没有明确继任者。多语种质量参差,英语和主要欧洲语言最强。
适合什么场景?不适合什么场景?
选 Llama 3.2 Mobile 当: 你的工作流仅文本(聊天、摘要、分类、RAG);你想要最广的开源生态与工具链;你需要 128K 上下文的全开源 mobile 模型;你的目标设备 RAM 至少 6GB(3B)或 4GB(1B)。
别选它当: 你的工作流包含图像或音频(Gemma 4、Phi-4-multimodal 或 MiniCPM-V 更合适);你的服务月活 7 亿+且需要无需协商的宽松许可证(Apache 2.0 替代如 Gemma 4、Qwen 3.5 或 Mistral 更合适);你想要绝对最小的文本模型(DeepSeek-R1 Distill 1.5B 粒度更细)。
与相似端侧模型对比
最相近的两位:Gemma 4 E2B(更小、多模态、Apache 2.0)与 Ministral 3B(同等尺寸、同样多模态、Apache 2.0)。Llama 3.2 在生态成熟度和 128K 上下文上领先,但模态和许可证简洁性上落后。完整横评见 leaderboard。
在 Cove App 里的真实落地
Cove Voice 当前用 Gemma 4 来做语音笔记 AI 整理 —— 这一负载与 Llama 3.2 的纯文本定位同样契合。我们选 Gemma 4 是因为同一模型还要支持 Cove Photo 的图像问答,而 Llama 3.2 Mobile 看不到图像。如果未来 Cove 推出纯文本 App(比如日记助手),Llama 3.2 3B 会是有力替代选项 —— 尤其适合需要完整生态工具链和 Hugging Face 微调资源的用户。