Llama 3.2 Mobile:Meta 的 128K 上下文端侧文本模型

1B 和 3B 参数、128K 上下文窗口、来自 Llama 3.1 8B 和 70B 的结构化剪枝+知识蒸馏 —— Llama 3.2 Mobile 是 Meta 旗舰级纯文本 mobile 大模型。

最后校验: 2026 年 5 月
参数量3 B
量化后大小2 GB
上下文长度128,000 tokens
模态text
许可证llama-community
最低 RAM6 GB
版本Llama 3.2 1B / 3B
发布2024-09

它是什么?

Llama 3.2 Mobile 是 Meta 在 2024 年 9 月发布、专为端侧设计的小型语言模型家族。Meta 将 1B 与 3B 两个版本发布为纯文本模型 —— 与同代的 11B 和 90B 视觉模型区隔,后者目标大型设备。Mobile 双版本是用 Llama 3.1 大模型的结构化剪枝加知识蒸馏合成的:预训练阶段用 Llama 3.1 8B 和 70B 模型的 logits 作为 token 级别监督目标,在如此小的尺寸下保留了惊人的推理能力。截至 2026 年中,这两个仍是 Meta 端侧主力 —— Llama 4 同尺寸级别没有直接继任者。

核心规格一览

(请参考上方规格卡,数据来自结构化数据层。)

什么设备能跑?

3B 版本在 Pixel 8 及以上、iPhone 15 Pro 及以上、Snapdragon 8 Gen 3+ 安卓手机流畅运行。Meta 与 Qualcomm 和 MediaTek 合作完成发布日级别的优化,并通过 Grouped-Query Attention 深度调优 ARM CPU。1B 版本要求大幅放宽,2022 年起的手机带 4GB RAM 即可运行。两个版本都可通过 llama.cpp、MLC、PyTorch ExecuTorch 部署。

优势与局限

优势。 巨大的 128K 上下文 —— 与 Gemma 4 E2B 持平,领先大多数端侧同行。同尺寸下推理能力突出,得益于从 Llama 3.1 8B 和 70B 教师模型蒸馏而来。生态成熟:llama.cpp、LM Studio、Ollama、MLC,以及数十种微调版本。发布日级别的移动芯片优化。开源权重,易于微调。

局限。 仅文本 —— 无图像、无音频。Llama Community License 的 7 亿月活条款使大型服务的合同协商复杂化。Llama 4 同代没有明确继任者。多语种质量参差,英语和主要欧洲语言最强。

适合什么场景?不适合什么场景?

选 Llama 3.2 Mobile 当: 你的工作流仅文本(聊天、摘要、分类、RAG);你想要最广的开源生态与工具链;你需要 128K 上下文的全开源 mobile 模型;你的目标设备 RAM 至少 6GB(3B)或 4GB(1B)。

别选它当: 你的工作流包含图像或音频(Gemma 4、Phi-4-multimodal 或 MiniCPM-V 更合适);你的服务月活 7 亿+且需要无需协商的宽松许可证(Apache 2.0 替代如 Gemma 4、Qwen 3.5 或 Mistral 更合适);你想要绝对最小的文本模型(DeepSeek-R1 Distill 1.5B 粒度更细)。

与相似端侧模型对比

最相近的两位:Gemma 4 E2B(更小、多模态、Apache 2.0)与 Ministral 3B(同等尺寸、同样多模态、Apache 2.0)。Llama 3.2 在生态成熟度和 128K 上下文上领先,但模态和许可证简洁性上落后。完整横评见 leaderboard

在 Cove App 里的真实落地

Cove Voice 当前用 Gemma 4 来做语音笔记 AI 整理 —— 这一负载与 Llama 3.2 的纯文本定位同样契合。我们选 Gemma 4 是因为同一模型还要支持 Cove Photo 的图像问答,而 Llama 3.2 Mobile 看不到图像。如果未来 Cove 推出纯文本 App(比如日记助手),Llama 3.2 3B 会是有力替代选项 —— 尤其适合需要完整生态工具链和 Hugging Face 微调资源的用户。

在 Cove App 里看真实落地

常见问题

为什么 Llama 3.2 Mobile 是纯文本?

Meta 把 Llama 3.2 拆成两条线:1B 与 3B 为 mobile/edge 设计,纯文本;11B 与 90B 处理视觉。Mobile 版本牺牲多模态以换取更小体积和适合手机的 128K 上下文 —— Vision 内存占用更高,Meta 判断在 edge 场景上不划算。

哪些设备能跑 Llama 3.2 Mobile?

Pixel 8 及以上、iPhone 15 Pro 及以上、Snapdragon 8 Gen 3+ 安卓手机。Meta 与 Qualcomm 和 MediaTek 在发布日就完成了 SoC 优化,并通过 Grouped-Query Attention 深度调优 ARM CPU。3B 版本 Q4 量化约 2GB 存储 + 4-6GB RAM。

Llama 3.2 商业使用免费吗?

基本免费。Llama Community License 允许商业使用,但有一条款:月活超过 7 亿的服务必须单独向 Meta 申请许可。对创业公司和独立 App 而言,等同于 Apache 2.0 减去消费级超大平台。

Llama 4 有 mobile 版本吗?

截至 2026 年中没有。2025-04 发布的 Llama 4 家族(Scout、Maverick)针对数据中心 MoE 负载。Llama 3.2 1B/3B 仍是 Meta 端侧主力。传闻 Llama 5 会推出新一代 mobile 版本,带屏幕感知 agentic 功能。

和 Gemma 4 或 Qwen 3.5 比怎么样?

Llama 3.2 3B 纯文本,Gemma 4 E2B 与 Qwen 3.5 2B 都支持文本+视觉多模态。Llama 长上下文胜出(128K 与 Gemma 持平;Qwen 262K 更长)。需要 Meta 生态(LangChain、llama.cpp 工具链)选 Llama;需要视觉选 Gemma 或 Qwen。

引用源