Llama 3.2 Mobile (1B/3B)：Meta 端侧文本 LLM

参数量	3 B
量化后大小	2 GB
上下文长度	128,000 tokens
模态	text
许可证	llama-community
最低 RAM	6 GB
版本	Llama 3.2 1B / 3B
发布	2024-09

参数量

3 B

量化后大小

2 GB

上下文长度

128,000 tokens

模态

text

许可证

llama-community

最低 RAM

6 GB

版本

Llama 3.2 1B / 3B

发布

2024-09

它是什么？

Llama 3.2 Mobile 是 Meta 在 2024 年 9 月发布、专为端侧设计的小型语言模型家族。Meta 将 1B 与 3B 两个版本发布为纯文本模型 —— 与同代的 11B 和 90B 视觉模型区隔，后者目标大型设备。Mobile 双版本是用 Llama 3.1 大模型的结构化剪枝加知识蒸馏合成的：预训练阶段用 Llama 3.1 8B 和 70B 模型的 logits 作为 token 级别监督目标，在如此小的尺寸下保留了惊人的推理能力。截至 2026 年中，这两个仍是 Meta 端侧主力 —— Llama 4 同尺寸级别没有直接继任者。

核心规格一览

（请参考上方规格卡，数据来自结构化数据层。）

什么设备能跑？

3B 版本在 Pixel 8 及以上、iPhone 15 Pro 及以上、Snapdragon 8 Gen 3+ 安卓手机流畅运行。Meta 与 Qualcomm 和 MediaTek 合作完成发布日级别的优化，并通过 Grouped-Query Attention 深度调优 ARM CPU。1B 版本要求大幅放宽，2022 年起的手机带 4GB RAM 即可运行。两个版本都可通过 llama.cpp、MLC、PyTorch ExecuTorch 部署。

优势与局限

优势。 巨大的 128K 上下文 —— 与 Gemma 4 E2B 持平，领先大多数端侧同行。同尺寸下推理能力突出，得益于从 Llama 3.1 8B 和 70B 教师模型蒸馏而来。生态成熟：llama.cpp、LM Studio、Ollama、MLC，以及数十种微调版本。发布日级别的移动芯片优化。开源权重，易于微调。

局限。 仅文本 —— 无图像、无音频。Llama Community License 的 7 亿月活条款使大型服务的合同协商复杂化。Llama 4 同代没有明确继任者。多语种质量参差，英语和主要欧洲语言最强。

适合什么场景？不适合什么场景？

选 Llama 3.2 Mobile 当： 你的工作流仅文本（聊天、摘要、分类、RAG）；你想要最广的开源生态与工具链；你需要 128K 上下文的全开源 mobile 模型；你的目标设备 RAM 至少 6GB（3B）或 4GB（1B）。

别选它当： 你的工作流包含图像或音频（Gemma 4、Phi-4-multimodal 或 MiniCPM-V 更合适）；你的服务月活 7 亿+且需要无需协商的宽松许可证（Apache 2.0 替代如 Gemma 4、Qwen 3.5 或 Mistral 更合适）；你想要绝对最小的文本模型（DeepSeek-R1 Distill 1.5B 粒度更细）。

与相似端侧模型对比

最相近的两位：Gemma 4 E2B（更小、多模态、Apache 2.0）与 Ministral 3B（同等尺寸、同样多模态、Apache 2.0）。Llama 3.2 在生态成熟度和 128K 上下文上领先，但模态和许可证简洁性上落后。完整横评见 leaderboard。

在 Cove App 里的真实落地

Cove Voice 当前用 Gemma 4 来做语音笔记 AI 整理 —— 这一负载与 Llama 3.2 的纯文本定位同样契合。我们选 Gemma 4 是因为同一模型还要支持 Cove Photo 的图像问答，而 Llama 3.2 Mobile 看不到图像。如果未来 Cove 推出纯文本 App（比如日记助手），Llama 3.2 3B 会是有力替代选项 —— 尤其适合需要完整生态工具链和 Hugging Face 微调资源的用户。

常见问题

为什么 Llama 3.2 Mobile 是纯文本？

Meta 把 Llama 3.2 拆成两条线：1B 与 3B 为 mobile/edge 设计，纯文本；11B 与 90B 处理视觉。Mobile 版本牺牲多模态以换取更小体积和适合手机的 128K 上下文 —— Vision 内存占用更高，Meta 判断在 edge 场景上不划算。

哪些设备能跑 Llama 3.2 Mobile？

Pixel 8 及以上、iPhone 15 Pro 及以上、Snapdragon 8 Gen 3+ 安卓手机。Meta 与 Qualcomm 和 MediaTek 在发布日就完成了 SoC 优化，并通过 Grouped-Query Attention 深度调优 ARM CPU。3B 版本 Q4 量化约 2GB 存储 + 4-6GB RAM。

Llama 3.2 商业使用免费吗？

基本免费。Llama Community License 允许商业使用，但有一条款：月活超过 7 亿的服务必须单独向 Meta 申请许可。对创业公司和独立 App 而言，等同于 Apache 2.0 减去消费级超大平台。

Llama 4 有 mobile 版本吗？

截至 2026 年中没有。2025-04 发布的 Llama 4 家族（Scout、Maverick）针对数据中心 MoE 负载。Llama 3.2 1B/3B 仍是 Meta 端侧主力。传闻 Llama 5 会推出新一代 mobile 版本，带屏幕感知 agentic 功能。

和 Gemma 4 或 Qwen 3.5 比怎么样？

Llama 3.2 3B 纯文本，Gemma 4 E2B 与 Qwen 3.5 2B 都支持文本+视觉多模态。Llama 长上下文胜出（128K 与 Gemma 持平；Qwen 262K 更长）。需要 Meta 生态（LangChain、llama.cpp 工具链）选 Llama；需要视觉选 Gemma 或 Qwen。

应用

适用场景

了解

获取 Cove

信任

Llama 3.2 Mobile：Meta 的 128K 上下文端侧文本模型

它是什么？

核心规格一览

什么设备能跑？

优势与局限

适合什么场景？不适合什么场景？

与相似端侧模型对比

在 Cove App 里的真实落地

在 Cove App 里看真实落地

常见问题

引用源

它是什么？

核心规格一览

什么设备能跑？

优势与局限

适合什么场景？不适合什么场景？

与相似端侧模型对比

在 Cove App 里的真实落地

相关模型

在 Cove App 里看真实落地

常见问题

引用源