它是什么?
Qwen 3.5 2B 是阿里云在 Qwen 3.5 Small Series 里专为 mobile 优化的成员,2026 年 3 月 1 日发布。整个系列共 4 个 size —— 0.8B、2B、4B、9B —— 和大多数”砍 flagship 大模型尺寸”的家族不同,Qwen 3.5 Small 从设计之初就是冲着端侧部署去的,不是从大模型蒸馏剪枝得来。2B 版本是手机的最佳平衡点:小到能跑在 4GB RAM 中端机上,大到推理能力和多语种覆盖都拿得出手。
核心规格一览
(请参考上方规格卡,数据来自结构化数据层。)
什么设备能跑?
2B 版本 Q4 量化下大约占 1.5GB 存储,加 2-3GB RAM 用于上下文。这意味着主流 4GB+ RAM 安卓手机都能跑,iPhone 15 Pro 系列起也都支持。旗舰硬件(Pixel 8 Pro、iPhone 17 Pro、Galaxy S24 Ultra)每秒生成 30-50 token;中端机型 15-25 token,对话式交互完全够用。
优势与局限
优势。 端侧模型里行业领先的 262K 上下文窗口 —— 是 Gemma 4 E2B 128K 的两倍。原生支持 200+ 语种,中日韩英尤为强势。Gated Delta + 稀疏 MoE 混合架构让每个激活参数性能突出。Apache 2.0 许可证简化了企业合同流程。
局限。 不支持原生音频(Gemma 4 和 Phi-4-multimodal 都加了音频)。纯英文 benchmark 略逊于 Gemma 4。视觉能力扎实但弱于 MiniCPM-V 4.0 这种专门做视觉训练的。MoE 架构因每 token 路由不同 experts 导致延迟有波动,对实时应用是负担。
适合什么场景?不适合什么场景?
选 Qwen 3.5 2B 当: 你的用户里有大量中日韩语者;你需要超长上下文(法律文档、代码库、完整聊天历史);你想覆盖广泛设备包括 4GB RAM 的手机;你看重 Apache 2.0 许可证的简洁性。
别选它当: 你需要端侧音频(Gemma 4 或 Phi-4-multimodal);你的工作流以视觉为主且 benchmark 精度最重要(MiniCPM-V 4.0 专精视觉);你需要可预测延迟用于实时场景(Llama 3.2 3B 这种 dense 模型每 token 成本更均匀)。
与相似端侧模型对比
最相近的两位:Gemma 4 E2B(更小、文本+视觉+音频多模态、Apache 2.0、128K 上下文)和 MiniCPM-V 4.0(专精视觉、4B 参数、更大但视觉更强)。Qwen 在上下文长度和多语种上领先;Gemma 在音频上胜出;MiniCPM 在视觉任务上更强。完整横评见 leaderboard。
在 Cove App 里的真实落地
Cove Travel 用 Gemma 4 处理几十种语种对的离线翻译。但对于普通话、粤语、日语、韩语翻译这类东亚场景,Qwen 3.5 2B 会是更强的基础 —— 当前所有开源端侧模型里,它在东亚语种上的训练数据权重无人能敌。如果未来 Cove 推出针对国内市场的”Cove China”专属版本,Qwen 3.5 2B 会是我们的起点。