它是什么?
MiniCPM-V 4.0 是 ModelBest 与 OpenBMB(清华大学孵化的开源社区)2025 年 8 月发布的 MiniCPM-V 系列里的 mobile 优化版。整个系列瞄准一个特定的细分市场:视觉专精的多模态模型,且以 edge 部署为目标的开源权重。和 Gemma 4 / Qwen 3.5 把视觉作为通用大模型的次要能力不同,MiniCPM-V 从设计起就专门针对图像理解任务训练 —— 4.1B 参数版本以小搏大,OpenCompass 视觉评测上击败 GPT-4.1-mini,参数量却只是其零头。
核心规格一览
(请参考上方规格卡,数据来自结构化数据层。)
什么设备能跑?
4.1B 版本 Q4 量化下大约 2.5GB 存储 + 3-4GB RAM 余量(用于视觉编码器)。覆盖 Pixel 8 及以上、iPhone 15 Pro 及以上、iPhone 16 Pro Max(OpenBMB 官方实测设备,跑出 17.9 token/s、首 token 延迟低于 2 秒),以及大多数 4GB+ RAM 现代安卓手机。视觉编码器执行可能成为内存瓶颈 —— 中端机可能需要更激进的量化或更小的输入图像来维持吞吐。
优势与局限
优势。 专精视觉训练在 benchmark 上见效:MiniCPM-V 4.0 在 OpenCompass 拿到 69.0 分,超过 GPT-4.1-mini(2025 年 4 月发布),并以一半参数量追平上一代 MiniCPM-V 2.6(8B)。端侧实测可用:iPhone 16 Pro Max 上 17.9 token/s、首 token 延迟低于 2 秒、无热降频。基于 LLaVA-UHD 架构的 OCR 和文档分析能力突出,OCRBench 领先。OpenBMB 社区活跃,更新频繁。(「6 帧压缩为 64 token、96× 压缩率」是 MiniCPM-V 4.5 新增 3D-Resampler 的特性,详见上方 FAQ V 4.0 与 4.5 的差异。)
局限。 自定义 ModelBest 许可证比 Apache 2.0 / MIT 替代多一道手续。32K 上下文相对较短 —— Gemma 4 128K 的一半,远不如 Qwen 3.5 的 262K。通用性不及同行 —— MiniCPM-V 视觉强但纯文本聊天或长文档推理不是最优。MiniCPM-o 变体加了语音但跳到 9B 参数。
适合什么场景?不适合什么场景?
选 MiniCPM-V 4.0 当: 视觉是你产品的核心价值轴(OCR、图像问答、文档理解、视频摘要);你需要在中等设备上拿到 SOTA 视觉精度;你能处理 ModelBest 许可证登记流程。
别选它当: 你需要文本主导的通用聊天(Gemma 4、Qwen 3.5、Ministral 3B 通用性更好);你需要最简单的许可证(Apache 2.0 替代胜出);你需要长上下文(Qwen 3.5 的 262K 是另一个量级);你需要同模型支持音频(MiniCPM-o 4.5 加了语音但跳到 9B;Gemma 4 和 Phi-4-multimodal 在更小尺寸覆盖这个)。
与相似端侧模型对比
最相近的两位:Llama 3.2 Mobile(纯文本,无视觉)与 Qwen 3.5 2B(也有视觉但更通用)。MiniCPM-V 4.0 的差异化在于专门针对视觉评测训练,而非把视觉当成 add-on。完整横评见 leaderboard。
在 Cove App 里的真实落地
Cove Photo 用 Gemma 4 做图像理解,因为我们需要同一个模型也处理文本密集的任务(如上下文摘要)。如果 Cove Photo 的价值定位窄到只关注视觉精度 —— 比如发票扫描或博物馆艺术品讲解 App —— MiniCPM-V 4.0 会是首选。MiniCPM-V 的架构启示(激进的视觉 token 压缩能保持质量)影响了 Cove Photo 在相册模式下处理长照片序列的设计。