MiniCPM-V 4.0:视觉专精的端侧多模态模型

4.1B 参数、量化 2.5GB、32K 上下文、原生视觉专精 —— MiniCPM-V 4.0 是 OpenBMB 的 mobile 优化视觉模型,OpenCompass 上以小搏大。

最后校验: 2026 年 5 月
参数量4.1 B
量化后大小2.5 GB
上下文长度32,768 tokens
模态text+vision
许可证modelbest-terms
最低 RAM4 GB
版本MiniCPM-V 4.0 (4.1B)
发布2025-08

它是什么?

MiniCPM-V 4.0 是 ModelBest 与 OpenBMB(清华大学孵化的开源社区)2025 年 8 月发布的 MiniCPM-V 系列里的 mobile 优化版。整个系列瞄准一个特定的细分市场:视觉专精的多模态模型,且以 edge 部署为目标的开源权重。和 Gemma 4 / Qwen 3.5 把视觉作为通用大模型的次要能力不同,MiniCPM-V 从设计起就专门针对图像理解任务训练 —— 4.1B 参数版本以小搏大,OpenCompass 视觉评测上击败 GPT-4.1-mini,参数量却只是其零头。

核心规格一览

(请参考上方规格卡,数据来自结构化数据层。)

什么设备能跑?

4.1B 版本 Q4 量化下大约 2.5GB 存储 + 3-4GB RAM 余量(用于视觉编码器)。覆盖 Pixel 8 及以上、iPhone 15 Pro 及以上、iPhone 16 Pro Max(OpenBMB 官方实测设备,跑出 17.9 token/s、首 token 延迟低于 2 秒),以及大多数 4GB+ RAM 现代安卓手机。视觉编码器执行可能成为内存瓶颈 —— 中端机可能需要更激进的量化或更小的输入图像来维持吞吐。

优势与局限

优势。 专精视觉训练在 benchmark 上见效:MiniCPM-V 4.0 在 OpenCompass 拿到 69.0 分,超过 GPT-4.1-mini(2025 年 4 月发布),并以一半参数量追平上一代 MiniCPM-V 2.6(8B)。端侧实测可用:iPhone 16 Pro Max 上 17.9 token/s、首 token 延迟低于 2 秒、无热降频。基于 LLaVA-UHD 架构的 OCR 和文档分析能力突出,OCRBench 领先。OpenBMB 社区活跃,更新频繁。(「6 帧压缩为 64 token、96× 压缩率」是 MiniCPM-V 4.5 新增 3D-Resampler 的特性,详见上方 FAQ V 4.0 与 4.5 的差异。)

局限。 自定义 ModelBest 许可证比 Apache 2.0 / MIT 替代多一道手续。32K 上下文相对较短 —— Gemma 4 128K 的一半,远不如 Qwen 3.5 的 262K。通用性不及同行 —— MiniCPM-V 视觉强但纯文本聊天或长文档推理不是最优。MiniCPM-o 变体加了语音但跳到 9B 参数。

适合什么场景?不适合什么场景?

选 MiniCPM-V 4.0 当: 视觉是你产品的核心价值轴(OCR、图像问答、文档理解、视频摘要);你需要在中等设备上拿到 SOTA 视觉精度;你能处理 ModelBest 许可证登记流程。

别选它当: 你需要文本主导的通用聊天(Gemma 4、Qwen 3.5、Ministral 3B 通用性更好);你需要最简单的许可证(Apache 2.0 替代胜出);你需要长上下文(Qwen 3.5 的 262K 是另一个量级);你需要同模型支持音频(MiniCPM-o 4.5 加了语音但跳到 9B;Gemma 4 和 Phi-4-multimodal 在更小尺寸覆盖这个)。

与相似端侧模型对比

最相近的两位:Llama 3.2 Mobile(纯文本,无视觉)与 Qwen 3.5 2B(也有视觉但更通用)。MiniCPM-V 4.0 的差异化在于专门针对视觉评测训练,而非把视觉当成 add-on。完整横评见 leaderboard

在 Cove App 里的真实落地

Cove Photo 用 Gemma 4 做图像理解,因为我们需要同一个模型也处理文本密集的任务(如上下文摘要)。如果 Cove Photo 的价值定位窄到只关注视觉精度 —— 比如发票扫描或博物馆艺术品讲解 App —— MiniCPM-V 4.0 会是首选。MiniCPM-V 的架构启示(激进的视觉 token 压缩能保持质量)影响了 Cove Photo 在相册模式下处理长照片序列的设计。

在 Cove App 里看真实落地

常见问题

做视觉任务为什么选 MiniCPM-V 而不是 Gemma 4 或 Qwen 3.5?

MiniCPM-V 专门针对视觉任务训练。4.0 版本在 OpenCompass 视觉评测上超过 GPT-4.1-mini,参数量却只是其零头。Gemma 4 和 Qwen 3.5 把视觉作为次要能力添加;MiniCPM-V 在这次对比里是专精视觉的那个。

MiniCPM-V 4.0 和 4.5 有什么区别?

两者都视觉专精。4.0 (4.1B 参数) 是 mobile 优化版,是手机首选 —— Q4 量化下 2.5GB,4GB RAM 设备就能跑。4.5 (8B) OpenCompass 得分更高 (77.0,超 Qwen2.5-VL 72B),并引入统一 3D-Resampler,把 6 帧视频压缩为 64 token (96× 压缩率) 用于高效视频理解 —— 但更大、面向 iPad 和笔记本而非手机。

MiniCPM-o 4.5 是什么?全模态版?

MiniCPM-o 4.5 是 9B 全模态兄弟:在 MiniCPM-V 视觉能力之上加了语音输入输出和全双工实时流。可以理解为 MiniCPM-V 4.5 + 语音 —— 能力范围对标 Gemini 2.5 Flash 但能跑在 iPad M4 上。比 V 4.0 mobile 甜点定位更大的设备。

什么设备能跑 MiniCPM-V 4.0?

Pixel 8 及以上、iPhone 15 Pro 及以上、iPhone 16 Pro Max(OpenBMB 官方实测设备 —— 17.9 token/s、首 token 延迟低于 2 秒),以及大多数 4GB+ RAM 的现代安卓手机。4.1B 参数模型 Q4 量化需要 2.5GB 存储 + 3-4GB RAM 用于图像处理。中端机可能需要更激进的量化或更小的输入图像才能保持吞吐。

MiniCPM 的许可证条款如何?

自定义 ModelBest 条款(schema 里叫 modelbest-terms)。许可证允许商用和修改但需要登记。比 Apache 2.0(Gemma 4、Qwen 3.5、Mistral)或 MIT(Phi)麻烦些,但仍允许企业部署,条款合理。

引用源