MiniCPM-V 4.0：ModelBest 视觉专精端侧 MLLM

参数量	4.1 B
量化后大小	2.5 GB
上下文长度	32,768 tokens
模态	text+vision
许可证	modelbest-terms
最低 RAM	4 GB
版本	MiniCPM-V 4.0 (4.1B)
发布	2025-08

参数量

4.1 B

量化后大小

2.5 GB

上下文长度

32,768 tokens

模态

text+vision

许可证

modelbest-terms

最低 RAM

4 GB

版本

MiniCPM-V 4.0 (4.1B)

发布

2025-08

它是什么？

MiniCPM-V 4.0 是 ModelBest 与 OpenBMB（清华大学孵化的开源社区）2025 年 8 月发布的 MiniCPM-V 系列里的 mobile 优化版。整个系列瞄准一个特定的细分市场：视觉专精的多模态模型，且以 edge 部署为目标的开源权重。和 Gemma 4 / Qwen 3.5 把视觉作为通用大模型的次要能力不同，MiniCPM-V 从设计起就专门针对图像理解任务训练 —— 4.1B 参数版本以小搏大，OpenCompass 视觉评测上击败 GPT-4.1-mini，参数量却只是其零头。

核心规格一览

（请参考上方规格卡，数据来自结构化数据层。）

什么设备能跑？

4.1B 版本 Q4 量化下大约 2.5GB 存储 + 3-4GB RAM 余量（用于视觉编码器）。覆盖 Pixel 8 及以上、iPhone 15 Pro 及以上、iPhone 16 Pro Max（OpenBMB 官方实测设备，跑出 17.9 token/s、首 token 延迟低于 2 秒），以及大多数 4GB+ RAM 现代安卓手机。视觉编码器执行可能成为内存瓶颈 —— 中端机可能需要更激进的量化或更小的输入图像来维持吞吐。

优势与局限

优势。 专精视觉训练在 benchmark 上见效：MiniCPM-V 4.0 在 OpenCompass 拿到 69.0 分，超过 GPT-4.1-mini（2025 年 4 月发布），并以一半参数量追平上一代 MiniCPM-V 2.6（8B）。端侧实测可用：iPhone 16 Pro Max 上 17.9 token/s、首 token 延迟低于 2 秒、无热降频。基于 LLaVA-UHD 架构的 OCR 和文档分析能力突出，OCRBench 领先。OpenBMB 社区活跃，更新频繁。（「6 帧压缩为 64 token、96× 压缩率」是 MiniCPM-V 4.5 新增 3D-Resampler 的特性，详见上方 FAQ V 4.0 与 4.5 的差异。）

局限。 自定义 ModelBest 许可证比 Apache 2.0 / MIT 替代多一道手续。32K 上下文相对较短 —— Gemma 4 128K 的一半，远不如 Qwen 3.5 的 262K。通用性不及同行 —— MiniCPM-V 视觉强但纯文本聊天或长文档推理不是最优。MiniCPM-o 变体加了语音但跳到 9B 参数。

适合什么场景？不适合什么场景？

选 MiniCPM-V 4.0 当： 视觉是你产品的核心价值轴（OCR、图像问答、文档理解、视频摘要）；你需要在中等设备上拿到 SOTA 视觉精度；你能处理 ModelBest 许可证登记流程。

别选它当： 你需要文本主导的通用聊天（Gemma 4、Qwen 3.5、Ministral 3B 通用性更好）；你需要最简单的许可证（Apache 2.0 替代胜出）；你需要长上下文（Qwen 3.5 的 262K 是另一个量级）；你需要同模型支持音频（MiniCPM-o 4.5 加了语音但跳到 9B；Gemma 4 和 Phi-4-multimodal 在更小尺寸覆盖这个）。

与相似端侧模型对比

最相近的两位：Llama 3.2 Mobile（纯文本，无视觉）与 Qwen 3.5 2B（也有视觉但更通用）。MiniCPM-V 4.0 的差异化在于专门针对视觉评测训练，而非把视觉当成 add-on。完整横评见 leaderboard。

在 Cove App 里的真实落地

Cove Photo 用 Gemma 4 做图像理解，因为我们需要同一个模型也处理文本密集的任务（如上下文摘要）。如果 Cove Photo 的价值定位窄到只关注视觉精度 —— 比如发票扫描或博物馆艺术品讲解 App —— MiniCPM-V 4.0 会是首选。MiniCPM-V 的架构启示（激进的视觉 token 压缩能保持质量）影响了 Cove Photo 在相册模式下处理长照片序列的设计。

常见问题

做视觉任务为什么选 MiniCPM-V 而不是 Gemma 4 或 Qwen 3.5？

MiniCPM-V 专门针对视觉任务训练。4.0 版本在 OpenCompass 视觉评测上超过 GPT-4.1-mini，参数量却只是其零头。Gemma 4 和 Qwen 3.5 把视觉作为次要能力添加；MiniCPM-V 在这次对比里是专精视觉的那个。

MiniCPM-V 4.0 和 4.5 有什么区别？

两者都视觉专精。4.0 (4.1B 参数) 是 mobile 优化版，是手机首选 —— Q4 量化下 2.5GB，4GB RAM 设备就能跑。4.5 (8B) OpenCompass 得分更高 (77.0，超 Qwen2.5-VL 72B)，并引入统一 3D-Resampler，把 6 帧视频压缩为 64 token (96× 压缩率) 用于高效视频理解 —— 但更大、面向 iPad 和笔记本而非手机。

MiniCPM-o 4.5 是什么？全模态版？

MiniCPM-o 4.5 是 9B 全模态兄弟：在 MiniCPM-V 视觉能力之上加了语音输入输出和全双工实时流。可以理解为 MiniCPM-V 4.5 + 语音 —— 能力范围对标 Gemini 2.5 Flash 但能跑在 iPad M4 上。比 V 4.0 mobile 甜点定位更大的设备。

什么设备能跑 MiniCPM-V 4.0？

Pixel 8 及以上、iPhone 15 Pro 及以上、iPhone 16 Pro Max（OpenBMB 官方实测设备 —— 17.9 token/s、首 token 延迟低于 2 秒），以及大多数 4GB+ RAM 的现代安卓手机。4.1B 参数模型 Q4 量化需要 2.5GB 存储 + 3-4GB RAM 用于图像处理。中端机可能需要更激进的量化或更小的输入图像才能保持吞吐。

MiniCPM 的许可证条款如何？

自定义 ModelBest 条款（schema 里叫 modelbest-terms）。许可证允许商用和修改但需要登记。比 Apache 2.0（Gemma 4、Qwen 3.5、Mistral）或 MIT（Phi）麻烦些，但仍允许企业部署，条款合理。

应用

适用场景

了解

获取 Cove

信任

MiniCPM-V 4.0：视觉专精的端侧多模态模型

它是什么？

核心规格一览

什么设备能跑？

优势与局限

适合什么场景？不适合什么场景？

与相似端侧模型对比

在 Cove App 里的真实落地

在 Cove App 里看真实落地

常见问题

引用源

它是什么？

核心规格一览

什么设备能跑？

优势与局限

适合什么场景？不适合什么场景？

与相似端侧模型对比

在 Cove App 里的真实落地

相关模型

在 Cove App 里看真实落地

常见问题

引用源