世界上第一个全模态端侧模型，对标GPT-4o！能看会听

作者：13728822601 更新时间2025-01-16 15:05:51 点击数：

1月16日消息，面壁智能发布新一代端侧多模态模型——MiniCPM-o 2.6。模型能力对标 GPT-4o，参数仅8B。

据介绍，MiniCPM-o 2.6能够在「真视频、非照片大模型」等多方面达到以端胜云的水平。而实时流式的音视频通话，则凭借类似 GPT-4o 的全模态实时流式视频理解与高级语音对话，能够实现持续看、实时听、自然说。

据悉，在实时流式视频理解能力的代表榜单 StreamingBench上，MiniCPM-o 2.6性能惊艳，比肩GPT-4o、Claude-3.5-Sonnet。

在语音理解方面，超越 Qwen2-Audio-7B-Instruct，实现通用模型开源SOTA（包括ASR、语音描述等任务）。

在语音生成方面，MiniCPM-o 2.6超越 GLM-4-Voice 9B，实现通用模型开源SOTA。

视觉理解能力更是达到了端侧全模态模型最佳水平，超越 GPT-4o、Claude-3.5-Sonnet。（袁宁）

本文来自网易科技报道，更多资讯和深度内容，关注我们。

Chat AI人工智能机器人在线使用

随便看看