世界上第一个全模态端侧模型,对标GPT-4o!能看会听

作者:13728822601 更新时间2025-01-16 15:05:51 点击数:

1月16日消息,面壁智能发布新一代端侧多模态模型——MiniCPM-o 2.6。模型能力对标 GPT-4o,参数仅8B。

据介绍,MiniCPM-o 2.6能够在「真视频、非照片大模型」等多方面达到以端胜云的水平。而实时流式的音视频通话,则凭借类似 GPT-4o 的全模态实时流式视频理解与高级语音对话,能够实现持续看、实时听、自然说。

据悉,在实时流式视频理解能力的代表榜单 StreamingBench上,MiniCPM-o 2.6性能惊艳,比肩GPT-4o、Claude-3.5-Sonnet。

世界上第一个全模态端侧模型,对标GPT-4o!能看会听,实时对话

在语音理解方面,超越 Qwen2-Audio-7B-Instruct,实现通用模型开源SOTA(包括ASR、语音描述等任务)。

世界上第一个全模态端侧模型,对标GPT-4o!能看会听,实时对话

在语音生成方面,MiniCPM-o 2.6超越 GLM-4-Voice 9B,实现通用模型开源SOTA。

世界上第一个全模态端侧模型,对标GPT-4o!能看会听,实时对话

视觉理解能力更是达到了端侧全模态模型最佳水平,超越 GPT-4o、Claude-3.5-Sonnet。(袁宁)

世界上第一个全模态端侧模型,对标GPT-4o!能看会听,实时对话

本文来自网易科技报道,更多资讯和深度内容,关注我们。


首页 资讯 AI写作 我的