1月16日消息,面壁智能发布新一代端侧多模态模型——MiniCPM-o 2.6。模型能力对标 GPT-4o,参数仅8B。
据介绍,MiniCPM-o 2.6能够在「真视频、非照片大模型」等多方面达到以端胜云的水平。而实时流式的音视频通话,则凭借类似 GPT-4o 的全模态实时流式视频理解与高级语音对话,能够实现持续看、实时听、自然说。
据悉,在实时流式视频理解能力的代表榜单 StreamingBench上,MiniCPM-o 2.6性能惊艳,比肩GPT-4o、Claude-3.5-Sonnet。
在语音理解方面,超越 Qwen2-Audio-7B-Instruct,实现通用模型开源SOTA(包括ASR、语音描述等任务)。
在语音生成方面,MiniCPM-o 2.6超越 GLM-4-Voice 9B,实现通用模型开源SOTA。
视觉理解能力更是达到了端侧全模态模型最佳水平,超越 GPT-4o、Claude-3.5-Sonnet。(袁宁)
本文来自网易科技报道,更多资讯和深度内容,关注我们。