多模态神经网络SALMONN 能够理解声音世界的AI模型

作者:小编 更新时间2023-10-25 19:54:57 点击数:

SALMONN是一个多模态神经网络,能够直接处理和理解包括语音、音频事件和音乐在内的一般音频输入,并在多种语音和音频任务上取得竞争性表现。

image.png

论文地址:https://arxiv.org/pdf/2310.13289v1.pdf

SALMONN采用了两个互补的音频编码器,一个用于处理语音,另一个用于处理非语音音频事件,以实现对各种音频任务的优越性能。

论文提出了激活调整阶段,以解决SALMONN在训练中过度拟合到某些任务的问题,该阶段能够使SALMONN具备跨模态的新能力,如问答和叙述。这一研究有望推动具有通用听觉能力的人工智能的发展。

Tag: 大模型 AI语音
首页 资讯 AI写作 我的