aiOla推出Whisper-Medusa:高效语音模型
近日,生成式AI初创公司aiOla在其官方网站上开源了一款名为Whisper-Medusa的新型语音模型。这款模型相较于OpenAI开源的Whisper,在推理效率上实现了高达50%的提升。这一突破性的进展主要得益于aiOla团队对Whisper架构所做的创新性改进,特别是在引入“多头注意力”机制方面的努力。
多头注意力机制加速推理过程
传统的Transformer架构在生成序列时,采用逐个token的顺序预测方法。这种方法虽然能够保持序列的连贯性和上下文相关性,但却显著降低了模型的推理效率,并且难以有效捕捉数据中的长程依赖关系。为了解决这些问题,Whisper-Medusa采用了10头的多注意力机制。这些注意力头可以独立计算注意力分布,并行处理输入数据,然后通过拼接的方式组合各自的输出,形成一个多维度向量。这种方式不仅提高了模型的推理速度,还增强了模型的表达能力,使其能够捕捉更丰富的上下文信息。
弱监督学习提高模型效率
为了确保多头注意力机制在Whisper-Medusa中更加高效地运行,aiOla采用了弱监督的学习方法。在训练过程中,他们冻结了原始Whisper模型的主要组件,并利用该模型生成的音频转录作为伪标签来训练额外的token预测模块。这种方法使得模型即使在缺乏大量人工标注数据的情况下也能学习到有效的语音识别模式。
损失函数平衡准确性和效率
Whisper-Medusa的训练过程中,损失函数的设计需兼顾预测准确性和效率。一方面,模型需要确保预测的token序列与实际转录的一致性;另一方面,通过多头注意力机制的并行预测,模型能够在保证精度的同时尽可能提高预测效率。为了实现这一目标,aiOla团队采用了学习率调度、梯度裁剪和正则化等技术手段,确保模型训练过程中的稳定性,同时避免过拟合。
广泛的应用前景
Whisper-Medusa支持超过100种语言,这使得它在多种业务场景中具有广泛的应用潜力。用户可以利用这款模型开发音频转录、识别等应用程序,服务于翻译、金融、旅游、物流等多个行业。展望未来,aiOla计划进一步扩展Whisper-Medusa的多注意力机制至20个头,预计将带来更大幅度的推理效率提升。
本文来源: AIGC开放社区公众号【阅读原文】