小米语音首席科学家Daniel Povey深度解析:语音识别领域卷完后,Transformer与TTS(文字转语音)技术引领的AI创新及多模态融合将带来哪些新机遇?| 智者访谈
深入探讨AI的未来与多模态融合
近年来,AI技术的快速发展正在改变各行各业。语音、视觉和自然语言处理等多模态能力的融合,正逐步模糊各领域的边界。以Transformer为代表的通用解决方案,正在重塑传统技术领域。在这一变革的关键时期,深耕细分领域的研究者们如何看待这种趋势?本期《智者访谈》邀请了著名开源语音识别项目Kaldi的创始人、小米集团语音首席科学家Daniel Povey博士,分享他对AI领域的深刻见解。
Kaldi之后的新探索
Povey博士指出,语音技术虽然取得了显著进展,但已进入一个相对低谷期。他目前更关注文字转语音(TTS)技术,尤其是如何在手机上快速运行并保持完美音质。他认为,TTS的发展潜力巨大,未来可能会给机器学习带来全新的启发。
多模态发展:Transformer大一统?
Povey博士对当前流行的Transformer模型持谨慎态度。他认为,如果所有人都使用同一种模型,会导致大量重复研究,阻碍创新。尽管Transformer效果好且效率高,但他强调不同任务应使用不同的模型,以促进工具和方法的多样化发展。
大模型与小模型的权衡
关于大模型和小模型的选择,Povey博士认为规模和效果之间确实有关联,但超大规模实验的成本过高,且难以复现。他提倡中等规模模型,既能看出其扩展性,又方便做实验。此外,他批评了一些研究人员通过大规模数据训练来展示性能优势的做法,认为这对领域进步贡献不大。
研究风格与学术界新趋势
Povey博士反对过度依赖数学证明的研究风格,认为真正的进步在于解决特定领域的问题。他还提到,现在学术界出现了一些新的宣传方式,如社交媒体推广,对此他持保留态度。他认为,互联网时代的论文传播模式应该更加开放和透明,比如ICLR的公开评审机制就是一个很好的尝试。
未来机遇与职业建议
对于未来AI领域的前景,Povey博士看好机器人技术和软件兼容性的改进。他认为,这些领域还有很多未被开发的潜力。对于年轻一代的研究者,他的建议是诚实面对自己真正想要的,不要仅仅为了名利而选择职业道路。学AI不再是轻松致富的捷径,只有真正有才华的人才能在这个领域取得突破。
深度思考与人生哲理
Povey博士还分享了他对AI不可解释性和人类创造力的看法。他认为,AI的不可解释性并不是问题的关键,因为人类大脑的工作原理同样难以解释。同时,他强调人类直觉在技术创新中的重要性,认为机器往往提出过于复杂的解决方案,需要人类简化和解释。