2024年2月,OpenAI的视觉巨擘Sora问世,开创了视觉生成领域技术与商业变革的新纪元。紧接着,AI语音创业翘楚ElevenLabs为Sora的演示视频提供了精准匹配的配音,成功构建起AI视频制作的完整闭环,其中包括其即将推出的AI Sound Effects功能,该功能可依据用户输入的文字自动生成声音。中国的舞龙表演视频便是一例,声音部分由ElevenLabs精彩呈现(视频:Sora,音频:ElevenLabs)。成立仅半年,ElevenLabs已连续完成两轮融资,特别是在2024年1月的B轮融资中,其估值飙升至11亿美元,较之前增长10倍。
在这两轮投资中,知名风投a16z均作为领投方,一同参与的还有前GitHub CEO Nat Friedman与前苹果AI负责人Daniel Gross。此外,A轮融资参与者还包括Instagram联合创始人Mike Krieger、Oculus创始人Brendan Iribe、DeepMind及Inflection AI联合创始人Mustafa Suleyman;而在B轮融资中,SV Angel、红杉资本、BroadLight Capital和Credo Ventures也加入了投资阵营。
ElevenLabs联合创始人兼CEO Mati Staniszewski透露,新筹集的资金将助力公司持续建设先进的声音人工智能研发中心,并推动一系列垂直市场产品的推出,服务于出版、游戏、娱乐和对话应用等领域。公司由前谷歌机器学习工程师Piotr Dabkowski与前Palantir策略师Mati Staniszewski(也是童年的朋友)共同创立于2022年,两人同在波兰长大并在英国完成高等教育。
ElevenLabs早期凭借其文本到语音模型Eleven Multilingual获得了广泛关注,该模型能够生成极为自然的英语AI声音。后续产品中,模型进一步拓展到了Eleven Multilingual v1和v2,增加了对波兰语、德语等多种语言的支持,并推出了声音实验室,用户可在其中复制自己的声音或创造全新合成声音。
据Market US数据,2022年全球音频工具市场规模达12亿美元,预计到2032年将达到近50亿美元,年复合增长率逾15.40%。尽管市场竞争激烈,包括Papercup、Deepdub等创业公司以及像Amazon和OpenAI这样的巨头,但ElevenLabs凭借其对可靠性和可控性的执着追求,致力于为影视、游戏等行业开发者提供高质量、易操作的声音解决方案,有望在全球AI语音市场中占据一席之地。
本文来源: 阿尔法公社公众号【阅读原文】