在古老的黄土高原,秦腔的回响唤醒了沉睡千年的兵马俑,带来了一场震撼人心的表演。在《2024中国・AI 盛典》中,通过阿里巴巴通义实验室的尖端技术EMO,兵马俑与宝石Gem共同演绎了《从军行》,生动再现历史与现代的交融。这项技术不仅让北宋文豪苏轼“复活”,与李玉刚共唱《水调歌头》,更在社交媒体上引发热议,如“高启强化身罗翔普法”等热门话题。
EMO是AI领域的创新之作,只需照片和音频,就能创造逼真的唱演视频,精确匹配音频节奏。在通义APP上,用户可以亲自体验EMO的魅力,参与“全民舞台”创作。EMO的技术基础——弱控制设计,解决了传统方法中音频信息压缩和情绪表达的问题,无需复杂的预处理即可生成自然流畅的视频。
今年2月,通义实验室公开了EMO的相关论文,获得了高度赞誉。EMO的音视频数据集涵盖了广泛的表达和声音风格,通过高保真数据编码算法,保留了原始信息的丰富细节。在视频生成领域,EMO的出现挑战了现有的技术架构,展示了弱控制理念的优势,为人物视频生成开辟了新路径。
视频生成赛道竞争激烈,通义实验室凭借EMO等技术跃入全球第一梯队。尽管Transformer架构的DiT模型在视频生成中取得突破,但EMO并未依赖Transformer,依然能模拟真实世界。未来,视频生成技术将探索更多技术路线,满足不同场景的需求,如关键点驱动、视频驱动、音频驱动等。
通义实验室在视频生成领域积累了深厚的技术基础,包括人物动作、换装、角色替换和唱演视频生成框架。随着视频内容的爆炸式增长,人们期待AI视频生成平台能服务于专业内容创作者。EMO的技术突破和通义App的落地应用,预示着“人人可用”的专业级AI视频生成时代正在来临。
本文来源: 机器之心公众号【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...