Google Deepmind近期推出了创新的视频到音频(V2A)技术,能够为视频生成逼真的背景音乐、音效以及人物对话,引领AI视频进入“有声时代”。这项技术利用视频像素和文本提示来创建与视频同步的音频波形,通过编码、扩散模型迭代运行和解码过程,将随机噪声转化为真实音频。在官方发布的Demo视频中,V2A技术展现出流畅的效果,包括各种情境下的背景音乐和特定场景的声音,如脚步声、恐龙鸣叫声、鼓声、车流声等。尽管V2A技术目前尚未开源,但它展示了对原始像素的理解,即使没有文本提示,也能为视频添加音频。此外,V2A支持无限数量的音轨生成,允许用户通过正提示和负提示来定制音频输出。尽管人物对话的唇形同步还需改进,但V2A的技术灵活性让用户能更好地控制音频效果。随着未来可能的开源,AI视频领域将迎来更多创新和应用。
本文来源: 头号AI玩家公众号【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...