有声时代来临:谷歌Deepmind推出V2A技术,引领AI视频革命,音频生成丝滑体验震撼网络!

Google Deepmind近期推出了创新的视频到音频(V2A)技术,能够为视频生成逼真的背景音乐、音效以及人物对话,引领AI视频进入“有声时代”。这项技术利用视频像素和文本提示来创建与视频同步的音频波形,通过编码、扩散模型迭代运行和解码过程,将随机噪声转化为真实音频。在官方发布的Demo视频中,V2A技术展现出流畅的效果,包括各种情境下的背景音乐和特定场景的声音,如脚步声、恐龙鸣叫声、鼓声、车流声等。尽管V2A技术目前尚未开源,但它展示了对原始像素的理解,即使没有文本提示,也能为视频添加音频。此外,V2A支持无限数量的音轨生成,允许用户通过正提示和负提示来定制音频输出。尽管人物对话的唇形同步还需改进,但V2A的技术灵活性让用户能更好地控制音频效果。随着未来可能的开源,AI视频领域将迎来更多创新和应用。

本文来源: ​头号AI玩家公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...