有声时代来临：谷歌Deepmind推出V2A技术，引领AI视频革命，音频生成丝滑体验震撼网络！

Google Deepmind近期推出了创新的视频到音频（V2A）技术，能够为视频生成逼真的背景音乐、音效以及人物对话，引领AI视频进入“有声时代”。这项技术利用视频像素和文本提示来创建与视频同步的音频波形，通过编码、扩散模型迭代运行和解码过程，将随机噪声转化为真实音频。在官方发布的Demo视频中，V2A技术展现出流畅的效果，包括各种情境下的背景音乐和特定场景的声音，如脚步声、恐龙鸣叫声、鼓声、车流声等。尽管V2A技术目前尚未开源，但它展示了对原始像素的理解，即使没有文本提示，也能为视频添加音频。此外，V2A支持无限数量的音轨生成，允许用户通过正提示和负提示来定制音频输出。尽管人物对话的唇形同步还需改进，但V2A的技术灵活性让用户能更好地控制音频效果。随着未来可能的开源，AI视频领域将迎来更多创新和应用。

本文来源：

头号AI玩家公众号【阅读原文】

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

有声时代来临：谷歌Deepmind推出V2A技术，引领AI视频革命，音频生成丝滑体验震撼网络！

英伟达引领人工智能革命，股市表现强劲，超越微软跃居市值首位

大模型商业探索：从李开复的To C视角到张亚勤的To B战略

相关文章

暂无评论

AI最新资讯