AI数字人驱动口播视频批量生产,结合视频剪辑工具与AI眼神矫正技术,UGC内容生成如何在红海市场中既卷又赚?

近年来,AI技术的飞速发展已经开始渗透到各个领域,甚至影响到了素人博主的生存空间。最近一组在社交媒体上小范围爆火的“数字人带货视频”,标志着AI生成技术进入了全新的2.0时代。这些由AI生成的数字人不仅在说话神态和肢体动作上与真人博主极为相似,甚至连细微的表情变化都惟妙惟肖,让人难以分辨真假。

这组视频迅速引起了广泛关注,并得到了AI视频圈知名博主以及顶级投资机构如红杉资本、a16z等的高度评价。其中,多条推文浏览量突破10万大关,更被业内人士誉为“终结了AI视频对口型的时代”。过去,AI数字人通常只是进行简单的对口型动作,而新一代的AI数字人已经能够高度还原真人口播效果,包括精准的口型同步、自然的表情管理和协调的肢体动作。

这些令人惊艳的AI生成视频背后,依赖的是一个名为“Mirage”的基础模型,该模型由AI视频编辑工具Captions近期推出。官方宣称,Mirage是全球首个专为UGC(用户生成)设计的AI模型。用户只需提供脚本或音频文件,就能定制数字人的外貌、背景、着装及情绪,从而生成符合TikTok等主流短视频平台风格的UGC视频。

实际上,Captions这款工具早在社交媒体上就已积累了良好的用户口碑,被誉为“超越剪映和PR的AI剪辑神器”。凭借AI生成3D虚拟形象、智能剪辑、精准对口型等功能,Captions在2023年实现了快速增长,移动端下载量超过1000万次。2024年7月,Captions成功完成了6000万美元的C轮融资,据第三方数据显示,其年营收高达900万美元。

此外,在硅谷知名风投机构a16z发布的2025年全球100大AI消费级应用报告中,Captions被列为最会赚钱的AI音视频应用之一,属于低调但吸金能力极强的一类AI应用。

那么,Captions的成功秘诀到底是什么?在短视频制作领域,大多数人首先想到的可能是字节旗下的剪映。然而,从Captions的发展历程来看,剪映“大而全”的产品定位反而成为了某些场景下的使用瓶颈,为Captions这类应用提供了增长机会。

Captions于2020年底正式上线iOS端,主打“为Talking Video而生”。Talking Video即口播视频,这种形式要求博主真人出镜录制,目前已成为国内外主流短视频平台上最常见的短视频类型。从前期策划、中期拍摄到后期制作,Captions针对口播视频制作流程解决了诸多痛点,例如智能字幕生成、AI眼神矫正、虚拟数字人创建和多语言适配等功能。

对于新手博主来说,面对镜头时难免紧张,容易出现表情不自然、卡壳、眼神飘忽等问题。以AI眼神矫正功能为例,我们尝试将一段马斯克全程未看镜头的对谈视频交给Captions处理。结果显示,经过AI矫正后,视频中的马斯克表现出更强的镜头感,与观众的眼神交流也更加自然。

尽管剪映在口播视频制作方面也有相关功能支持,但Captions的产品设计显然更贴近AI原生应用的逻辑:功能虽不追求全面,却通过减少决策步骤提升了效率。例如,Captions的智能字幕功能被设定为默认必选项,且是视频导入后的前置步骤。相比之下,剪映的操作界面相对复杂,用户需要进入“文本”菜单再选择“智能字幕”才能开启功能。

此外,Captions还推出了“全球首个专为UGC生成而设计的AI模型”Mirage,现阶段订阅价格为前三个月199美元,之后每月799美元。虽然Mirage生成的数字人更加自然逼真,但每段视频制作时长仅限4秒,远未达到商用标准。不过,这一定位巧妙地切入了UGC生成领域,吸引了大量非专业创作者,如自媒体创业者、跨境小商家和小型MCN机构。

在AI视频剪辑赛道上,Captions面临的竞争对手不仅有强大的剪映,还包括其他初创企业推出的类似产品,如Veed、Zeemo和Clipchamp等。其中,蓝色脉动推出的海外产品Zeemo(国内版为绘影字幕)尤其值得关注。Zeemo专注于字幕生成领域,支持95种以上语言,相比Captions的29种语言优势明显。凭借多语言转录及翻译功能,Zeemo获得了快速增长,移动端总下载量超700万,尤其是在印度、巴西和巴基斯坦等新兴市场表现突出。

总的来说,AI视频剪辑赛道的竞争激烈且利润丰厚。尽管面临行业巨头的压力,只要能在起步阶段打造出一个出圈功能,初创公司就能在AI浪潮中分得一杯羹。正如早期短视频行业的滤镜或模板成就了现象级产品,深耕细分场景才是初创企业的制胜之道。

本文来源: AI新榜公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...