值得买科技与人大高瓴人工智能学院联袂展示多模态领域最新研究成果亮相CNCC2024
梦晨
2024-10-25 13:26:07
来源:量子位
10月24日至26日,2024年中国计算机大会(CNCC2024)在横店成功举办。在24日的“AI+影视创作超级论坛”上,中国人民大学高瓴人工智能学院长聘副教授宋睿华详细介绍了与值得买科技合作的首个研究成果《TiVA: Time-aligned Video-to-Audio Generation》(《TiVA:时序同步的视频到音频生成》)。这项技术不仅显著提升了AIGC生成的质量和智能化水平,还为多模态生成开辟了新的可能性。
CNCC2024由中国计算机学会主办,是我国计算领域规模最大的学术、技术、教育和产业盛会。大会以“发展新质生产力,计算引领未来”为主题,吸引了包括图灵奖获得者、国内外院士、知名专家、教育家、企业家在内的众多专业人士,共同探讨学术新进展、应用新技术、分享创新成果、展望前沿趋势。
《TiVA: Time-aligned Video-to-Audio Generation》这一研究成果在今年7月被国际多媒体学术会议(ACM International Conference on Multimedia 2024,简称ACM MM 2024)录用,并被选为口头报告。ACM MM 2024是由国际计算机协会(ACM)发起的多媒体处理、分析与计算领域最具影响力的国际顶级会议。此外,该研究成果已获得国家发明专利授权(专利名称:音频生成方法、视频生成方法、装置、设备和介质,公开号ZL 202410613827.3)。
早在2023年6月,值得买科技就与中国人民大学高瓴人工智能学院宋睿华团队建立了合作关系,专注于大模型、AI创作等领域的研究。除了TiVA,双方还计划近期发布多个AI研究成果,包括面向电商领域的共享基座检索增强架构(BSharedRAG)和多模态知识增强的视觉信息查询(MuKA)。
TiVA的研究重点在于多模态创作和交互领域。当前,视频和音频的同步生成是多模态生成的主要技术难题,大多数现有方法仅能实现视觉和声音模态的语义匹配,但难以在时间上实现精确同步。值得买科技与宋睿华团队通过深入研究,提出了新颖的时序同步视频到音频生成框架——TiVA。该框架通过引入音频布局的概念,实现了从视频到音频的高质量生成。其核心在于音频布局的创新使用,通过低分辨率的Mel频谱图提供粗略的音频结构布局,帮助模型更好地理解和预测声音的起始和结束时间,从而实现更精确的时间对齐。
宋睿华教授在演讲中详细解释了TiVA的实现路径:通过新的音频信息表征形式——Audio Layout(极低分辨率的梅尔谱),表示音频的粗粒度语义和时间信息。在无声视频中,首先对视觉语义进行编码并预测Audio Layout,然后利用语义编码和预测的Audio Layout作为条件信息,训练一个扩散模型生成音频。实验结果显示,TiVA在生成质量、语义匹配和时间同步精度方面均优于现有的SOTA方法。
在TiVA、BSharedRAG、MuKA等创新框架的研究过程中,值得买科技提供了必要的集群算力支持和高质量的脱敏数据支持。平台积累的大量真实用户图文、视频素材和全方位的用户行为数据,为研究人员提供了真实的消费互联网验证场景。实验结果表明,TiVA不仅提高了语义匹配和时间同步的精确度,还将生成速度提升了约40%。
宋睿华教授在现场表示,这次合作不仅在技术上取得了突破,还在学术研究和实际应用之间搭建了桥梁。这得益于研究人员的专业和严谨,以及值得买科技对学术研究的大力支持。他相信,这种合作模式为学术界与产业界的合作树立了典范,并期待双方继续携手探索AI的新边界,为学术研究与创新应用带来更多价值。
作为一家技术驱动型公司,值得买科技始终致力于通过先进技术提升供需两端的连接效率。公司坚信,优质具有不可替代的价值,在消费领域不仅能够帮助消费者高效决策,还能有效帮助品牌和平台建立用户认知与认可。因此,值得买科技始终坚持以为核心,以技术为驱动,此次合作成果正是以AI技术能力提升创作水平的完美结合。
今年5月,值得买科技正式发布了全面AI战略,基于AI对现有业务和产品进行升级重塑,利用AI重塑生产流程,不断提升生产能力和质量。在AI能力建设方面,值得买科技构建了由“1个大模型、2个数据库、3个引擎、4类应用”组成的AI产品矩阵,并将“什么值得买APP”升级为“AI原生的什么值得买GEN2”,打造了一个基于用户个性化兴趣,应用AI技术对全网消费进行搜集、分析、提炼、推荐的消费平台。借助AI,平台能够主动为用户提取和理解、商品、价格等消费信息,基于用户兴趣提供个性化的消费建议。已上线的AI购物助手“小值”能够深度理解用户意图,总结全网实时消费经验与电商信息,提供口碑总结、商品对比、商品推荐、全网比价等服务。
除了自身AI能力的持续提升,值得买科技还积极与外部多领域合作伙伴共建“AI+兴趣”双轮驱动的消费生态。在AI生态方面,公司与月之暗面、智谱华章、讯飞星火、MiniMax、腾讯云、百度云等通用大模型企业合作;在生态方面,与36氪、汽车之家、省广集团等进行合作;在产学研协同方面,与中国人民大学、南开大学、中欧国际工商学院、中央财经大学商学院等高校联合探索AI创新协同新路径。近期,值得买科技与人大共同研究的两项AI创新成果也将面世。
未来,值得买科技将继续坚持全面AI战略,携手更广泛的合作伙伴,共同探索AI在学术、技术、商业上的创新和应用,推动AI生态创新协同发展,为创造消费信息自由流动的美好世界贡献力量。
本文来源: 量子位【阅读原文】