标签:视频生成
下一个邻域
(由多段落组成) 近年来,视觉生成任务在人工智能领域中逐渐崭露头角,尤其是在图像和视频生成方面。然而,传统的“下一个token预测”方法在效率上遇到了瓶颈。为了解决这一问题,浙江大学、上海AI Lab等机构的研究团队提出了一种全新的视觉生成范式——邻近自回归建模(Neighboring Autoregressive Modeling, NAR)。 NAR模型通过采用“下一个邻域预测”的机制,将视觉生成过程视为一种逐步扩展的“外绘”过程。具体而言,NAR模型从初始token开始,按照与初始token的曼哈顿距离从小到大依次生成token。这种顺序不仅保留了视觉的...
阿里巴巴通义万相2.1模型重磅升级:首次实现中文文字到视频生成,支持无限长1080P视频高效编解码,大幅提升图像和视频生成能力
感谢IT之家网友 动感超人233、風見暉一、Skyraver 提供的线索。据IT之家报道,阿里巴巴旗下的通义万相于1月10日推出了2.1版本模型升级。此次升级显著提升了视频生成和图像生成的能力。 在视频生成方面,通义万相2.1通过自主研发的高效VAE和DiT架构,增强了时空上下文建模能力。这使得该模型能够支持无限长1080P视频的高效编解码,并首次实现了中文文字到视频的生成功能,在VBench榜单上名列前茅。此外,通义万相2.1不仅支持中英文视频的一键生成艺术字,还提供了多种视频特效选项,如过渡、粒子效果和模拟等,以增强视觉表...
黄仁勋详解物理AI与世界基础模型:英伟达Cosmos平台如何推动视频生成和自动驾驶汽车发展,技术报告全面解析,华人团队贡献中坚力量
AI 的下一个前沿:物理世界模型平台 Cosmos 在昨天的 CES 发布会上,英伟达 CEO 黄仁勋宣布了一个名为「Cosmos」的物理世界模型平台,标志着 AI 技术迈向了新的里程碑。Cosmos 是一个开源、开放权重的世界模型平台,参数量从 40 亿到 140 亿不等,旨在为机器人和自动驾驶汽车等物理世界中的 AI 系统生成大量照片级真实的合成数据,以解决数据稀缺问题。 Cosmos 平台发布详情 此次发布的 Cosmos 平台共包含 8 个模型,这些模型基于 2000 万小时的视频数据进行训练,分为扩散模型(连续 token)和自回归模型(离散 token)...
可灵AI视频生成技术领先,携手共创电影短片商业化新篇章
这次,名导们纷纷下场,带来了令人耳目一新的短片。影片一开始,钟馗手持斩鬼剑,穿梭在黑暗密林中,伴随着急促的锣鼓声,各种妖怪相继出现,营造出紧张恐怖的氛围。然而,一声长喝后,镜头一转,屏幕上出现了“勿扰模式”的提示,下方滚动着被拦截的信息:自动记账APP、视频会议、未知号码来电、微信群消息、风险网站链接,以及老板的电话……最终画面定格在“休假期间,百鬼勿扰”几个字上。原本以为是一部中式志怪片,没想到却是一部职场吐槽片。 更令人惊喜的是,这部由俞白眉导演执导的5分钟短片,竟然完全由可灵AI创作完成...
OpenAI 推出 Sora:AI 视频生成技术助力故事板创作,王者归来引领未来潮流
OpenAI Sora 正式上线,298天的等待终成现实 今晚2点,OpenAI Day3的直播如期举行。经过298天的漫长等待,备受期待的Sora终于正式上线了。不仅是一个模型,Sora更是一个体验极佳的成熟产品。访问地址:[sora.com](http://sora.com) Sora的背后是一个全新的模型——Sora Turbo。这个模型的推理成本大幅降低,这也是OpenAI为何将Sora推迟至今的原因。此前的模型在推理过程中消耗巨大,难以大规模推广。 尽管Sora是新产品,但其会员体系与ChatGPT全面打通。20美元的Plus会员可以生成最多50个视频,分辨率为720P,时长为5秒,...
新版Sora即将发布?泄露视频引发关注,强化微调技术加持,网友热议价格问题,与OpenAI、ChatGPT Pro竞争加剧
近日,OpenAI 正在进行一场为期 12 天的密集发布活动,引发了广泛的关注。首日推出的 o1 完全体和每月 200 美元的 ChatGPT Pro 订阅计划,刷新了人们对 AI 大模型定价的认知。次日,OpenAI 发布了强化微调(Reinforcement Fine-Tuning)技术,吸引了众多研究者和开发者的兴趣。那么,第三天会有什么惊喜呢?种种迹象表明,很可能是新版本的 Sora。 这一猜测源自 OpenAI 创意专家 Chad Nelson 在伦敦 C21Media 活动中的一次分享。在活动中,Nelson 播放了多段由 Sora 生成的视频,并详细介绍了其中的一些细节。例如,在一个...
字节跳动旗下的AI助手豆包已正式推出图片理解功能
12月4日,IT之家报道,根据界面新闻的消息,字节跳动旗下的AI助手豆包已正式推出图片理解功能。这一新功能使得豆包App和PC版本新增了照片及相机按钮,用户可以上传图片并让豆包识别图片中的。豆包的图片理解功能不仅能够识别图片中的各种元素和基本特征,还能帮助用户了解图片中特定景点的位置或某个角色所属的影视作品。 此外,豆包在11月份还推出了视频生成的内测功能,这一功能支持用户通过简单的图片和文字输入,快速生成高质量的视频。视频生成功能还包括动态运镜和多镜头一致性调整,以及多种风格和比例的选择,为用...
即梦AI上线PixelDance视频生成模型,用户可在AI内容平台Seaweed上免费体验创新技术
11月15日,字节跳动推出了两款全新的视频生成模型——PixelDance和Seaweed,这些模型已在即梦AI平台上正式上线,并向公众免费开放使用。用户只需进入即梦AI的“视频生成”页面,选择“视频P2.0 Pro”或“视频S2.0 Pro”模型,即可轻松体验这两款先进的视频生成技术。目前,无论是网页版还是手机端应用,都已全面支持这一功能。 这两款模型早在9月底就首次发布,并通过即梦AI和火山引擎进行了小范围的内部测试,主要面向创作者和企业客户。根据内测用户的反馈,PixelDance在生成10秒视频时,如果切换镜头3-5次,效果最佳,场景和角色...
清华团队利用AI技术整活:马斯克穿上东北大花袄、李白穿上背带裤,展现多主体一致性视频生成Vidu 1.5新成果
粉色连衣裙与美女 一位身穿粉色连衣裙、留着黑色大波浪发型的美女,惊恐地转过身来,露出了一个神似张宋小宝的娇俏面庞。她的嘴唇微张,似乎有话要说。 马斯克的新造型 美国的“三好青年”马斯克,竟然穿上了东北大花袄,站在白宫前。他双手插兜,略显局促地露出了一个拘谨而正派的微笑。 小樱与蕾姆的购物之旅 另一边,魔卡少女小樱正拉着隔壁的蕾姆在三里屯商场逛街。对于见过各种P图软件和AI技术的人来说,这些效果早已不再新鲜。有人甚至轻描淡写地说:“早半年前,我就见过这种效果了。不仅能给马斯克换装,还能让他跳...
昆仑万维 SkyReels AI 短剧平台优化剧本与视频生成能力,12 月 10 日正式登陆美国市场
昆仑万维宣布 AI 短剧平台 SkyReels 即将登陆美国市场 据 IT之家报道,昆仑万维宣布其旗下的 AI 短剧平台 SkyReels 将于 12 月 10 日正式在美国上线。官方表示,SkyReels 在剧本生成方面进行了多项创新,提供了丰富的爆款创意模板。特别是剧本生成能力得到了显著提升,尤其是在短剧的“爽点”生成上,目前生成的剧本质量平均可达人工剧本评级中的 A 或 S 级。 SkyReels 提供多样化的剧本生成库 SkyReels 向用户提供了丰富的剧本生成库,这些库由昆仑万维精心打造,旨在为用户提供更多创作灵感。此外,研发团队还增加了 AI ...