标签：扩散模型

生成对抗网络（GAN）强势回归：R3GAN模型大幅简化，训练更加稳定，挑战扩散模型，独特损失函数助力AI社区热议不断

GANs 的复兴：2025 年能否击败扩散模型？在2025年，生成对抗网络（GAN）是否能够重新崛起并超越扩散模型？答案是肯定的！本周五，AI社区开始讨论一种全新的极简主义GAN。这篇现代版GAN基准论文不仅成为HuggingFace上的热门研究，还入选了NeurIPS 2024。现代化改造使 GAN 更具竞争力该研究团队通过引入新的损失函数，解决了以往GAN模式崩溃和不稳定性的问题。他们对StyleGAN2进行了最简升级，并命名为R3GAN。尽管方法简单，但R3GAN在图像生成和数据增强任务上表现优异，超越了所有现有的GAN和扩散模型。解决传统问...

来源：

机器之心【阅读原文】
Tags：- 生成对抗网络 GAN R3GAN 扩散模型损失函数

3个月前

北京大学与字节跳动合作的VAR项目在NeurIPS 2024中荣获最佳论文奖，厦门大学与清华大学团队获得亚军——聚焦人工智能、自回归模型及扩散模型的最新进展

近日，人工智能领域顶级会议NeurIPS公布了2024年的最佳论文奖项，包括最佳论文（Best Paper）和最佳论文亚军（Best Paper Runner-up）。此次评选吸引了众多研究者的关注，共收到了15671篇有效论文投稿，比去年增长了27%，但最终接收率仅为25.8%。最佳论文论文1：《Visual Autoregressive Modeling： Scalable Image Generation via Next-Scale Prediction》 - 作者： Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang - 机构：北京大学、字节跳动 - 论文链接： [https：//arxiv.org/pdf/2404.02905](http...

来源：

机器之心【阅读原文】
Tags：- 语言模型预训练 NeurIPS 人工智能扩散模型自回归模型

4个月前

华盛顿大学突破性研究：AI逆向绘画技术让你一键重现梵高的《星空》杰作

最近，一项名为“逆向绘画”的技术引起了广泛关注。华盛顿大学的研究人员开发了一项新技术，能够将任何图片转化为梵高风格的绘画作品。这项技术不仅能够重现梵高的经典之作《星空》，还能展示整个绘画过程。以下是详细解析。逆向绘画技术概述这项名为“Inverse Painting”的技术已经入选SIGGRAPH Asia 2024。研究人员通过学习真实艺术家的绘画视频，结合文本和区域理解来定义绘画指令，并使用基于扩散的渲染器逐步更新画布。具体步骤如下： 1. 学习艺术家的绘画过程：研究人员收集了294个丙烯酸风景画绘画过程视频（平均时...

来源：

量子位【阅读原文】
Tags：《星空》华盛顿大学扩散模型梵高逆向绘画

6个月前

TransFusion: Meta Unifies Language and Image with Transformer and Diffusion for Multi-Modal AI Dominance

Meta发布TransFusion：统一文本与图像生成的多模态AI模型 # 随着人工智能领域的不断发展，Meta近日推出了一款名为TransFusion的新型多模态AI模型，该模型能够在单一框架内同时生成高质量的文本和图像。这款模型通过巧妙地结合Transformer和扩散模型的优点，为构建真正意义上的多模态AI模型开辟了新的路径。 TransFusion的核心创新在于：它将语言建模（下一个token预测）与扩散模型相结合，实现了在混合模态序列上训练单个Transformer的目标。研究团队从零开始，在混合文本和图像数据上预训练了一个参数量高达70亿的TransF...

来源：

新智元公众号【阅读原文】
Tags：Meta Transformer TransFusion 多模态AI模型扩散模型

7个月前

虚拟试衣新突破：CatVTON与扩散模型结合，自我注意力机制助力轻量化模型架构——从寡姐国风Polo衫到马斯克牛仔红毯秀

近期，一款名为CatVTON的轻量化模型架构引起了广泛关注，它能够实现快速而真实的虚拟试衣体验。这款创新技术不仅能够轻松实现从一张平面服装图到人体模型的换装，还能实现不同人物间的服装交换，极大地拓展了虚拟试衣的应用场景。下面我们将详细介绍这项技术的特点及其实现原理。创新技术：CatVTON CatVTON是一种基于扩散模型的虚拟试衣技术，能够在极短的时间内（不到30秒）完成高质量的虚拟试穿效果。无论是现实中的服装还是二次元风格，无论是上衣、裤子还是全套搭配，CatVTON都能轻松应对，保持服装的形状和纹理高度...

来源：

量子位【阅读原文】
Tags：CatVTON 扩散模型自我注意力虚拟试衣轻量化模型架构

8个月前

AutoStudio与中山大学&联想联合研发：多智能体协同优化扩散模型，打造连环画角色一致性新高度！

中山大学与联想团队合作开发的AutoStudio是一个创新的多智能体协同框架，无需训练即可处理复杂的连环画角色一致性问题。AutoStudio利用三个基于大语言模型的智能体进行交互，并采用扩散模型的Drawer生成高质图像。这款工具在处理多轮交互式图像生成时，能有效地维持角色一致性，即使在频繁切换主体和复杂人物互动的场景下。 AutoStudio设计有四个定制智能体，包括主题管理器、布局生成器、监督员和绘制器。主题管理器识别和分配主题，布局生成器控制主题位置，监督员提供布局修正，而绘制器负责最终的图像生成。研究者引入...

来源：

量子位【阅读原文】
Tags：AutoStudio 中山大学多智能体协同扩散模型联想

10个月前