标签:图像生成
下一个邻域
(由多段落组成) 近年来,视觉生成任务在人工智能领域中逐渐崭露头角,尤其是在图像和视频生成方面。然而,传统的“下一个token预测”方法在效率上遇到了瓶颈。为了解决这一问题,浙江大学、上海AI Lab等机构的研究团队提出了一种全新的视觉生成范式——邻近自回归建模(Neighboring Autoregressive Modeling, NAR)。 NAR模型通过采用“下一个邻域预测”的机制,将视觉生成过程视为一种逐步扩展的“外绘”过程。具体而言,NAR模型从初始token开始,按照与初始token的曼哈顿距离从小到大依次生成token。这种顺序不仅保留了视觉的...
GPT-4o原生图像生成功能上线,OpenAI多模态模型引领AI技术革新,轻松实现P图与生图新体验
(由多段落组成) 在 DeepSeek V3 进行“小版本更新”后,阿里通义千问团队也开源了新模型。与此同时,OpenAI 在深夜悄然发布了 GPT-4o 原生图像生成功能,这一消息让全球技术爱好者惊叹不已。更令人惊喜的是,即使是免费用户也能体验到这一强大功能。 GPT-4o 的核心优势在于其能够精准呈现文字,并严格遵循用户的指令要求。通过调用内置知识库和对话上下文,它不仅能够处理上传的图像,还能将其作为视觉灵感来源。这种特性让用户可以轻松创造出与构想完全一致的图像,从而实现更高效的视觉表达。 2024 年 5 月,OpenAI 推...
GPT-4o图像生成免费发布,奥特曼坐镇多模态模型,OpenAI指令遵循与文本控制表现惊艳
GPT-4o图像生成能力现已全面开放,免费用户也可第一时间体验!从即日起,这项功能将在ChatGPT和Sora中向所有Plus、Pro、Team以及免费用户推出。这一消息迅速引发了广泛关注,各种实测结果层出不穷。 文本处理能力惊艳 最令人惊艳的是GPT-4o对文本的处理能力。例如,它可以100%还原文字,并且能够指定文字的摆放位置。通过对比两张图片可以发现,第一张图中的男人倒影与第二张图完全对应,展现了其强大的细节把控能力。此外,它还能像连续剧一样,在准确生成文字的同时变换人物动作。 奥特曼坐镇直播发布 昨晚,OpenAI紧...
OpenAI推出GPT-4o:超强人工智能生成图像,多模态模型引领图像生成新时代,与谷歌同场竞技,奥尔特曼AGI梗图现场直出引发关注
感谢IT之家网友华南吴彦祖和软媒用户1392612提供的线索!最近,OpenAI在深夜直播中发布了GPT-4o的原生图像生成技术的重大升级。奥尔特曼亲自上阵,展示了自拍变梗图、相对论漫画等功能。然而,与谷歌刚刚发布的Gemini 2.5 Pro相比,OpenAI的动作显得有些不足。 奥尔特曼带领团队展示了GPT-4o图像生成技术的各种大升级,包括制作梗图、文本渲染、多轮交互生成和指令遵循等。其中最亮眼的演示是一张官方玩梗的表情包。这项功能已经在ChatGPT和Sora中向所有用户提供。 新版Sora生成图像的时间比以往更长,但OpenAI认为生图的...
谷歌Gemini 2.0 Flash模型:强大人工智能图像生成与水印去除技术,是否突破版权保护界限?
谷歌近期推出的Gemini 2.0 Flash模型在社交媒体上引发了广泛关注和争议。用户发现,这款模型能够有效去除图片中的水印,甚至包括来自知名图库Getty Images的水印。上周,谷歌进一步扩大了对Gemini 2.0 Flash模型图像生成功能的访问权限。这一功能允许用户生成和编辑图像,展现了强大的技术能力。然而,该功能似乎缺乏必要的使用限制,例如生成包含名人形象或受版权保护角色的图像,以及去除现有照片中的水印。 根据X和Reddit上的多位用户反馈,Gemini 2.0 Flash模型不仅能够去除水印,还能自动填补因水印删除而产生的空白区...
借助文心4.0和iRAG技术,百度图像生成实现AI拜年新突破,春节营销自家萌宠拜年图片更准确生动
春节营销活动中的AI创新玩法 随着农历新年的临近,各大互联网平台纷纷推出了丰富多彩的春节营销活动。除了传统的集“五福”和集卡游戏,今年还出现了许多结合人工智能(AI)的新玩法。百度搜索推出的“AI拜年”活动就是其中之一。用户只需在百度搜索框中输入“祝福语”,点击“做贺卡”,根据需求调整文案并选择“创意照片”,就能定制出各种充满趣味的新年祝福卡片。 例如,你可以上传自己的证件照,生成一张在天坛前的专属拜年海报;或者上传宠物照片,生成一张充满年味的“萌宠贺岁图”。这些功能不仅展示了AI对文化元素的精准理解,...
埃隆·马斯克旗下xAI公司再推重磅:网页版Grok AI聊天机器人上线,无需X账户,支持图像生成功能
埃隆·马斯克旗下xAI公司推出网页版Grok AI聊天机器人 感谢IT之家网友風見暉一的线索提供。近日,埃隆·马斯克(Elon Musk)旗下的xAI公司在推出iOS版Grok AI聊天机器人之后,正式上线了网页版。这意味着用户无需访问X.com或拥有X账户,即可体验Grok的强大功能。通过访问grok.com,用户只需输入出生年份即可开始使用,进行实时信息收集、获取问题答案,甚至可以生成图像。 Grok网页版的功能与操作 在网页版Grok中,用户可以通过输入框下方的菜单添加附件,并支持切换“自动”、“可视化”、“搜索”和“仅模型”模式,从而更好地控...
阶跃星辰推出 Step-1X-Medium AI 模型:图像生成提速30%,支持图生图垫图玩法,升级中国风创作工具
感谢IT之家网友 Skyraver 提供的线索!12月26日,据IT之家报道,“阶跃星辰”官方公众号于12月25日发布了一则重要消息,宣布推出全新的 Step-1X-Medium 增强 AI 模型。这款升级版模型在生成速度、理解能力、细节质感以及创作功能等方面都有显著提升,旨在成为创作者们更得力的助手。 Step-1X-Medium 的主要改进包括: 1. 生成速度提升:基于 MMDit 架构,新模型的生成速度提升了超过30%,大大缩短了等待时间。 2. 更强的理解能力:经过针对性训练,Step-1X-Medium 能更精准地理解用户指令,确保生成的与需求高度一致。 3. 自...
AI教母 斯坦福大学教授李飞飞重大突破,单张图像生成三维世界
近日,由华裔科学家、被誉为“AI教母”的斯坦福大学教授李飞飞创立的人工智能创业公司World Labs宣布了一项重大突破——在“空间智能”领域迈出了重要一步。这项技术的核心在于通过单张图像生成三维世界,使用户能够“进入任何图片,并以三维方式探索”。 World Labs的这一创新技术不仅展示了人工智能在图像处理和三维建模方面的巨大潜力,还为虚拟现实和增强现实应用提供了新的可能性。用户可以通过简单的图像输入,快速生成一个逼真的三维环境,从而实现更加沉浸式的体验。 据李飞飞教授介绍,这项技术的背后是强大的深度学习算...
深入解析计算机视觉领域中的自回归模型:图像生成与视觉词元的3D生成应用全面综述
计算机视觉领域自回归模型综述 近日,由香港大学、清华大学、普林斯顿大学、杜克大学、俄亥俄州立大学、北卡罗来纳大学、苹果公司、字节跳动、香港理工大学等多所高校和研究机构共同发布的综述论文,深入探讨了自回归模型在计算机视觉领域的最新进展。随着计算机视觉技术的飞速发展,自回归模型作为重要的生成模型之一,在图像生成、视频生成、3D 生成和多模态生成等多个任务中展现出显著的优势。然而,面对快速变化的研究环境,及时掌握自回归模型的最新动态显得尤为重要。 论文标题为《视觉领域的自回归模型综述》,旨在...
12