标签：图像编辑

ComfyMind：视觉生成框架助力AI创作大师，图像编辑效果媲美GPT-4o-Image

第一段在当今AI技术飞速发展的时代，图像生成、视频创作和照片精修等任务通常需要依赖不同的模型来完成。然而，这种分散的方式无疑增加了操作的复杂性和时间成本。有没有一种“全能型”的解决方案，只需通过简单的自然语言描述，就能自动完成从创意构思到高质量视觉作品输出的全过程？现在，由香港科技大学（广州）与字节跳动联合研发的全新开源框架——ComfyMind，成功实现了这一目标。第二段 ComfyMind是一款通用视觉生成框架，其核心理念是通过一套系统化的方法，统一处理文本到图像、图像到视频等各种主流视觉生成任务。...

来源：

量子位【阅读原文】
Tags：AI创作大师 ComfyMind GPT-4o-Image 图像编辑视觉生成框架

9个月前

DeepSeek-R1引领AI图像生成革新，Krea图像编辑工具大幅提升用户体验

在R1推理模型的热潮之后，DeepSeek迅速被多个平台集成，包括硅基流动这样的大型模型云服务平台、腾讯元宝这样的聊天机器人，甚至微信这样的顶级流量平台。然而，AI图像类产品中接入DeepSeek R1的消息却寥寥无几。令人惊讶的是，从DeepSeek-R1发布到Krea宣布上线新功能，仅用了短短10天时间，这在图像产品中堪称最快反应。 Krea率先“吃螃蟹”，降低用户门槛在Krea之前，已有部分平台集成了聊天机器人的生图和改图功能，如ChatGPT，但用户体验并不理想。尽管这些平台通过聊天机器人理解用户意图，但在实际生成和修改图片时...

来源：

白鲸出海公众号【阅读原文】
Tags：AI图像生成 DeepSeek-R1 Krea 图像编辑用户体验

1年前 (2025)

Gemini 2.0图像编辑神器，一键P图实现创意设计，多模态处理让网友大呼过瘾

Gemini 2.0 成为P图新宠，轻松实现一键变装来源：量子位发布日期：2024年12月16日 Gemini 2.0凭借其强大的一键P图功能，迅速在网络上引起了广泛关注，许多用户纷纷表示被其强大的功能所吸引。这款软件通过简单的文字指令即可实现复杂图像的编辑，让普通用户也能轻松制作出专业级别的图片。例如，对于一款普通的汽车照片，只需输入“将这辆车改装成敞篷车”，Gemini 2.0就能迅速根据指令完成图像的修改。修改后的图片中，除了车辆顶部变为敞篷设计外，其他元素均保持不变，完美地保留了原始图像的风格和细节。不仅如...

来源：

量子位【阅读原文】
Tags：Gemini 2.0 一键P图创意设计图像编辑多模态处理

1年前 (2024)

SeedEdit结合豆包大模型，开启自然语言图像编辑新体验，用户轻松实现一句话改图

11月11日，字节跳动在豆包大模型团队官网上发布了最新的通用图像编辑模型——SeedEdit。这款模型支持用户通过简单的自然语言指令轻松修改图片，包括修图、换装、美化、风格转换、在指定区域添加或删除元素等多种编辑操作。目前，SeedEdit已在豆包PC端和即梦网页端开始测试。用户在豆包生成图片后，只需点击“继续编辑”按钮，输入简单的文本指令，即可轻松调整图片背景或主体，实现一句话改图。例如，用户可以生成一张“小狗在草地奔跑”的图片，然后直接输入“背景换成海边”等指令，获得一张基于原图的微调图。此外，用户还可以...

来源：

机器之心【阅读原文】
Tags：SeedEdit 图像编辑自然语言豆包大模型通用模型

1年前 (2024)

Photoshop测试版推出AI图像生成功能：用户仅需提供简单文本

近日，Adobe Photoshop推出了一个创新性的预览版功能，借助人工智能技术，用户只需输入文本描述就能自动生成高质量图像。这一变革源于Adobe的新型生成式AI模型——Firefly Image 3，该模型在图像生成上表现出色，能理解更复杂的提示并创造出更多样、清晰的图像。 Adobe的Firefly模型已经生成了超过70亿张图像，显示出其在图像生成领域的强大实力和广泛应用潜力。在Photoshop中，用户可以方便地使用这个新功能，甚至让AI根据现有图像进行创新，简化背景生成，提高工作效率和精度。此外，Photoshop的“生成填充”功能也得到了增...

来源：

快科技【阅读原文】
Tags：Adobe Photoshop Firefly Image 3 图像编辑生成式AI 科技巨头

2年前 (2024)

Stability AI推出全面的API服务，引领图像处理新时代

最近，人工智能公司Stability AI发布了一项创新的API服务，致力于提供更全面且高效的图像处理解决方案，引领图像处理技术的革新。该服务主要包括五大核心功能：首先，用户可以利用最新的Stable Diffusion 3技术轻松生成高质图像，简化了复杂的操作流程并减少了等待时间。其次，API提供了图像增强工具，能够优化图像的清晰度和色彩，满足不同用户对图像质量提升的需求。再者，其独特的图像外绘制功能允许用户扩展图像边界，创造新的视觉内容，对于需要大量创意图像的用户尤其有益。此外，API还内置了图像编辑功能，用户可以根...

来源：

站长之家【阅读原文】
Tags：API服务 Stability AI Stable Diffusion 3 图像处理图像编辑

2年前 (2024)

拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

在AI领域，一项创新技术——“StableDrag”引起了广泛关注。这项技术源于对DragGAN和DragDiffusion的改进，旨在提供更稳定、精确的图像编辑体验。DragGAN和DragDiffusion虽能实现图像拖拽编辑，但存在点跟踪不准确和动作监督不足的问题。为解决这些问题，南京大学和腾讯的研究者开发了StableDrag，它采用判别式点跟踪和基于置信的潜在增强策略，提高了编辑的稳定性和精度。 StableDrag包括两个关键模块：判别点跟踪(Discriminative PT)和置信动作监督(Confident MS)。判别点跟踪利用卷积层权重的点跟踪算法，确保操纵点的精确定...

来源：

机器之心【阅读原文】
Tags：Diffusion模型 GAN StableDrag 判别式点跟踪图像编辑置信动作监督

2年前 (2024)

中科院等万字详解：最前沿图像扩散模型综述

中国科学院、Adobe及苹果公司的专家携手发布了一份深度综述，聚焦图像编辑的最新扩散模型技术。这篇26页的报告涵盖了1.5万多字和297篇文献，为该领域的研究者提供了一个全面的指南。文中提出新的benchmark，助力评估模型性能。文章详述了扩散模型在图像编辑中的应用，包括学习策略、输入条件等多个维度的分类。作者将图像编辑任务分为语义编辑（内容和叙述变化）、风格编辑（视觉风格转换）和结构编辑（元素布局变化）三大类。他们还探讨了10种输入条件和12种常见编辑类型。在实现方式上，文章介绍了基于训练、测试时微...

来源：

量子位【阅读原文】
Tags：EditEval GANs 图像扩散模型图像编辑扩散模型训练

2年前 (2024)