标签：计算机视觉

对话肖特特：从伯克利到PromptAI创业，探索通用视觉模型与Segment Anything Model在计算机视觉及空间智能领域的创新应用

通用语言模型领先，通用视觉模型起步较晚语言模型因包含大量序列信息而能进行更深层次的推理，相比之下，视觉模型面临更多元、复杂的输入，以及对物体时空连续性的高要求，导致其发展相对滞后。传统的学习方法在数据量和经济性方面也不尽合理，至今尚未形成统一的算法来解决计算机对空间信息的理解。 Meta AI 推出“Segment Anything Model” (SAM) 2023年，Meta AI 发布了首个“Segment Anything Model” (SAM)，该模型通过交互方式对任意物体进行分割，无需特定类别标注，展现了对空间信息的强大处理能力。这项工作荣获ICCV...

来源：

机器之心【阅读原文】
Tags：Segment Anything Model 具身智能空间智能计算机视觉通用视觉模型

4个月前

深入解析计算机视觉领域中的自回归模型：图像生成与视觉词元的3D生成应用全面综述

计算机视觉领域自回归模型综述近日，由香港大学、清华大学、普林斯顿大学、杜克大学、俄亥俄州立大学、北卡罗来纳大学、苹果公司、字节跳动、香港理工大学等多所高校和研究机构共同发布的综述论文，深入探讨了自回归模型在计算机视觉领域的最新进展。随着计算机视觉技术的飞速发展，自回归模型作为重要的生成模型之一，在图像生成、视频生成、3D 生成和多模态生成等多个任务中展现出显著的优势。然而，面对快速变化的研究环境，及时掌握自回归模型的最新动态显得尤为重要。论文标题为《视觉领域的自回归模型综述》，旨在...

来源：

机器之心【阅读原文】
Tags：3D 生成图像生成自回归模型视觉词元计算机视觉

4个月前

MIT教授何恺明深入讲解《深度生成模型》课程，涵盖计算机视觉与生成对抗网络，讲座PPT已陆续发布

今年2月，著名学者何恺明开启了他在麻省理工学院（MIT）的副教授生涯。3月7日，他完成了自己职业生涯中的第一堂课。最近，我们发现何恺明开设了第二门课程——《深度生成模型》（6.S978： Deep Generative Models），该课程已于9月初正式开课。这门课程由何恺明主讲，同时，MIT CSAIL计算设计与制造团队的四年级博士生Minghao Guo担任助教。许多网友纷纷推荐这门课程，认为它对准备教授计算机视觉与深度学习的人士非常有帮助。网友们还特别提到，何恺明是残差网络（ResNet）的发明者，学术成就卓越。然而，能够掌握这门课程...

来源：

机器之心【阅读原文】
Tags：- MIT - 何恺明 - 深度生成模型 - 生成对抗网络计算机视觉

5个月前

【创新突破】ECCV 2024奖项揭晓：哥伦比亚大学荣膺最佳论文奖，微软COCO数据集再创经典——聚焦计算机视觉领域的前沿进展与创新方法

ECCV 2024 在意大利米兰开幕近日，计算机视觉领域的顶级会议之一——ECCV 2024（European Conference on Computer Vision）在意大利米兰隆重开幕。根据大会官方统计，今年共有 2395 篇论文被录用，录用率仅为 18%，创下近年来的新低。在开幕式上，大会公布了多个重要奖项，包括最佳论文奖、最佳论文荣誉提名奖、Koenderink 奖和 PAMI Everingham 奖。最佳论文奖本届最佳论文奖由哥伦比亚大学的两位学者 Shree Nayar 和 Jeremy Klotz 获得。他们的论文《一种创新的极简主义视觉系统》（[论文链接](https：//cave.cs.colu...

来源：

机器之心【阅读原文】
Tags：ECCV 2024 创新方法数据集最佳论文奖计算机视觉

6个月前

美图：“奇想大模型”视频生成能力已完成全面升级，可生成 1 分钟视频

IT之家报道，美图公司在近日宣布，其旗下的“奇想大模型”视频生成技术已进行全面升级。此次升级不仅提升了视频生成的能力与效率，还大幅增强了模型的整体性能。结合美图公司在计算机视觉领域的多项自主研发技术，“奇想大模型”在视频生成时长、画质、流畅性、真实性和可信度等方面均有显著提升。据了解，升级后的“奇想大模型”可以生成单次长达 5 秒的文本到视频或图像到视频的，并支持生成长达 1 分钟、24FPS、1080P 的高质量视频。这些功能将逐步应用于美图秀秀、美颜相机、Wink、开拍、美图设计室、WHEE 和 MOKI 等多款产...

来源：

IT之家【阅读原文】
Tags：AI 技术奇想大模型美图公司视频生成计算机视觉

6个月前

斯坦福李飞飞首次创业：学术休假两年，瞄准「空间智能」

“AI教母”李飞飞宣布创业，投身于新一代人工智能技术的探索。据报道，李飞飞正创立一家初创企业，这家公司将采用类似于人类视觉处理的方式来提升AI的高级推理能力。据消息来源，李飞飞已完成种子轮融资，投资者包括知名风投Andreessen Horowitz及Radical Ventures。尽管投资方对此保持低调，但李飞飞的这一举动无疑在AI领域引起了关注。李飞飞以其在人工智能领域的杰出贡献而被称为“AI教母”，尤其因开发ImageNet图像数据集而闻名，这一数据集推动了计算机视觉技术的革命。她在斯坦福大学的人为中心人工智能研究所担任联合主...

来源：

机器之心【阅读原文】
Tags：AI 创业李飞飞种子轮融资计算机视觉

11个月前

李飞飞被曝AI创业！做空间智能，已筹集种子轮融资

在人工智能领域享有盛誉的华裔科学家李飞飞，被誉为“AI教母”，近期正着手创建一家名为Spatial Intelligence的初创公司，致力于提升AI的高级推理能力。李飞飞因其开发的ImageNet数据集对计算机视觉技术的贡献而闻名，目前担任斯坦福大学计算机科学系首位红杉教授及HAI研究院联席院长。据悉，她的新创企已获得硅谷风投Andreessen Horowitz和Radical Ventures的支持。在最近的TED大会上，李飞飞介绍了“空间智能”的概念，这是一种能让AI理解并预测3D环境中物体行为的技术。她以猫推杯子的例子说明，人类大脑可以瞬间分析并预测...

来源：

智东西【阅读原文】
Tags：AI创企世界模型李飞飞空间智能计算机视觉

11个月前

“计算机视觉女神”被IEEE期刊封杀

随着社会进步和文化敏感度的提高，计算机学术界的一位标志性人物——“Lenna”图像，已被IEEE计算机协会正式禁止使用。自2024年4月1日起，IEEE不再接收含有这张图像的论文。这一决定基于对开放、包容和公平文化的坚持，以及尊重原照片主人公Lena Forsén的意愿。 Lenna图源于1972年《花花公子》杂志上的一张裸体照片，因其在图像处理研究中的丰富细节和广泛应用而成为经典。然而，随着时间推移，人们开始质疑其源自物化女性的出版物，这引发了学术界的争议。1999年和2015年的批评声音逐渐增加，最终导致Nature Nanotechnology杂...

来源：

量子位【阅读原文】
Tags：IEEE Lenna图图像处理物化女性计算机视觉

1年前 (2024)

CVPR 2024 Workshop | AIGC质量评价挑战赛启动！

NTIRE 2024 AIGC Quality Assessment Challenge，作为国际知名的计算机视觉研讨会，聚焦新趋势下的图像修复和增强，由上海交通大学和华为联合主办。这次大赛针对人工智能生成内容（AIGC）的质量评价，旨在提升现有I/VQA方法对人类感知质量和用户需求匹配度的准确性。挑战赛分为图像和视频两个赛道，共用一个新发布的AIGCQA-30K数据集，包含多样化的文生图和文生视频样本。参赛者需设计网络方案，使结果与图像、视频的主观质量评分高度相关。赛事提供训练和验证数据，参赛者在Codalab平台上提交结果。赛程从2023年2月开始，...

来源：

机器之心【阅读原文】
Tags：AIGC质量评价 CVPR NTIRE 图像/视频质量评价计算机视觉

1年前 (2024)