标签:多模态数据集
清华大学、香港大学和上海AI Lab联合提出V2PE:突破视觉-语言多模态大模型长上下文瓶颈
机器之心的AIxiv专栏一直致力于发布前沿的学术和技术,过去几年已报道了超过2000篇来自全球顶尖高校和企业的研究成果。为了进一步促进学术交流与传播,我们诚邀各位学者和研究人员投稿或联系报道,邮箱为liyazhou@jiqizhixin.com和zhaoyunfeng@jiqizhixin.com。 本文由葛俊岐(清华大学本科生)、陈子熠(清华大学本科生)、林锦涛(香港大学博士生)和祝金国(上海AI Lab青年研究员)共同撰写,通讯作者是朱锡洲,他的研究方向包括视觉基础模型和多模态基础模型,代表作有Deformable DETR、DCN v2等。 随着语言大模型的成...
DreamBench++引领新纪元:GPT-4o驱动的图像生成评估与个性化图像分析,多模态数据集助力自动化评测
随着个性化图像生成技术的快速发展,一个亟待解决的问题浮出水面:如何统一标准来评判生成图片的质量和人类喜好。为了解决这个问题,清华大学、西安交通大学、伊利诺伊大学厄巴纳-香槟分校、中国科学院和旷视科技的研究团队共同推出了一项创新基准——DreamBench++。 DreamBench++借助GPT-4o模型,通过多模态输入和精心设计的prompt,使模型能够进行与人类偏好相一致的自动化图像评估。在评估过程中,研究团队采用了7位专业标注员的评分作为参照,对比了7种不同的图像生成方法。实验结果显示,DreamBench++的评估与人类评价高...