多模态模子在学术基准测试中赢得高分,到了真的全国应用时却弘扬不足预期,该何如分辨?
新的详尽性视觉言语判辨基准JourneyBench,哄骗基于 diffusion 模子教唆生成的图像,并接收一种新颖的东谈主机闭环框架,通过五项具有挑战性的任务来评估多模态模子的推理才气:
多模态链式数学推理 ( Multimodal Chain-of-Thought )
多图像视觉问答 ( Multi-image VQA )
细粒度跨模态检索 ( Fine-grained Cross-modal Retrieval )
包含幻觉触发的通达式视觉问答 ( VQA with Hallucination Triggers )
相配见图像的形色 ( Unusual Image Captioning )
JourneyBench 由哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校的团队提议,是 Google Deepmind 的多模态 ( Gemini ) 团队提议的 HaloQuest, ECCV 2024 的生息责任。
HaloQuest 的第一作家鸠集哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校构建了一个详尽性的视觉言语判辨的老师以及评价基准 JourneyBench。
团队觉得尽管现存的视觉言语判辨的评价基准鼓吹了显赫进展,但它们频繁包含有限的视觉各种性,况且场景的复杂性低于时时生存中遭遇的情况:
很多基准因互联网图片的版权戒指,将其图像分散戒指在像 COCO 或 Flickr 这么的平台和资源中。
这些基准往往戒指于日频频见的物体和场景,而非悲凉致使微抽象的场景。
这些基准的过分同质化的数据在模子的预老师中也多有出现,模子很容易通过学习到的偏见在测试中弘扬优异,但不一定着实判辨图像实质。
这种偏见、偏差可能会在学术基准测试中赞助分数,但在过渡到真的复杂的全国应用时却会带来显赫挑战。
此外,用于评估多模态链式数学推理的基准频频包含冗余的视觉实质(即视觉信息并不需要,模子就不错回答问题的实质)。面前的多模态链式数学推理基准也未能充分处置其他的要津问题,举例幻觉表象和展望一致性。在检索任务的基准测试中,模子的性能接近东谈主类水平,难以分手不同模子。这种性能饱和部分是由于现存检索基准衰退细粒度的细节,对现在强大的模子衰退宽裕的挑战性。
生成图像不错并吞悲凉的倡导,举例"马卡龙上的大象",这在传统数据逼近极为悲凉,但关于评估模子对视觉倡导的真的判辨至关进攻。举例,COCO 中包含的对象干系在学问数据库 ConceptNet 中占 68%,而咱们网罗的生成图像中仅占 6%。
此外,跟着生成图像变得越来越传神,并在网上多数涌现,将其纳入基准以评估模子判辨息争释各种化视觉场景的才气将变得日益进攻。
通过哄骗基于教唆生成的图像,不错克服现存基准的局限性,提供更好的可控性和视觉实质各种性。这种措施概况严格测试模子的幻觉倾向、一致性,以及在各种不成展望环境中有用启动的才气。
数据先容
JourneyBench 用五项多模态理受命务测试模子在悲凉场景中的推理当用才气:
相配见图像的形色 ( Unusual Image Captioning )
图像形色是 VLU 基准测试中的轨范任务,JourneyBench 旨在测试模子判辨和形色捏造图像的才气。为了哄骗基于教唆生成的图像进一步鼓吹 VLU 评估的鸿沟,并测试现存模子在之前评估责任中被忽略的才气,JourneyBench 极端眷注捏造图像。被测试模子需要生成一句话的图像形色,隆起使其成为捏造图像的元素。
细粒度跨模态检索 ( Fine-grained Cross-modal Retrieval )
跨模态检索是很多基准中包含的一项基础性多模态判辨的任务。给定一张图像,其盘算是检索匹配的文本,反之也是。但是现在有的扩模态检索衰退样本为中心的烦躁选项,致使模子只需眷注图像之间的举座不同而非 object-level 的细粒度的不同。
多模态链式数学推理 ( Multimodal Chain-of-Thought )
在多模态链式数学推理任务中,输入由一张图像和一个问题构成,两个模态的信息毫不重合况且强制互补,条件模子整合来自两种模态的信息来进行链式的数学推理。JourneyBench 不只单检测最终谜底的准确性,也会评审答题念念路的准确性。
多图像视觉问答 ( Multi-image VQA )
该任务条件模子在视觉问答中对多张图像进行推理。但是,由于真的图像资源有限,现存数据集主要测试模子的基本才气,举例神气匹配、图文匹配和物体计数。比较之下,JourneyBench 评估三个特定的才气且蔓延到更有挑战性的推理类别,比如:第一次提议多图片的多模态算术推理、将外部知识应用于视觉推理以及识别多模态因果干系。这是目下最大的多图片视觉问答数据资源。
包含幻觉触发的通达式视觉问答 ( VQA with Hallucination Triggers )
基于之前 HaloQuest 的责任,JourneyBench 也包含了容易从三种模态 ( 翰墨,图片和外部知识 ) 来触发模子进行幻觉的问题。这些问题王人围绕着基于 diffusion 模子教唆生成的各种相配见图像。该任务包含三个类别的问题,对应着三种触发模态,旨在触发模子的幻觉:带有颠倒前提的问题 ( 幻觉触发存在于言语模态 ) 、斟酌挑战性视觉细节的问题 ( 幻觉触发存在于视觉模态 ) 和终末衰退宽裕高下文以进行准确解释的问题 ( 幻觉触发存在于外部知识 ) 。
数据样本如下图所示:
相配见图像的形色 ( Unusual Image Captioning )
图像形色是多模态判辨基准测试中的轨范任务,JourneyBench 测试模子对相配见图像的判辨和形色才气。
为此,咱们条件模子生成一句话的图像形色,隆首先出使该图像显得相配见致使捏造的元素。相配见致使捏造的图像与现存基准中的真的图像有很大不同,JourneyBench 将其界说为形色不寻常视觉组合或试验中不成能存在的捏造场景的生成图像。要是咱们分析视觉元素和干系在 ConceptNet 中的存在比例,COCO 数据逼近的对象和干系在 ConceptNet 中有 68% 的匹配率,而 JourneyBench 的生成图像中这一比例仅为 6%。
细粒度跨模态检索(Fine-grainedCross-modalRetrieval)
在 MS-COCO 和 Flickr30K 等流行的跨模态检索基准上。这些基准主要触及真的图像,且要点是举座分手图像和文本的配对。但是,为了使模子概况准确检索筹办实质,概况在细粒度层面分手图像 - 文本配对至关进攻。为了挑战模子在访佛图像中进行细粒度分手的才气,JourneyBench 用回击性东谈主机闭环框架,为每个查询样本创建特定的烦躁项,即需要细粒度辩别才能克服的难负样本。
JourneyBench 通过多轮谛视和一致性检查进行质料保证,以退避出 Falsepositive 报或 Falsenegative。目下领域中常用的数据集频繁靠近诸如不一致、FP/FN、糊涂性等问题,如下图所示。这主要源于从原始形色数据逼近抽样的进程。尽管如故有一些致力于试图改良这些准确性问题,但这些尝试却意外中引入了原始数据逼近不存在的误报。JourneyBench 的标注进程以及生成图片自己的各种性使得上述问题少量存在于样本中。更高质料的数据使得 JourneyBench 对模子性能的测试更准确。
多模态链式数学推理(Multimodal Chain-of-Thought)
现存的多模态链式数学推理数据资源(如 MathVista 和 ScienceQA)频繁包含冗余的视觉信息,使得模子仅通过言语输入就能回答问题。与 MathVista 和 ScienceQA 等多模态推理数据不同,在 JourneyBench 的多模态数学推理中,视觉信息和文本信息是严格证实莫得任何叠加信息的,而且是互补的,以确保模子在链式数学推理进程中必须从两种模态中获取信息才概况正确解题。
多图像视觉问答(Multi-imageVQA)
最近,有少数多图像视觉问答基准被提议,条件模子在 VQA 视觉问答中对多张图像进行推理。但是,由于真的图像资源的有限性,现存数据集主要测试基本才气,举例神气匹配、图像 - 文本匹配和物体计数。比较之下,JourneyBench 的多图像 VQA 任务拓展了三个具体且更具有挑战性的推理类别:多图片算术推理、多图片的将外部知识应用于视觉的推理,以及多图片的因果干系的识别。
包含幻觉触发的通达式视觉问答(VQAwithHallucinationTriggers)
基于 Haloquest,JourneyBench 也包含了包含幻觉触发的通达式视觉问答。这个任务是第一次在多模态判辨和推理任务重系统的分析了幻觉的触发时势,极端是很横跨翰墨、视觉和外部知识三个模态,找到了对应的三种幻觉触发模子。这个任务也哄骗了东谈主机闭路措施网罗了问题以及相配见致使作假场景的图片。为了让这个任务更有通用性,它并吞 GoogleDeepmind 缔造了一款通达性的 VQA 视觉问答的评价机制,况且解说了其和东谈主体评价的一样性。这个任务第一次提议了用 diffusion 模子生成的图片来匡助模子进行挑战性的评价致使老师的范式,况且通过实考解说了这个范式的可行性。其责任进一步解说了,HaloQuest 的老师数据互助着 instructiontuning 也能有用的改善现存大模子的幻觉行径。
实验与分析
研究收用了共 21 个多模态模子用以不同任务的实验分析,其中包括:
跨模态检索模子:ALBEF、CLIP
开源通用模子:MiniGPT4、mPLUG
开源多图像模子:VILA、Idefics2、Mantis
闭源模子:GPT-4V、GPT-4o
研究发现:
1. 模子在分手细粒度视觉细节方面存在闭塞。在 JourneyBench 中的检索分数低于 MS-COCO 和 Flickr30k,标明模子在从咱们数据逼近检索文本和图像时靠近更大的挑战。
2. 模子对相配见以及捏造的视觉场景并不稳当。大多数模子在 JourneyBench 上的弘扬远逊于在其他图像形色数据集上的弘扬,其中大部分模子的 CIDEr 得分低于 30。
3. 跨模态算术推理中具有挑战性。除 GPT 和 LLaVA 外,大多数其他模子得分低于 10%。值得注重的是,GPT-4V 和 GPT-4o 在包含稠密物体的视觉环境中,在一致性、幻觉和跨模态方面弘扬欠安。
4. 多张图像的跨模态问答极具挑战性。总体来看,各种模子在 JourneyBench 中跨多张图像问答时遭遇了极大的闭塞,极端实在多图像的夸模态数学推理,外部知识的推理问答和因果干系的判别。
现存的 VLMs 视觉和言语的多模态模子在幻觉问题上弘扬欠安,高傲出较高的幻觉率。这一效用标明模子才气存在显赫不足,并隆起了需要有用的幻觉缓解措施。此外,模子范围的增多并不一定代表能赞助其对幻觉的屈膝才气。
论断
JourneyBench 是一种全新的多模态判辨和推理的基准,用于测试模子在各种任务中对不寻常或捏造图像的判辨才气,包括多模态链式数学推理、多图像 VQA 视觉问答、相配见和作假图像的形色、侧重幻觉的视觉问答以及细粒度的跨模态检索。JourneyBench 的任务使之前通盘测试过的高评分模子在评估中得分捏续较低,凸显出其不寻常或捏造图像的主题、战术性假想的烦躁项、激发幻觉的问题以及需要跨模态共指的问题所带来的挑战。这使得 JourneyBench 成为评估先进多模态视觉和言语模子 MM-LLMs 才气的梦想器具,鼓吹这些模子在判辨息争释才气上的极限。
https://journeybench.github.io/
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实质
附上论文 / 神志主页衔接,以及筹办边幅哦
咱们会(尽量)实时恢复你
一键眷注 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「防御心」
接待在驳倒区留住你的宗旨!亚博体育
Powered by 亚博买球app-新版 @2013-2022 RSS地图 HTML地图
Powered by365建站