论文阅读

PhoenixGS
Nov 14, 2023
Last edited: 2023-12-7
type
Post
status
Published
date
Nov 14, 2023
slug
papers
summary
tags
CS
人工智能
深度学习
机器学习
自然语言处理
category
icon
password
Property
Dec 7, 2023 10:38 AM

JudgeLM: Fine-tuned Large Language Models are Scalable Judges

该论文提出在开放性场景下评估大型语言模型(LLMs)存在困难,因为现有的基准和指标无法全面评估它们。为了解决这个问题,该论文提出了将LLMs作为可扩展的评判者(JudgeLM)进行精调,以便在开放性基准中有效评估LLMs的性能。该论文首先提出了一个全面的、大规模的、高质量的数据集,包含任务种子、LLMs生成的答案和GPT-4生成的评判结果,用于精调高性能的评判者,同时还提出了一个用于评估评判者的新基准。该论文使用从7B、13B到33B参数的不同规模进行JudgeLM的训练,并对其能力和行为进行了系统分析。然后,该论文分析了将LLM作为评判者进行精调时的关键偏差,包括位置偏差知识偏差格式偏差,并提出了一系列技术来增强评判者的性能,如交换增强参考支持参考舍弃。JudgeLM在现有的PandaLM基准和该论文提出的新基准上取得了最先进的评判者性能。该论文的JudgeLM效率高,在仅使用8个A100 GPU的情况下,JudgeLM-7B只需3分钟即可对5K个样本进行评判。JudgeLM与教师评判者达成了高度一致,一致性超过90%,甚至超过人与人之间的一致性。JudgeLM还展示了在单一答案、多模态模型、多个答案和多轮对话中作为评判者的扩展能力。
已有的方法:arena-format,GPT-4
缺点:数据暴露、不稳定的API模型转换
其他的:PandaLM
缺点:模型规模、训练数据质量、固有的LLM偏差
本paper:采用开源的LLMs作为评判者,并分析其与模型大小( 7B ~ 33B)和训练数据量(从3.5 K扩展到100K)之间的伸缩能力,数据集包括105K个种子问题,LLM答案对,以及教师评委GPT - 4的判断。值得注意的是,我们为每个种子任务生成了有参考答案和无参考答案两种判断。对该数据集进行划分,分配100K个种子问题用于训练( × 2 larger than PandaLM),剩余部分用于验证( × 29 larger than PandaLM)。
notion image
我们的JudgeLM的数据生成管道。我们首先收集105K个种子任务作为问题。然后,从11个LLM中抽取答案,并从答案集中随机抽取一对答案。最后,我们将任务、样本答案对和可选的参考答案输入到GPT - 4中,GPT - 4作为评委教师生成分数和详细的理由。
notion image
对JudgeLM的微调和各种功能进行了说明。我们使用生成的判断样本对LLMs进行微调,作为可扩展的判断。当微调LLMs作为判断器时,我们还提出了互换增强、参考支持和参考丢弃来分别解决位置偏差、知识偏差和格式偏差。
notion image
  • 数据集
    • 生成数据
    • 训练
      • 训练集100K,验证集5K,instruction fine-tuning
  • 固有偏差
    • 位置偏差
      • 位置偏见是指LLM评委偏好于某一位置的答案,它广泛存在于自然语言处理任务( Ko et al . , 2020 ; Wang et al . , 2018)和人类决策( Blunch , 1984 ; Raghubir &瓦伦祖埃拉, 2006)中。功能强大的LLMs ChatGPT和GPT - 4在担任( Wang et al , 2023 ; Zheng et al , 2023)法官时也面临着这一挑战。正如图8和表5所示的定性和定量结果,JudgeLM同样面临位置偏差,在交换答案位置时偏好第一个答案。
        notion image
    • 知识偏见
      • 当预训练的数据缺乏某些种子任务的知识或诱发可能会降低LLMs生成能力的不良知识( Ko et al , 2020)时,就会产生知识偏差。图10提供了一个例子,LLM的法官如果缺乏相关的真值,就无法对开放性任务给出正确的判断。
        notion image
    • 格式偏倚
      • 研究者期望法官模型能够在参考信息不可得的情况下基于预训练的知识做出判断,在参考信息可得的情况下能够跟随参考信息做出判断。然而,我们的实验表明,无论是否有参考,判断模型对微调格式都有特定的偏好。我们将法官在没有参照的情况下进行微调,但在有参照的情况下进行验证的情况称为不匹配格式,反之亦然。如图12,图13和表6所示,判断模型在不匹配的格式中表现很差。
        notion image
  • Methods
    • SWAP AUGMENTATION
      • 原有方法:MT-bench & PandaLM 交换顺序各判断一次,时间双倍
        fine-tuning 阶段交换answer和judge
    • REFERENCE SUPPORT
      • notion image
    • REFERENCE DROP
      • 为了解决格式偏差,我们引入了一种名为参考丢弃的方法,在该方法中,我们随机丢弃有参考的训练样本,并使用相应的无参考样本。如图14所示,有参考降的判断模型可以缓解微调格式的过拟合,给出有参考和无参考的公平判断。此外,参考落差法还使得判断模型易于使用,降低了拟合成不同格式的成本。
  • Main results
    • notion image

Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models

以GPT - 4V为代表的多通道大型语言模型( Large Language Models,MLLMs )为视觉感知和理解任务引入了范式转换,在一个基础模型中可以实现多种能力。虽然目前的多层感知器从低层视觉属性(例如,清晰度,明亮度)的识别到图像质量的评价都表现出了初级的低层视觉能力,但仍有必要进一步提高多层感知器的精度,以大幅减轻人类负担。为了解决这个问题,我们收集了第一个由人类在低级视觉上的自然语言反馈组成的数据集。每个反馈提供了对图像低级视觉属性的综合描述,最终形成一个整体的质量评估。构建的Q - Pathway数据集包含了18,973张具有不同低级外观的多源图像上58K条详细的人类反馈。为了确保MLLMs能够很好地处理多样化的查询,我们进一步提出了一个GPT参与的转换,将这些反馈转换为一组丰富的200K指令-响应对,称为Q - Instruct。实验结果表明为了确保MLLMs能够很好地处理多样化的查询,我们进一步提出了一种GPT参与的转换,将这些反馈转换为一组丰富的200K指令-响应对,称为Q - Instruct。实验结果表明,Q - Instruct在多个基础模型上一致提升了各种低级视觉能力。我们期望我们的数据集能够为将来基础模型能够辅助人类完成低级视觉任务铺平道路。
计算机视觉最近见证了多模态大型语言模型(MLLM)的出现。这些模型旨在超越传统的特定任务专家,并作为通用基础模型,能够为人类完成各种视觉任务提供便利。具体来说,这些基础模型还在低级视觉感知和理解领域带来了令人兴奋的潜力。该领域不仅包括通常关注的图像质量评估(IQA)任务,还包括识别低级视觉属性(噪点、模糊等)或评估低级视觉维度(清晰度、亮度等)的更细粒度的能力。由于与这些任务相关的人类认知是高度相互关联的,我们渴望一个统一的基础模型来建立这些任务的一般能力,它可以有力地响应人类对低级视觉方面的开放式查询。
然而,尽管现有的MLLM基本上可以回答人类关于低级视觉方面的查询,但其回答的准确性仍然不尽如人意[31,57][图1(a)]。主要问题是在训练MLLM期间缺乏低级视觉数据集,其中公开可用的数据集通常只关注高级视觉能力[2,16,22,32]。为了解决这个问题,我们通过以下两个步骤构建了第一个大规模的低级视觉指令调优数据集Q-Instruct:
  • Step 1 收集人类对低水平视觉的反馈。
    • 在这一步中,我们邀请人类受试者对各种图像的低级感知和理解提供直接反馈[图2(b)]。具体来说,每个反馈应包括两部分:1)主要是对基本低级属性(例如模糊、噪点、清晰度、颜色、亮度)的详尽描述。此类描述还应包括与低级属性相关的内容 [27, 49] 或位置 [52, 60] 上下文(例如鸭子/图像左侧曝光不足)。2)然后,根据属性的描述对图像质量进行总体结论。通过这两部分,反馈,表示为路径反馈,不仅记录了人类基本的低级感知,而且反映了人类评估视觉质量的推理过程。因此构建的 Q-Pathway 数据集 [图 2(b)] 包含 18,973 张多源图像的 58K 条通路反馈,每张图像至少有三个反馈(平均每个反馈 46.4 个单词)。
  • Step 2 转换这些反馈以进行指令调整。
    • 虽然这些通路反馈本身构成了低级视觉指令调优的重要子集,但完整的指令调优数据集应该被设计为激活更多功能。首先,它还应该包括一个低级视觉问答 (VQA) 子集。为了生成可靠的VQA子集,我们参考了COCO-VQA [2]如何从图像标题中导出的设置,并使用GPT [36]将路径反馈转换为带有形容词(例如好/一般/差)或名词(例如噪声/运动模糊)作为答案的问答对。

TrainerAgent: Customizable and Efficient Model Training through LLM-Powered Multi-Agent System

训练人工智能模型一直具有挑战性,特别是当需要定制模型来提供个性化服务时。算法工程师通常面临一个漫长的过程来迭代地开发针对特定业务需求的模型,这对于非专家来说更加困难。随着大规模语言模型( Large Language Model,LLM ) Agent的出现,寻求高质量、高效率的模型开发成为业界关注的焦点。利用LLM强大的分析、规划和决策能力,我们提出了一个由TaskDataModelServer Agents组成的多Agent框架的TrainerAgent系统。这些Agent分析用户定义的任务输入数据需求(例如,精度,速度),从数据和模型两个角度对其进行综合优化,得到满意的模型,最后将这些模型部署为在线服务。在计算机视觉和自然语言处理领域的经典判别式和生成式任务上的实验评估表明,我们的系统一致地产生符合所需标准的模型。此外,该系统具有批判性地识别和拒绝不可企及的任务的能力,例如幻想的场景或不道德的请求,确保了鲁棒性安全性。本研究表明,与传统的模型开发相比,通过LLM驱动的分析、决策和执行能力的集成,以及4个代理之间的协作,在实现所需模型方面取得了显著的进步,提高了效率和质量。我们预期,我们的工作将有助于学术界和工业界对TrainerAgent研究的推进,并有可能将其确立为人工智能领域模型开发的新范式。
  • HuggingGPT
    • 该框架采用ChatGPT等大型语言模型作为控制器,集成各种专门用于复杂任务的人工智能模型。它使用自然语言作为接口来简化跨不同领域和模态的任务执行,展示了更先进的AI系统的潜力
  • MetaGPT
    • 介绍了一种元编程框架,通过结合标准化的工作流来增强基于LLM的多Agent系统,以减少逻辑错误并提高任务效率。它通过为代理分配专门的角色来进行协作问题解决,从而实现了卓越的性能,在复杂的基准测试中优于现有的基于聊天的解决方案。
  • AutoGen
    • 提供了一个开放源代码的平台来构建复杂的LLM应用,允许Agent间通信以及LLM功能、人工输入和其他工具的混合。它能够实现会话模式和代理行为的定制,在从技术领域到创意产业的广泛领域中展示了其通用性和有效性。
目前的代理系统目前还无法很好地完成从用户需求到模型训练和部署的特定需求的构建,特别是在模型训练方面。缺乏专门的机制来保障系统的成功率、最终模型的运行情况和训练效果。虽然也有一些专门使用LLMs训练模型的工作,但它们仍然具有很大的局限性
  • AutoML-GPT
    • 将LLM的能力与专家系统的洞察力相结合,以实现AI模型训练的自动化,包括数据处理、设计和实验执行,它通过使用基于综合模型和数据描述的标准化提示,简化了人工智能解决方案的开发。这种统一的方法在各种AI任务中被证明是有效的,包括语言和视觉方面的任务,并且通过严格的测试证明了它在适应和调整新的数据集方面的优越性。然而,它需要固定的模型输入,具有刚性,对用户的算法理解要求很高
而我们的系统接受自然语言输入,自动理解所涉及的具体AI模型,并进行训练和优化。
  • Prompt2Model
    • 提出了一种使用自然语言任务描述来训练专门模型的方法,提供了比LLM更少计算资源的能力。它检索现有的数据集,使用LLMs生成额外的数据,并微调模型以提高性能。然而,Prompt2Model在可扩展性、缺乏对用户私有数据库的考虑以及对拥抱式界面的依赖等方面存在局限性。也仅限于NLP任务,缺乏灵活性。
通过引入由Task、Data、Model和Server Agent组成的多Agent框架,TrainerAgent提供了一种从数据和模型两个角度优化模型的综合解决方案,从而获得了高度令人满意的结果。
具体来说,Task Agent充当枢纽,协调其他Agent的活动并与用户进行交互,负责任务解析、全局规划、Agent间的协调以及用户交互。它解析用户定义的任务,制定模型开发的综合计划,协调代理活动,并提供用户友好的界面。
Data Agent处理各种数据处理操作,如收集、清洗、标记、增广、归约和可视化。它与任务代理协作,接收数据处理需求和指令,并自主规划和执行这些操作。
Model Agent负责模型的初始化、优化、集成、压缩、评估和可视化。选择合适的预训练模型,进行优化它们的性能,进行模型压缩,评估它们的性能,并提供模型的可视化表示和总结。
Server Agent根据用户自定义的在线服务需求进行模型部署。它估算资源需求,进行兼容性和效率的模型转换,并准备接口文件,以便与各种应用和系统进行无缝集成。
每个Agent由若干个组件组成,并提供系统提示和标准操作规程( SOP )来指导其动作。智能体分析需求,规划行动,并自主完成如图所示的复杂子任务。
首先,与大多数LLM驱动的智能体一样,我们系统中的每个智能体都包含以下组件:概要、记忆、感知、规划、动作和响应,如图1 ( a )所示。
notion image
具体来说,我们的代理人最初以系统提示信息作为简介,告知他们系统概况和他们的职责,并将标准操作程序( SOP )编码成提示信息。此外,在Agent的交互过程中,用户或其他Agent的当前需求,以及过去所有系统交互的记忆,都被反馈到当前Agent中。然后分析当前的需求,进入计划阶段,组织思想,设定目标,并确定实现这些目标所需的步骤。代理人也可以通过自省来修改自己的计划,以适应当前的环境。接下来,Agent会根据规划的结果采取行动,最终响应Agent或用户提供的需求。通过这些操作,智能体可以通过各种工具自主完成复杂的子任务。
然而,在实际业务场景中,从业务需求识别到最终模型部署的过程并不简单,涉及到众多复杂的分析和优化。根据我们的初步实验,单个Agent高效、有效地满足用户需求是具有挑战性的,也是不充分的。因此,在我们的框架中,我们将整个过程分解为任务解析与规划、数据获取与分析、模型训练与测试和服务部署四个部分。它们分别由Task、Data、Model和Server Agent协同实现,如图1 ( b )所示。其中,任务Agent充当枢纽,其他所有Agent通过它进行交互。它还与用户进行交互,而其他三个代理只专注于他们的具体任务。接下来,我们将介绍四个代理人的具体责任。
  • Task Agent
    • 任务代理是TrainerAgent系统中的核心代理,负责任务解析、全局规划、协调和用户交互,保证模型开发的高效和有效。首先,任务代理进行任务解析,包括解析用户定义的任务并提取相关信息。这个过程包括确定任务的特定目标和要求,如期望的模型精度、速度或任何其他特定标准。然后将解析后的任务转化为结构化的JSON格式,以便与其他Agent进行有效的通信和协作,以便进一步的分析和处理。一旦任务被解析,任务代理就参与全局规划。这一步涉及到制定一个全面的模型开发计划,该计划考虑到解析的任务、可用的输入数据以及其他代理的能力。任务代理评估与任务相关的可行性和潜在挑战,考虑数据可用性、计算资源和模型复杂性等因素。该规划阶段旨在优化模型开发过程,并确保后续步骤知情并与用户需求保持一致。此外,任务代理人在协调系统内其他代理人的活动方面也起着举足轻重的作用。它作为一个中心协调器,协调数据代理、模型代理和服务器代理之间的协作和通信。这种协调确保任务被有效地处理,并且各代理协同工作,以实现所需的模型。任务代理将任务分配和调度给相关代理,监控他们的进度,并解决可能出现的任何冲突或依赖。除了协调作用,任务代理还方便用户交互。它提供了一个用户友好的界面,允许用户与TrainerAgent系统进行交互。用户可以通过该界面提供反馈,细化需求,或监控模型开发进度。
      任务代理负责任务解析、全局规划、代理之间的协调以及用户交互。其任务包括提取任务信息、制定模型开发的综合计划、协调代理活动、提供用户友好的界面。这些功能使模型开发变得高效和有效,使得TrainerAgent系统在学术和工业领域的AI模型开发中都是一个很有前途的范例。
  • Data Agent
    • 数据代理在TrainerAgent系统中起着至关重要的作用,主要负责处理各种类型的数据。为了方便有效地处理数据,我们在Data Agent内部开发了一个广泛的内部知识库。该知识库涵盖了广泛的数据模态,包括表格、图像、文本、音频和视频数据。它使代理了解使用何种工具和技术来处理不同类型的数据和特定的处理场景。当知识库中不容易找到合适的操作时,数据代理进行在线搜索,以找到合适的方法。数据代理与任务代理协作运行,接收来自任务代理的数据处理需求和指令。基于这些需求,数据代理自主地进行规划和行动,以执行必要的操作。具体来说,数据代理负责数据收集,涉及从内部数据库或网页抓取等各种来源收集相关数据。这保证了模型开发的数据集的多样性和全面性。此外,Data agent进行数据清洗,其重点是从收集的数据中去除噪声、离群点和不一致性,并纠正注释。该步骤旨在增强数据集的质量和可靠性,确保后续建模过程基于干净、准确的数据。此外,在标注数据不足的场景下,Data agent具有执行数据自动标注的能力。例如,数据代理可以使用基于预训练大规模模型的方法为各种类型的数据生成初步标签,使模型能够从更大且更多样化的数据集中学习。此外,数据代理执行数据增强,包括通过对现有数据施加各种变换和修改来生成额外的训练样本。该技术有助于增加数据集的多样性和泛化能力,从而提高模型性能。同时,数据代理进行数据约简,其重点在于降低数据集的维度或大小,同时保留其关键信息。该步骤在处理大型数据集或计算密集型模型时特别有用,从而可以更有效地进行模型训练。最后,数据代理促进数据可视化,提供数据集的可视化表示和摘要,以帮助数据探索和理解。这使得用户能够深入了解数据分布和模式,从而在整个模型开发过程中辅助做出明智的决策。
      TrainerAgent系统中的数据代理负责一套全面的数据处理操作,包括收集、清洗、标注、增强、还原和可视化。数据代理利用其内部的知识库,根据从任务代理接收到的需求,自主地规划和执行这些操作。通过执行这些任务,Data Agent有助于提升Trainer Agent系统生成的人工智能模型的整体质量和性能。
  • Model Agent
    • 模型代理负责模型的训练和验证。与Data Agent类似,Model Agent接收来自Task Agent的任务需求和指令。它根据这些输入自主地进行规划并采取行动。具体来说,模型代理负责模型初始化,这涉及到为特定任务选择合适的预训练模型。内部模型库包括适用于不同任务的预训练模型的综合集合,拥抱面模型检索器提供了大量的预训练模型,允许模型代理根据任务需求识别出最合适的模型。此外,模型代理执行优化过程,以提高所选模型的性能,以及基于拥抱面孔的标准化训练脚本。利用我们建立的内部训练知识库,模型代理自动执行各种优化技术,如超参数调整,学习速率调度和正则化。这保证了模型训练的有效性和高效性。如果需要,模型代理可以利用集成方法来提高模型性能。此外,模型代理执行模型压缩,旨在不显著降低性能的前提下降低模型的规模和复杂度。这使得模型能够在资源受限的环境中高效部署,便于更快地进行推理。模型代理还进行模型评估,以评估训练好的模型的性能和泛化性。采用各种评价指标和技术,以确保模型符合用户期望的标准,并提供可靠的预测。此外,模型代理有助于模型可视化,提供模型的体系结构、学习表示和决策边界的可视化表示和摘要。这有助于模型的解释和理解,使用户能够深入了解模型的行为。
      TrainerAgent系统中的模型代理负责一系列任务,包括模型初始化、优化、集成、压缩、评估和可视化等。Model Agent利用内部模型库、拥抱面模型检索器和训练知识库,根据从Task Agent接收到的需求,自主地规划和执行这些任务。通过其贡献,Model agent能够在TrainerAgent系统中对模型进行高效的训练、优化和评估。
  • Server Agent
    • Server Agent根据用户自定义的在线服务需求处理模型的部署。与Data和Model代理类似,Server代理接收来自Task代理的需求,并自主执行规划和动作。具体来说,Server代理进行资源估计,动态评估模型部署所需的计算和内存资源。该估计考虑了服务器规格和预期服务并发度等因素。服务器代理通过准确估计资源需求,保证了可用基础设施的高效利用,防止了模型服务过程中的资源瓶颈。此外,Server代理负责模型转换,保证了部署过程中的兼容性和高效性。它执行从PyTorch或TensorFlow等框架到ONNX和TensorRT等格式的转换。这样可以实现与不同运行时环境的无缝集成,优化模型推理性能。此外,Server代理专注于界面文档的编写,以促进工程和业务团队之间的协作。它准备了全面的、参数化的服务调用接口,使部署的模型能够无缝地通信并集成到各种应用和系统中。这些接口文件为技术实现和业务集成提供了参考。总而言之,Server代理保证了资源的有效分配、无缝部署以及模型在实际应用中的有效集成。通过其贡献,Server Agent增强了Trainer Agent系统的实用性和易用性。
  • Experiments
    • 在我们的实验中,我们使用GPT - 4作为TrainerAgent系统中的一个独立代理。每个代理都单独配置一个配置文件,也称为系统提示。用户通过对话直接与TrainerAgent系统进行交互,最终完成模型训练过程。需要说明的是,虽然我们的实验是在淘宝网内部专门进行的,但TrainerAgent系统可以在各种现实场景中进行推广和应用。
    • Visual Ground
      • notion image
    • Image Generation
      • FaceChain, Stable Diffusion
    • Text Classification
      • notion image
  • Failed or Refused Tasks
    • 在这一部分中,我们将介绍我们的系统可能会失败或拒绝执行的任务。我们的系统可能无法解决非常具有挑战性的任务。假设用户请求一项艰巨的任务(例如视频问答 [19]),但是,没有可用于训练模型的标记数据,并且用户要求任务的高精度。在进行广泛的分析后,我们的任务代理可以自主确定由于缺乏标记数据和现有模型的性能限制而无法满足用户的要求。尽管进行了广泛的数据和模型搜索,代理商仍无法找到合适的资源来满足用户的要求。为了克服此限制,代理请求用户干预,例如手动注释更多数据以提高模型性能。如果用户没有提供必要的帮助,我们的系统将适当地得出结论,由于缺乏可用资源和训练数据,它无法完成任务。此外,出于道德原因,我们的 TrainerAgent 将拒绝执行任务。为了维护道德标准并确保用户的安全,我们的系统将拒绝执行某些任务。例如,如果用户请求系统生成有害、冒犯或违反道德规范的内容,则任务代理会了解该请求及其潜在后果。代理认识到负责任地使用 AI 的重要性以及此类生成内容可能造成的潜在危害。它优先考虑用户的福祉和任务的道德影响。因此,代理坚决拒绝遵守该请求,确保系统不会助长有害或不当内容的传播。代理强调系统的道德准则和道德责任,为用户营造一个安全和支持性的环境。
      通过结合代理的理解和决策过程,这些详细的解释展示了系统如何评估任务、识别局限性和考虑道德影响。这增强了系统以用户为中心的方法和负责任的 AI 模型部署。

Episodic Memory Question Answering

以自我为中心的增强现实设备,如可穿戴眼镜,当人类穿戴者游览家庭环境时,被动地捕获视觉数据。我们设想了一个场景,在这个场景中,人类通过询问问题(例如, "你最后一次看见我的钥匙是在哪里? ")与一个为这种设备供电的人工智能代理进行通信。为了在这一任务中取得成功,自我中心AI助手必须( 1 )构建语义丰富且高效的场景记忆,编码游览过程中所见物体的时空信息;( 2 )具备理解问题的能力,并将其答案融入到语义记忆表征中。为此,我们引入了( 1 )一个新的任务- -情景记忆问答( EMQA ),其中,一个以自我为中心的人工智能助手被提供一个视频序列(游览)和一个问题作为输入,并被要求在游览中定位问题的答案;( 2 )一个扎根问题数据集,旨在探索代理人对游览的时空理解;( 3 )一个任务模型,将场景编码为一个非中心化的、自上而下的语义特征图,并将问题扎根到地图中,以定位答案。我们表明,我们对场景记忆的选择优于对任务的天真的、现成的解决方案,以及一系列非常有竞争力的基线,并且对深度、姿态和相机抖动的噪声具有鲁棒性。
想象一下,戴着一副人工智能驱动的增强现实( AR )眼镜,在你的房子周围散步。这样的智能眼镜将具有"看"的能力,从与其佩戴者相同的视角被动地捕获以自我为中心的视觉数据,将周围的视觉信息组织到其记忆中,并使用这些编码的信息通过回答"你最后在哪里看到我的钥匙? "等问题与人类进行交流。换句话说,这些设备可以充当我们自己的个人自我中心AI助手。

Advancing Visual Grounding With Scene Knowledge: Benchmark and Method

视觉接地(VG)旨在建立视觉和语言之间的细粒度一致性。理想情况下,它可以成为视觉和语言模型的测试平台,以评估它们对图像和文本的理解以及它们在联合空间上的推理能力。然而,大多数现有的 VG 数据集都是使用简单的描述文本构建的,不需要对图像和文本进行充分的推理。最近的一项研究 [27] 已经证明了这一点,其中无需预训练的简单的基于 LSTM 的文本编码器可以在主流 VG 数据集上实现最先进的性能。因此,在本文中,我们提出了一种新的场景知识引导视觉接地(SK-VG)基准,其中图像内容和指代表达不足以对目标对象进行接地,迫使模型具有对目标对象的推理能力。长篇场景知识。为了执行此任务,我们提出了两种接受三元类型输入的方法,其中前者在图像查询交互之前将知识嵌入到图像特征中;后者在图像查询交互之前将知识嵌入到图像特征中。后者利用语言结构来协助计算图像文本匹配。我们进行了大量的实验来分析上述方法,并表明所提出的方法取得了有希望的结果,但仍然留有改进的空间,包括性能和可解释性。数据集和代码可在 https://github.com/zhjohnchan/SK-VG 获取。

Language-Driven Representation Learning for Robotics

面向机器人的语言驱动表示学习
最近在机器人视觉表示学习方面的研究表明,利用人类执行日常任务的大规模视频数据集进行学习是可行的。通过利用遮蔽自编码和对比学习等方法,这些表示表现出在视觉运动控制的策略学习中很强的迁移能力。但是,机器人学习不仅仅包括控制问题,还包括抓取可行性预测、基于语言条件的模仿学习以及用于人机协作的意图评分等各种问题。首先,我们证明了现有的表示方法在这些任务中产生了一些不一致的结果:遮蔽自编码方法注重低层次的空间特征而牺牲高层次的语义信息,而对比学习方法则强调高层次的语义信息而忽视了低层次的空间特征。接着,我们引入了一种名为Voltron的语言驱动表示学习框架,它从人类视频和相关字幕中进行学习。Voltron通过在视觉重构中考虑语言条件来学习低层次的视觉模式,并通过基于视觉的语言生成来编码高层次的语义信息。我们还构建了一个跨足五个不同机器人学习问题的新评估套件,可以统一评估机器人视觉表示的整体性能。通过全面、受控的实验,我们发现Voltron的语言驱动表示优于之前的最优结果,特别是在需要高层次特征的具体问题上。
工作的原始目标非常简单,希望机器人可以通过看视频的方式,来学习人类的行为。所产生的模型,可以finetune到下游任务。
  1. 现有的机器人视觉表示学习方法,在超越控制的各种机器人学习问题上表现出不一致的结果; Voltron 是一种语言驱动的视觉表示学习框架,平衡了调节和生成,以捕捉低级的视觉模式和高级的语义;
  1. Voltron 在各种机器人学习问题上的表现优于现有方法,特别是那些需要高层特征的问题;
  1. 本文介绍了一种新的评估套件,由机器人学五个不同的问题领域组成,用于全面评估视觉表征。

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

随着最近大型多模态模型( LMMs )的显著进步,其在可视聊天中的接地能力的重要性越来越被认识。尽管最近努力使LMMs支持接地,但它们的接地和聊天能力通常是分开的,当被要求接地时,它们的聊天性能会急剧下降。问题是缺乏一个用于地面可视聊天( GVC )的数据集。现有的接地数据集仅包含简短的字幕。为了解决这个问题,我们创建了GVC数据,该数据允许接地和聊天功能的组合。为了更好地评估GVC能力,我们引入了一个称为Grounding - Bench的基准测试程序。此外,我们还提出了一种模型设计,通过连接分割模型和语言模型,可以支持GVC和各种类型的视觉提示。实验结果表明,本文模型在Grounding - Bench上的表现优于其他LMM。此外,我们的模型在RefCOCO / + / g和Flickr30K Entities等经典接地基准上取得了有竞争力的性能。
notion image

PG-Video-LLaVA: Pixel Grounding Large Video-Language Models

What Object Should I Use? - Task Driven Object Detection

 
拓扑学数学常用表