专利 基于图感知的视觉对话答案生成方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210685096.4 (22)申请日 2022.06.16 (71)申请人人民网股份有限公司地址 100082 北京市西城区新街口外大街 28号B座234 号申请人天津大学 (72)发明人刘安安　徐宁　张国楷　郭俊波　靳国庆　张勇东　 (74)专利代理机构天津市北洋有限责任专利代理事务所 12 201 专利代理师李林娟 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 16/901(2019.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于图感知的视觉对话答案生成方法及装置 (57)摘要本发明公开了一种基于图感知的视觉对话答案生成方法及装置，方法包括：根据各模态性质分别构建查询库，根据查询要素对模态内信息敏感程度不同，利用自注意力机制对特征向量分配权重加和，保留在实际场景中利于推理过程的模态特征；对历史对话进行实体识别和关系检测，以实体作为节点，关系作为有向边构建基础图架构，利用GloVe词向量对实体与关系进行编码；通过迭代更新多次增强图语义，旨在多次将图内信息反馈回对话历史和图像内容中，信息传递过程呈现闭环，用来充分挖掘模态间的交互关系；将迭代多次融合而成的图特征与视觉、文本特征整合后送入解码器，实现多模态信息协同表征，生成针对当前场景所提出问题的答案。装置包括：处理器和存储器。权利要求书1页说明书8页附图3页 CN 115129839 A 2022.09.30 CN 115129839 A 1.一种基于图感知的视觉对话答案生成方法，其特征在于，所述方法包括以下步骤：根据各模态性质分别构建查询库，根据查询要素对模态内信息敏感程度不同，利用自注意力机制对特征向量分配权重加和，保留在实际场景中利于推理过程的模态特征；对历史对话进行实体识别和关系检测，以实体作为节点，关系作为有向边构建基础图架构，利用Gl oVe词向量对实体与关系进行编码；通过迭代更新多次增强图语义，旨在多次将图特征反馈回对话历史和图像内容，信息传递过程呈现闭环，挖掘模态间的交互关系；将迭代多次融合而成的图特征与视觉、文本特征整合后送入解码器，实现多模态信息协同表征，生成针对当前场景所提出问题的答案。 2.根据权利要求1所述的一种基于图感知的视觉对话答案生成方法，其特征在于，所述方法还包括：利用长短期记忆网络LSTM对视觉描述以及对话历史等文本信息进行编码，根据文本信息初始化基础有向图，利用Faster ‑RCNN对图片特征进行特征提取。 3.根据权利要求1所述的一种基于图感知的视觉对话答案生成方法，其特征在于，所述构建基础图架构具体为：根据文本信息句法结构及语义，识别文本信息中的实体与关系，初始化有向图，利用视觉描述和问题特征对图中各节点进行全局语义增强，将图节点特征进行整合分别送入历史对话和图片特征中，经查询库中各查询向量挑选之后，再将问题相关的对话特征和图片特征对图节点进行语义增强。 4.根据权利要求1所述的一种基于图感知的视觉对话答案生成方法，其特征在于，所述将迭代多次融合而成的图特征与视觉、文本特征整合后送入解码器，实现多模态信息协同表征，生成针对当前场景所提出问题的答案具体为：将多阶段的高阶语义图进行节点级别特征融合，再进行嵌入以生成图向量，并将图向量再次反馈回相关对话回合和图片区域进行向量拼接并加权求和，经多层感知机和激活函数后得到答案推理特征。 5.根据权利要求1所述的一种基于图感知的视觉对话答案生成方法，其特征在于，所述方法还包括：利用全连接层、多层感知机、激活函数及自注意力；联合嵌入文本、视觉以及图特征。 6.一种基于图感知的视觉对话答案生成装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求 1‑5中的任一项所述的方法步骤。 7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行权利要求1‑5中的任一项所述的方法步骤。权　利　要　求　书 1/1 页 2 CN 115129839 A 2基于图感知的视觉对话答案生成方法及装置技术领域 [0001]本发明涉及视觉对话生成领域，尤其涉及一种基于图感知的视觉对话基于图感知的视觉对话答案生成方法及装置。背景技术 [0002]随着人工智能的不断发展，视觉对话在计算机视觉和自然语言处理的交叉领域受到了前所未有的关注。在该任务中，给定一张图片、图片描述以及一组对话(即多轮问答对)，智能体能够根据当前问题充分理解跨模态语义的潜在关联，并且推理出精确答案。与其他视觉语言任务，例如：图像描述生成[1]、场景图生成[2]、视觉常识推理[3]、视觉问答 (VQA)[4]等不同，为了根据实际需求和应用场景进一步探讨视觉与语言之间的深层语义依赖关系，视觉对话不仅要求文本与图像之间存在细粒度的跨模态理解，而且要求当前问题、对话历史与视觉信息之间具有全局语义依赖性。这项技术旨在通过智能体对当前问题进行精准反馈为人类答疑解惑，来代替人类感知与思考。可以广泛应用于人机交互，帮助视障用户感知周边信息等。为了搭建视觉对话生成研究平台， VisDial v0.9与VisDial v1.0数据集被提出[5]，以便验证模型在实际场景中的应用能力。 [0003]现有方法[6‑11]在视觉对话生成方面展现了创新方法和出色表现，研究者主要将研究中心放在如何利用注意力机制以文本信息引导视觉信息的提取，然后将多模态特征进行嵌入融合，最终送入解码器中解析出答案线索，已有的框架像DAN[6]、 RAA‑Net[7]均取得良好性能。然而这个推理过程是单向的，导致跨模态交互不足，生成答案的精度以及丰富度受限。而GNN[8]、 FGA[9]等框架引入图结构可以缓解这一缺点，将文本与视觉抽象出多层级语义用来构建图，通过消息传递的图内循环方式，实现包含多模态信息的图节点间交互，再对图进行嵌入得到图特征用于答案生成。 [0004]然而，上述现有模型过于重视图中高阶信息在推理过程中的作用，忽视原本自然语言和视觉内容的推理能力，使其在推理过程中的作用得到一定程度的削弱。这说明亟需引入动态结构来优化模型，使得图模态与视觉文本之间建立密切的交互关系，通过图外循环强化视觉与文本的推理作用。在以往的文献中，并没有采用图结构作为媒介来丰富对话回合和视觉区域语义的策略。 [0005]综上所述，尽管视觉对话生成领域已经取得一系列进展[8,9]，但是仍然没有设计出图感知的多模态语义交互框架，忽略了图模态与视觉文本之间密切交互对于推理的作用。目前主流方法仍是对原始信息进行特征提取与融合，这种单向粗粒度操作无法充分发掘文本与视觉之间的语义依赖关系，从而损害针对当前场景的答案生成效果。 [0006]基于此研究现状，目前面临的挑战主要有以下三个方面： [0007]1、如何从视觉文本多模态信息中抽象出图结构继而对图语义进行迭代增强； [0008]2、如何将图中高阶信息反馈回对话历史和图像区域中并优化其自注意力加权过程； [0009]3、如何将图模态特征和文本、视觉等特征进行联合特征嵌入以及对当前问题进行说　明　书 1/8 页 3 CN 115129839 A 3

专利 基于图感知的视觉对话答案生成方法及装置

专利基于图感知的视觉对话答案生成方法及装置