(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210685096.4
(22)申请日 2022.06.16
(71)申请人 人民网股份有限公司
地址 100082 北京市西城区新 街口外大街
28号B座234 号
申请人 天津大学
(72)发明人 刘安安 徐宁 张国楷 郭俊波
靳国庆 张勇东
(74)专利代理 机构 天津市北洋 有限责任专利代
理事务所 12 201
专利代理师 李林娟
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/36(2019.01)
G06F 16/901(2019.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于图感知的视觉对话答案生成方法及装
置
(57)摘要
本发明公开了一种基于图感知的视觉对话
答案生成方法及装置, 方法包括: 根据各模态性
质分别构建查询库, 根据查询要素对模态内信息
敏感程度不同, 利用自注意力机制对 特征向量分
配权重加和, 保留在实际场景中利于推理过程的
模态特征; 对历史对话进行实体识别和关系检
测, 以实体作为节点, 关系作为有向边构建基础
图架构, 利用GloVe词向量对实体与关系进行编
码; 通过迭代更新多次增强图语义, 旨在多次将
图内信息反馈回对话历史和图像内容中, 信息传
递过程呈现闭环, 用来充分挖掘模态间的交互关
系; 将迭代多次融合而成的图特征与视觉、 文本
特征整合后送入解码器, 实现多模态信息协同表
征, 生成针对当前场景所提出问题的答案。 装置
包括: 处理器和存 储器。
权利要求书1页 说明书8页 附图3页
CN 115129839 A
2022.09.30
CN 115129839 A
1.一种基于图感知的视 觉对话答案生成方法, 其特 征在于, 所述方法包括以下步骤:
根据各模态性质分别构建查询库, 根据查询要素对模态内信息敏感程度不同, 利用自
注意力机制对特 征向量分配权 重加和, 保留在实际场景中利于推理过程的模态特 征;
对历史对话进行实体识别和关系检测, 以实体作为节点, 关系作为有向边构建基础图
架构, 利用Gl oVe词向量对实体与关系进行编码;
通过迭代更新多次增强图语义, 旨在多次将图特征反馈回对话历史和图像内容, 信息
传递过程呈现闭环, 挖掘模态间的交 互关系;
将迭代多次融合而成的图特征与视觉、 文本特征整合后送入解码器, 实现多模态信息
协同表征, 生成针对当前场景 所提出问题的答案 。
2.根据权利要求1所述的一种基于图感知的视觉对话答案生成方法, 其特征在于, 所述
方法还包括:
利用长短期记忆网络LSTM对视觉描述以及对话历史等文本信息进行编码, 根据文本信
息初始化基础有向图, 利用Faster ‑RCNN对图片特 征进行特征提取。
3.根据权利要求1所述的一种基于图感知的视觉对话答案生成方法, 其特征在于, 所述
构建基础图架构具体为:
根据文本信 息句法结构及语义, 识别文本信 息中的实体与关系, 初始化有向图, 利用视
觉描述和问题特征对图中各节点进行全局语义增强, 将图节点特征进 行整合分别送入历史
对话和图片特征中, 经查询库中各查询向量挑选之后, 再将问题相关的对话特征和图片特
征对图节点进行语义增强。
4.根据权利要求1所述的一种基于图感知的视觉对话答案生成方法, 其特征在于, 所述
将迭代多次融合而成的图特征与视觉、 文本特征整合后送入解码器, 实现多模态信息协同
表征, 生成针对当前场景 所提出问题的答案具体为:
将多阶段的高阶语义图进行节点级别特征融合, 再进行嵌入以生成图向量, 并将图向
量再次反馈回相关对话回合和图片区域进 行向量拼接并加权求和, 经多层感知机和激活函
数后得到答案推理特 征。
5.根据权利要求1所述的一种基于图感知的视觉对话答案生成方法, 其特征在于, 所述
方法还包括:
利用全连接层、 多层感知机、 激活函数及自注意力; 联合嵌入文本、 视 觉以及图特 征。
6.一种基于图感知的视觉对话答案生成装置, 所述装置包括: 处理器和存储器, 所述存
储器中存储有程序指 令, 所述处理器调用存储器中存储的程序指 令以使装置执行权利要求
1‑5中的任一项所述的方法步骤。
7.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程
序, 所述计算机程序包括程序指令, 所述程序指令被处理器执行时使所述处理器执行权利
要求1‑5中的任一项所述的方法步骤。权 利 要 求 书 1/1 页
2
CN 115129839 A
2基于图感知的视觉对话答案生成方 法及装置
技术领域
[0001]本发明涉及视觉对话生成领域, 尤其涉及 一种基于图感知的视觉对话基于图感知
的视觉对话答案生成方法及装置 。
背景技术
[0002]随着人工智能的不断发展, 视觉对话在计算机视觉和自然语言处理的交叉领域受
到了前所未有的关注。 在该任务中, 给定一张图片、 图片描述以及一组对话(即多轮问答
对), 智能体能够根据当前问题充分理解跨模态语义的潜在关联, 并且推理出精确答案。 与
其他视觉语言任务, 例如: 图像描述生成[1]、 场景图生成[2]、 视觉常识推理[3]、 视觉问答
(VQA)[4]等不同, 为了根据 实际需求和应用场景进一步探讨视觉与语言之间的深层语义依
赖关系, 视觉对话不仅要求文本与图像之间存在细粒度的跨模态理解, 而且要求当前问题、
对话历史与视觉信息之 间具有全局语义依赖性。 这项技术旨在通过智能体对当前问题进 行
精准反馈为人类答疑解惑, 来代替人类感知与思考。 可以广泛应用于人机交互, 帮助视障用
户感知周边信息等。 为了搭建视觉对话生成研究平台, VisDial v0.9与VisDial v1.0数据
集被提出[5], 以便验证模型在实际场景中的应用能力。
[0003]现有方法[6‑11]在视觉对话生成方面展 现了创新方法和出色表现, 研究者主要将研
究中心放在如何利用注意力机制以文本信息引导视觉信息的提取, 然后将多模态特征进 行
嵌入融合, 最终送入解码器中解析出答案线索, 已有的框架 像DAN[6]、 RAA‑Net[7]均取得良好
性能。 然而这个推理过程是单向的, 导致跨模态交互不足, 生成答案的精度以及丰富度受
限。 而GNN[8]、 FGA[9]等框架引入图结构可以缓解这一缺点, 将文本与视觉抽象出多层 级语义
用来构建图, 通过消息传递的图内循环方式, 实现包含多模态信息的图节点间交互, 再对图
进行嵌入得到图特 征用于答案生成。
[0004]然而, 上述现有模型过于重视图中高阶信息在推理过程中的作用, 忽视原本自然
语言和视觉内容的推理能力, 使其在推理过程中的作用得到一定程度的削弱。 这说明亟需
引入动态结构来优化模型, 使得图模态与视觉文本之间建立密切的交互关系, 通过图外循
环强化视觉与文本的推理作用。 在以往的文献中, 并没有采用图结构作为媒介来丰富对话
回合和视 觉区域语义的策略。
[0005]综上所述, 尽管视觉对 话生成领域已经取得一系列进展[8,9], 但是仍然没有设计 出
图感知的多模态语义交互框架, 忽略了图模态与视觉文本之间密切交互对于推理的作用。
目前主流方法仍是对原始信息进 行特征提取与融合, 这种单向粗粒度操作无法充分发掘文
本与视觉之间的语义依赖关系, 从而损害针对当前场景的答案生成效果。
[0006]基于此研究现状, 目前面临的挑战主 要有以下三个方面:
[0007]1、 如何从视 觉文本多模态信息中抽象出图结构继而对图语义进行迭代增强;
[0008]2、 如何将图中高阶信息反馈回对话历史和图像区域中并优化其自注意力加权过
程;
[0009]3、 如何将图模态特征和文本、 视觉等特征进行联合特征嵌入以及对当前问题进行说 明 书 1/8 页
3
CN 115129839 A
3
专利 基于图感知的视觉对话答案生成方法及装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:58:00上传分享