(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210755487.9
(22)申请日 2022.06.29
(71)申请人 上海大学
地址 200436 上海市宝山区上海市上 大路
99号
申请人 上海市文化和旅游局(上海市广播
电视局 上海市文物局)
上海市文物保护研究中心
(72)发明人 刘炜 黄铮 彭艳 谢少荣
方世忠 褚晓波 李晶 翟杨
赵荦 杨天源
(74)专利代理 机构 北京新科华领知识产权代理
事务所(普通 合伙) 16115
专利代理师 吴变变(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/126(2020.01)
(54)发明名称
多模态文物知识图谱构建方法、 装置及系统
和存储介质
(57)摘要
本发明公开一种多模态文物知识图谱构建
方法、 装置及系统和存储介质。 所述方法包括获
取文物领域多模态数据, 其中包含 结构化与非结
构化文物图文数据; 将非结构化文物数据处理为
图文对的形式, 将结构化文物数据转为多模态三
元组的形式; 对文物领域本体进行构建并形成多
模态文物本体模 型; 采用基于目标引导的多模态
知识抽取网络对非结构化文物数据进行实体抽
取、 关系抽取; 将经抽取形成的三元组与由结构
化文物数据转换得到的多模态三元组进行图谱
间融合, 形成完整的多模态文物知识图谱。 本发
明能够解决单一模态表达文物知识能力不足, 知
识抽取准确率低的问题。 同时能够通过构建出的
多模态知识图谱来丰富 其多用途的下游任务。
权利要求书3页 说明书7页 附图2页
CN 115391547 A
2022.11.25
CN 115391547 A
1.一种多模态文物知识图谱构建方法, 其特 征在于: 所述方法包括:
获取文物领域多模态数据, 所述文物领域多模态数据包含结构化文物领域多模态数据
与非结构化文物领域多模态数据, 将非结构化文物领域多模态数据 处理为图像 ‑文本对的
形式, 将结构化文物数据转 为多模态三元组的形式;
文物领域多模态本体的构建并形成多模态文物本体模型;
采用多模态文物本体模型和基于目标引导的多模态知识抽取网络对非结构化文物数
据进行实体抽取、 属性抽取、 关系抽取;
将经实体抽取、 属性抽取、 关系抽取形成的多模态三元组与由结构化文物数据转换得
到的多模态三元组进行图谱间融合, 形成完整的多模态文物知识图谱。
2.根据权利要求1所述的一种 多模态文物知识图谱构建方法, 其特征在于: 所述获取文
物领域多模态数据, 所述文物领域多模态数据包含结构化文物领域多模态数据与非结构化
文物领域多模态数据, 将非结构化文物领域多模态数据处理为图像 ‑文本对的形式, 将结构
化文物数据转 为多模态三元组的形式, 具体包括:
基于已有的数据源, 提取出文物图像以及文物对应的文本描述, 并通过数据源中包含
的结构化数据片段提取出文物属性值以及所对应的文物属性标签, 所述结构化数据片段包
括表格、 标签;
对原始文本内容, 去除文本中的与语义无关的内容;
对原始图像信息, 对每张图片使用显著性网络提取图像主体部分。
3.根据权利要求1所述的一种 多模态文物知识图谱构建方法, 其特征在于: 所述文物领
域多模态本体的构建并形成多模态文物本体模型, 具体包括:
基于文物领域专家人工编制的文物实体、 文物关系、 文物属性以及文物图例中的主要
抽取目标、 文物图像之间的关系、 文物文本区域与图像区域之 间的关系, 构建原始多模态文
物本体库;
收集已有的结构化文物知识库和开放的非结构化文物知识库经信息抽取提取出的文
物实体信息、 文物关系信息、 文物属性信息;
选取置信度高的文物实体信息、 文物关系信 息、 文物属性信 息作为候选补充知识, 并与
所述原始多模态文物本体库进行融合, 形成多模态文物本体库。
4.根据权利要求1所述的一种 多模态文物知识图谱构建方法, 其特征在于: 所述采用多
模态文物本体模型和基于目标引导的多模态知识抽取网络对非结构化文物数据进行实体
抽取、 属性抽取、 关系抽取, 具体包括:
将清洗过的多模态文物文本数据经预训练语言模型进行编码, 将每个字编码为字向量
进行表示;
将与文本匹配的文物图片通过目标检测网络进行检测, 识别出文物主体、 特征点边界
框, 并统一缩放 为相同图像大小;
对文本数据通过语法解析器得到所有的名词性短语, 并根据编码结果取出名词性短语
对应的特 征表示;
构造文物文本与文本、 文本与图像、 图像与图像之间的图, 其中图的结点为文本目标短
语或视觉区域, 边则为两个节点之间的关系, 与多模态文物本体库中预先定义的关系相对
应;权 利 要 求 书 1/3 页
2
CN 115391547 A
2将得到的图结构输入双流Transformer网络中, 进行模态内与模态间的特征交互和融
合, 并将融合后的文本序列和图像区域序列特征通过CRF条件随机场进 行解码, 得到输出多
模态三元组, 其中所有三元组遵从文物本体库中的知识 表达形式。
5.根据权利要求4所述的一种 多模态文物知识图谱构建方法, 其特征在于: 将清洗过的
多模态文物文本数据经预训练语言模型进行编码, 将每个字编码为字 向量进行表示, 并将
与文本匹配的文物图片通过目标检测网络进 行检测, 识别出文物主体、 特征点边界框, 并统
一缩放为相同图像大小, 具体满足下述定义:
其中LanguageModel为经过预训练的语言模型, xi为输出的字向量, ObjectDetection代
表目标检测模型, 每段原始文本
对应K张原始图片, 所有图片共检测出N个目标, 其特征为
Oi。
6.根据权利要求4所述的一种 多模态文物知识图谱构建方法, 其特征在于: 所述将得到
的图结构输入双流Transformer网络中, 进行模态内与模态间的特征 交互和融合, 并将融合
后的文本序列和图像区域序列特征通过CRF条件随机场进 行解码, 得到输出多模态三元 组,
具体包括:
对所有文本节点状态
对所有图像区域节点状态
其中l表示
第l层的Transformer融合 块, 融合了文本上 下文的特 征表示为:
其中MultiHead( ·)代表了多头自注意 函数;
对图像区域节点的上 下文特征表示为:
经一定数量的模态内融合层之后, 使用模态间融合层对模态间特征进行融合, 具体表
示为:
其中,
代表由
的相邻节点 组成的集合,
代表第l层经模态间交叉融合后的
特征表示,
代表文本模态上下文的特征表示, αi,j代表跨模态间的融合系数,
代表图
像区域结点的上下文特征表示, ⊙代表点积操作, sigmoid( ·)代表激活函数,
代
表待学习的参数矩阵;
将文本与图像的融合表示经过CRF条件随机场进行解码, 得出每个标签的联合概率分
布, 具体表示 为:权 利 要 求 书 2/3 页
3
CN 115391547 A
3
专利 多模态文物知识图谱构建方法、装置及系统和存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:59:20上传分享