说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210805128.X (22)申请日 2022.07.08 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市拱 墅区潮王路 18号 (72)发明人 温震宇 於志成 彭影影 钱稼旭  陈嘉珺 洪榛  (74)专利代理 机构 杭州天正专利事务所有限公 司 33201 专利代理师 孙家丰 (51)Int.Cl. G06F 16/36(2019.01) G06N 5/02(2006.01) G06F 16/35(2019.01) G06F 16/55(2019.01) (54)发明名称 基于场景图和概念网相结合的检索知识图 谱库生成方法 (57)摘要 基于场景图和概念网相结合的检索知识图 谱库生成方法, 包括: 1)模型预训练: 在神经网络 上对输入数据进行预训练, 检测图片中出现的物 体种类和其位置; 2)场景图的训练: 对模型预训 练的结果进行无偏训练, 并应用神经网络模型最 终输出与场景图相关信息的文件, 预测出图片中 不同种类之间的关系; 3)知识图谱的自动扩充; 4)对于训练完成的场景图模型进行测试; 5)将场 景图和概念网相关的文件信息进行提取并处理, 然后导入到检索数据库中, 最终组成本检索数据 库; 将场景图中相似度高的节点和关系进行合 并, 并将场景图和概念网对应的知识图谱库进行 融合, 最后将场景图和概念网合并成一个包含所 有信息的知识图谱库; 6)数据库定时更新。 权利要求书3页 说明书6页 附图2页 CN 115391548 A 2022.11.25 CN 115391548 A 1.一种基于场景图和概念网相结合的检索知识图谱库生成方法, 其特征在于, 包括以 下步骤: 1)模型预训练: 数据来自公开可用的MS ‑COCO数据 集, 该数据集是一个大规模的对象检 测、 分割、 关键点检测和字幕数据集; 输入该数据集之后, 在经典的神经网络(Faster ‑CNN) 上对其进行 预训练, 检测图片中出现的物体种类和其 位置; 2)场景图的训练: 对模型预训练的结果进行无偏训练, 并应用神经网络模型最终输出 与场景图相关信息的文件, 预测出图片中不同种类之间的关系; 3)知识图谱的自动扩充: 基于概念网的知识图谱, 可以对其进行扩充; 可以通过新词得 到新的知识, 并添加到知识图谱中; 4)模型测试: 对于训练完成的场景图模型进行测试, 使用准确率(Accuracy)、 精准率 (Precisi on)、 召回率(Recal l)和F1_score来评估所提出 方法的性能; 5)生成检索数据库: 将场景图和概念网相关的文件信息进行提取并处理, 然后导入到 检索数据库中, 最 终组成本检索数据库; 将场景图中相似度高的节 点和关系进 行合并, 并将 场景图和概念网对应的知识图谱库进 行融合, 最后 将场景图和概念网合并成一个包含所有 信息的知识图谱库; 6)数据库定时更新: 使用了增量学习的方法可以实现对数据库的在线的更新, 可以增 加数据库的信息 。 2.如权利要求1所述的一种基于场景图和概念网相结合的检索知识图谱库生成方法, 其特征在于, 步骤1)所述的模型 预训练包括: 1.1)数据集处理阶段, 对MS ‑COCO数据集进行处理, 筛选出有特定种类的图片, 过滤掉 多余的图片; 1.2)在经典的神经网络(Faster ‑CNN)上对其进行预训练; 首先, 用卷积层提取输入图 像的特征, 区域提案网络生成区域提议, 根据特征图和区域提议提供的坐标[x,y,w,h], 然 后经过感兴趣区域对齐, 生成固定尺寸的特 征图, 最后利用soft  max进行具体类别的分类。 3.如权利要求1所述的一种场景图和概念网相结合的检索知识图谱库生成方法, 其特 征在于, 步骤2)所述的场景图的训练包括以下 过程: 2.1)基于已有的场景图训练方法, 使用神经网络Neural ‑MOTIFS模型对场景图生成进 行无偏训练; 场景图无偏训练的过程: 使用传统的场景图训练方法然后去偏 差; 首先用基于 事实的因果图训练方法, 即正常模型的训练框架; X是目标特征, 先预测出目标标签Z, 最终 由图像I, 目标特征X, 目标标签Z共同预测谓语动词 Y; 预测谓语动词的形式为(I, X, Z) →Y; 训练损失的公式如下: 其中, 通过使用目标 标签Z和谓词标签Y的交叉熵损失进行训练; 然后, 使用同一个模型, 用不同的方法; 使用被干预的原始因果图方法进行训练; 与上 一个方法不同的是, 去除了I →X, 即目标特征X不受图片I的影响, 也不决定目标标签Z的标 签, 给与X分配一个虚拟值, 然后推断谓词是什么; 根据得出的2个谓语动词Y, 将两次结果相 减; 可以依靠观 察到的结果Y(u)和它的反事实替代Yx,z(u)之间的差异来消除偏见的影 响, 公 式如下:权 利 要 求 书 1/3 页 2 CN 115391548 A 2TDE=Y(u)‑Yx,z(u)            (2) 其中, TDE将作为无偏场景图的最终谓词得分, Y(u), Yx,z(u)分布是第一次和第二次得到 的谓语动词; 2.2)输出结果, 得到对应的json文件; 对于每张图像, 场景图信息保存为包含目标, 该 目标的得分情况, 目标标签, 两个种类之间的关系, 关系标签, 关系的得分, 每个对象对应匹 配所有51个谓词的概 率。 4.如权利要求1所述的一种场景图和概念网相结合的检索知识图谱库生成方法, 其特 征在于, 步骤3)所述的知识图谱的自动扩充包括以下 过程: 3.1)在概念网官网获取相关的文件; 3.2)设计了知识图谱自动扩充方法, 实施的具体步骤如下: 首先, 从百度百科, 百度文 库等网站学习新词, 实时跟进新词所代表的含义然后, 运用BERT模型抽取概念与概念之间 的关系; 定位句子和两个实体的位置, 提取句子的语义特征和实体的特征, 再拼接三个特征 进行关系的分类, 其 拼接并分类公式如下: h”=W[concat(H'0,H'1,H'2)]+b          (3) 其中, h”是最终得到的一个向量, H'0,H'1,H'2分别代表了1个句子和2个实体的向量, concat是拼接, W是权 重系数, b是偏置系数; 然后用softmax层进行分类, 公式如下: p=softmax(h ”)           (4) 其中, h”是由上式得到的向量, p是最终输出的关系分类结果; 最后将新增的概念添加到原有的知识图谱中。 5.如权利要求1所述的一种场景图和概念网相结合的检索知识图谱库生成方法, 其特 征在于, 步骤4)所述的模型测试包括以下 过程: 对于训练完成的场景图进行评测, 使用准确率(Accuracy)、 精准率(Precision)、 召回 率(Recal l)和F1_score作为衡量标准: 其中TPi,TNi,FPi,FNi分别表示标签集中第i个标签的真阳性、 真阴性、 假阳性和假阴性。 6.如权利要求1所述的一种场景图和概念网相结合的检索知识图谱库生成方法, 其特 征在于, 步骤5)所述的生成检索数据库包括以下 过程: 5.1)处理文件: 经过上述的处理后我们会得到对应的j son文件, 提取其中想要的内容, 处理成场景图和概念网相应节点和关系的csv文件; 5.2)导入至检索数据库: 将场景图和概念网对应节点和关系的csv文件导入至检索数权 利 要 求 书 2/3 页 3 CN 115391548 A 3

.PDF文档 专利 基于场景图和概念网相结合的检索知识图谱库生成方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于场景图和概念网相结合的检索知识图谱库生成方法 第 1 页 专利 基于场景图和概念网相结合的检索知识图谱库生成方法 第 2 页 专利 基于场景图和概念网相结合的检索知识图谱库生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:58:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。