专利 基于知识图谱补全模型的文物安防风险要素识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210756876.3 (22)申请日 2022.06.29 (71)申请人中南民族大学地址 430074 湖北省武汉市洪山区民族大道708号、 823号申请人中电科技集团重庆声光电有限公司 (72)发明人江小平　王雅琦　王奎　卢治勇　李成华　石鸿凌　丁昊　 (74)专利代理机构武汉臻诚专利代理事务所 (普通合伙) 42233 专利代理师宋业斌 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 50/26(2012.01)G06F 16/36(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于知识图谱补全模型的文物安防风险要素识别方法 (57)摘要本发明公开了一种基于知识图谱补全模型的文物安防风险要素识别方法，包括：获取文物的文本描述，将与该文物的文本描述对应的、该文物的所有相关特征整合成该文物的特征序列 (p1， p2， ...， pn)，其中pi表示与该文物的文本描述对应的、该文物的第i个特征，将步骤(1)得到的文物的特征序列输入训练好的知识图谱补全模型中，以得到该文物的嵌入向量表示l，基于得到的该文物的嵌入向量表示l获取链接预测的结果，将链接预测的结果作为该文物安防风险评估的指标项，并将该指标项作为识别到的该文物的安防风险要素。本发明能够解决现有风险要素识别和构建风险评估指标体系过程中，专家工作量大的技术问题。权利要求书3页说明书8页附图3页 CN 115099504 A 2022.09.23 CN 115099504 A 1.一种基于知识图谱补全模型的文物安防风险要素识别方法，其特征在于，包括以下步骤： (1)获取文物的文本描述，将与该文物的文本描述对应的、该文物的所有相关特征整合成该文物的特征序列(p1， p2， ...， pn)，其中pi表示与该文物的文本描述对应的、该文物的第 i个特征，且有i∈[1， n]， n表示与该文物的文本描述对应的、该文物的所有相关特征的总数； (2)将步骤(1)得到的文物的特征序列输入训练好的知识图谱补全模型中，以得到该文物的嵌入向量表示 l； (3)基于步骤(2)得到的该文物的嵌入向量表示 l获取链接预测的结果。 (4)将步骤(3)得到的链接预测的结果作为该文物安防风险评估的指标项，并将该指标项作为识别到的该文物的安防风险要素。 2.根据权利要求1所述的基于知识图谱补全模型的文物安防风险要素识别方法，其特征在于，步骤(1)中的文本描述是从与该文物相关的各种资料获取，该文物的文本描述对应的相关特征包括文物的种类、朝代、以及地理位置等。 3.根据权利要求1或2所述的基于知识图谱补全模型的文物安防风险要素识别方法，其特征在于，知识图谱补全模型是通过以下步骤构建的： (2‑1)获取多个文物的安防风险评估指标体系，每一个安防风险评估指标体系中均包括文物及其对应的多个指标项； (2‑2)根据步骤(2 ‑1)得到的每个安防风险评估指标体系确定对应的头实体、关系和尾实体，并根据这些头实体、关系和尾实体生成该安防风险评估指标体系对应的多个三元组 {(hi1， ti1， ri1)， (hi2， ti2， ri2)， ...， (hin， tin， rin)}，其中i∈[1，安防风险评估指标体系总数]， n表示第i个安防风险评估指标体系对应的三元组总数， him表示第i个安防风险评估指标体系对应的第m个三元组中的头实体， tim表示第i个安防风险评估指标体系对应的第m个三元中组的尾实体， rim表示第i个安防风险评估指标体系对应的第m个三元组中的关系， m∈[1， n]； (2‑3)将步骤(2 ‑2)得到的所有文物的所有安防风险评估指标体系对应的所有三元组中的所有头实体和尾实体组合成实体集E，将所有文物的所有安防风险评估指标体系对应的所有三元组中的所有关系组合成关系集R，将所有文物的所有安防风险评估指标体系对应的所有三元组组合成三元组集T，将实体集E、关系集 R和三元组集T组合成第一数据集，将所有文物的文本描述构成的文本描述矩阵作为第二数据集； (2‑4)将步骤(2 ‑3)构建的第一数据集划分为第一训练集、第一验证集和第一测试集； (2‑5)将步骤(2 ‑4)得到的第一训练集输入基于翻译的TransH模型，以得到该第一训练集中实体集E的向量嵌入矩阵和关系集R的向量嵌入矩阵； (2‑6)将步骤(2 ‑3)构建的第二数据集划分为第二训练集、第二验证集和第二测试集； (2‑7)将步骤(2 ‑6)中的第二训练集输入自然语言处理模型Word2Vec中，以得到与第二训练集中每个文物的文本描述对应的、该文物的每个特征i对应的嵌入向量vwi，第二训练集中每个文物的所有特征对应的所有嵌入向量构成该文物对应的嵌入矩阵Vw＝(vw1， vw2， ...， vwn)，其中i∈[1， n]， n表示与第二训练集中每个文物的文本描述对应的、该文物的所有特征权　利　要　求　书 1/3 页 2 CN 115099504 A 2的总数； (2‑8)针对步骤(2 ‑7)获得的每个文物对应的嵌入矩阵而言，对该嵌入矩阵做平均，以获得该文物对应的单个代表嵌入向量v； (2‑9)将步骤(2 ‑5)获得的实体集E的向量嵌入矩阵和关系集R的向量嵌入矩阵、以及步骤(2‑8)获得的每个文物对应的单个代表嵌入向量Vh输入转换函数Ψmap中，并使用批量随机梯度下降最小化损失函数来训练转换函数Ψmap，使得其损失值最小，从而得到每个文物在同一个向量空间的嵌入向量表示，并得到训练好的知识图谱补全模型。 4.根据权利要求1至3中任意一项所述的基于知识图谱补全模型的文物安防风险要素识别方法，其特征在于，步骤(2‑1)中的文物的安防风险评估指标体系是从已经被专家做过风险评估的文物单位的风险评估报告中获取的；每个安防风险评估指标体系中仅包括一个文物、以及该文物对应的多个指标项；安防风险评估指标体系对应的头实体就是该安防风险评估指标体系中的文物，尾实体就是该文物对应的多个指标项，关系就是该文物与每个指标项之间的包含关系。 5.根据权利要求1所述的基于知识图谱补全模型的文物安防风险要素识别方法，其特征在于，转换函数Ψmap用于将每一个文物的单个代表嵌入向量Vh从基于文本的嵌入空间转换到实体集E和关系集R的向量嵌入所在的嵌入空间；步骤(2‑9)是使用批量随机梯度下降最小化损失函数来训练转换函数Ψ map；转换函数Ψ map的损失函数为：其中·表示转换函数Ψmap的参数， J表示第二训练集中的文本描述的总数， vk表示第二数据集中第k个文本描述对应的文物所对应的单个代表嵌入向量。 6.根据权利要求5所述的基于知识图谱补全模型的文物安防风险要素识别方法，其特征在于，步骤(3)包括以下子步骤： (3‑1)设置计数器cnt＝1； (3‑2)判断计数器cnt是否等于第一训练集中实体集E中的向量总数，如果是则过程结束，否则转入步骤(3 ‑3)； (3‑3)计算步骤(2)得到的文物的嵌入向量表示l与步骤(2 ‑5)得到的第一训练集中实体集E中第cnt个向量的向量嵌入e的L2范数距离D； (3‑4)判断步骤(3 ‑1)计算所得的L2范数距离D是否小于等于预设阈值，如果是则进入步骤(3‑5)，否则过程结束； (3‑5)将该L2范数距离D所对应的实体集E中的第cnt个实体作为链接预测的结果； (3‑6)设置计数器cnt＝cnt+1，并返回步骤(3 ‑2)。 7.根据权利要求6所述的基于知识图谱补全模型的文物安防风险要素识别方法，其特征在于，步骤(3 ‑3)中计算 L2范数距离D的过程具体为：首先，对于步骤(2 ‑5)中得到的第一训练集中关系集R的向量嵌入矩阵中每一个关系的向量嵌入r，都引入一个超平面W来表示该关系，具体的，每一个超平面W都由其平面的单位权　利　要　求　书 2/3 页 3 CN 115099504 A 3

专利 基于知识图谱补全模型的文物安防风险要素识别方法

专利基于知识图谱补全模型的文物安防风险要素识别方法