(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210798948.0
(22)申请日 2022.07.08
(71)申请人 讯飞智元信息科技有限公司
地址 230088 安徽省合肥市高新区望江西
路666号讯飞大厦8层-10层
申请人 科大讯飞股份有限公司
(72)发明人 倪修峰 曹伟灿 张友国 吕军
刘江 胡少云 范磊 陆野
孙骁磊 胡欣欣
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 王雨
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/30(2020.01)
(54)发明名称
基于知识图谱的知识采样方法、 装置及相关
设备
(57)摘要
本申请公开了一种基于知识图谱的知识采
样方法、 装置及相关设备, 在知识图谱中选择起
始节点, 进而在节点间沿有向边以不同概率进行
转移, 每经过一次转移, 根据转移前后的两个节
点及有向边生 成一个M元组, 添加到采样路径中,
直至路径长度达到设定长度为止, 每次转移时,
由当前节 点转移至任一邻居节 点的概率, 根据当
前节点之前游走过节点与邻居节点间的距离,
和/或当前节点与邻居节点间的语义关系确定。
每次节点转移时参考当前节点之前游走过节点
与下一邻居节 点间的距离来确定转移概率, 可以
引导采样倾向性, 此外还可以参考当前节点与下
一邻居节 点间的语义关系来确定转移概率, 于此
可以沿着语义明确的关系进行游走采样, 提升采
样路径的质量。
权利要求书2页 说明书10页 附图2页
CN 115309909 A
2022.11.08
CN 115309909 A
1.一种基于知识图谱的知识采样方法, 其特 征在于, 包括:
获取目标知识图谱;
在所述目标知识图谱中选择至少一个节点, 作为 起始节点;
对于每一起始节点, 在所述目标知识图谱的节点间沿有向边以不同概率进行转移, 节
点每经过一次转移, 根据转移前后的两个节点及有向边生成一个M元组, 所述M元组至少包
括头实体、 尾实体及头、 尾实体间的关系名, 每次转移 时, 由当前节点转移至任一邻居节点
的概率, 根据当前节点之前游走过节 点与所述邻居节点间的距离, 和/或当前节点与所述邻
居节点间的语义关系确定;
将生成的M元组添加到与起始节点对应的采样路径中, 直至采样路径的长度达到设定
长度为止, 得到与每一 起始节点对应的最终采样路径。
2.根据权利要求1所述的方法, 其特征在于, 根据当前节点之前游走过节点与 所述邻居
节点间的距离, 和/或当前节 点与所述邻居节点间的语义关系, 确定 当前节点转移至任一邻
居节点的概 率的过程, 包括:
根据当前节点之前游走过节点与所述邻居节点间的距离, 和/或当前节点与所述邻居
节点间的语义关系, 确定当前节点 转移至任一邻居节点的转移得分;
对于任一目标邻居节点:
基于当前节点转移至所述目标邻居节点的转移得分, 以及 当前节点转移至各邻居节点
的转移得分的总和, 确定当前节点 转移至所述目标邻居节点的概 率。
3.根据权利要求2所述的方法, 其特征在于, 所述根据当前节点之前游走过节点与 所述
邻居节点间的距离, 和/或当前节点与所述邻居节点间的语义关系, 确定 当前节点转移至任
一邻居节点的转移得分, 包括:
根据当前节点的上一节点与 所述邻居节点间的距离, 确定当前节点转移至所述邻居节
点的第一 转移得分;
根据当前节点与所述邻居节点间的语义关系, 确定当前节点转移至所述邻居节点的第
二转移得分;
根据所述第一转移得分, 和/或第 二转移得分, 确定当前节点转移至所述邻居节点的总
转移得分。
4.根据权利要求3所述的方法, 其特征在于, 所述根据当前节点的上一节点与 所述邻居
节点间的距离, 确定当前节点 转移至所述邻居节点的第一 转移得分, 包括:
确定当前节点的上一节点与 所述邻居节点间的最短跳转 次数, 所述最短跳转 次数取值
范围为{0,1,2}, 不同的最短跳转次数对应有不同的转移得分设定值, 其中, 最短跳转次数0
对应的转移得分设定值由第一超参数控制, 最短跳转次数2对应的转移得分设定值由第二
超参数控制;
根据确定的当前节点的上一节点与 所述邻居节点间的最短跳转 次数, 选取对应的转移
得分设定值, 作为当前节点 转移至所述邻居节点的第一 转移得分。
5.根据权利要求3所述的方法, 其特征在于, 所述根据当前节点与所述邻居节点间的语
义关系, 确定当前节点 转移至所述邻居节点的第二 转移得分, 包括:
对于当前节点的任一目标邻居节点:
确定当前节点与所述目标邻居节点的目标关系名;权 利 要 求 书 1/2 页
2
CN 115309909 A
2统计当前节点的所有邻居节点中, 与当前节点具备所述目标关系名的邻居节点的总个
数;
基于所述总个数、 所述当前节点的所有邻居节点的个数及第三超参数, 确定当前节点
转移至目标邻居节点的第二 转移得分, 其中, 所述总个数越大, 所述第二 转移得分越小。
6.根据权利要求3所述的方法, 其特征在于, 所述根据所述第 一转移得分, 和/或第二转
移得分, 确定当前节点 转移至所述邻居节点的总转移得分, 包括:
将所述第一转移得分与所述第 二转移得分的乘积, 作为当前节点转移至所述邻居节点
的总转移得分。
7.根据权利要求1 ‑6任一项所述的方法, 其特征在于, 在所述目标知识图谱中选择至少
一个节点, 作为 起始节点, 包括:
在所述目标知识图谱中随机选择指定数量的节点, 作为起始节点, 所述指定数量不小
于1。
8.根据权利要求1 ‑6任一项所述的方法, 其特 征在于, 所述M元组为 三元组; 或,
所述M元组为五元组, 所述五元组包括: 头实体及其概念、 尾实体及其概念、 头、 尾实体
间的关系名。
9.根据权利要求1 ‑6任一项所述的方法, 其特征在于, 在得到各条最终采样路径之后,
该方法还包括:
对于每一条最终采样路径, 基于其中包含的M元组序列生成对应的训练语句, 所述训练
语句用于作为实体识别模型的训练数据。
10.一种基于知识图谱的知识采样装置, 其特 征在于, 包括:
知识图谱获取 单元, 获取目标知识图谱;
起始节点选取 单元, 用于在所述目标知识图谱中选择至少一个节点, 作为 起始节点;
节点转移单元, 用于对于每一起始节点, 在所述目标知识图谱的节点间沿有向边以不
同概率进行转移, 节点每经过一次转移, 根据转移前后的两个节点及有向边生成一个M元
组, 所述M元组至少 包括头实体、 尾实体及头、 尾实体间的关系名, 每次转移时, 由当前节点
转移至任一邻居节 点的概率, 根据当前节点之前游走过节点与所述邻居节点间的距离, 和/
或当前节点与所述邻居节点间的语义关系确定;
采样路径确定单元, 用于将生成的M元组添加到与起始节点对应的采样路径中, 直至采
样路径的长度达 到设定长度为止, 得到与每一 起始节点对应的最终采样路径。
11.一种知识采样设备, 其特 征在于, 包括: 存 储器和处 理器;
所述存储器, 用于存 储程序;
所述处理器, 用于执行所述程序, 实现如权利要求1~9中任一项所述的基于知识图谱
的知识采样方法的各个步骤。
12.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器执
行时, 实现如权利要求1~ 9中任一项所述的基于知识图谱的知识采样方法的各个步骤。权 利 要 求 书 2/2 页
3
CN 115309909 A
3
专利 基于知识图谱的知识采样方法、装置及相关设备
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:58:58上传分享