说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210905461.8 (22)申请日 2022.07.29 (71)申请人 芯跳科技 (广州) 有限公司 地址 510530 广东省广州市黄埔区开源大 道11号B2栋801室 (72)发明人 蒿杰 黎煜博 孙亚强 詹恒泽  赵良田  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 侯军洋 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/211(2020.01) (54)发明名称 知识图谱节点数量确定方法、 装置、 电子设 备和存储介质 (57)摘要 本发明公开了一种知识图谱节点数量确定 方法、 装置、 电子设备和存储介质, 包括: 先获取 待处理文本的高频词, 以及对文本进行分句, 得 到多个句子; 确定高频词在每个句子中的索引序 号, 并根据索引序号计算句子的分数, 以及根据 句子的分数从多个句子筛选出重点句子, 根据预 设总节点数量和重点句子的分数确定重点句子 的知识图谱的节点数量。 通过各个句子中的高频 词所在的索引序号来计算句子的分数, 并且根据 分数来筛选出重点句子, 仅对重点句子构建知识 图谱, 避免对每个句子都构建知识图谱而失去关 注点; 重点句子中高频词的索引序号较为密集, 并且每个重点句子的节点数量, 同样也是根据重 点句子的分数来确定的, 可突出每个句子的知识 图谱的关注点。 权利要求书2页 说明书10页 附图3页 CN 115114456 A 2022.09.27 CN 115114456 A 1.一种知识图谱节点数量确定方法, 其特 征在于, 包括: 获取待处 理文本的高频词, 以及对待处 理文本进行分句, 得到多个句子; 遍历所述句子, 确定所述高频词在所述句子中的索引序号; 根据所述索引序号计算所述句子的分数; 根据所述句子的分数从多个所述句子 筛选出重点句子; 根据预设总节点数量和所述重点句子的分数确定所述重点句子的知识图谱的节点数 量。 2.如权利要求1所述的方法, 其特 征在于, 所述获取待处 理文本的高频词, 包括: 计算所述待处 理文本中每 个词语的词频; 基于预设的语料库计算所述词语的逆文档频率; 计算所述词频和所述逆文档频率的乘积, 得到所述词语的分数; 将所述词语中前N个分数最高的词语确定为所述待处理文本的高频词, 所述N为正整 数。 3.如权利要求1所述的方法, 其特征在于, 所述根据所述索引序号计算所述句子的分 数, 包括: 遍历每个所述句子, 判断所述句子中是否存在所述索引序号之间的差值小于预设阈值 的相邻高频词; 若是, 将所述相邻高频词的索引序号添加到同一簇中; 若否, 分别将所述高频词的索引序号添加到不同的簇中; 遍历当前所述句子对应的每一个簇, 根据所述簇中的所述索引序号的数量、 极差计算 所述簇的分数, 所述簇的分数与所述索引序号的数量成正比、 所述索引序号的极差成反比; 将所述簇的分数中的最大值作为当前 所述句子的分数。 4.如权利要求3所述的方法, 其特 征在于, 采用以下公式计算所述簇的分数: 其中, scor e为簇的分数, s为簇内索引序号的数量, kn为索引序号的最大值, k0为索引序 号的最小值, (kn‑k0)为索引序号的极差 。 5.如权利要求1所述的方法, 其特征在于, 所述根据 所述句子的分数从多个所述句子筛 选出重点句子, 包括: 计算所有所述句子的分数的均值和标准差; 采用所述均值、 所述标准差以及预设因子计算分数阈值; 从所述句子中确定出分数小于所述分数阈值的目标句子; 将所述目标句子中前M个分数最高的句子确定为重点句子, 其 中, M=t/a, t为所述待处 理文本的句子的总数量, a为预设数值。 6.如权利要求1所述的方法, 其特征在于, 所述根据 预设总节点数量和所述重点句子的 分数确定所述重点句子的知识图谱的节点数量, 包括: 从所述重点句子的分数中确定出最高分数; 根据所述预设总节点数量、 所述最高分数、 所述重点句子的数量、 所述重点句子的分数权 利 要 求 书 1/2 页 2 CN 115114456 A 2计算所述重点句 子的节点数量, 所述节点数量与所述重点句 子的数量负相关、 与所述重点 句子的分数正相关。 7.如权利要求6所述的方法, 其特征在于, 根据以下公式计算所述重点句子的节点数 量: 其中, Ni为第i个重点句子的节点数量, total为预设总节点数量, M为重点句子的数量, scorei为第i个重点句子的分数, scoreh为最高分数。 8.一种知识图谱节点数量确定装置, 其特 征在于, 包括: 高频词获取模块, 用于获取待处理文本的高频词, 以及对待处理文本进行分句, 得到多 个句子; 索引序号确定模块, 用于遍历所述句子, 确定所述高频词在所述句子中的索引序号; 句子分数计算模块, 用于根据所述索引序号计算所述句子的分数; 重点句子 筛选模块, 用于根据所述句子的分数从多个所述句子 筛选出重点句子; 节点数量确定模块, 用于根据 预设总节点数量和所述重点句子的分数确定所述重点句 子的知识图谱的节点数量。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑7中任一项所述的 知识图谱节点数量确定方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使处理器执行时实现权利要求1 ‑7中任一项所述的知识图谱节点 数量确定方法。权 利 要 求 书 2/2 页 3 CN 115114456 A 3

.PDF文档 专利 知识图谱节点数量确定方法、装置、电子设备和存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 知识图谱节点数量确定方法、装置、电子设备和存储介质 第 1 页 专利 知识图谱节点数量确定方法、装置、电子设备和存储介质 第 2 页 专利 知识图谱节点数量确定方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:00:49上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。