说明:收录各省市地方标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210905461.8 (22)申请日 2022.07.29 (71)申请人 芯跳科技 (广州) 有限公司 地址 510530 广东省广州市黄埔区开源大 道11号B2栋801室 (72)发明人 蒿杰 黎煜博 孙亚强 詹恒泽 赵良田 (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 侯军洋 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/211(2020.01) (54)发明名称 知识图谱节点数量确定方法、 装置、 电子设 备和存储介质 (57)摘要 本发明公开了一种知识图谱节点数量确定 方法、 装置、 电子设备和存储介质, 包括: 先获取 待处理文本的高频词, 以及对文本进行分句, 得 到多个句子; 确定高频词在每个句子中的索引序 号, 并根据索引序号计算句子的分数, 以及根据 句子的分数从多个句子筛选出重点句子, 根据预 设总节点数量和重点句子的分数确定重点句子 的知识图谱的节点数量。 通过各个句子中的高频 词所在的索引序号来计算句子的分数, 并且根据 分数来筛选出重点句子, 仅对重点句子构建知识 图谱, 避免对每个句子都构建知识图谱而失去关 注点; 重点句子中高频词的索引序号较为密集, 并且每个重点句子的节点数量, 同样也是根据重 点句子的分数来确定的, 可突出每个句子的知识 图谱的关注点。 权利要求书2页 说明书10页 附图3页 CN 115114456 A 2022.09.27 CN 115114456 A 1.一种知识图谱节点数量确定方法, 其特 征在于, 包括: 获取待处 理文本的高频词, 以及对待处 理文本进行分句, 得到多个句子; 遍历所述句子, 确定所述高频词在所述句子中的索引序号; 根据所述索引序号计算所述句子的分数; 根据所述句子的分数从多个所述句子 筛选出重点句子; 根据预设总节点数量和所述重点句子的分数确定所述重点句子的知识图谱的节点数 量。 2.如权利要求1所述的方法, 其特 征在于, 所述获取待处 理文本的高频词, 包括: 计算所述待处 理文本中每 个词语的词频; 基于预设的语料库计算所述词语的逆文档频率; 计算所述词频和所述逆文档频率的乘积, 得到所述词语的分数; 将所述词语中前N个分数最高的词语确定为所述待处理文本的高频词, 所述N为正整 数。 3.如权利要求1所述的方法, 其特征在于, 所述根据所述索引序号计算所述句子的分 数, 包括: 遍历每个所述句子, 判断所述句子中是否存在所述索引序号之间的差值小于预设阈值 的相邻高频词; 若是, 将所述相邻高频词的索引序号添加到同一簇中; 若否, 分别将所述高频词的索引序号添加到不同的簇中; 遍历当前所述句子对应的每一个簇, 根据所述簇中的所述索引序号的数量、 极差计算 所述簇的分数, 所述簇的分数与所述索引序号的数量成正比、 所述索引序号的极差成反比; 将所述簇的分数中的最大值作为当前 所述句子的分数。 4.如权利要求3所述的方法, 其特 征在于, 采用以下公式计算所述簇的分数: 其中, scor e为簇的分数, s为簇内索引序号的数量, kn为索引序号的最大值, k0为索引序 号的最小值, (kn‑k0)为索引序号的极差 。 5.如权利要求1所述的方法, 其特征在于, 所述根据 所述句子的分数从多个所述句子筛 选出重点句子, 包括: 计算所有所述句子的分数的均值和标准差; 采用所述均值、 所述标准差以及预设因子计算分数阈值; 从所述句子中确定出分数小于所述分数阈值的目标句子; 将所述目标句子中前M个分数最高的句子确定为重点句子, 其 中, M=t/a, t为所述待处 理文本的句子的总数量, a为预设数值。 6.如权利要求1所述的方法, 其特征在于, 所述根据 预设总节点数量和所述重点句子的 分数确定所述重点句子的知识图谱的节点数量, 包括: 从所述重点句子的分数中确定出最高分数; 根据所述预设总节点数量、 所述最高分数、 所述重点句子的数量、 所述重点句子的分数权 利 要 求 书 1/2 页 2 CN 115114456 A 2计算所述重点句 子的节点数量, 所述节点数量与所述重点句 子的数量负相关、 与所述重点 句子的分数正相关。 7.如权利要求6所述的方法, 其特征在于, 根据以下公式计算所述重点句子的节点数 量: 其中, Ni为第i个重点句子的节点数量, total为预设总节点数量, M为重点句子的数量, scorei为第i个重点句子的分数, scoreh为最高分数。 8.一种知识图谱节点数量确定装置, 其特 征在于, 包括: 高频词获取模块, 用于获取待处理文本的高频词, 以及对待处理文本进行分句, 得到多 个句子; 索引序号确定模块, 用于遍历所述句子, 确定所述高频词在所述句子中的索引序号; 句子分数计算模块, 用于根据所述索引序号计算所述句子的分数; 重点句子 筛选模块, 用于根据所述句子的分数从多个所述句子 筛选出重点句子; 节点数量确定模块, 用于根据 预设总节点数量和所述重点句子的分数确定所述重点句 子的知识图谱的节点数量。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑7中任一项所述的 知识图谱节点数量确定方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使处理器执行时实现权利要求1 ‑7中任一项所述的知识图谱节点 数量确定方法。权 利 要 求 书 2/2 页 3 CN 115114456 A 3
专利 知识图谱节点数量确定方法、装置、电子设备和存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 11:00:49
上传分享
举报
下载
原文档
(721.7 KB)
分享
友情链接
DB42-T 1505-2019 湖北美丽乡村建设规范 湖北省.pdf
GB-T 43779-2024 网络安全技术 基于密码令牌的主叫用户可信身份鉴别技术规范.pdf
GB-T 25328-2010 玻璃窑炉节能监测.pdf
GB-T 36403-2018 红外光学玻璃红外透过率测试方法 傅里叶变换法.pdf
T-GSEE 0003—2022 高海拔地区电网多旋翼无人机智能巡检工作规范.pdf
GB-T 34690.6-2017 印刷技术 胶印数字化过程控制 第6部分:数字硬打样.pdf
GB-T 25645-2010 信息技术 中文Linux服务器操作系统技术要求.pdf
T-BJSMYXYJH 0002—2021 树木医生技能考核评价规范.pdf
T-CADERM 5005—2019 国家级卫生应急培训演练基地建设规范.pdf
DB42-T 875-2019 湖北省城镇地下管线探测技术规程 湖北省.pdf
GB 7000.204-2008 灯具 第2-4部分:特殊要求 可移式通用灯具.pdf
DB3201-T 1113-2022 法人主数据规范 南京市.pdf
GB-T 41637-2022 发制品 通用技术规范.pdf
GB-T 5216-2014 保证淬透性结构钢.pdf
GB-T 38672-2020 信息技术 大数据 接口基本要求.pdf
GB-T 41581-2022 核电厂应急撤离时间估算.pdf
GB-T 36631-2018 信息安全技术 时间戳策略和时间戳业务操作规则.pdf
DB44-T 2189.2-2019 移动终端信息安全 第2部分:敏感信息安全等级保护与测评 广东省.pdf
法律法规 陕西省民用建筑节能条例2016-11-24.pdf
DB37-T 3304-2018 信息安全技术 云计算运维安全管理规范 山东省.pdf
1
/
3
16
评价文档
赞助2.5元 点击下载(721.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。