说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210432232.9 (22)申请日 2022.04.22 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 北京邮电大 学 (72)发明人 赵慧 孙琪 金志鸿 朱新宁  张春红 杨鸿文  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 张文玄 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 知识图谱中知识点的抽取方法、 系统、 电子 设备 (57)摘要 本发明提供一种知识图谱中知识点的抽取 方法、 系统、 电子设备, 所述方法包括: 针对待抽 取所述知识点的语料, 通过无监督算法抽取关键 词, 通过NER模型抽取知 识点实体; 基于 所述关键 词和所述知识点实体, 融合得到所述知识点。 通 过关键词和知识点实体的共同抽取与融合, 能够 实现更精确、 覆盖更全面的专业知识图谱, 为使 用者提供更好的借鉴。 权利要求书1页 说明书8页 附图6页 CN 114996394 A 2022.09.02 CN 114996394 A 1.一种知识图谱中知识点的抽取 方法, 其特 征在于, 所述方法包括: 针对待抽取所述知识点的语料, 通过无监督算法抽取关键词, 通过NER模型抽取知识点 实体; 基于所述关键词和所述知识点实体, 融合得到所述知识点。 2.根据权利要求1所述的知识图谱中知识点的抽取方法, 其特征在于, 所述NER模型, 包 括: BERT模型、 Bi LSTM模型和CRF模型。 3.根据权利要求1所述的知识图谱中知识点的抽取方法, 其特征在于, 所述融合得到所 述知识点, 包括: 对所述关键词和所述知识点实体中相同的部分进行去重; 对所述关键词和所述知识点实体中等 价的实体和其子实体, 删除实体, 保留子实体; 对同音不同形的所述关键词和所述知识点实体, 删除带有错别字的关键词和/或知识 点实体。 4.根据权利要求1所述的知识图谱中知识点的抽取方法, 其特征在于, 所述无监督算法 采用TF‑IDF算法和TextRan k算法。 5.根据权利要求1所述的知识图谱中知识点的抽取方法, 其特征在于, 所述通过NER模 型抽取知识点实体, 包括: 通过所述关键词构建所述 NER模型的训练标签 语料。 6.根据权利要求1所述的知识图谱中知识点的抽取方法, 其特征在于, 所述待抽取所述 知识点的语料为具有 多级标题的文档的各个章节内容, 所述方法还 包括: 针对所述文档, 将所述多 级标题抽取作为所述知识图谱 对应的多 级节点; 将融合得到的所述知识点作为所述多 级节点中最低级节点的下级节点。 7.一种知识图谱中知识点的抽取系统, 其特 征在于, 所述系统包括: 抽取模块, 所述抽取模块针对待抽取所述知识点的语料, 通过无监督算法抽取关键词, 通过NER模型抽取知识点实体; 融合模块, 所述融合模块基于所述关键词和所述知识点实体, 融合得到图谱知识点。 8.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑6中任一项 所 述知识图谱中知识点的抽取 方法的步骤。 9.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机 程序被处理器执行时实现如权利要求 1‑6中任一项 所述知识图谱中知识点的抽取方法的步 骤。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1 ‑6中任一项所述知识图谱中知识点的抽取 方法的步骤。权 利 要 求 书 1/1 页 2 CN 114996394 A 2知识图谱中知识点的抽取方 法、 系统、 电子 设备 技术领域 [0001]本发明涉及知识图谱技术领域, 尤其涉及一种知识图谱中知识点的抽 取方法、 系 统、 电子设备。 背景技术 [0002]知识图谱(Knowledge  Graph, KG)本质上是一种大规模语义网络, 包含实体、 概念 及其之间的各类语义关系, 目前已经成为认知智能的基石, 是发展 人工智能的核心 技术, 它 让机器语言认知、 可解释人工智能成为可能, 能够显著增强机器学习的能力, 将成为与数据 驱动相并列的一种非常重要的解决问题的方式。 最近几年, 以知识图谱为代表的智能化技 术正在触及越来越多领域, 许多企业都已将人工智能升格为企业的核心战略。 知识图谱等 人工智能技 术正在赋能越来越多的业 务, 实现自动化和智能化。 [0003]知识图谱分为存储 “常识知识 ”的通用型知识图谱和存储 “垂类知识 ”的领域型知 识图谱两大类。 人工智能研究学者和工业人士当前的研究重心侧重于对常识 性图谱的自动 化构建与应用, 如DBpedia、 WikiData、 CN ‑DBpedia、 XLORE、 zhishi.me, 其技术相对趋于成 熟。 与通用型常识知识图谱相比, 中文垂 直领域知识图谱的构建仍处于开放探索的阶段, 自 动化构建的尝试仅限于商品垂域等, 且由工业界闭源主导, 这对细分专业的是知识图谱知 识点的抽取提出了挑战。 [0004]现有技术在进行知识点提取时多使用的是较为传统的分词方法, 将分词结果(或 去除常用词后的分词结果)作为知识 点, 这种方法理解语言的能力有限, 可能无法做到较为 精准的知识点 提取, 提取知识点后没能很好 地表示知识点拥有的结构。 发明内容 [0005]针对现有技术存在的问题, 本发明提供一种知识图谱中知识点的抽取方法、 系统、 电子设备。 [0006]本发明提供的一种知识图谱中知识点的抽取 方法, 所述方法包括: [0007]针对待抽取所述知识点的语料, 通过无监督算法抽取关键词, 通过NER(Named   Entity Recognition, 命名实体识别)模型抽取知识点实体; [0008]基于所述关键词和所述知识点实体, 融合得到所述知识点。 [0009]根据本发明提供的一种知识图谱中知识点 的抽取方法, 所述NER模型, 包括: BERT 模型、 BiLSTM模型和CRF模型。 [0010]根据本发明提供的一种知识图谱中知识点的抽取方法, 所述融合得到所述知识 点, 包括: [0011]对所述关键词和所述知识点实体中相同的部分进行去重; [0012]对所述关键词和所述知识点实体中等价的实体和其子实体, 删除实体, 保留子实 体; [0013]对同音不 同形的所述关键词和所述知识点实体, 删除带有错别字的关键词和/或说 明 书 1/8 页 3 CN 114996394 A 3

.PDF文档 专利 知识图谱中知识点的抽取方法、系统、电子设备

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 知识图谱中知识点的抽取方法、系统、电子设备 第 1 页 专利 知识图谱中知识点的抽取方法、系统、电子设备 第 2 页 专利 知识图谱中知识点的抽取方法、系统、电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:00:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。