说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210727101.3 (22)申请日 2022.06.24 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 骆金昌 廉雨薇 李思禹 陈坤斌  (74)专利代理 机构 北京猷德知识产权代理有限 公司 16084 专利代理师 范继晨 (51)Int.Cl. G06F 16/36(2019.01) G06N 5/02(2006.01) G06F 16/901(2019.01) G06F 16/35(2019.01) G06Q 10/10(2012.01) (54)发明名称 应用于办公领域的知识图谱本体构建方法 和装置 (57)摘要 本公开提供了一种应用于办公领域的知识 图谱本体构建方法、 装置、 电子设备和存储介质, 涉及人工智能技术领域, 尤其涉及知识图谱技术 领域。 具体实现方案为: 获取办公领域数据, 其 中, 办公领域数据表征应用于办公场景的数据; 对办公领域数据进行数据抽取, 得到抽取结果, 其中, 抽取结果包括: 领域术语、 概念和至少两个 概念之间的关联关系, 领域术语用于表征办公领 域内的词语, 概念用于表征办公领域内领域术语 共有的属性; 基于抽取结果构建办公领域数据对 应的知识图谱本体。 本公开可自动构建知识图谱 本体, 达到了提高知识图谱本体构建效率的技术 效果。 权利要求书3页 说明书9页 附图2页 CN 115292506 A 2022.11.04 CN 115292506 A 1.一种应用于办公领域的知识图谱本体构建方法, 包括: 获取办公领域数据, 其中, 所述办公领域数据表征应用于办公场景的数据; 对所述办公领域数据进行数据抽取, 得到抽取结果, 其中, 所述抽取结果包括: 领域术 语、 概念和至少两个所述概念之 间的关联关系, 所述领域术语用于表征办公领域内的词语, 所述概念用于表征办公领域内领域 术语共有的属性; 基于所述抽取 结果构建所述办公领域数据对应的知识图谱本体。 2.根据权利要求1所述的方法, 其中, 对所述办公领域数据进行数据抽取, 得到所述领 域术语包括: 对所述办公领域数据中包含的每个词语的词频进行统计, 得到所述每个词语的目标概 率, 并基于所述目标概率对所述办公领域数据进行筛选, 得到第一领域术语, 其中, 所述目 标概率用于表征 所述每个词语为所述领域 术语的概 率; 确定所述每个词语的目标权重, 并基于所述目标权重对所述办公领域数据进行筛选, 得到第二领域 术语, 其中, 所述目标权 重用于表征 所述每个词语与办公领域的关联程度; 对所述办公领域数据包含的语句进行句法分析, 得到句法分析结果, 并基于所述句法 分析结果对所述办公领域数据进行筛 选, 得到第三领域 术语; 根据所述第一领域 术语、 所述第二领域 术语和所述第三领域 术语, 获得 所述领域 术语。 3.根据权利要求1所述的方法, 其中, 对所述办公领域数据进行数据抽取, 得到所述概 念, 包括: 对所述领域 术语进行聚类处 理, 得到至少一个聚类结果; 基于所述至少一个聚类结果, 得到 至少一个所述 概念。 4.根据权利要求1或3所述的方法, 其中, 所述概念包括第 一概念和第 二概念, 对所述办 公领域数据进行 数据抽取, 得到所述 概念之间的关联关系包括: 确定第一 概念和第二 概念之间的相似度; 根据所述第 一概念和所述第 二概念之间的相似度, 得到所述第 一概念和所述第 二概念 之间的关联关系。 5.根据权利要求4所述的方法, 其中, 确定所述第 一概念和所述第 二概念之间的相似度 包括如下之一: 基于所述第 一概念和所述第 二概念分别在第 一目标文本中出现的频率, 得到所述相似 度, 其中, 所述第一目标文本用于表征 所述办公领域数据中的文献 数据; 对所述第一概念对应的第 一字符串和所述第 二概念对应的第 二字符串进行匹配, 得到 所述相似度; 获取第二目标文本, 基于所述第二目标文本, 得到所述相似度, 其中, 所述第二目标文 本用于表征 所述办公领域数据中包括所述 概念的语句。 6.根据权利要求1所述的方法, 其中, 基于所述抽取结果构建所述办公领域数据对应的 知识图谱本体包括: 获取办公领域的预设知识图谱本体; 基于所述预设知识图谱本体和所述抽取 结果, 构建所述知识图谱本体。 7.根据权利要求1至 6中任意一项所述的方法, 所述方法还 包括: 获取多个领域的应用数据, 其中, 所述多个领域至少包括: 所述办公领域;权 利 要 求 书 1/3 页 2 CN 115292506 A 2基于所述应用数据对所述知识图谱本体进行评估, 得到目标评估结果, 其中, 所述目标 评估结果用于表征利用所述知识图谱本体得到的语义识别结果的准确程度。 8.根据权利要求7所述的方法, 基于所述应用数据对所述知识图谱本体进行评估, 得到 目标评估结果, 包括: 基于所述多个领域的应用数据对所述知识图谱本体进行评估, 得到所述知识图谱本体 对应的评估指标; 基于预设阈值和所述评估指标, 得到所述目标评估结果。 9.一种应用于办公领域的知识图谱本体构建装置, 包括: 第一获取模块, 用于获取办公领域数据, 其中, 所述办公领域数据表征应用于办公场景 的数据; 抽取模块, 用于对所述办公领域数据进行数据抽取, 得到抽取结果, 其中, 所述抽取结 果包括: 领域术语、 概念和至少两个所述概念之间的关联关系, 所述领域术语用于表征办公 领域内的词语, 所述 概念用于表征办公领域内领域 术语共有的属性; 构建模块, 用于基于所述抽取 结果构建所述办公领域数据对应的知识图谱本体。 10.根据权利要求9所述的装置, 其中, 所述抽取模块包括: 第一抽取单元, 用于对所述办公领域数据中包含的每个词语的词频进行统计, 得到所 述每个词语的目标概率, 并基于所述 目标概率对所述办公领域数据进行筛选, 得到所述领 域术语, 其中, 所述目标概 率用于表征 所述每个词语为领域 术语的概 率; 第二抽取单元, 确定所述每个词语的目标权重, 并基于所述目标权重对所述办公领域 数据进行筛选, 得到第二领域术语, 其中, 所述目标权重用于表征所述每个词语与办公领域 的关联程度; 第三抽取单元, 对所述办公领域数据包含的语句进行句法分析, 得到句法分析结果, 并 基于所述句法分析 结果对所述办公领域数据进行筛 选, 得到第三领域 术语; 筛选单元, 用于根据 所述第一领域术语、 所述第 二领域术语和所述第 三领域术语, 获得 所述领域 术语。 11.根据权利要求9所述的装置, 其中, 所述抽取模块包括: 聚类单元, 用于对所述领域 术语进行聚类处 理, 得到至少一个聚类结果; 概念单元, 用于基于所述至少一个聚类结果, 得到 至少一个所述 概念。 12.根据权利要求9或1 1所述的装置, 其中, 所述抽取模块包括: 相似度单 元, 用于确定第一 概念和第二 概念之间的相似度; 关系单元, 用于根据所述第一概念和所述第二概念之间的相似度, 得到第一概念和所 述第二概念之间的关联关系。 13.根据权利要求12所述的装置, 其中, 所述相似度单 元包括: 第一相似度子单元, 用于基于所述第 一概念和所述第 二概念在第 一目标文本中出现的 频率, 得到所述相似度, 其中, 所述第一目标文本用于表征所述办公领域数据中的文献数 据; 第二相似度子单元, 用于第 一概念对应的第 一字符串和所述第 二概念对应的第 二字符 串进行匹配, 得到所述相似度; 第三相似度子单元, 用于获取第二目标文本, 基于所述第二文本, 得到所述相似度, 其权 利 要 求 书 2/3 页 3 CN 115292506 A 3

.PDF文档 专利 应用于办公领域的知识图谱本体构建方法和装置

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 应用于办公领域的知识图谱本体构建方法和装置 第 1 页 专利 应用于办公领域的知识图谱本体构建方法和装置 第 2 页 专利 应用于办公领域的知识图谱本体构建方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:59:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。