说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210424985.5 (22)申请日 2022.04.22 (65)同一申请的已公布的文献号 申请公布号 CN 114547346 A (43)申请公布日 2022.05.27 (73)专利权人 浙江太美医疗科技股份有限公司 地址 314001 浙江省嘉兴 市昌盛南路3 6号 智慧产业创新园9号楼3层 (72)发明人 杨涛 袁首 范伟 刘寓非  周永杰 王旭 彭瑀  (74)专利代理 机构 苏州三英知识产权代理有限 公司 32412 专利代理师 潘时伟 (51)Int.Cl. G06F 16/36(2019.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G16H 10/60(2018.01) (56)对比文件 CN 110609910 A,2019.12.24 CN 107368468 A,2017.1 1.21 CN 111767368 A,2020.10.13 CN 110990579 A,2020.04.10 CN 112559772 A,2021.0 3.26 CN 114064910 A,202 2.02.18 CN 112149400 A,2020.12.2 9 US 2007198452 A1,20 07.08.23 审查员 崔倩倩 (54)发明名称 知识图谱的构建方法和装置、 电子设备和存 储介质 (57)摘要 本申请公开了一种知识图谱的构建方法和 装置、 电子设备和存储介质, 该方法包括: 从历史 CRF表单中抽取候选术语文本, 其中, 所述候选术 语文本包括表单、 表单项以及检查项; 基于已知 标准术语对 所述候选术语文本进行融合, 以更新 知识图谱的术语概念信息; 基于更新后的知 识图 谱和所述历史CRF表单, 抽取候选术语关系, 其 中, 所述候选术语关系包括表单 ‑表单项对应关 系以及表单 ‑检查项对应关系; 基于所述候选术 语关系的置信度更新所述知识图谱的术语关系 信息。 该知识图谱的构建方法所利用的CRF表单 的信息相对准确, 可以快速构建可用的知识图 谱。 权利要求书2页 说明书11页 附图4页 CN 114547346 B 2022.08.02 CN 114547346 B 1.一种知识图谱的构建方法, 其特 征在于, 所述方法包括: 从历史CRF表单中抽取候选术语文本, 其中, 所述候选术语文本包括表单、 表单项以及 检查项; 基于已知标准 术语对所述 候选术语文本进行融合, 以更新知识图谱的术语概念信息; 基于更新后的知识图谱和所述历史CRF表单, 抽取候选术语关系, 其中, 所述候选术语 关系包括表单 ‑表单项对应关系以及表单 ‑检查项对应关系; 基于所述 候选术语关系的置信度更新所述知识图谱的术语关系信息; 其中, 基于已知标准 术语对所述 候选术语文本进行融合, 具体包括: 将所述已知标准术语作为初始聚类中心, 利用划分聚类法对所述候选术语文本进行融 合; 计算所述候选术语文本与已知标准术语的相似度, 并基于相似度排序对所述候选术语 文本进行融合; 以及 利用层次聚类算法合并残留术语文本, 以生成新的术语概念信 息, 其中, 所述残留术语 文本为无法与已知标准 术语融合的所述 候选术语文本 。 2.根据权利要求1所述的知识图谱的构建方法, 其特征在于, 计算所述候选术语文本与 已知标准 术语的相似度, 具体包括: 基于编辑距离和/或余弦相似度算法, 计算所述候选术语文本与已知标准术语的语义 和/或字形相似度。 3.根据权利要求1至2任一项所述的知识图谱的构建方法, 其特征在于, 基于已知标准 术语对所述 候选术语文本进行融合, 具体包括: 对所述候选术语文本和已知标准术语进行文本向量化, 以获得候选术语文本表征和标 准术语文本表征; 基于所述 候选术语文本表征和标准 术语文本表征, 对所述 候选术语文本进行融合。 4.根据权利要求1至2任一项所述的知识图谱的构建方法, 其特征在于, 所述已知标准 术语包括临床数据采集标准和/或研究数据表格 格式中的已知术语。 5.根据权利要求1所述的知识图谱的构建方法, 其特征在于, 基于更新后的知识图谱和 所述历史CRF表单, 抽取候选术语关系, 具体包括: 基于预设模板, 将所述更新后的知识图谱和历史CRF表单中的术语文本两两进行上下 文匹配, 以抽取候选术语关系; 和/或, 基于预训练模型, 对所述更新后的知识图谱和历史CRF表单中的术语文本进行关系预 测, 以抽取候选术语关系。 6.根据权利要求1所述的知识图谱的构建方法, 其特 征在于, 所述方法还 包括: 分别从历史 临床试验方案的研究流 程图以及全文中抽取术语文本和术语关系; 基于所述术语文本和术语关系的置信度, 更新所述知识图谱的术语概念信 息和术语关 系信息; 其中, 所述研究流 程图包括访视任务信息块。 7.根据权利要求6所述的知识图谱的构建方法, 其特征在于, 从历史临床 实验方案的研 究流程图中抽取术语文本和术语关系, 具体包括: 对所述研究流 程图进行文本解析, 并拆分出访视任务信息块;权 利 要 求 书 1/2 页 2 CN 114547346 B 2从所述访视任务信息块中识别访视任务, 并与所述知识图谱中标准访视任务进行匹 配, 以获得第一 候选访视任务 集作为术语文本; 解析所述第一候选访视任务集中各访视任务的检查项作为术语文本, 并生成访视任 务‑检查项对应关系信息作为 术语关系。 8.根据权利要求6所述的知识图谱的构建方法, 其特征在于, 从历史临床 实验方案的全 文中抽取术语文本和术语关系, 具体包括: 对所述历史 临床试验方案的全文 进行扫描, 以获取访视任务; 将扫描获取的访视任务与 所述知识图谱中标准访视任务进行匹配, 以获得第 二候选访 视任务集作为术语文本; 解析所述第二候选访视任务集中各访视任务的检查项作为术语文本, 并生成访视任 务‑检查项对应关系信息作为 术语关系。 9.根据权利要求1所述的知识图谱的构建方法, 其特 征在于, 所述方法还 包括: 从历史临床试验方案中抽取 方案元数据; 基于所述方案元数据抽取所述表单、 表单 ‑表单项对应关系、 以及表单 ‑检查项对应关 系的适用条件, 以更新所述知识图谱的适用条件信息 。 10.一种知识图谱的构建装置, 其特 征在于, 所述知识图谱的构建装置包括: 术语文本抽取模块, 用于从历史CRF表单中抽取候选术语文本, 其中, 所述候选术语文 本包括表单、 表单项以及检查项; 术语文本更新模块, 用于基于已知标准术语对所述候选术语文本进行融合, 以更新知 识图谱的术语概念信息; 术语关系抽取模块, 用于基于更新后的知识图谱和所述历史CRF表单, 抽取候选术语关 系, 其中, 所述 候选术语关系包括表单 ‑表单项对应关系以及表单 ‑检查项对应关系; 术语关系更新模块, 用于对所述候选术语关系进行置信度排序, 以更新所述知识图谱 的术语关系信息; 其中, 术语文本更新模块具体用于将所述已知标准术语作为初始聚类中心, 利用划分 聚类法对所述候选术语文本进行融合; 计算所述候选术语文本与已知标准术语的相似度, 并基于相似度排序对所述候选术语文本进 行融合; 以及利用层次聚类算法合并所述候选术 语文本中的残留术语文本, 以生成新的术语概念信息, 其中, 所述残留术语文本为无法与已 知标准术语融合的所述 候选术语文本 。 11.一种电子设备, 包括: 至少一个处 理器; 以及 存储器, 所述存储器存储指令, 当所述指令被所述至少一个处理器执行时, 使得所述至 少一个处 理器执行如权利要求1至9任一项所述的知识图谱的构建方法。 12.一种机器可读存储介质, 其存储有可执行指令, 所述指令当被执行时使得所述机器 执行如权利要求1至9任一项所述的知识图谱的构建方法。权 利 要 求 书 2/2 页 3 CN 114547346 B 3

.PDF文档 专利 知识图谱的构建方法和装置、电子设备和存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 知识图谱的构建方法和装置、电子设备和存储介质 第 1 页 专利 知识图谱的构建方法和装置、电子设备和存储介质 第 2 页 专利 知识图谱的构建方法和装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:00:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。