(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210424985.5
(22)申请日 2022.04.22
(65)同一申请的已公布的文献号
申请公布号 CN 114547346 A
(43)申请公布日 2022.05.27
(73)专利权人 浙江太美医疗科技股份有限公司
地址 314001 浙江省嘉兴 市昌盛南路3 6号
智慧产业创新园9号楼3层
(72)发明人 杨涛 袁首 范伟 刘寓非
周永杰 王旭 彭瑀
(74)专利代理 机构 苏州三英知识产权代理有限
公司 32412
专利代理师 潘时伟
(51)Int.Cl.
G06F 16/36(2019.01)G06F 40/30(2020.01)
G06K 9/62(2022.01)
G16H 10/60(2018.01)
(56)对比文件
CN 110609910 A,2019.12.24
CN 107368468 A,2017.1 1.21
CN 111767368 A,2020.10.13
CN 110990579 A,2020.04.10
CN 112559772 A,2021.0 3.26
CN 114064910 A,202 2.02.18
CN 112149400 A,2020.12.2 9
US 2007198452 A1,20 07.08.23
审查员 崔倩倩
(54)发明名称
知识图谱的构建方法和装置、 电子设备和存
储介质
(57)摘要
本申请公开了一种知识图谱的构建方法和
装置、 电子设备和存储介质, 该方法包括: 从历史
CRF表单中抽取候选术语文本, 其中, 所述候选术
语文本包括表单、 表单项以及检查项; 基于已知
标准术语对 所述候选术语文本进行融合, 以更新
知识图谱的术语概念信息; 基于更新后的知 识图
谱和所述历史CRF表单, 抽取候选术语关系, 其
中, 所述候选术语关系包括表单 ‑表单项对应关
系以及表单 ‑检查项对应关系; 基于所述候选术
语关系的置信度更新所述知识图谱的术语关系
信息。 该知识图谱的构建方法所利用的CRF表单
的信息相对准确, 可以快速构建可用的知识图
谱。
权利要求书2页 说明书11页 附图4页
CN 114547346 B
2022.08.02
CN 114547346 B
1.一种知识图谱的构建方法, 其特 征在于, 所述方法包括:
从历史CRF表单中抽取候选术语文本, 其中, 所述候选术语文本包括表单、 表单项以及
检查项;
基于已知标准 术语对所述 候选术语文本进行融合, 以更新知识图谱的术语概念信息;
基于更新后的知识图谱和所述历史CRF表单, 抽取候选术语关系, 其中, 所述候选术语
关系包括表单 ‑表单项对应关系以及表单 ‑检查项对应关系;
基于所述 候选术语关系的置信度更新所述知识图谱的术语关系信息;
其中, 基于已知标准 术语对所述 候选术语文本进行融合, 具体包括:
将所述已知标准术语作为初始聚类中心, 利用划分聚类法对所述候选术语文本进行融
合;
计算所述候选术语文本与已知标准术语的相似度, 并基于相似度排序对所述候选术语
文本进行融合; 以及
利用层次聚类算法合并残留术语文本, 以生成新的术语概念信 息, 其中, 所述残留术语
文本为无法与已知标准 术语融合的所述 候选术语文本 。
2.根据权利要求1所述的知识图谱的构建方法, 其特征在于, 计算所述候选术语文本与
已知标准 术语的相似度, 具体包括:
基于编辑距离和/或余弦相似度算法, 计算所述候选术语文本与已知标准术语的语义
和/或字形相似度。
3.根据权利要求1至2任一项所述的知识图谱的构建方法, 其特征在于, 基于已知标准
术语对所述 候选术语文本进行融合, 具体包括:
对所述候选术语文本和已知标准术语进行文本向量化, 以获得候选术语文本表征和标
准术语文本表征;
基于所述 候选术语文本表征和标准 术语文本表征, 对所述 候选术语文本进行融合。
4.根据权利要求1至2任一项所述的知识图谱的构建方法, 其特征在于, 所述已知标准
术语包括临床数据采集标准和/或研究数据表格 格式中的已知术语。
5.根据权利要求1所述的知识图谱的构建方法, 其特征在于, 基于更新后的知识图谱和
所述历史CRF表单, 抽取候选术语关系, 具体包括:
基于预设模板, 将所述更新后的知识图谱和历史CRF表单中的术语文本两两进行上下
文匹配, 以抽取候选术语关系; 和/或,
基于预训练模型, 对所述更新后的知识图谱和历史CRF表单中的术语文本进行关系预
测, 以抽取候选术语关系。
6.根据权利要求1所述的知识图谱的构建方法, 其特 征在于, 所述方法还 包括:
分别从历史 临床试验方案的研究流 程图以及全文中抽取术语文本和术语关系;
基于所述术语文本和术语关系的置信度, 更新所述知识图谱的术语概念信 息和术语关
系信息;
其中, 所述研究流 程图包括访视任务信息块。
7.根据权利要求6所述的知识图谱的构建方法, 其特征在于, 从历史临床 实验方案的研
究流程图中抽取术语文本和术语关系, 具体包括:
对所述研究流 程图进行文本解析, 并拆分出访视任务信息块;权 利 要 求 书 1/2 页
2
CN 114547346 B
2从所述访视任务信息块中识别访视任务, 并与所述知识图谱中标准访视任务进行匹
配, 以获得第一 候选访视任务 集作为术语文本;
解析所述第一候选访视任务集中各访视任务的检查项作为术语文本, 并生成访视任
务‑检查项对应关系信息作为 术语关系。
8.根据权利要求6所述的知识图谱的构建方法, 其特征在于, 从历史临床 实验方案的全
文中抽取术语文本和术语关系, 具体包括:
对所述历史 临床试验方案的全文 进行扫描, 以获取访视任务;
将扫描获取的访视任务与 所述知识图谱中标准访视任务进行匹配, 以获得第 二候选访
视任务集作为术语文本;
解析所述第二候选访视任务集中各访视任务的检查项作为术语文本, 并生成访视任
务‑检查项对应关系信息作为 术语关系。
9.根据权利要求1所述的知识图谱的构建方法, 其特 征在于, 所述方法还 包括:
从历史临床试验方案中抽取 方案元数据;
基于所述方案元数据抽取所述表单、 表单 ‑表单项对应关系、 以及表单 ‑检查项对应关
系的适用条件, 以更新所述知识图谱的适用条件信息 。
10.一种知识图谱的构建装置, 其特 征在于, 所述知识图谱的构建装置包括:
术语文本抽取模块, 用于从历史CRF表单中抽取候选术语文本, 其中, 所述候选术语文
本包括表单、 表单项以及检查项;
术语文本更新模块, 用于基于已知标准术语对所述候选术语文本进行融合, 以更新知
识图谱的术语概念信息;
术语关系抽取模块, 用于基于更新后的知识图谱和所述历史CRF表单, 抽取候选术语关
系, 其中, 所述 候选术语关系包括表单 ‑表单项对应关系以及表单 ‑检查项对应关系;
术语关系更新模块, 用于对所述候选术语关系进行置信度排序, 以更新所述知识图谱
的术语关系信息;
其中, 术语文本更新模块具体用于将所述已知标准术语作为初始聚类中心, 利用划分
聚类法对所述候选术语文本进行融合; 计算所述候选术语文本与已知标准术语的相似度,
并基于相似度排序对所述候选术语文本进 行融合; 以及利用层次聚类算法合并所述候选术
语文本中的残留术语文本, 以生成新的术语概念信息, 其中, 所述残留术语文本为无法与已
知标准术语融合的所述 候选术语文本 。
11.一种电子设备, 包括:
至少一个处 理器; 以及
存储器, 所述存储器存储指令, 当所述指令被所述至少一个处理器执行时, 使得所述至
少一个处 理器执行如权利要求1至9任一项所述的知识图谱的构建方法。
12.一种机器可读存储介质, 其存储有可执行指令, 所述指令当被执行时使得所述机器
执行如权利要求1至9任一项所述的知识图谱的构建方法。权 利 要 求 书 2/2 页
3
CN 114547346 B
3
专利 知识图谱的构建方法和装置、电子设备和存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:00:47上传分享