说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210856458.1 (22)申请日 2022.07.21 (65)同一申请的已公布的文献号 申请公布号 CN 115080764 A (43)申请公布日 2022.09.20 (73)专利权人 神州医疗科技股份有限公司 地址 100080 北京市海淀区北四环西路6 6 号16层1901室 (72)发明人 刘硕 杨雅婷 宋佳祥 朱宁  白焜太 许娟 史文钊  (74)专利代理 机构 北京星通盈泰知识产权代理 有限公司 1 1952 专利代理师 夏晶 (51)Int.Cl. G06F 16/36(2019.01)G06F 16/35(2019.01) G06K 9/62(2022.01) G16H 50/70(2018.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 112364174 A,2021.02.12 CN 110334211 A,2019.10.15 US 2021342716 A1,2021.1 1.04 CN 111291191 A,2020.0 6.16 CN 113111180 A,2021.07.13 CN 114564966 A,2022.05.31 审查员 王静 (54)发明名称 基于知识图谱及聚类算法的医学相似实体 分类方法及系统 (57)摘要 本发明涉及知识图谱技术领域, 具体涉及基 于知识图谱及聚类算法的医学相似实体分类方 法及系统, 本方法包括将医学数据库的数据构成 三元组数据集, 将三元组数据集作为训练集, 对 知识图谱学习模 型进行训练, 得到医学数据库的 向量化表 示的医学知识图谱, 将其三元组通过均 值池化层获得三元组的代表向量, 利用无监督聚 类算法Kmeans对实体和关系的代表向量进行聚 类, 得出医学知识图谱内的相似术语实体库, 将 同一簇内的实体作为正样本, 将不同簇内的实体 作为负样本, 将正样本和负样本输入, 训练实体 相似分类模 型, 基于实体相似分类模 型对实体进 行相似判断; 本发明解决人工标注相似实体分类 繁琐的问题, 实现对医学知识图谱 无人工的准确 构建。 权利要求书5页 说明书10页 附图4页 CN 115080764 B 2022.11.01 CN 115080764 B 1.一种基于知识图谱及聚类算法的医学相似实体分类方法, 其特 征在于, 包括:  S100、 将医学数据库的数据构成三元组数据集, 将所述三元组数据集作为训练集, 从 所述训练集中选取正确 三元组和错误三元组, 输入知识图谱学习模型进行训练, 生成知识 图谱学习模型, 基于所述知识图谱学习模型获得更新完 毕的嵌入层实体及关系的向量化表 示作为知识图谱的表示向量, 得到所述医学 数据库的向量 化表示的医学知识图谱; S200、 基于得到的所述医学数据库的向量化表示的医学知识图谱, 将其三元组通过均 值池化层获得三元 组的代表向量, 利用无监督聚类算法Kmeans对实体和关系的代表向量进 行聚类, 得 出医学知识图谱内的相似术语实体库; S300、 基于所述医学知识图谱内的相似术语实体库, 将同一簇内的实体作为正样本, 将 不同簇内的实体作为负样本, 将所述正样本和所述负样本输入, 训练实体相似分类模型, 基 于所述实体相似分类模型对实体进行相似判断; 所述步骤S300中所述实体相似分类模型的计算包括: S301、 将所述正样本和负样本通过嵌入层权重矩阵映射, 得出所述正样本和负样本嵌 入层的词向量, 将所述词向量作为输入数据的嵌入层矩阵表示; S302、 经过lstm内部提取 所述正样本和负 样本嵌入层的词向量的时间序列特 征; S303、 经过线性层进行二分类, 根据下式判断是否相似: 其中W3为最后线性层的权重矩阵; ht为lstm网络最后隐状态输出; p是最终输出的是否 相似的概率值; 是LSTM的输出经过线性层之后的输出的结果; softmax是归一化函数, 对 进行归一 化, 使得结果分布在0~1区间内。 2.根据权利要求1所述基于知识图谱及聚类算法的医学相似实体分类方法, 其特征在 于, 所述步骤S200中, 所述利用无监督聚类算法Kmeans对实体和关系的代表向量进行聚类, 包括: S201、 在所述医学知识图谱的数据集中随机 选取K个实体作为中心点; S202、 定义损失函数, 计算实体之间的相似度; S203、 对于数据集中的每一个实体, 根据计算出来的余弦距离将其分配到距离最近的 中心点, 重新获取K个簇, 并对于重新 获取的每一个簇, 重新计算该簇的中心 点, 直到所述损 失函数收敛。 3.根据权利要求2所述基于知识图谱及聚类算法的医学相似实体分类方法, 其特征在 于, 所述步骤S202中所述损失函数为: , , 其中, A和B分别为假定向量a和b的属性向量, Ai和Bi分别代表属性向量A和B的各分量,权 利 要 求 书 1/5 页 2 CN 115080764 B 2α 为向量a和b之间的夹角, dist(A,B)表示向量a和b之间的余弦距离 。 4.根据权利要求1所述基于知识图谱及聚类算法的医学相似实体分类方法, 其特征在 于, 所述步骤S302 中, 所述经过lstm内部提取所述正样本和负样本嵌入层的词向量的时间 序列特征: 将所述正样本和负样本嵌入层的词向量串行输入LSTM计算单元, 经过下列公式的计 算, 获取不同序列方向的Lstm_embed ding向量表示: 其中, 、 、 为输入门, 为遗忘门, 为输出门, Wi、 Wf、 Wc、 Wxo、 Who、 Wco 分别代表各自所在线性层的权重矩阵, bi、 bc、 bf、 bo分别代表各自所在线性层的偏置权重 矩阵, 参数 为记忆单元W代表线性层的权重矩阵, xt代表当前计算模块输入的字符对应的 表示向量, ht‑1表示上一个字符对应的隐藏层状态输出, ct‑1表示上一个字符对应的计算单 元的输出, b代 表线性层的偏置 权重矩阵, tanh、 σ 为激活函数。 5.根据权利要求1所述基于知识图谱及聚类算法的医学相似实体分类方法, 其特征在 于, 所述步骤  S100中, 所述从所述训练集中选取正确三元组和错误三元组, 输入知识图谱 学习模型进行训练包括: 所述正确三元组为S(h,l,t), 错误三元组为S'(h',l,t)或S'(h,l,t'), 其中h为头部实 体, t为尾部实体, l为h与t的关系, h'和t'分别为头部实体、 尾部实体被一个随机实体取代 而得, 将所述正确三元组S(h,l,t)和所述错误三元组S'(h',l,t)或S'(h,l,t')输入知识图 谱学习模型, 并基于损失函数以及 梯度下降法对所述知识图谱学习模型进行训练; 通过计算距离的方法判定所述正确三元组和所述错误三元组, 所述计算距离的方法如 下: ; 所述损失函数 为: , 其中, [x]+代 表: max(0,x), λ为可调节超参数。 6.一种基于知识图谱及聚类算法的医学相似实体分类系统, 其特征在于, 包括: 医学知 识图谱向量 化表示模块、 相似术语实体库构建模块和实体相似判断模块;权 利 要 求 书 2/5 页 3 CN 115080764 B 3

.PDF文档 专利 基于知识图谱及聚类算法的医学相似实体分类方法及系统

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识图谱及聚类算法的医学相似实体分类方法及系统 第 1 页 专利 基于知识图谱及聚类算法的医学相似实体分类方法及系统 第 2 页 专利 基于知识图谱及聚类算法的医学相似实体分类方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:58:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。