说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210439849.3 (22)申请日 2022.04.25 (71)申请人 平安普惠企业管理有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (72)发明人 刘锴靖  (74)专利代理 机构 深圳市沃德知识产权代理事 务所(普通 合伙) 44347 专利代理师 高杰 于志光 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/295(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/00(2006.01) G06N 20/20(2019.01) (54)发明名称 基于医疗实体的图谱构建方法、 装置、 设备 及存储介质 (57)摘要 本发明涉及智能决策技术, 揭露了一种基于 医疗实体的图谱构建方法, 包括: 利用有标注训 练集及无标注训练集对预构建的初始化医疗实 体识别模型进行半监督学习, 得到医疗实体识别 模型, 利用汉语 分词系统将预构建的医疗信息文 本进行分词及词性标注, 得到医疗分词集合; 利 用医疗实体识别模型的BERT网络对所述医疗分 词集合进行向量化操作, 得到二级量化数据; 对 所述二级量化数据进行特征提取, 得到词性—语 义特征序列, 再对词性—语义特征序列进行实体 分类判断, 得到实体集合, 并根据实体集合进行 知识图谱构建。 本发明还提出一种基于医疗实体 的图谱构建装置、 设备及存储介质。 本发明通过 提高医疗行业实体识别的准确性, 来增加医疗知 识图谱构建效率。 权利要求书3页 说明书12页 附图6页 CN 114840684 A 2022.08.02 CN 114840684 A 1.一种基于医疗实体的图谱构建方法, 其特 征在于, 所述方法包括: 获取预构建的初始化医疗实体识别模型及有标注训练集及无标注训练集, 并根据 预设 的半监督学习策略, 利用所述有标注训练集及所述无标注训练集对所述初始 化医疗实体识 别模型进行训练, 得到训练完成的医疗实体识别模型; 获取预构建的医疗信 息文本, 利用汉语分词系统, 对所述医疗信 息文本进行分词操作, 并将分词结果进行词性标注, 得到医疗分词集 合; 将所述医疗分词集合导入所述医疗实体识别模型中, 利用所述医疗实体识别模型的 BERT网络对所述医疗分词集合进行向量化操作, 得到一级量化数据集合, 并对所述一级量 化数据集 合进行注意力权 重计算操作, 得到二级量 化数据集 合; 利用所述医疗实体识别模型中的词性—语义识别网络, 识别所述二级量化数据集合中 各个相邻的二级量 化数据间的词性关系与语义关系, 得到词性—语义特 征序列; 利用所述医疗实体识别模型中的输出层网络, 根据所述词性—语义特征序列, 判断所 述二级量化数据集合中各个二级量化数据是否为 实体或组合 实体, 并根据判断结果将所述 实体及所述组合实体进行输出, 得到实体集 合; 根据预设的图谱构建规则, 对所述实体集 合进行图谱构建以得到医疗知识图谱。 2.如权利要求1所述的基于 医疗实体的图谱构建方法, 其特征在于, 所述根据 预设的半 监督学习策略, 利用所述有标注训练集及所述无标注训练集对所述初始 化医疗实体识别模 型进行训练, 得到训练完成的医疗实体识别模型, 包括: 利用所述有标注训练集训练所述初始化医疗实体识别模型, 得到初级医疗实体识别模 型; 利用所述初级医疗实体识别模型将所述无标注训练集进行实体识别, 得到识别结果集 及所述识别结果 集中各个识别结果对应的置信度; 提取所述识别结果集中置信度 大于预设阈值的识别结果为伪标注, 将所述伪标注对应 的无标注训练集定义 为伪标注训练集; 根据各个识别结果对应的置信度, 计算所述初级医疗实体识别模型的模型误差; 判断所述模型误差是否大于或等于预设的标准 误差; 当所述模型误差大于或等于所述标准误差时, 判定所述初级医疗实体识别模型不合 格, 将所述伪标注训练集并入所述有标注训练集中, 并返回上述利用所述有标注训练集训 练所述初始化医疗实体识别模型的步骤; 当所述模型误差小于所述标准误差时, 判定所述初级医疗实体识别模型合格, 并将所 述初级医疗实体识别模型设定为医疗实体识别模型。 3.如权利要求2所述的基于 医疗实体的图谱构建方法, 其特征在于, 所述利用所述有标 注训练集训练所述初始化医疗实体识别模型, 得到初级医疗实体识别模型, 包括: 依次从所述有标注训练集中获取一个有标注训练样本, 并利用所述初始化医疗实体识 别模型将所述有标注训练样本进行正向传播计算, 得到计算结果; 对比所述有标注训练样本的真实标注与 所述计算结果, 得到所述初始化医疗实体识别 模型的识别误差; 最小化所述识别误差, 得到所述识别误差最小时所述初始化医疗实体识别模型的模型 参数;权 利 要 求 书 1/3 页 2 CN 114840684 A 2利用所述模型参数进行反向更新操作, 得到更新医疗实体识别模型; 判断所述有标注训练集中是否存在有标记训练样本; 当所述有标注训练集中存在有标记训练样本, 则返回上述依次从所述有标注训练集中 获取一个有标注训练样本的步骤, 对所述更新医疗实体模型进行迭代更新; 当所述有标注训练集中不存在有标记训练样本, 则将所述更新医疗实体模型作为初级 医疗实体识别模型。 4.如权利要求1所述的基于 医疗实体的图谱构建方法, 其特征在于, 所述利用所述医疗 实体识别模型的BERT网络对所述医疗分词 集合进行向量化操作, 得到一级量化数据集合, 包括: 利用所述医疗实体识别 模型的BERT网络向量化所述医疗分词集合中的医疗分词文本, 得到文本向量 集合; 向量化所述医疗分词集 合中的各个医疗分词的词性, 得到词性向量 集合; 向量化所述医疗分词集 合中的各个医疗分词的词语顺序, 得到词位置向量 集合; 将所述文本向量集合、 所述词性向量集合及所述词位置向量集合进行对应叠加, 得到 所述一级量化数据集 合。 5.如权利要求1所述的基于 医疗实体的图谱构建方法, 其特征在于, 所述利用所述医疗 实体识别模型中的词性—语义识别网络, 识别所述二级量化数据集合中各个相邻的二级量 化数据间的词性关系与语义关系, 得到词性—语义特 征序列, 包括: 利用所述词性—语义识别网络的卷积核集合对所述二级量化数据集合中的各个二级 量化数据进行 特征提取, 得到各个所述 二级量化数据对应的卷积特 征矩阵集 合; 对所述卷积特 征矩阵集 合进行平均池化操作, 得到池化特 征矩阵集 合; 根据预设的重组规则, 将所述池化特征矩阵集合中各个池化特征矩阵进行拆分, 并将 拆分结果进行顺序一维连接, 得到词性—语义特 征序列。 6.如权利要求1所述的基于 医疗实体的图谱构建方法, 其特征在于, 所述根据 预设的图 谱构建规则, 对所述实体集 合进行图谱构建以得到医疗知识图谱, 包括: 对所述实体集 合进行聚类操作, 得到 簇集合; 根据所述簇集 合的簇类型, 将所述簇集 合聚类至预构建的历史医疗知识图谱中; 根据预设的连接规则, 将所述实体集 合进行簇内最小生成树构建, 得到医疗知识图谱。 7.如权利要求1所述的基于 医疗实体的图谱构建方法, 其特征在于, 所述获取预构建的 初始化医疗实体识别模型之前, 所述方法还 包括: 获取预构建的BERT网络及包 含识别语义及词性的激活函数的词性—语义识别网络; 将所述BERT网络作为输入层, 将所述词性—语义识别网络作为处理层及输出层进行连 接, 得到初始化医疗实体识别模型。 8.一种基于医疗实体的图谱构建装置, 其特 征在于, 所述装置包括: 模型训练模块, 用于获取预构建的初始化医疗实体识别模型及有标注训练集及无标注 训练集, 并根据预设的半监督学习 策略, 利用所述有标注训练集及所述无标注训练集对所 述初始化医疗实体识别模型进行训练, 得到训练完成的医疗实体识别模型; 信息向量化模块, 用于获取预构建的医疗信 息文本, 利用汉语分词系统, 对所述医疗信 息文本进 行分词操作, 并将分词结果进 行词性标注, 得到医疗分词集合, 及将所述医疗分词权 利 要 求 书 2/3 页 3 CN 114840684 A 3

.PDF文档 专利 基于医疗实体的图谱构建方法、装置、设备及存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于医疗实体的图谱构建方法、装置、设备及存储介质 第 1 页 专利 基于医疗实体的图谱构建方法、装置、设备及存储介质 第 2 页 专利 基于医疗实体的图谱构建方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:57:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。