说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210600385.X (22)申请日 2022.05.30 (71)申请人 大连民族大 学 地址 116600 辽宁省大连市经济技 术开发 区辽河西路18号 (72)发明人 刘爽 朱晓敏 孟佳娜 孙世昶  王巍  (74)专利代理 机构 大连智高专利事务所(特殊 普通合伙) 2123 5 专利代理师 马庆朝 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/295(2020.01) G06F 16/28(2019.01) G06F 16/951(2019.01)G06F 40/279(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/02(2006.01) G06K 9/62(2022.01) (54)发明名称 基于混合网络的知识图谱人类癌症致死预 测方法及知识图谱构建方法 (57)摘要 本发明涉及基于人工智能的链接预测研究 方法领域, 公开了基于混合网络的知识图谱人类 癌症致死预测方法及知 识图谱构建方法。 技术方 案: 根据实体所属类别进行图谱设计; 根据图谱 设计获取相应的医疗数据; 对原始数据进行处 理; 对处理后的原始语料进行命名实体识别和关 系抽取; 构建知 识图谱。 有 益效果: 本发 明基于知 识图谱的基础上引入图神经网络, 将知识图消息 传递纳入到图神经网络预测中; 再引入注意力机 制有效提取重要的局部和全局邻居, 从而更好地 学习节点的局部和全局表示; 进一步聚合了原始 特征与局部和全局表示, 从而得到特定的特征表 示; 最后, 通过考虑不同特征图的重要性来集成 特定于特征的表示; 有助于利用独立性问题, 避 免人工特 征工程。 权利要求书2页 说明书10页 附图11页 CN 114969369 A 2022.08.30 CN 114969369 A 1.一种人类癌症合成致死 预测知识图谱构建方法, 其特 征在于, 步骤如下: 步骤1: 根据实体所属类别进行图谱设计; 步骤2: 根据图谱设计获取相应的医疗数据; 步骤3: 对原 始数据进行分词和词性标注, 并去除标点符号和停用词; 步骤4: 对处 理后的原 始语料进行命名实体识别和关系抽取; 步骤5: 构建知识图谱。 2.如权利要求1所述的人类癌症合成致死 预测知识图谱构建方法, 其特 征在于, 针对步骤1中, 数据集包含10004个基因之间的72804对基因关系, KG表示为SynLeth   KG, 包含11个实体之间的24种关系; 在24种关系中, 16种直接与基因有关, 11种实体中有7种 与基因直接相关, 在Syn LethKG数据库中筛 选出需要的信息; 针对步骤2中根据图谱设计, 通过网络爬虫从在SynLethDB 数据库中获取需要的相关结 构化数据、 半结构化数据、 非结构化数据。 3.如权利要求1所述的人类癌症合成致死 预测知识图谱构建方法, 其特 征在于, 针对步骤3使用jieba分词工具对数据进行分词和词性标注, 并去除标点符号和停用 词; 针对步骤4中对于获取的半结构化数据进行整体后保存, 使用深度学习方法对非结构 化数据进行实体识别和关系抽取, 然后将获取的数据进行知识融合; 针对步骤5中将步骤4中整理好的数据, 使用Neo 4j进行存 储。 4.一种基于混合网络的知识图谱人类癌症致死 预测方法, 其特 征在于, 步骤如下: 步骤1: 对数据库中的数据进行提取; 步骤2: 对基因对进行解析 得到gene ‑gene矩阵; 步骤3: 将构建好的知识图谱和得到的基因 ‑基因对作为输入传入到模型中; 步骤4: 进入图神经网络模型, 从而获取基因的邻域表示, 对获取的信息进行聚合; 步骤5: 将聚合后的信息作为Bi ‑LSTM模型的输入, 从而丰富特 征提取的过程; 步骤6: 将上层输出作为注意力机制模型的输入, 从而捕捉多跳邻域中的实体和关系特 征; 步骤7: 计算模型总损失和进行优化。 5.如权利要求4所述的基于混合网络的知识图谱人类癌症致死预测方法, 其特征在于, 针对步骤1, SynLethDB是一个合 成致死基因对的综合数据库, 去除孤立节 点后, 最终得到的 SynLethKG图包含了54012个节点和2231921条边; 在数据库中筛选出需要的数据集; 若未查 询到对应三元组则通过爬虫 方法爬取相关问答网站及论坛。 6.如权利要求4所述的基于混合网络的知识图谱人类癌症致死预测方法, 其特征在于, 针对步骤2, 将筛选出的数据通过URI解析, 转化 成基因基因矩阵的形式; 给定一个SL相关的 基因, 并从KG中构建了一个加权 子图, 识别出相关的节点和决定边的权 重是两个关键步骤。 7.如权利要求4所述的基于混合网络的知识图谱人类癌症致死预测方法, 其特征在于, 针对步骤3, 将步骤1中构建好的知识图谱和基因 ‑基因矩阵做为输入, 模型框架包括图神经 网络、 双向长短期记 忆神经网络及注意力机制模型。 8.如权利要求4所述的基于混合网络的知识图谱人类癌症致死预测方法, 其特征在于, 针对步骤4, 获得输入以后, 对实体的邻域进 行采样; 为每个实体抽取固定数量的k个邻居来权 利 要 求 书 1/2 页 2 CN 114969369 A 2表征其局 部结构, 并重复该过程H跳(H>=1); 如果一个节点的邻居数小于k, 会被进行重复 采样。 9.如权利要求4所述的基于混合网络的知识图谱人类癌症致死预测方法, 其特征在于, 针对步骤5, 在Bi ‑LSTM循环神经网络中, 使用Bi ‑LSTM模型来对基因的序列化进行挖掘, 在 使用Bi‑LSTM之前得先把相互作用的合成致死基因处理成序列的形式, 捕捉原文本的长距 离依赖关系以及位置信息, 使用Bi ‑LSTM对每个致死都提取一个状态, 最后把每个致死基因 的状态叠加并进行 预测。 10.如权利要求4所述的基于混合网络的知识图谱人类癌症致死预测方法, 其特征在 于, 针对步骤6, 当获取的词向量被逐个送入Bi ‑LSTM神经网络模型之后产生一系列的编码 端隐藏状态参与到注意力系 数的计算; 然后在每轮训练中, 解码端的输出状态也参与注意 力系数的计算, 解码器的状态与隐藏状态经过加权求和后得到最终的概率分布; 基于层注 意力机制的特征方法在 任何给定实体的邻域中同时捕获实体和关系特征; 封装关系聚类和 多跳关系, 为基于注意力的模型有效性 提供见解; 针对步骤7, 给注意力机制模型增加基本loss1和 loss2, 基本loss使用cross ‑entropy 计算, 使用Adam优化 算法进行优化。权 利 要 求 书 2/2 页 3 CN 114969369 A 3

.PDF文档 专利 基于混合网络的知识图谱人类癌症致死预测方法及知识图谱构建方法

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于混合网络的知识图谱人类癌症致死预测方法及知识图谱构建方法 第 1 页 专利 基于混合网络的知识图谱人类癌症致死预测方法及知识图谱构建方法 第 2 页 专利 基于混合网络的知识图谱人类癌症致死预测方法及知识图谱构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:58:35上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。