说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210533867.8 (22)申请日 2022.05.17 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 赵宇 张译丹 姚建华  (74)专利代理 机构 中国专利代理(香港)有限公 司 72001 专利代理师 刘靖龙 陈岚 (51)Int.Cl. G06F 16/36(2019.01) G16B 5/00(2019.01) G16B 40/00(2019.01) (54)发明名称 细胞知识图谱构建方法、 装置、 计算设备及 存储介质 (57)摘要 本公开提供了一种构建细胞知识图谱的方 法, 包括: 确定细胞相关领域中的多个实体类型 以及多个关系类型, 每个关系类型表征具有所述 多个实体类型中的任意实体类型的两个实体之 间的关系; 从第一数据集合中获取多个第一实体 以及与所述多个第一实体对应的多个第一关系, 其中, 所述第一数据集合包括预设的多个实体以 及与所述多个实体对应的多个关系; 以所述多个 第一实体作为节点, 并且以所述多个第一关系作 为边, 构建细胞知识图谱; 从第二数据集合中获 取多个第二实体以及与所述多个第二实体对应 的第二关系, 所述第二数据集合包括所述细胞相 关领域中的文献数据; 根据所述多个第二实体和 所述第二关系, 更新所述细胞知识图谱。 权利要求书3页 说明书20页 附图11页 CN 115114445 A 2022.09.27 CN 115114445 A 1.一种构建细胞知识图谱的方法, 包括: 确定细胞相关领域中的多个实体类型以及多个关系类型, 每个关系类型表征具有所述 多个实体类型中的任意实体类型 的两个实体之间的关系, 其中, 所述多个实体类型包括细 胞、 基因、 以及基因本体术语, 所述基因本体术语用于描述基因及其产物的功能; 从第一数据集合中获取多个第 一实体以及与所述多个第 一实体对应的多个第 一关系, 每个第一 实体的实体类型为所述多个实体类型中的一种, 每个第一关系的关系类型为所述 多个关系类型中的一种, 其中, 所述第一数据集合包括预设的多个实体以及与所述多个实 体对应的多个关系; 以所述多个第一实体作为节点, 并且以所述多个第一关系作为边, 构建所述细胞相关 领域对应的细胞知识图谱; 从第二数据集合中获取多个第 二实体以及与所述多个第 二实体对应的第 二关系, 每个 第二实体的实体类型为所述多个实体类型中的一种, 所述第二关系的关系类型为所述多个 关系类型中的一种, 其中, 所述第二数据集合包括所述细胞相关领域中的文献数据, 所述文 献数据包括与所述多个第二实体和所述第二关系相关的数据; 根据所述多个第二实体和所述第二关系, 更新所述细胞知识图谱。 2.根据权利要求1所述的方法, 其中, 所述从第 二数据集合中获取多个第 二实体以及与 所述多个第二实体对应的第二关系, 包括: 利用经训练的图谱元素抽取模型, 从所述第 二数据集合中获取所述多个第 二实体以及 所述第二关系, 其中, 所述图谱元 素抽取模型通过以下步骤训练得到: 获取训练数据集, 所述训练数据集包括样本文献数据, 以及包括作为所述样本文献数 据的标签的样本实体数据和样本关系数据; 将所述样本文献数据输入所述图谱元素抽取模型, 得到所述样本文献数据对应的预测 实体数据和预测关系数据; 基于所述样本实体数据、 所述预测实体数据、 所述样本关系数据、 以及所述预测关系数 据, 确定损失函数; 调整所述图谱元 素抽取模型的参数, 使得 所述损失函数最小化。 3.根据权利要求1所述的方法, 其中, 所述细胞相关领域中的所述文献数据是通过以下 步骤来获取的: 将与所述细胞相关领域中满足筛选指标的文献相关的数据作为所述文献数据, 其中所 述筛选指标包括以下中的至少一项: 文献发表日期、 文献被引用次数、 文献发布平台的影响因子、 文献在相应发布平台上的 用户评分。 4.根据权利要求1所述的方法, 其中, 所述多个实体 类型还包括以下中的至少一项: 蛋白质、 药物、 通路、 疾病、 表型、 以及组织, 其中, 所述通路用于描述细胞内分子之间的 相互作用, 所述表型用于描述病患产生的症状, 所述组织由形态、 功能相似的细胞与细胞间 质构成。 5.一种预测实体之间的关系的方法, 包括: 从权利要求1所述的细胞知识图谱中获取两个实体以作为第 一预测实体和第 二预测实 体, 其中, 所述第一预测实体在所述细胞知识图谱中对应的节点和所述第二预测实体在所权 利 要 求 书 1/3 页 2 CN 115114445 A 2述细胞知识图谱中对应的节点之间不具有直接相连的边; 基于所述细胞知识图谱对所述第 一预测实体、 所述第 二预测实体进行关系预测以得到 关系预测结果, 所述关系预测结果用于表征所述第一预测实体与所述第二预测实体之 间的 关联程度。 6.根据权利要求5所述的方法, 其中, 所述基于所述细胞知识图谱对所述第一预测实 体、 所述第一预测实体进行关系预测以得到关系预测结果, 包括: 基于所述细胞知识图谱中的多个实体和多个关系, 分别确定所述第 一预测实体对应的 第一特征向量和所述第二预测实体对应的第二特 征向量; 计算所述第 一特征向量和所述第 二特征向量之间的相似度, 并将所述相似度作为所述 关系预测结果。 7.根据权利要求5所述的方法, 其中, 所述基于所述细胞知识图谱对所述第一预测实 体、 所述第一预测实体进行关系预测以得到关系预测结果, 包括: 从所述细胞知识图谱中获取参考实体, 其中, 所述参考实体在所述细胞知识图谱中对 应的节点和所述第一预测实体在所述细胞知识图谱中对应的节点之 间具有直接相连的边, 并且所述参考实体在所述细胞知识图谱中对应的节点和所述第二预测实体在所述细胞知 识图谱中对应的节点之间具有直接相连的边, 根据所述参考实体和所述第 一预测实体之间的关系, 以及所述参考实体和所述第 二预 测实体之间的关系, 确定所述关系预测结果。 8.根据权利要求5所述的方法, 其中, 所述第一预测实体对应的实体类型是细胞, 所述 第二预测实体对应的实体 类型是基因本体术语, 并且所述方法还 包括: 响应于所述关系预测结果指示所述第一预测实体和所述第二预测实体之间的关联程 度大于第一预设阈值, 将所述第二预测实体对应的基因本体术语作为所述第一预测实体对 应的细胞的功能注释。 9.根据权利要求5所述的方法, 其中, 所述第一预测实体对应的实体类型是基因, 并且 所述第二预测实体对应的实体 类型是疾病, 并且所述方法还 包括: 响应于所述关系预测结果指示所述第一预测实体和所述第二预测实体之间的关联程 度大于第二预设阈值, 确定所述第二预测实体对应的疾病与所述第一预测实体对应的基因 具有关联性。 10.根据权利要求5所述的方法, 其中, 所述第 一预测实体对应的实体类型是细胞, 并且 所述第二预测实体对应的实体 类型是药物, 并且所述方法还 包括: 响应于所述关系预测结果指示所述第一预测实体和所述第二预测实体之间的关联程 度大于第三预设阈值, 确定所述第二预测实体对应的药物对所述第一预测实体对应的细胞 具有影响。 11.一种细胞聚类方法, 包括: 基于权利要求1所述的细胞知识图谱中的多个实体和多个关系, 确定所述细胞知识图 谱中指示细胞的节点对应的特 征向量; 根据所述特征向量对所述细胞知识图谱中的细胞进行聚类, 以得到所述特征向量对应 的细胞的聚类结果。 12.一种用于构建细胞知识图谱的装置, 包括:权 利 要 求 书 2/3 页 3 CN 115114445 A 3

.PDF文档 专利 细胞知识图谱构建方法、装置、计算设备及存储介质

文档预览
中文文档 35 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共35页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 细胞知识图谱构建方法、装置、计算设备及存储介质 第 1 页 专利 细胞知识图谱构建方法、装置、计算设备及存储介质 第 2 页 专利 细胞知识图谱构建方法、装置、计算设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:01:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。