专利抗体数据库的生成、更新和查询方法、装置及存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210089350.4 (22)申请日 2022.01.26 (65)同一申请的已公布的文献号申请公布号 CN 114116857 A (43)申请公布日 2022.03.01 (73)专利权人北京晶泰科技有限公司地址 100089 北京市海淀区中关村东路8号东升大厦B座70 6 (72)发明人王天元　吴炜坤　黄健　 (74)专利代理机构北京康信知识产权代理有限责任公司 1 1240 专利代理师周春枚 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/23(2019.01)G06F 16/215(2019.01) (56)对比文件 CN 112365919 A,2021.02.12 WO 201816 5046 A1,2018.09.13 CN 112365919 A,2021.02.12 US 2007027630 A1,2007.02.01 CN 113838523 A,2021.12.24 CN 104530228 A,2015.04.2 2 WO 2010056893 A1,2010.0 5.20 CN 106661629 A,2017.0 5.10 吴永强等.人源化单克隆抗体研究进展. 《微生物学免疫学进展》 .2008,(第02期), 审查员郭佳 (54)发明名称抗体数据库的生成、更新和查询方法、装置及存储介质 (57)摘要本发明公开了一种抗体数据库的生成、更新和查询方法、装置及存储介质。其中，该抗体数据库的生成方法包括：获取原始抗体的结构信息和序列信息；解析原始抗体的序列信息，对序列信息中的抗体序列进行抗体编号；若抗体编号成功，对原始抗体的结构信息进行数据清洗和结构优化，得到优化后的目标抗体的结构信息；根据目标抗体的结构信息生成抗体数据库。本发明解决了现有的抗体数据库中的抗体数据不完整，导致抗体数据库的使用体验差的技术问题。权利要求书4页说明书18页附图3页 CN 114116857 B 2022.06.17 CN 114116857 B 1.一种抗体数据库的生成方法，其特征在于，包括：获取原始抗体的结构信息和序列信息；解析所述原始抗体的序列信息，对所述序列信息中的抗体序列进行抗体编号；若抗体编号成功，对所述原始抗体的结构信息进行数据清洗和结构优化，得到优化后的目标抗体的结构信息；根据所述目标抗体的结构信息生成抗体数据库；在对所述原始抗体的结构信息进行数据清洗和结构优化之前，所述方法还包括：解析所述原始抗体中抗体编号成功的抗体序列对应的结构信息，得到对应的抗体链结构；对每条所述抗体链结构进行配对，得到配对结果，所述配对结果包括配对成功的抗体链结构组成的抗体以及无配对的抗体链结构形成的抗体；所述对所述原始抗体的结构信息进行数据清洗和结构优化，得到优化后的目标抗体的结构信息，包括：对配对后形成的各抗体的结构信息进行数据清洗和结构优化，得到优化后的各目标抗体的结构信息。 2.根据权利要求1所述的生成方法，其特征在于，获取原始抗体的结构信息和序列信息，包括：根据检索关键词从蛋白质结构数据库中下载并获取与所述检索关键词相关联的抗体的结构信息和序列信息，并将获取到的抗体的结构信息和序列信息作为原始抗体的结构信息和序列信息。 3.根据权利要求1所述的生成方法，其特征在于，所述方法还包括：若所述序列信息中存在一个或多个抗体序列编号失败，从所述序列信息中删除该编号失败的抗体序列。 4. 根据权利要求1所述的生成方法，其特征在于，所述对每条所述抗体链结构进行配对，得到配对结果，包括：获取每条所述抗体链结构与其余抗体链结构之间的距离，根据所述距离对所述抗体链结构进行配对，得到配对结果；和/或获取每条所述抗体链结构与其余抗体链结构之间存在相互作用的目标原子的数量，根据所述目标原子的数量对所述抗体链结构进行配对，得到配对结果。 5.根据权利要求1所述的生成方法，其特征在于，所述解析所述原始抗体中抗体编号成功的抗体序列对应的结构信息，得到对应的抗体链结构，包括：解析所述原始抗体中抗体编号成功的抗体序列对应的结构信息，若一条抗体序列中同时存在重链结构和轻链结构，对所述抗体序列进行结构切分为重链结构和轻链结构，以得到每条所述抗体序列对应的抗体链结构。 6.根据权利要求1所述的生成方法，其特征在于，对所述原始抗体的结构信息进行数据清洗，包括以下至少一种操作：对所述原始抗体的抗体结构中的多重占位信息进行删除；对所述原始抗体的抗体结构中的无法被识别的预设残基进行删除处理；将所述原始抗体的抗体结构中的非标准氨基酸转换为对应的标准氨基酸。 7.根据权利要求1所述的生成方法，其特征在于，对所述原始抗体的结构信息进行结构优化，得到优化后的目标抗体的结构信息，包括：对经过数据清洗后的原始抗体的结构信息进行解析，得到对应的抗体结构序列；权　利　要　求　书 1/4 页 2 CN 114116857 B 2将所述抗体结构序列与所述序列信息中对应的抗体序列进行比对，确定所述抗体结构序列中的缺失部分；对所述缺失部分进行结构补全，并对补全后的抗体结构进行能量最小化处理，得到优化后的目标抗体的结构信息。 8.根据权利要求7所述的生成方法，其特征在于，在对所述原始抗体的结构信息进行结构优化之后，所述方法还包括：对所述目标抗体的抗体结构序列进行抗体编号，以对所述原始抗体的抗体编号进行更新。 9.根据权利要求1所述的生成方法，其特征在于，在根据所述目标抗体的结构信息生成抗体数据库之前，所述方法还包括：检测所述目标抗体中的主链结构是否发生断裂；若所述主链结构发生断裂，利用预设结构参数对所述主链结构进行结构修复，得到修复后的目标抗体；所述根据所述目标抗体的结构信息生成抗体数据库，包括：利用所述修复后的目标抗体的结构信息生成抗体数据库。 10.根据权利要求1所述的生成方法，其特征在于，在根据所述目标抗体的结构信息生成抗体数据库之前，所述方法还包括：检测所述目标抗体的抗体编号是否存在异常；若抗体编号存在异常，删除抗体编号异常的目标抗体，得到抗体编号正常的目标抗体；所述根据所述目标抗体的结构信息生成抗体数据库，包括：利用所述抗体编号正常的目标抗体的结构信息生成抗体数据库。 11.根据权利要求1 ‑10任一项所述的生成方法，其特征在于，所述抗体数据库包括抗体结构数据库、抗体特征数据库和抗体序列数据库中的至少一种。 12.根据权利要求11所述的生成方法，其特征在于，当所述抗体数据库包括所述抗体结构数据库时，根据所述目标抗体的结构信息生成抗体数据库，包括：根据所述目标抗体的结构信息确定所述目标抗体的抗体类型，其中，所述抗体类型至少包括：双链抗体、单链抗体和单域抗体；生成与所述抗体类型对应的所述抗体结构数据库。 13.根据权利要求11所述的生成方法，其特征在于，当所述抗体数据库包括所述抗体特征数据库时，根据所述目标抗体的结构信息生成抗体数据库，包括：提取所述目标抗体的特征信息，所述特征信息至少包括以下之一：结构信息、序列信息、编号信息、配对信息、结构优化信息；根据所述特征信息生成所述抗体特征数据库。 14.根据权利要求13所述的生成方法，其特征在于，在所述抗体数据库还包括所述抗体序列数据库时，在提取所述目标抗体的特征信息之后，所述方法还包括：从所述特征信息中提取目标序列信息；基于所述目标序列信息生成所述抗体序列数据库。 15.一种抗体数据库的更新方法，其特征在于，包括：获取新增抗体的结构信息和所述新增抗体的序列信息；权　利　要　求　书 2/4 页 3 CN 114116857 B 3

专利 抗体数据库的生成、更新和查询方法、装置及存储介质

专利抗体数据库的生成、更新和查询方法、装置及存储介质