说明:收录各省市地方标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210738354.0 (22)申请日 2022.06.28 (65)同一申请的已公布的文献号 申请公布号 CN 114817576 A (43)申请公布日 2022.07.29 (73)专利权人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 (72)发明人 杜军平 王宇晖 邵蓥侠 薛哲 李昂 (74)专利代理 机构 北京金咨知识产权代理有限 公司 11612 专利代理师 宋教花 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01)G06F 40/295(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) 审查员 姚子琪 (54)发明名称 模型训练及专利知识图谱补全 方法、 装置及 存储介质 (57)摘要 本发明提供一种模型训练及专利知识图谱 补全方法、 装置及存储介质, 该方法包括: 获取包 含目标补全类型实体的训练专利文本集合; 识别 并抽取每个训练专利文本中的所有实体, 筛选出 词频超过阈值的识别并抽取到的实体构成候选 实体集合; 将所述训练专利文本集合作为实体训 练数据集, 将所述候选实体集合中的每个实体作 为一个分类标签; 若专利文本与实体为一一对应 关系, 则使用Sigmoid函数来归 一化分类标签, 使 用二元交叉熵作为损失函数, 进行多分类任务训 练以获得专利知识图谱补全模型; 若非一一对应 关系, 则使用Softmax 函数来归 一化分类标签, 交 叉熵作为损失函数, 进行多 标签分类任务训练以 获得专利知识图谱补全模型。 本发明能够准确、 高效的专利知识图谱补全。 权利要求书2页 说明书9页 附图1页 CN 114817576 B 2022.11.18 CN 114817576 B 1.一种专利知识图谱补全 模型训练方法, 其特 征在于, 该 方法包括以下步骤: 获取包含目标补全类型实体的训练专利文本集 合; 依据专利文本与目标补全类型的实体的对应关系, 识别并抽取每个训练专利文本 中的 所有目标补全类型的实体, 筛选出词频超过阈值的识别并抽取到的实体构成候选实体集 合; 将所述训练专利文本集合作为实体训练数据集, 将所述候选实体集合中的每个实体作 为一个分类标签; 若专利文本与目标补全类型的实体为一一对应关系, 则使用Sigmoid函数来归一化分 类标签, 使用二元交叉熵作为损失函数, 进行多分类任务训练以获得专利知识图谱补全模 型; 若专利文本与目标补全类型的实体非一一对应关系, 则使用Softmax函数来归一化分 类标签, 使用交叉熵作为损失函数, 进行多标签分类任务训练以获得专利知识图谱补全模 型。 2.根据权利要求1所述的方法, 其特征在于, 所述专利文本与目标补全类型的实体为一 一对应关系的情况 下, 所述实体的类型包括应用方向实体; 所述专利文本与目标补全类型的实体非一一对应关系的情况下, 所述实体的类型包括 领域实体。 3.根据权利要求1所述的方法, 其特征在于, 在所述专利文本与目标补全类型的实体非 一一对应关系的情况 下, 该方法还包括使用正则表达式和同义词 词表进行同义词融合。 4.根据权利要求1所述的方法, 其特征在于, 该方法还包括使用BERT语言模型对目标补 全类型的实体进 行向量化处理, 对向量化处理后的目标补 全类型的实体使用近邻 传播聚类 方法将相 近的实体聚合为一个聚类实体, 所述聚类实体构成候选实体集合, 使用所述候选 实体集合中的每 个聚类实体作为 一个分类标签, 进行多标签分类任务训练。 5.根据权利要求1所述的方法, 其特征在于, 使用二元交叉熵的损失函数用公式表示 为: ; 其中, 表示训练专利文本集合中训练专利文本的数量, 是候选实体集合中实体类 别的数量, 为专利i对于实体类别j的真值, 如果实体类别 与专利 的类别标签相同, 则值为1, 否则值 为0, 表示专利 被模型预测属于类别 的概率。 6.根据权利要求1所述的方法, 其特 征在于, 使用交叉熵的损失函数用公式表示 为: ; 其中, 表示训练专利文本集合中训练专利文本的数量, 是候选实体集合中实体类 别的数量, 为专利i对于实体类别j的真值, 如果实体类别 与专利 的类别标签相同,权 利 要 求 书 1/2 页 2 CN 114817576 B 2则值为1, 否则值 为0, 表示专利 被模型预测属于类别 的概率。 7.一种专利知识图谱补全方法, 其特 征在于, 该 方法包括以下步骤: 将待补全知识图谱的专利文本 输入到专利知识图谱补全 模型中作为测试 数据; 基于专利知识图谱补全模型中的所有分类标签, 若专利文本与目标补全类型的实体为 一一对应关系, 则使用Sigmoid函数来归一化分类标签, 使用二元交叉熵作为损失函数, 进 行多分类任务以输出专利知识图谱的补全实体; 基于专利知识图谱补全模型中的所有分类标签, 若专利文本与目标补全类型的实体非 一一对应关系, 则使用Softmax函数来归一化分类标签, 使用交叉熵作为损失函数, 进行多 标签分类任务以输出专利知识图谱的补全实体; 所述专利知识图谱补全模型为如权利要求1 ‑6任一项所述专利知识图谱补全模型训练 方法得到的专利知识图谱补全 模型。 8.根据权利要求7所述的方法, 其特征在于, 所述专利文本与目标补全类型的实体为一 一对应关系的情况 下, 所述实体的类型包括应用方向实体; 所述专利文本与目标补全类型的实体非一一对应关系的情况下, 所述实体的类型包括 领域实体。 9.一种专利知识图谱补全装置, 包括处理器和存储器, 其特征在于, 所述存储器中存储 有计算机指令, 所述处理器用于执行所述存储器中存储的计算机指令, 当所述计算机指令 被处理器执行时该装置实现如权利要求1至8中任一项所述方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器 执行时实现如权利要求1至8中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114817576 B 3
专利 模型训练及专利知识图谱补全方法、装置及存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 11:00:16
上传分享
举报
下载
原文档
(640.7 KB)
分享
友情链接
DB52-T 1653-2022 软件开发费用测算规范 贵州省.pdf
DB35-T 1940-2020 旱地改造水田技术规范 福建省.pdf
GB-T 36568-2018 光伏方阵检修规程.pdf
GB-T 18018-2019 信息安全技术 路由器安全技术要求.pdf
GB-T 35121-2017 全程供应链管理服务平台参考功能框架.pdf
GB-T 7027-2002 信息分类和编码的基本原则与方法.pdf
DB11-T 1619-2019 空气压缩机节能监测 北京市.pdf
民航 MH-T 2014-2023 民用无人驾驶航空器系统物流运行通用要求 第1部分:海岛场景.pdf
GB-T 42760-2023 智慧城市 感知终端应用指南.pdf
GB-T 38667-2020 信息技术 大数据 数据分类指南.pdf
GM-T 0031-2014 安全电子签章密码技术规范.pdf
商用密码应用安全性测评机构能力评审实施细则(试行).pdf
赛迪 中国网络安全发展现状.pdf
GB-T 20257.4-2017 国家基本比例尺地图图式 第4部分:1250 000 1500 000 11 000 000地形图图式.pdf
NY-T 3223-2018 日光温室设计规范.pdf
GB-T 31049-2022 石油天然气钻采设备 顶部驱动钻井装置.pdf
GB-T 43807-2024 版权资产管理体系 要求.pdf
YD-T 3763.2-2021 研发运营一体化(DevOps)能力成熟度模型 第2部分:敏捷开发管理.pdf
ISO IEC 27018-2019.pdf
DB42-T 1951-2023 桥梁结构健康信息化监测技术规范 湖北省.pdf
1
/
3
13
评价文档
赞助2.5元 点击下载(640.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。