说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210640242.1 (22)申请日 2022.06.08 (71)申请人 阿里巴巴 (中国) 有限公司 地址 311121 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 (72)发明人 李杨 孙健 余海洋 李晶阳  (74)专利代理 机构 北京智信禾专利代理有限公 司 11637 专利代理师 赵杰 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) (54)发明名称 数据处理方法以及装置 (57)摘要 本说明书实施例提供数据处理方法以及装 置, 其中所述数据处理方法包括: 从知识图库获 取SPO三元组; 利用所述SPO三元组构建搜索指 令, 并基于所述搜索指令抓取出对应的训练语 句; 将输入序列输入编码模型进行编码, 获得所 述输入序列中各个实体各自对应的编码, 其中, 所述输入序列中包含所述SPO三元组及对应的训 练语句; 将包含 各个实体各自对应的编码的输入 序列作为样本, 输入知识问答模型进行训练, 得 到训练后的知识问答模型, 其中, 所述样本的标 签根据所述SPO三元组确定, 本申请实施例提供 的数据处理方法提高了数据处理的速度, 提高了 模型预测的准确性。 权利要求书2页 说明书13页 附图9页 CN 115221297 A 2022.10.21 CN 115221297 A 1.一种数据处 理方法, 包括: 从知识图库获取S PO三元组; 利用所述S PO三元组构建搜索指令, 并基于所述搜索指令抓取 出对应的训练语句; 将输入序列输入编码模型进行编码, 获得所述输入序列中各个实体各自对应的编码, 其中, 所述输入序列中包 含所述SPO三元组及对应的训练语句; 将包含各个实体各自对应的编码的输入序列作为样本, 输入知识问答模型进行训练, 得到训练后的知识问答模型, 其中, 所述样本的标签根据所述S PO三元组确定 。 2.根据权利要求1所述的方法, 在获得所述输入序列中各个实体各自对应的编码之后, 还包括: 从所述知识图库, 获取 所述各个实体分别对应的子图; 将所述各个实体对应的子图以及对应的编码, 分别输入所述各个实体各自的门控单 元, 通过所述门控单 元选择所述子图中的信息融入所述编码, 获得融合后的编码。 3.根据权利要求1所述的方法, 所述利用所述S PO三元组构建搜索指令, 包括: 对所述SPO三元组进行 过滤, 获得过滤后的SPO三元组; 利用所述过 滤后的SPO三元组构建搜索指令 。 4.根据权利要求3所述的方法, 所述对所述S PO三元组进行 过滤, 包括: 根据过滤规则对所述SPO三元组进行过滤, 其中, 所述过滤规则包括实体长度过滤规 则、 关系长度过 滤规则、 实体出现次数 过滤规则和/或实体 类型过滤规则。 5.根据权利要求1所述的方法, 所述利用所述S PO三元组构建搜索指令, 包括: 从SPO三元组中选取实体进行拼接, 获得搜索语句; 基于所述搜索语句构建搜索指令 。 6.根据权利要求1所述的方法, 所述基于所述搜索指令抓取 出对应的训练语句, 包括: 基于所述搜索指令进行搜索, 获得初始训练语句; 基于语义匹配模型, 对所述初始训练语句进行 过滤, 获得训练语句。 7.根据权利要求1所述的方法, 所述将输入序列输入编码模型进行编码, 包括: 利用所述S PO三元组确定所述训练语句的正S PO三元组和负S PO三元组; 基于所述训练语句, 所述正SPO三元组和所述负SP O三元组生成输入序列并输入编码模 型进行编码。 8.根据权利要求1所述的方法, 在所述将输入序列输入编码模型进行编码之前, 还包 括: 将若干条输入序列的输入顺序进行随机排列, 生成若干条输入序列的输入顺序。 9.根据权利要求1所述的方法, 所述将包含各个实体各自对应的编码的输入序列作为 样本, 输入知识问答模型进行训练, 包括: 获取包含各个实体各自对应的编码的输入序列; 对所述输入序列进行掩码 操作, 获得样本并输入知识问答模型进行训练。 10.一种数据处 理装置, 包括: 第一获取模块, 被 配置为从知识图库获取S PO三元组; 构建模块, 被配置为利用所述SPO三元组构建搜索指令, 并基于所述搜索指令抓取出对 应的训练语句; 编码模块, 被配置为将输入序列输入编码模型进行编码, 获得所述输入序列中各个实权 利 要 求 书 1/2 页 2 CN 115221297 A 2体各自对应的编码, 其中, 所述输入序列中包 含所述SPO三元组及对应的训练语句; 输入模块, 被配置为将包含各个实体各自对应的编码的输入序列作为样本, 输入知识 问答模型进行训练, 得到训练后的知识问答模型, 其中, 所述样本的标签根据所述SPO三元 组确定。 11.一种数据处 理方法, 包括: 获取问题数据; 将所述问题数据输入如权利要求1所述的数据处理方法训练获得的知识问答模型进行 预测处理; 获得与所述问题数据对应的答案数据。 12.一种数据处 理装置, 包括: 第二获取模块, 被 配置为获取问题数据; 处理模块, 被配置为将所述问题数据输入如权利要求1所述的数据处理方法训练获得 的知识问答模型进行 预测处理; 输出模块, 被 配置为获得与所述问题数据对应的答案数据。 13.一种计算设备, 包括: 存储器和处 理器; 所述存储器用于存储计算机可执行指令, 所述处理器用于执行所述计算机可执行指 令, 该计算机可执行指 令被处理器执行时实现权利要求 1至9或11任意一项 所述数据处理方 法的步骤。 14.一种计算机可读存储介质, 其存储有计算机可执行指令, 该计算机可执行指令被处 理器执行时实现权利要求1至9或1 1任意一项所述数据处 理方法的步骤。权 利 要 求 书 2/2 页 3 CN 115221297 A 3

.PDF文档 专利 数据处理方法以及装置

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据处理方法以及装置 第 1 页 专利 数据处理方法以及装置 第 2 页 专利 数据处理方法以及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:59:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。