说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210739932.2 (22)申请日 2022.06.28 (71)申请人 阿里巴巴达摩院 (杭州) 科技有限公 司 地址 310023 浙江省杭州市余杭区五常街 道文一西路969号3幢5层516室 申请人 中国科学院深圳先进技 术研究院 (72)发明人 惠彬原 王李翰 秦博文 李博文  黎槟华 李永彬 黄非 杨敏  (74)专利代理 机构 北京合智同创知识产权代理 有限公司 1 1545 专利代理师 李杰 兰淑铎 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01)G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 表格问答数据处理及 模型训练方法、 电子设 备及存储介质 (57)摘要 本申请实施例提供了一种表格问答数据处 理及模型训练方法、 电子设备及存储介质, 其中, 表格问答数据处理方法包括: 获取自然语言查询 语句对应的第一表征向量; 基于问题 ‑模式图获 得所述第一表征向量对应的模式项向量, 其中, 所述问题 ‑模式图用于表征自然语 言查询语句中 的分词与数据库模式项之间的关联关系, 所述问 题‑模式图至少根据语义关联问题 ‑模式子图预 先生成, 所述语义关联问题 ‑模式子图为根据对 自然语言查询语句样本和对应的数据库模式项 数据样本进行掩码处理后获得的、 两者之间的语 义关联关系生成; 基于所述第一表征向量和所述 模式项向量获得第二表征向量, 并基于所述第二 表征向量 转换生成对应的数据库查询语句。 权利要求书3页 说明书11页 附图4页 CN 115221299 A 2022.10.21 CN 115221299 A 1.一种表格问答数据处 理方法, 包括: 获取自然语言查询语句对应的第一表征向量; 基于问题 ‑模式图获得所述第一表征向量对应的模式项向量, 其中, 所述问题 ‑模式图 用于表征自然语言查询 语句中的分词与数据库模式项之间的关联关系, 所述问题 ‑模式图 至少根据语义关联问题 ‑模式子图预先生成, 所述语义关联问题 ‑模式子图为根据对自然语 言查询语句样本和对应的数据库模式项数据样本进行掩码处理后获得的、 两者之 间的语义 关联关系生成; 基于所述第 一表征向量和所述模式项向量获得第 二表征向量, 并基于所述第 二表征向 量转换生成对应的数据库查询语句。 2.根据权利要求1所述的方法, 其中, 所述问题 ‑模式图根据语义关联问题 ‑模式子图和 关联匹配问题 ‑模式子图的融合结果 生成; 所述关联匹配问题 ‑模式子图为根据自然语言查询语句样本 中的分词和对应的数据库 模式数据样本中的模式项的相似度匹配结果 生成; 所述语义关联问题 ‑模式子图和所述关联匹配问题 ‑模式子图根据图中节点的节点信 息进行融合, 以生成所述问题 ‑模式图。 3.根据权利要求1或2所述的方法, 其中, 所述基于问题 ‑模式图获得所述第 一表征向量 对应的模式项向量, 包括: 根据所述第一表征向量获得所述自然语言查询语句中的各分词对应的分词向量和各 分词向量间的结构关系; 根据各分词向量及各分词向量间的结构关系, 查找所述问题 ‑模式图, 确定各分词向量 在所述问题 ‑模式图中对应的分词节 点, 和, 所述各分词向量间的结构关系在所述问题模式 图中对应的分词节点之间的边; 在所述问题 ‑模式图中, 确定与所述分词节点和所述边关联的模式项节点和模式项节 点之间的边; 根据确定的所述模式项节点和模式项节点之间的边, 获得所述第 一表征向量对应的模 式向量。 4.根据权利要求1或2所述的方法, 其中, 所述基于所述第一表征向量和所述模式向量 获得第二表征向量, 并基于所述第二表征向量 转换生成对应的数据库查询语句, 包括: 将所述第一表征向量和所述模式向量输入编码器, 获得对应的第二表征向量; 将所述第二表征向量输入解码器, 获得对应的数据库查询语句。 5.一种表格问答数据模型训练方法, 包括: 基于自然语言查询语句样本和所述自然语言查询语句样本对应的数据库模式项数据 样本, 生成拼接向量; 将所述拼接向量输入所述表格问答数据模型的预训练模型部分, 通过所述预训练模型 部分对所述拼接 向量中的、 所述自然语言查询 语句样本对应的分词向量进行掩码, 获得掩 码向量; 基于所述掩码向量进行掩码恢复处理, 并根据掩码恢复处理后 获得的掩码恢复向 量与所述拼接向量之间的差异, 确定所述模式项 数据样本与所述分词向量对应的分词间的 语义关联关系; 通过所述表格问答数据模型的问题 ‑模式图层, 至少根据所述语义关联关系生成语义权 利 要 求 书 1/3 页 2 CN 115221299 A 2关联问题 ‑模式子图; 至少根据所述语义关联问题 ‑模式子图和所述拼接向量, 对所述表格问题数据模型进 行训练。 6.根据权利要求5所述的方法, 其中, 所述通过所述预训练模型部分对所述拼接向量中 的、 所述自然语言查询语句对应的分词向量进行掩码, 获得掩码向量, 包括: 对所述拼接向量中的、 所述自然语言查询语句 样本的每个分词对应的分词向量分别进 行掩码, 获得与所述分词数量相同数量的多个掩码向量。 7.根据权利要求6所述的方法, 其中, 所述基于所述掩码向量进行掩码恢复处理, 并根 据掩码恢复处理后获得的掩码恢复向量与所述拼接向量之 间的差异, 确定所述模式项 数据 样本与所述分词向量对应的分词间的语义关联关系, 包括: 针对每个掩码向量, 进行掩码恢复处 理, 获得与当前掩码向量对应的掩码恢复向量; 根据该掩码恢 复向量中的、 与当前模式项数据样本对应的模式项恢 复向量与 所述拼接 向量中的当前模式项 数据样本对应的模式项向量之 间的差异, 确定 当前模式项数据样本与 当前掩码向量中被掩码的分词之间的语义关联关系。 8.根据权利要求5 ‑7任一项所述的方法, 其中, 所述通过所述表格问答数据模型的问 题‑模式图层, 至少根据所述语义关联关系生成语义关联问题 ‑模式子图, 包括: 通过所述表格问答数据模型的问题 ‑模式图层, 根据所述自然语言查询语句样本中各 分词及各分词之间的结构关系、 所述各模式项数据样本及各模式项数据样本之 间的结构关 系, 以及确定的所述语义关联关系, 生成所述语义关联问题 ‑模式子图。 9.根据权利要求5 ‑7任一项所述的方法, 其中, 所述通过所述表格问答数据模型的问 题‑模式图层, 至少根据所述语义关联关系生成语义关联问题 ‑模式子图, 包括: 通过所述表格问答数据模型的问题 ‑模式图层, 至少根据所述语义关联关系生成语义 关联问题 ‑模式子图, 并且, 至少根据所述自然语言查询语句样本中的分词和所述模式项 数 据样本的相似度匹配生成关联匹配问题 ‑模式子图; 根据所述语义关联问题 ‑模式子图和所 述关联匹配问题 ‑模式子图生成问题 ‑模式图。 10.根据权利要求9所述的方法, 其中, 所述至少根据 所述语义关联问题 ‑模式子图和所 述拼接向量, 对所述表格问题数据模型进行训练, 包括: 将所述语义关联问题 ‑模式子图和所述关联匹配问题 ‑模式子图生成的所述问题 ‑模式 图, 以及所述预训练模型部分对拼接 向量进行处理后输出 的输出向量, 输入所述表格问答 数据模型的编码器进行图学习, 获得对应的编码向量; 将所述编码向量输入所述表格问答数据模型的解码器, 获得 预测数据库查询语句; 根据所述预测数据库查询语句与所述自然语言查询语句样本对应的数据库查询语句 标签的差异, 对所述表格问题数据模型进行训练。 11.一种电子设备, 包括: 处理器、 存储器、 通信 接口和通信总线, 所述处理器、 所述存储 器和所述 通信接口通过 所述通信总线完成相互间的通信; 所述存储器用于存放至少一可执行指令, 所述可执行指令使所述处理器执行如权利要 求1‑10中任一项所述的方法对应的操作。 12.一种计算机存储介质, 其上存储有计算机程序, 该程序被处理器执行时实现如权利 要求1‑10中任一所述的方法。权 利 要 求 书 2/3 页 3 CN 115221299 A 3

.PDF文档 专利 表格问答数据处理及模型训练方法、电子设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 表格问答数据处理及模型训练方法、电子设备及存储介质 第 1 页 专利 表格问答数据处理及模型训练方法、电子设备及存储介质 第 2 页 专利 表格问答数据处理及模型训练方法、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:01:14上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。