说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210531314.9 (22)申请日 2022.05.16 (71)申请人 阿里巴巴 (中国) 有限公司 地址 310052 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 申请人 上海科技大 学 (72)发明人 蒋承越 蒋勇 王涛 谢朋峻  屠可伟  (74)专利代理 机构 北京开阳星知识产权代理有 限公司 1 1710 专利代理师 张子青 (51)Int.Cl. G06F 16/2453(2019.01) G06F 16/2458(2019.01) G06F 16/35(2019.01)G06F 16/36(2019.01) G06F 40/295(2020.01) G06Q 30/06(2012.01) (54)发明名称 数据处理方法、 装置、 设备及存 储介质 (57)摘要 本公开涉及一种数据处理方法、 装置、 设备 及存储介质。 本公开通过采用预训练语 言模型对 包含有结构化数据的文本信息进行编码, 得到所 述结构化数据中的多个组成元素分别在所述文 本信息中对应的上下文表示向量, 由于预训练语 言模型在大量数据上进行了预训练, 因此能够更 加细粒度地确定各个组成元素的含义, 避免歧 义。 进一步, 根据准确性较高的同一类型的多个 组成元素分别对应的上下文表示向量, 对该同一 类型的多个组成元素进行聚类处理时可以提高 聚类结果的准确度, 根据该聚类结果可以对该第 一数据集合进行较为准确的标准化处理, 得到标 准化的第二数据集合。 从而可以从该标准化的第 二数据集 合中查询到全面、 准确的目标数据。 权利要求书2页 说明书13页 附图4页 CN 115145952 A 2022.10.04 CN 115145952 A 1.一种数据处 理方法, 其中, 所述方法包括: 采用预训练语言模型对包含有结构化数据的文本信 息进行编码, 得到所述结构化数据 中的多个组成元 素分别在所述文本信息中对应的上 下文表示向量; 根据第一数据集合包括的多个所述结构化数据中同一类型的多个组成元素分别对应 的上下文表示向量, 对所述同一类型的多个组成元 素进行聚类处 理, 得到聚类结果; 根据所述聚类结果对所述第一数据集 合进行调整, 得到第二数据集 合。 2.根据权利要求1所述的方法, 其中, 所述文本信息是非结构化文本; 采用预训练语言模型对包含有结构化数据的文本信息进行编码之前, 所述方法还包 括: 从所述非结构化文本中获取 所述结构化数据。 3.根据权利要求1所述的方法, 其中, 所述文本信 息是由所述结构化数据中的多个组成 元素拼接而成的文本信息 。 4.根据权利要求1所述的方法, 其中, 所述文本信 息是通过对所述结构化数据中的多个 组成元素进行拼接, 并且在拼接位置加入预设字符后得到的文本信息 。 5.根据权利要求1所述的方法, 其中, 对所述同一类型的多个组成元素进行聚类处理, 包括如下至少一种: 若所述同一类型的多个组成元素是至少一个实体对应的多个表型, 则确定所述多个表 型中对应于同一实体的至少两个表型; 若所述同一类型的多个组成元素是多个实体, 则确定所述多个实体中至少两个实体之 间的共性; 若所述同一类型的多个组成元素是多个关系, 则确定所述多个关系中至少两个相同的 关系。 6.根据权利要求5所述的方法, 其中, 所述聚类结果包括如下至少一种: 同一实体的至少两个表型、 至少两个实体之间的共性、 至少两个相同的关系。 7.根据权利要求1所述的方法, 其中, 所述结构化数据中的多个组成元素包括主语、 谓 语、 宾语; 所述主语是实体对应的表型, 或者所述主语是实体; 所述宾语是实体对应的表型, 或者所述宾语是实体; 所述谓语是 所述主语和所述宾语之间的关系。 8.根据权利要求1所述的方法, 其中, 采用预训练语言模型对包含有结构化数据的文本 信息进行编 码, 得到所述结构化数据中的多个组成元素分别 在所述文本信息中对应的上下 文表示向量, 包括: 采用预训练语言模型对包含有结构化数据的文本信 息进行编码, 得到所述结构化数据 中的任一组成元 素在所述文本信息中对应的多个表示向量; 根据所述任一组成元素在所述文本信 息中对应的多个表示向量, 确定所述任一组成元 素在所述文本信息中对应的上 下文表示向量。 9.根据权利要求1所述的方法, 其中, 采用预训练语言模型对包含有结构化数据的文本 信息进行编码之前, 所述方法还 包括: 在所述文本信息中删除所述结构化数据中的任一组成元 素, 得到剩余的文本信息;权 利 要 求 书 1/2 页 2 CN 115145952 A 2将所述剩余的文本信 息输入所述预训练语言模型, 所述预训练语言模型用于根据 所述 剩余的文本信息预测被删除的任一组成元 素; 根据所述预训练语言模型预测出的被删除的任一组成元素、 以及实际被删除的任一组 成元素, 对所述预训练语言模型进行模型训练。 10.一种数据处 理装置, 其中, 包括: 编码模块, 用于采用预训练语言模型对包含有结构化数据的文本信息进行编码, 得到 所述结构化数据中的多个组成元 素分别在所述文本信息中对应的上 下文表示向量; 聚类处理模块, 用于根据第 一数据集合包括的多个所述结构化数据中同一类型的多个 组成元素分别对应的上下文表示向量, 对所述同一类型 的多个组成元素进行聚类处理, 得 到聚类结果; 调整模块, 用于根据所述聚类结果对所述第一数据集 合进行调整, 得到第二数据集 合。 11.一种电子设备, 其中, 包括: 存储器; 处理器; 以及 计算机程序; 其中, 所述计算机程序存储在所述存储器中, 并被配置为由所述处理器执行以实现如 权利要求1 ‑9中任一项所述的方法。 12.一种计算机可读存储介质, 其上存储有计算机程序, 其中, 所述计算机程序被处理 器执行时实现如权利要求1 ‑9中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115145952 A 3

.PDF文档 专利 数据处理方法、装置、设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据处理方法、装置、设备及存储介质 第 1 页 专利 数据处理方法、装置、设备及存储介质 第 2 页 专利 数据处理方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:59:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。