说明:收录各省市地方标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210531314.9 (22)申请日 2022.05.16 (71)申请人 阿里巴巴 (中国) 有限公司 地址 310052 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 申请人 上海科技大 学 (72)发明人 蒋承越 蒋勇 王涛 谢朋峻 屠可伟 (74)专利代理 机构 北京开阳星知识产权代理有 限公司 1 1710 专利代理师 张子青 (51)Int.Cl. G06F 16/2453(2019.01) G06F 16/2458(2019.01) G06F 16/35(2019.01)G06F 16/36(2019.01) G06F 40/295(2020.01) G06Q 30/06(2012.01) (54)发明名称 数据处理方法、 装置、 设备及存 储介质 (57)摘要 本公开涉及一种数据处理方法、 装置、 设备 及存储介质。 本公开通过采用预训练语 言模型对 包含有结构化数据的文本信息进行编码, 得到所 述结构化数据中的多个组成元素分别在所述文 本信息中对应的上下文表示向量, 由于预训练语 言模型在大量数据上进行了预训练, 因此能够更 加细粒度地确定各个组成元素的含义, 避免歧 义。 进一步, 根据准确性较高的同一类型的多个 组成元素分别对应的上下文表示向量, 对该同一 类型的多个组成元素进行聚类处理时可以提高 聚类结果的准确度, 根据该聚类结果可以对该第 一数据集合进行较为准确的标准化处理, 得到标 准化的第二数据集合。 从而可以从该标准化的第 二数据集 合中查询到全面、 准确的目标数据。 权利要求书2页 说明书13页 附图4页 CN 115145952 A 2022.10.04 CN 115145952 A 1.一种数据处 理方法, 其中, 所述方法包括: 采用预训练语言模型对包含有结构化数据的文本信 息进行编码, 得到所述结构化数据 中的多个组成元 素分别在所述文本信息中对应的上 下文表示向量; 根据第一数据集合包括的多个所述结构化数据中同一类型的多个组成元素分别对应 的上下文表示向量, 对所述同一类型的多个组成元 素进行聚类处 理, 得到聚类结果; 根据所述聚类结果对所述第一数据集 合进行调整, 得到第二数据集 合。 2.根据权利要求1所述的方法, 其中, 所述文本信息是非结构化文本; 采用预训练语言模型对包含有结构化数据的文本信息进行编码之前, 所述方法还包 括: 从所述非结构化文本中获取 所述结构化数据。 3.根据权利要求1所述的方法, 其中, 所述文本信 息是由所述结构化数据中的多个组成 元素拼接而成的文本信息 。 4.根据权利要求1所述的方法, 其中, 所述文本信 息是通过对所述结构化数据中的多个 组成元素进行拼接, 并且在拼接位置加入预设字符后得到的文本信息 。 5.根据权利要求1所述的方法, 其中, 对所述同一类型的多个组成元素进行聚类处理, 包括如下至少一种: 若所述同一类型的多个组成元素是至少一个实体对应的多个表型, 则确定所述多个表 型中对应于同一实体的至少两个表型; 若所述同一类型的多个组成元素是多个实体, 则确定所述多个实体中至少两个实体之 间的共性; 若所述同一类型的多个组成元素是多个关系, 则确定所述多个关系中至少两个相同的 关系。 6.根据权利要求5所述的方法, 其中, 所述聚类结果包括如下至少一种: 同一实体的至少两个表型、 至少两个实体之间的共性、 至少两个相同的关系。 7.根据权利要求1所述的方法, 其中, 所述结构化数据中的多个组成元素包括主语、 谓 语、 宾语; 所述主语是实体对应的表型, 或者所述主语是实体; 所述宾语是实体对应的表型, 或者所述宾语是实体; 所述谓语是 所述主语和所述宾语之间的关系。 8.根据权利要求1所述的方法, 其中, 采用预训练语言模型对包含有结构化数据的文本 信息进行编 码, 得到所述结构化数据中的多个组成元素分别 在所述文本信息中对应的上下 文表示向量, 包括: 采用预训练语言模型对包含有结构化数据的文本信 息进行编码, 得到所述结构化数据 中的任一组成元 素在所述文本信息中对应的多个表示向量; 根据所述任一组成元素在所述文本信 息中对应的多个表示向量, 确定所述任一组成元 素在所述文本信息中对应的上 下文表示向量。 9.根据权利要求1所述的方法, 其中, 采用预训练语言模型对包含有结构化数据的文本 信息进行编码之前, 所述方法还 包括: 在所述文本信息中删除所述结构化数据中的任一组成元 素, 得到剩余的文本信息;权 利 要 求 书 1/2 页 2 CN 115145952 A 2将所述剩余的文本信 息输入所述预训练语言模型, 所述预训练语言模型用于根据 所述 剩余的文本信息预测被删除的任一组成元 素; 根据所述预训练语言模型预测出的被删除的任一组成元素、 以及实际被删除的任一组 成元素, 对所述预训练语言模型进行模型训练。 10.一种数据处 理装置, 其中, 包括: 编码模块, 用于采用预训练语言模型对包含有结构化数据的文本信息进行编码, 得到 所述结构化数据中的多个组成元 素分别在所述文本信息中对应的上 下文表示向量; 聚类处理模块, 用于根据第 一数据集合包括的多个所述结构化数据中同一类型的多个 组成元素分别对应的上下文表示向量, 对所述同一类型 的多个组成元素进行聚类处理, 得 到聚类结果; 调整模块, 用于根据所述聚类结果对所述第一数据集 合进行调整, 得到第二数据集 合。 11.一种电子设备, 其中, 包括: 存储器; 处理器; 以及 计算机程序; 其中, 所述计算机程序存储在所述存储器中, 并被配置为由所述处理器执行以实现如 权利要求1 ‑9中任一项所述的方法。 12.一种计算机可读存储介质, 其上存储有计算机程序, 其中, 所述计算机程序被处理 器执行时实现如权利要求1 ‑9中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115145952 A 3
专利 数据处理方法、装置、设备及存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 10:59:55
上传分享
举报
下载
原文档
(784.6 KB)
分享
友情链接
GB-T 43711-2024 电子采购交易规范 非招标方式.pdf
GB-T 16664-1996 企业供配电系统节能监测方法.pdf
GB-T 38636-2020 信息安全技术 传输层密码协议(TLCP).pdf
GB-T 3565.4-2022 自行车安全要求 第4部分:车闸试验方法.pdf
T-SHZSAQS 00194—2023 库尔勒香梨密植微灌水肥高效管理技术规程.pdf
GB-T 38318-2019 电力监控系统网络安全评估指南.pdf
DB37-T 1498—2022 数据中心服务器虚拟化节能技术规程 山东省.pdf
DB31-T 1343-2022 医用超声探头消毒卫生要求 上海市.pdf
GB-T 37973-2019 信息安全技术 大数据安全管理指南 .pdf
GB-T 254-2022 半精炼石蜡.pdf
DL-T 1074-2019 电力用直流和交流一体化不间断电源.pdf
GB-T 3324-2017 木家具通用技术条件.pdf
GB-T 3161-2015 光学经纬仪.pdf
GB-T 18190-2017 海洋学术语 海洋地质学.pdf
GB-T 31072-2014 科技平台 统一身份认证.pdf
GB-T 25055-2010 信息安全技术 公钥基础设施安全支撑平台技术框架.pdf
GB-T 14492-2008 一次性使用电石包装钢桶.pdf
GB-T 30269.807-2018 信息技术 传感器网络 第807部分:测试:网络传输安全.pdf
GB-T 17873-2014 纯氖和高纯氖.pdf
GB-T 21064-2007 电子政务系统总体设计要求.pdf
1
/
3
20
评价文档
赞助2.5元 点击下载(784.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。