说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210109437.3 (22)申请日 2022.01.28 (71)申请人 中国工商银行股份有限公司 地址 100140 北京市西城区复兴门内大街 55号 (72)发明人 陈雪姗  (74)专利代理 机构 北京康信知识产权代理有限 责任公司 1 1240 专利代理师 周春枚 (51)Int.Cl. G06F 16/23(2019.01) G06F 16/22(2019.01) G06F 16/215(2019.01) (54)发明名称 数据一致性的检查方法及其装置、 电子设备 及存储介质 (57)摘要 本发明公开了一种数据一致性的检查方法 及其装置、 电子设备及存储介质, 涉及金融科技 领域, 其中, 该检查方法包括: 获取目标数据湖内 记录的湖数据和传输至目标数据湖的源数据, 在 传输与源数据对应的源文件时, 统计源文件的文 件总记录 数, 检查文件总记录数与加载记录数是 否一致, 得到第一检查结果, 检查源表记录数与 加载记录数是否一致, 得到第二检查结果, 在第 一检查结果和第二检查结果指示检查都一致的 情况下, 确定湖数据和源数据一致。 本发明解决 了相关技术中无法对数据采集 以及数据传输中 的数据缺失进行检查, 容易造成数据不一致的技 术问题。 权利要求书3页 说明书16页 附图7页 CN 114461655 A 2022.05.10 CN 114461655 A 1.一种数据一 致性的检查方法, 其特 征在于, 包括: 获取目标数据湖内记录的湖数据和传输至所述目标数据湖的源数据, 其中, 所述源数 据至少包括: 源系统表, 所述源系统表内预先记录有 各数据源应用采集的源表记录数, 所述 湖数据至少包括: 加载表, 所述加载表内预 先记录有对所述源数据加载成功的加载记录数; 在传输与所述源数据对应的源文件时, 统计所述源文件的文件总记录数; 检查所述文件总记录数与所述加载记录数 是否一致, 得到第一检查结果; 检查所述源表 记录数与所述加载记录数 是否一致, 得到第二检查结果; 在所述第一检查结果和所述第 二检查结果指示检查都一致的情况下, 确定所述湖数据 和所述源数据一 致。 2.根据权利要求1所述的检查方法, 其特征在于, 在获取目标数据湖内记录的湖数据和 传输至所述目标 数据湖的源数据之后, 还 包括: 获取元数据管理平台内预先存储的文件信 息, 其中, 所述文件信 息至少包括: 元数据以 及存储所述元 数据的元文件的文件格式; 检查所述元文件的文件格式与所述源数据 所对应的源文件的文件格式是否一致, 得到 第三检查结果; 在所述第三检查结果指示所述元文件的文件格式与所述源数据所对应的源文件的文 件格式一 致的情况 下, 确定与所述源数据所对应的源文件检查 通过; 在所述第三检查结果指示所述元文件的文件格式与所述源数据所对应的源文件的文 件格式不 一致的情况 下, 确定与所述源数据所对应的源文件检查未通过。 3.根据权利要求2所述的检查方法, 其特征在于, 在确定与所述源数据 所对应的源文件 检查未通过之后, 还 包括: 读取未通过检查的源文件内的错 误数据, 得到第一 错误数据; 将所述第一 错误数据传输 至生成所述源文件的第一数据源应用; 接收所述第一数据源应用返回的修改后的源文件。 4.根据权利要求1所述的检查方法, 其特征在于, 在检查所述文件总记录数与 所述加载 记录数是否一致, 得到第一检查结果之后, 还 包括: 在所述第一检查结果指示所述文件总记录数与 所述加载记录数不一致的情况下, 确定 所述加载记录数的检查未通过; 在所述加载记录数的检查未通过的情况下, 读取加载失败的源数据, 得到第二错误数 据; 将所述第二错误数据传输至的第一数据湖应用, 其中, 所述第一数据湖应用与所述数 据源应用一 一对应, 所述第一数据湖应用 用于定位加载失败的失败因素; 接收所述第一数据湖应用返回的加载失败因素; 基于所述加载失败因素, 调整对所述源数据的加载 方式; 采用调整后的加载 方式重新对所述源数据进行加载。 5.根据权利要求1所述的检查方法, 其特征在于, 在获取目标数据湖内记录的湖数据和 传输至所述目标 数据湖的源数据之后, 还 包括: 获取历史时间段内传输 至所述目标 数据湖的历史源数据; 对所述历史时间段按照预设时长进行分段处 理, 得到多个历史时间分段;权 利 要 求 书 1/3 页 2 CN 114461655 A 2基于所述历史源数据和所述多个历史时间分段, 计算在所述历史时间段内的记录数据 文件的平均参数; 计算所述文件总记录数与所述平均参数的数据差值; 检查所述数据差值是否在预设阈值范围内, 得到第四检查结果。 6.根据权利要求5所述的检查方法, 其特征在于, 在检查所述数据差值是否在预设阈值 范围内, 得到第四检查结果之后, 还 包括: 在所述第四检查结果指示所述数据差值未在预设阈值范围内的情况下, 确定所述目标 数据湖在接收所述源文件时的数据传输波动出现异常; 在所述目标数据湖的数据传输波动出现异常的情况下, 读取出现异常传输的源文件内 的错误数据, 得到第三 错误数据; 将所述第三 错误数据传输 至生成所述源文件的第二数据源应用; 接收所述第二数据源应用返回的修改后的源文件。 7.根据权利要求1所述的检查方法, 其特征在于, 在获取目标数据湖内记录的湖数据和 传输至所述目标 数据湖的源数据之后, 还 包括: 读取元数据管理平台内预先存储的参考数据, 其中, 所述参考数据至少包括: 键字段信 息; 基于所述键 字段信息, 统计所述加载表中每 个键字段的键记录条 数; 检查所述键记录条 数是否为预设参 考数值, 得到第五检查结果。 8.根据权利要求7所述的检查方法, 其特征在于, 在检查所述键记录条数是否为预设参 考数值, 得到第五检查结果之后, 还 包括: 在所述第五检查结果指示所述键记录条数为所述预设参考数值的情况下, 确定对所述 源数据进行加载后的数据主键的主键 重复状态检查 通过; 在所述第五检查结果指示所述键记录条数不是所述预设参考数值的情况下, 确定对所 述源数据进行加载后的数据主键的主键 重复状态检查未通过。 9.根据权利要求1所述的检查方法, 其特征在于, 在检查所述源表记录数与 所述加载记 录数是否一致, 得到第二检查结果之后, 还 包括: 在所述第二检查结果指示检查所述源表记录数与 所述加载记录数一致的情况下, 确定 对所述数据源进行加载的加载操作成功; 在所述第二检查结果指示检查所述源表记录数与 所述加载记录数不一致的情况下, 确 定对所述数据源进行加载的加载操作失败; 在对所述数据源进行加载的加载操作失败的情况下, 读取加载失败的源数据, 得到第 四错误数据; 将所述第四错误数据传输至第三数据源应用, 其中, 所述第三数据源应用用于定位加 载失败的失败因素。 10.一种数据一 致性的检查装置, 其特 征在于, 包括: 获取单元, 用于获取目标数据湖内记录的湖数据和传输至所述目标数据湖的源数据, 其中, 所述源数据至少包括: 源系统表, 所述源系统表内预先记录有 各数据源应用采集的源 表记录数, 所述湖数据至少包括: 加载表, 所述加载表内预先记录有对所述源数据加载成功 的加载记录数;权 利 要 求 书 2/3 页 3 CN 114461655 A 3

.PDF文档 专利 数据一致性的检查方法及其装置、电子设备及存储介质

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据一致性的检查方法及其装置、电子设备及存储介质 第 1 页 专利 数据一致性的检查方法及其装置、电子设备及存储介质 第 2 页 专利 数据一致性的检查方法及其装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:19:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。