说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210458666.6 (22)申请日 2022.04.27 (71)申请人 深圳TCL数字技 术有限公司 地址 518054 广东省深圳市前湾一路 鲤鱼 门街一号前海深港合作区管理局综合 办公楼A栋201室 (入驻深圳市前海商 务秘书有限公司) (72)发明人 张成文 翟佩文 莫闻政 陈灿  王林波 李袁 刘振强  (74)专利代理 机构 深圳紫藤知识产权代理有限 公司 44570 专利代理师 李晨幼 (51)Int.Cl. G06F 16/951(2019.01) G06F 9/451(2018.01)G06K 9/62(2022.01) G06V 30/10(2022.01) (54)发明名称 一种数据采集方法、 系统和存 储介质 (57)摘要 本申请实施例公开了一种数据采集方法、 系 统和存储介质; 本申请实施例可 以登录客户端, 获取客户端的至少一个候选界面; 当所述候选界 面上存在 有障碍窗口时, 对所述障碍窗口进行关 闭处理; 从所述至少一个候选界面中确定目标界 面, 所述目标界面的界面类型为预设类型; 对所 述目标界面进行目标信息的检测: 若所述目标界 面中不存在目标信息, 则对所述目标界面进行第 一数据采集处理, 得到所述目标界面的数据; 若 所述目标界面中存在目标信息, 对 所述目标信息 进行第二数据采集处理, 得到所述目标信息的数 据。 由此, 本方案可以提升数据采集的成功率。 权利要求书2页 说明书13页 附图3页 CN 114896483 A 2022.08.12 CN 114896483 A 1.一种数据采集方法, 其特 征在于, 包括: 登录客户端, 获取 所述客户端的至少一个候选界面; 当所述候选界面上存在有障碍窗口时, 对所述障碍窗口进行关闭处 理; 从所述至少一个候选界面中确定目标界面, 所述目标界面的界面类型为预设类型; 对所述目标界面进行目标信息的检测: 若所述目标界面中不存在目标信息, 则对所述目标界面进行第一数据采集处理, 得到 所述目标界面的数据; 若所述目标界面中存在目标信息, 对所述目标信息进行第二数据采集处理, 得到所述 目标信息的数据。 2.根据权利要求1所述的数据采集方法, 其特征在于, 当所述客户端为网站客户端, 所 述登录客户端的方法包括: 确定所述 客户端, 以及所述 客户端的登录界面; 向所述客户端的登录界面输入待登录的用户信息, 获取 所述客户端反馈的验证界面; 确定所述验证界面上的验证信息, 判断所述验证信息的类型: 当所述验证信息为二维码信息时, 对所述登录界面展示的二维码信息进行截图处理, 得到二维码图像; 对所述二维码图像进行扫码登录处 理, 登录所述 客户端; 当所述验证信息为登录认证请求时, 确定与所述用户信息绑定的常用终端; 获取所述常用终端接收到的验证码信息, 其中, 所述验证码信息为用于认证所述登录 认证请求的信息; 向所述客户端的验证界面输入 验证码信息, 登录所述 客户端。 3.根据权利要求1所述的数据采集方法, 其特征在于, 所述从所述至少一个候选界面中 确定目标界面, 所述目标界面的界面类型为预设类型的方法包括: 将所述候选界面与预设的目标比对界面进行匹配比对处 理; 当所述候选界面与所述目标比对界面匹配时, 确定所述 候选界面 为目标界面。 4.根据权利要求1所述的数据采集方法, 其特征在于, 所述对所述目标界面进行目标信 息的检测的方法包括: 对所述目标界面进行文字提取处 理, 获得所述目标界面的文本信息; 将所述目标界面的文本信息与设定的目标信息进行文本相似度匹配 若所述目标界面的文本信 息中存在文本相似度高于预设阈值的文本字段, 则所述目标 界面中存在所述目标信息; 若所述目标界面的文本信 息中不存在文本相似度高于预设阈值的文本字段, 则所述目 标界面中不存在所述目标信息 。 5.根据权利要求4所述的数据采集方法, 其特征在于, 所述对所述目标界面进行文字提 取处理, 获得所述目标界面的文本信息的方法包括: 对所述目标界面进行截图处 理, 得到所述目标界面的界面图像; 识别所述界面图像中的字符, 得到所述界面图像的字符信息; 根据所述界面图像的字符信息, 确定所述目标界面的文本信息 。 6.根据权利要求1所述的数据采集方法, 其特征在于, 当所述障碍窗口为展示窗口时,权 利 要 求 书 1/2 页 2 CN 114896483 A 2对所述展示窗口进行关闭处 理的方法包括: 对所述展示窗口进行定位处 理, 确定所述展示窗口在所述 候选界面中的位置; 根据所述展示窗口在所述候选界面中的位置, 对所述展示窗口上的关闭按钮进行检 测, 确定所述关闭按 钮在所述展示窗口上的位置; 根据所述关闭按 钮在所述展示窗口上的位置, 点击所述关闭按 钮, 关闭所述展示窗口。 7.根据权利要求1所述的数据采集方法, 其特征在于, 当所述障碍窗口为验证窗口时, 对所述验证窗口进行关闭处 理的方法包括: 对所述验证窗口进行验证码的类别检测, 确定所述障碍窗口的验证码类别, 其中, 所述 障碍窗口 的验证码类别包括滑块验证码、 图形验证码和文本验证码; 根据所述障碍窗口 的验证码类别, 确定所述障碍窗口 的关闭方式; 根据所述障碍窗口 的关闭方式, 对所述障碍窗口进行关闭处 理。 8.一种数据采集系统, 其特 征在于, 包括: 获取单元, 用于登录客户端, 获取 所述客户端的至少一个候选界面; 关闭处理单元, 用于当所述候选界面上存在有 障碍窗口时, 对所述障碍窗口进行关闭 处理; 确定单元, 用于从所述至少一个候选界面中确定目标界面, 所述目标界面的界面类型 为预设类型; 检测单元, 用于对所述目标界面进行目标信息的检测: 若所述目标界面中不存在目标信息, 则对所述目标界面进行第一数据采集处理, 得到 所述目标界面的数据; 若所述目标界面中存在目标信息, 对所述目标信息进行第二数据采集处理, 得到所述 目标信息的数据。 9.根据权利要求8所述的数据采集系统, 其特征在于, 所述数据采集系统还包括多进程 并发单元, 所述多 进程并发单 元用于: 获取待分配目标的状态信息, 所述状态信息用于表征所述分配目标的使用状态, 所述 待分配目标包括所述获取 单元、 所述关闭处 理单元、 所述确定单 元和所述检测单 元; 根据所述待分配目标的状态信息, 确定所述待分配目标对应的采集任务; 向所述待分配目标发送数据采集指令, 以使所述待分配目标根据 所述数据采集指令执 行所述采集任务。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有多条指 令, 所述指令适于处理器进行加载, 以执行权利要求1~7任一项所述的数据采集方法中的 步骤。权 利 要 求 书 2/2 页 3 CN 114896483 A 3

.PDF文档 专利 一种数据采集方法、系统和存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据采集方法、系统和存储介质 第 1 页 专利 一种数据采集方法、系统和存储介质 第 2 页 专利 一种数据采集方法、系统和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:23:58上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。