(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210452873.0
(22)申请日 2022.04.27
(66)本国优先权数据
202210264668.1 202 2.03.17 CN
(71)申请人 敦伟
地址 050200 河北省石家庄市鹿泉市获鹿
镇北斗东路海山湖小区5 -2-201室
(72)发明人 敦伟
(74)专利代理 机构 石家庄新世纪专利商标事务
所有限公司 1310 0
专利代理师 刘文静 张素静
(51)Int.Cl.
G06F 16/21(2019.01)
G06F 40/14(2020.01)
G06F 40/154(2020.01)G06F 40/157(2020.01)
G06F 40/186(2020.01)
G06F 9/451(2018.01)
(54)发明名称
批量数据建模和数据处 理的方法
(57)摘要
一种批量数据建模和数据处理的方法, 包括
数据模型文件及有效数据选定部分、 确定处理目
标部分、 数据模型文件转DDL部分、 数据处理部分
以及软件系统部分; 批量选定数据模型文件, 获
取到数据模 型文件的文件夹层次、 文件名和数据
模型文件对象本身, 可选对文件做排序处理, 文
件有无合并的单元格和在有效数据上下左右有
无无效数据均可处理, 通过可选项确定数据表名
集合T1, 可设置需要处理的有效数据的上下左右
边界和某行各单元格数据为原始列名集合C1,通
过几个可选步骤程序处理转换生成DDL语句, 该
DDL执行后可创建数据库和数据表实体, 当存在
目标数据库和数据表实体时则跳过其创建步骤,
继续后续 步骤。
权利要求书9页 说明书17页 附图4页
CN 115525624 A
2022.12.27
CN 115525624 A
1.一种批量数据建模和数据处理的方法, 其特征在于: 包括数据模型文件及有效数据
选定部分、 确定处 理目标部分、 数据模型文件转D DL部分、 数据处 理部分以及软件系统部分;
批量选定数据模型文件, 获取到数据模型文件的文件夹层次、 文件名和数据模型文件
对象本身, 可选对文件做排序处理, 文件有无合并的单元格和在有效数据上下左右有无无
效数据均可处理, 通过可选项确定原始数据表名集合T1, 可设置需要处理的有效数据的上
下左右边界和某行各单元格数据为原始列名集合C1,按照确定处理目标部分的设定, 通过
几个可选步骤程序处理转换生成DDL语句, 该DDL执行后可创建数据库和数据表实体, 当存
在目标数据库和数据表实体时则跳过其创建步骤, 继续后续 步骤;
按照选定的顺序处理其中的数据, 经过可选的步骤,实现数据变换, 可选自动发现并创
建字典项和字典表;
最终根据数据模型文件的文件夹层次、 文件名、 数据表名、 字典项等数据内容和生成相
应的SQL脚本、 JSON、 XML统
称软件配置项, 通过程序解析 软件配置项生成相应的软件;
按照确定处理目标部分的设定, 提供截止到某步骤的执行该SQL语句和功能, 即实际实
现上述功能, 以及生成SQ L语句和程序代码直接 显示、 保存及下 载文件功能。
文件夹层次可从文件系统和压缩文件形式的数据模型文件中获得, 仅部分数据模型文
件获取方式时有效, 获取不到时, 程序会略过 该项;
以上设置可保存为 规则, 下次使用时可通过规则名,引用设置自动填充选项。
2.根据权利要求1所述的一种批量数据建模和数据处理的方法, 其特征在于: 所述数据
模型文件及有效数据选定部分, 用于确定要处理的数据模型文件集合、 对数据模型文件排
序以及确定每个文件的有效数据区域, 有效数据区域可以是不含列名和含列名的整个工作
表或工作表的部分区域;
获取数据模型文件包括网络上传获取、 指定URL下载保存数据模型文件以及指定索引
性质的网络URL, 每个索引性质的URL是文本形式的数据模 型文件URL列表 集、 获取以及计算
机文件模式获取, 均支持单个和批量形式的获取 数据模型文件;
还包括, 可将分散于多层文件夹的数据模型文件和其多个可加密压缩格式批量混合选
定模块, 以上获取数据模型文件方式, 均 支持多种压缩文件, 可设置解压缩密码和多种类型
格式的未压缩的数据模型文件一次性选 定后,可不加区分的混合处 理;
通过文件扩展名和文件头信 息和其他辅助信 息,调用不同的处理程序来分别处理所述
数据模型文件;
所述数据模型文件包括类Excel文件、 简单数据库文件、 数据库连接信息文件以及SQL
文件形式的数据库导出或备份文件;
1.类Excel文件为 通过文件 扩展名来调用不同的处 理模块来读取表、 列和数据;
2.简单数据库文件为通过文件扩展名来调用不同的处理模块和数据库访问层DAL来读
取表、 列和数据;
3.数据库连接信息文件通过文件中数据库类型、 服务器地址实例名、 数据库及模式名、
用户名密码等连接信息来调用不同的处 理模块和数据库访问层DAL 来读取表、 列和数据;
4.SQL文件为通过指定该文件的数据库类型和文件编码类型后, 由程序调用该类型数
据库对应的处理模块和数据库访问层DA L, 由程序以SQL基本文件名为基础创建该类型数据权 利 要 求 书 1/9 页
2
CN 115525624 A
2库的临时数据库或数据库模式后, 由程序将该SQL文件导入临时库后, 由程序读取表、 列和
数据; 当数据库类型未指定时,程序分析sql文件头部信息、 某类数据库特有关键字和
CREATE TABLE和括 号之前的数据库转 义字符,如[]来确定数据库类型。
如果数据模型文件中存在压缩文件, 根据文件扩展名和文件头信息和其他辅助信息,
批量的将压缩文件类型 的数据模型文件, 按压缩文件类型调用不同的解压缩模块, 分类解
压缩之后, 与普通未压缩的数据模型文件 归并在一 起, 进行后续处 理;
压缩文件中存储的相对路径信 息和文件名信 息,也会作为文件夹层次和文件名信 息的
一部分,和正常文件夹和文件名信息一样一并处 理;
可选地会 对过于冗长的文件夹层次做一定的优化精简层次;
所述数据模型文件及有 效数据选定部分还包括多个数据模型文件排序处理模块, 在开
始处理所述数据模型文件之前, 根据给定的顺序, 顺序、 逆序、 保持原有顺序来处理所述数
据模型文件, 如果 获取到了文件夹信息, 则按照文件夹和文件名称排序, 否则只按照文件名
称来排序, 为防止乱码会 对文件夹名和文件名进行编码转换;
排序规则包含按照文件名的计算机 内码和按照人类自然语言不 区分大小写排序,包含
顺序排序和逆向排序;
可人为改变排序, 文件名或文件夹名前面可以带上序列加小数点形式的排序号如
1.xxx.xls、 2.yyy.xls,处理时, 小数点和序列只作为数据处理排序依据, 在处理时会被删
除掉;
只要所述数据模型文件之一包含csv、 html、 sql等纯文本文件或压缩文件, 可指定文件
编码如utf ‑8, 不包含上述文件时无需指定编码;
排除无效数据, 选择 数据的有效区域的方式包括简单模式和专业模式;
简单模式,设置第N行有数据区域的各单元格作为有效数据的列名, 同时N行做为有效
数据的上边界,N行之前的数据模型文件的数据会被系统忽略,设置去掉尾部的P行, 自有 数
据区域尾部起倒数P行, 共P行的数据会被忽略不处 理;
P是倒数的,这样设置可以允许有效数据 行数是不定的,这在同时导入多个行数不确定
的账单形式的文件时,尤其是尾部有固定行的如汇总,审批栏的那种,可保证一次设置,同
时适用于多个文件;
同理, 可设置忽略左侧Q列和自有数据区域右起右侧R列的数据, R是倒数的;
N、 P、 Q、 R分别指代有效数据上下左右边界的值, 据此排除无效数据区域, 可为任意字符
或留空, 当为实数时, 会自动取整数, 简单模式时会取绝对值,其他字符或为留空会按照数
字0来处理; 当N、 P、 Q、 R为0时, 以及N为1, P、 Q、 R为0时, 且没有合并的单元格时分别对应无无
效数据的, 无字段名的和首 行为字段名的普通数据模型文件导入这两种情形;
上述的处 理都指的是 数据模型文件的有数据区域;
专业模式左边界N、 上边界P的设置和简单模式相同,右边界P、 下边界R的设置不同; 当
P、 R分别为负实数时,自动取整数绝对值为 ‑P,‑R,分别按从尾部倒数 ‑P行和从右侧倒数 ‑R
列分别确定为有效数据区域的下边界和右边界,为正整数时从头到尾正数P行和从左到右
正数R列分别确定为有效数据区域的下边界和右边界;
将上述边界获取规则反向变换、 列边界取excel类似的字母列名称的变换或虽改变描
述方法导致的边界取值移位, 但是获取有效区域的作用相同的变换,也应该作为本发明的权 利 要 求 书 2/9 页
3
CN 115525624 A
3
专利 批量数据建模和数据处理的方法
文档预览
中文文档
31 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:27:37上传分享