专利 批量数据建模和数据处理的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210452873.0 (22)申请日 2022.04.27 (66)本国优先权数据 202210264668.1 202 2.03.17 CN (71)申请人敦伟地址 050200 河北省石家庄市鹿泉市获鹿镇北斗东路海山湖小区5 -2-201室 (72)发明人敦伟　 (74)专利代理机构石家庄新世纪专利商标事务所有限公司 1310 0 专利代理师刘文静　张素静 (51)Int.Cl. G06F 16/21(2019.01) G06F 40/14(2020.01) G06F 40/154(2020.01)G06F 40/157(2020.01) G06F 40/186(2020.01) G06F 9/451(2018.01) (54)发明名称批量数据建模和数据处理的方法 (57)摘要一种批量数据建模和数据处理的方法，包括数据模型文件及有效数据选定部分、确定处理目标部分、数据模型文件转DDL部分、数据处理部分以及软件系统部分；批量选定数据模型文件，获取到数据模型文件的文件夹层次、文件名和数据模型文件对象本身，可选对文件做排序处理，文件有无合并的单元格和在有效数据上下左右有无无效数据均可处理，通过可选项确定数据表名集合T1，可设置需要处理的有效数据的上下左右边界和某行各单元格数据为原始列名集合C1,通过几个可选步骤程序处理转换生成DDL语句，该 DDL执行后可创建数据库和数据表实体，当存在目标数据库和数据表实体时则跳过其创建步骤，继续后续步骤。权利要求书9页说明书17页附图4页 CN 115525624 A 2022.12.27 CN 115525624 A 1.一种批量数据建模和数据处理的方法，其特征在于：包括数据模型文件及有效数据选定部分、确定处理目标部分、数据模型文件转D DL部分、数据处理部分以及软件系统部分；批量选定数据模型文件，获取到数据模型文件的文件夹层次、文件名和数据模型文件对象本身，可选对文件做排序处理，文件有无合并的单元格和在有效数据上下左右有无无效数据均可处理，通过可选项确定原始数据表名集合T1，可设置需要处理的有效数据的上下左右边界和某行各单元格数据为原始列名集合C1,按照确定处理目标部分的设定，通过几个可选步骤程序处理转换生成DDL语句，该DDL执行后可创建数据库和数据表实体，当存在目标数据库和数据表实体时则跳过其创建步骤，继续后续步骤；按照选定的顺序处理其中的数据，经过可选的步骤,实现数据变换，可选自动发现并创建字典项和字典表；最终根据数据模型文件的文件夹层次、文件名、数据表名、字典项等数据内容和生成相应的SQL脚本、 JSON、 XML统称软件配置项，通过程序解析软件配置项生成相应的软件；按照确定处理目标部分的设定，提供截止到某步骤的执行该SQL语句和功能，即实际实现上述功能，以及生成SQ L语句和程序代码直接显示、保存及下载文件功能。文件夹层次可从文件系统和压缩文件形式的数据模型文件中获得，仅部分数据模型文件获取方式时有效，获取不到时，程序会略过该项；以上设置可保存为规则，下次使用时可通过规则名,引用设置自动填充选项。 2.根据权利要求1所述的一种批量数据建模和数据处理的方法，其特征在于：所述数据模型文件及有效数据选定部分，用于确定要处理的数据模型文件集合、对数据模型文件排序以及确定每个文件的有效数据区域，有效数据区域可以是不含列名和含列名的整个工作表或工作表的部分区域；获取数据模型文件包括网络上传获取、指定URL下载保存数据模型文件以及指定索引性质的网络URL，每个索引性质的URL是文本形式的数据模型文件URL列表集、获取以及计算机文件模式获取，均支持单个和批量形式的获取数据模型文件；还包括，可将分散于多层文件夹的数据模型文件和其多个可加密压缩格式批量混合选定模块，以上获取数据模型文件方式，均支持多种压缩文件，可设置解压缩密码和多种类型格式的未压缩的数据模型文件一次性选定后,可不加区分的混合处理；通过文件扩展名和文件头信息和其他辅助信息,调用不同的处理程序来分别处理所述数据模型文件；所述数据模型文件包括类Excel文件、简单数据库文件、数据库连接信息文件以及SQL 文件形式的数据库导出或备份文件； 1.类Excel文件为通过文件扩展名来调用不同的处理模块来读取表、列和数据； 2.简单数据库文件为通过文件扩展名来调用不同的处理模块和数据库访问层DAL来读取表、列和数据； 3.数据库连接信息文件通过文件中数据库类型、服务器地址实例名、数据库及模式名、用户名密码等连接信息来调用不同的处理模块和数据库访问层DAL 来读取表、列和数据； 4.SQL文件为通过指定该文件的数据库类型和文件编码类型后，由程序调用该类型数据库对应的处理模块和数据库访问层DA L，由程序以SQL基本文件名为基础创建该类型数据权　利　要　求　书 1/9 页 2 CN 115525624 A 2库的临时数据库或数据库模式后，由程序将该SQL文件导入临时库后，由程序读取表、列和数据；当数据库类型未指定时,程序分析sql文件头部信息、某类数据库特有关键字和 CREATE TABLE和括号之前的数据库转义字符,如[]来确定数据库类型。如果数据模型文件中存在压缩文件，根据文件扩展名和文件头信息和其他辅助信息，批量的将压缩文件类型的数据模型文件，按压缩文件类型调用不同的解压缩模块，分类解压缩之后，与普通未压缩的数据模型文件归并在一起，进行后续处理；压缩文件中存储的相对路径信息和文件名信息,也会作为文件夹层次和文件名信息的一部分,和正常文件夹和文件名信息一样一并处理；可选地会对过于冗长的文件夹层次做一定的优化精简层次；所述数据模型文件及有效数据选定部分还包括多个数据模型文件排序处理模块，在开始处理所述数据模型文件之前，根据给定的顺序，顺序、逆序、保持原有顺序来处理所述数据模型文件，如果获取到了文件夹信息，则按照文件夹和文件名称排序，否则只按照文件名称来排序，为防止乱码会对文件夹名和文件名进行编码转换；排序规则包含按照文件名的计算机内码和按照人类自然语言不区分大小写排序,包含顺序排序和逆向排序；可人为改变排序，文件名或文件夹名前面可以带上序列加小数点形式的排序号如 1.xxx.xls、 2.yyy.xls,处理时，小数点和序列只作为数据处理排序依据，在处理时会被删除掉；只要所述数据模型文件之一包含csv、 html、 sql等纯文本文件或压缩文件，可指定文件编码如utf ‑8，不包含上述文件时无需指定编码；排除无效数据，选择数据的有效区域的方式包括简单模式和专业模式；简单模式,设置第N行有数据区域的各单元格作为有效数据的列名，同时N行做为有效数据的上边界,N行之前的数据模型文件的数据会被系统忽略,设置去掉尾部的P行，自有数据区域尾部起倒数P行，共P行的数据会被忽略不处理； P是倒数的,这样设置可以允许有效数据行数是不定的,这在同时导入多个行数不确定的账单形式的文件时,尤其是尾部有固定行的如汇总,审批栏的那种,可保证一次设置,同时适用于多个文件；同理，可设置忽略左侧Q列和自有数据区域右起右侧R列的数据， R是倒数的； N、 P、 Q、 R分别指代有效数据上下左右边界的值，据此排除无效数据区域，可为任意字符或留空，当为实数时，会自动取整数，简单模式时会取绝对值,其他字符或为留空会按照数字0来处理；当N、 P、 Q、 R为0时，以及N为1， P、 Q、 R为0时，且没有合并的单元格时分别对应无无效数据的，无字段名的和首行为字段名的普通数据模型文件导入这两种情形；上述的处理都指的是数据模型文件的有数据区域；专业模式左边界N、上边界P的设置和简单模式相同,右边界P、下边界R的设置不同；当 P、 R分别为负实数时,自动取整数绝对值为 ‑P,‑R,分别按从尾部倒数 ‑P行和从右侧倒数 ‑R 列分别确定为有效数据区域的下边界和右边界,为正整数时从头到尾正数P行和从左到右正数R列分别确定为有效数据区域的下边界和右边界；将上述边界获取规则反向变换、列边界取excel类似的字母列名称的变换或虽改变描述方法导致的边界取值移位，但是获取有效区域的作用相同的变换,也应该作为本发明的权　利　要　求　书 2/9 页 3 CN 115525624 A 3

专利 批量数据建模和数据处理的方法

专利批量数据建模和数据处理的方法