专利 一种电力缺失数据补全方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211297032.3 (22)申请日 2022.10.19 (71)申请人北京信息科技大学地址 100089 北京市海淀区清河小营东路 12号申请人中国科学院大气物理研究所 (72)发明人李富柏　焦瑞莉　薄宇　王立志　 (74)专利代理机构北京艾格律诗专利代理有限公司 11924 专利代理师窦杰平 (51)Int.Cl. G06K 9/62(2022.01) G06Q 50/06(2012.01) G06F 17/16(2006.01) G06F 17/18(2006.01) (54)发明名称一种电力缺失数据补全方法 (57)摘要本发明公开了一种电力缺失数据补全方法，包括获取原始电力数据，并划分为完备数据集和缺失数据集；采用动态时间规整算法确定动态时间规整距离，并采用K ‑近邻算法根据电能序列的动态时间规整距离构建近邻数据矩阵；对近邻数据矩阵权重进行分配优化，得到第一补全值；根据近邻数据矩阵计算属性相关性影响系数，作为第二补全值；根据第一补全值和第二补全值确定缺失数据集中电能序列的补全值；将补全后的电能序列移出缺失数据集，添加到完备数据集中。本发明能够准确的将电力数据中的缺失数据补全，通过补全方法对缺失值有效修复能够真实反映用户的真实用电情况，为研究用户相关的用电行为分析提供了完整有效的基础电力数据。权利要求书3页说明书8页附图2页 CN 115511002 A 2022.12.23 CN 115511002 A 1.一种电力缺失数据补全方法，其特征在于，包括以下步骤： S1、获取原始电力数据，并划分为完备数据集和缺失数据集； S2、采用动态时间规整算法确定完备数据集和缺失数据集中电能序列的动态时间规整距离，并采用K ‑近邻算法根据电能序列的动态时间规整距离构建近邻数据矩阵； S3、对近邻数据矩阵权重进行分配优化，得到第一补全值； S4、根据近邻数据矩阵计算属性相关性影响系数，作为第二补全值； S5、根据第一补全值和第二补全值确定缺失数据集中电能序列的补全值； S6、将补全后的电能序列移出缺失数据集，添加到完备数据集中，并判断缺失数据集是否为空；若是，则将完备数据集和缺失数据集按原电力集合顺序排序；否则从缺失数据集中选取下一条电能序列，并返回步骤S2。 2.根据权利要求1所述的一种电力缺失数据补全方法，其特征在于，步骤S2具体包括以下分步骤： S2‑1、从缺失数据集中选取一条包含缺失值的电能序列，将该电能序列遍历完备数据集中电能序列计算动态时间规整距离，构建动态时间规整距离矩阵； S2‑2、从动态时间规整距离矩阵中选取动态时间规整距离最小的设定数量的完备序列，构建近邻数据矩阵。 3.根据权利要求2所述的一种电力缺失数据补全方法，其特征在于，步骤S2 ‑1中计算动态时间规整距离的计算方法为： ddtw_t＝DTW(si,Strain_t) Ddtw＝{ddtw_1,ddtw_2,…,ddtw_t} 其中， ddtw_t为缺失数据集中包含缺失值的电能序列si与完备数据集Strain_t中第t个电能序列计算的动态时间规整距离， Ddtw为动态时间规整距离矩阵。 4.根据权利要求1所述的一种电力缺失数据补全方法，其特征在于，步骤S3具体包括以下分步骤： S3‑1、根据缺失数据集中包含缺失值的电能序列和近邻数据矩阵计算近邻数据矩阵的权重系数矩阵； S3‑2、根据近邻数据矩阵的权重系数矩阵计算对应的权重分配矩阵； S3‑3、根据近邻数据矩阵中对应缺失所在列的电力数据和权重分配矩阵计算第一补全值。 5.根据权利要求4所述的一种电力缺失数据补全方法，其特征在于，步骤S3 ‑1具体包括：将缺失数据集中包含缺失值的电能序列分别除以近邻数据矩阵的各行近邻数据，得到近邻数据矩阵的权重系数矩阵，表示为其中， si为缺失数据集中包含缺失值的电能序列， Sneighbor为近邻数据矩阵， WK为近邻数权　利　要　求　书 1/3 页 2 CN 115511002 A 2据矩阵第K行的权重系数向量， WK＝{w1,w2,…,w24}，在缺失点定义wj＝0，当分母为0时， wj＝ 0。 6.根据权利要求4所述的一种电力缺失数据补全方法，其特征在于，步骤S3 ‑2具体包括：将权重系数矩阵中各行权重系数求和取平均，得到近邻数据矩阵的权重分配矩阵，表示为其中， WK为近邻数据矩阵第K行的权重系数向量， WK＝{w1,w2,…,w24}，在缺失点定义wj＝ 0，当分母为0时， wj＝0； j为采样时段。 7.根据权利要求4所述的一种电力缺失数据补全方法，其特征在于，步骤S3 ‑3具体包括：将近邻数据矩阵中对应缺失所在列的电力数据乘以权重分配矩阵，得到第一补全值，表示为 xi＝∑W'yi 其中， xi为缺失电能序列缺失值， i为电能序列缺失值所在列， W'为近邻矩阵的权重分配矩阵， yi为对应缺失值所在列对应的近邻矩阵数据。 8.根据权利要求1所述的一种电力缺失数据补全方法，其特征在于，步骤S4具体包括以下分步骤： S4‑1、对近邻数据矩阵计算协方差矩阵； S4‑2、计算近邻数据矩阵中每列近邻数据的均值，并将近邻数据矩阵中每列近邻数据减去对应列的均值，得到近邻数据矩阵的中心化矩阵； S4‑3、将近邻数据矩阵的中心化矩阵中非缺失值所在列乘以协方差矩阵，得到属性相关性影响系数，作为第二补全值。 9.根据权利要求8所述的一种电力缺失数据补全方法，其特征在于，所述第二补全值表示为：其中， r为中心化矩阵中非缺失值所在列的数量， cov(Y,Y)r为协方差矩阵， Y为近邻矩阵的列数据， zr为近邻数据矩阵的中心化矩阵中非缺失值所在列数据。 10.根据权利要求1所述的一种电力缺失数据补全方法，其特征在于，步骤S5具体包括：将第一补全值和第二补全值求和，得到缺失数据集中电能序列的补全值，表示为：权　利　要　求　书 2/3 页 3 CN 115511002 A 3

专利 一种电力缺失数据补全方法

专利一种电力缺失数据补全方法