专利 一种面向联邦的联邦的模型训练方法以及分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211188985.6 (22)申请日 2022.09.28 (71)申请人中国科学院计算技术研究所地址 100190 北京市海淀区中关村科学院南路6号 (72)发明人陈益强　卢旺　秦欣　 (74)专利代理机构北京泛华伟业知识产权代理有限公司 1 1280 专利代理师王勇 (51)Int.Cl. G06N 20/00(2019.01) G06F 21/62(2013.01) G06T 7/00(2017.01) G06V 10/764(2022.01) G06V 10/774(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种面向联邦的联邦的模型训练方法以及分类方法 (57)摘要本发明提供了一种面向联邦的联邦的模型训练方法，用于多个子联邦的子联邦模型训练，其中，每个子联邦是由同一组织的多个客户端构成的联邦，该方法包括： S1、在每个子联邦利用该子联邦的训练集在本地初始化训练其子联邦模型，其中，不同子联邦对应的子联邦模型的分类空间相同； S2、按照预定的传递顺序将前一个子联邦的子联邦模型传递给相邻的下一个子联邦，分别进行多轮联邦训练，得到含有公共知识的子联邦模型； S3、将含有公共知识的子联邦模型传递给每一个子联邦作为最终的教师模型，每个子联邦分别利用最终的教师模型的知识和本地的训练集训练其子联邦模型以得到每个子联邦最终的子联邦模型。权利要求书4页说明书18页附图1页 CN 115456201 A 2022.12.09 CN 115456201 A 1.一种面向联邦的联邦的模型训练方法，其特征在于，用于多个子联邦的子联邦模型训练，其中，每个子联邦是由同一组织的多个客户端构成的联邦，子联邦的所有客户端将收集到的样本汇集到代表子联邦的设备上以形成该子联邦的包含训练集、验证集的数据集，该方法包括： S1、在每个子联邦利用该子联邦的训练集在本地初始化训练其子联邦模型，其中，不同子联邦对应的子联邦模型的分类空间相同； S2、按照预定的传递顺序将前一个子联邦的子联邦模型传递给相邻的下一个子联邦，分别进行多轮联邦训练，得到含有公共知识的子联邦模型，其中，每按预设的传递顺序执行一遍完整的传递过程完成一轮联邦训练，每个子联邦利用传递来的前一个子联邦模型的知识和本地的训练集完成对自身的子联邦模型的训练； S3、将所述含有公共知识的子联邦模型传递给每一个子联邦作为最终的教师模型，每个子联邦分别利用最终的教师模型的知识和本地的训练集训练其子联邦模型以得到每个子联邦最终的子联邦模型。 2.根据权利要求1所述的方法，其特征在于，在步骤S2中，每一轮的联邦训练包括：按照预定的传递顺序，从排在首位的子联邦开始，依次将在前的子联邦在本轮训练后的子联邦模型传递给相邻的下一个子联邦作为中间的教师模型以完成下一个子联邦的子联邦模型在本轮的训练，其中，初始轮时排在首位的子联邦的子联邦模型将初始化的子联邦模型传递给下一个子联邦，其他轮时排在首位的子联邦利用上一轮最后一个子联邦传递来的子联邦模型完成对自身的子联邦模型的训练后传递给下一个子联邦。 3.根据权利要求2所述的方法，其特征在于，每个子联邦模型包括用于提取样本特征的特征提取层和用于根据样本特征进行分类的分类预测层，不同的子联邦可以采用异构的或者同构的子联邦模型，其中，当一个子联邦的教师模型与其子联邦模型为同构的模型时，至少根据子联邦模型的分类损失、教师模型的特征提取层与子联邦模型的特征提取层提取的样本特征之间的距离损失确定的总损失更新子联邦模型的参数；或者当一个子联邦的教师模型与其子联邦模型为异构的模型时，至少根据子联邦模型的分类损失、教师模型与子联邦模型的输出之间的距离损失确定的总损失更新子联邦模型的参数。 4.根据权利要求3所述的方法，其特征在于，在步骤S2中，当子联邦模型在本地的验证集上的精度大于预定的第一阈值时，该子联邦按照以下方式训练其子联邦模型：当中间的教师模型与子联邦模型同构时，根据该子联邦模型对样本的分类损失与其教师模型的特征提取层提取的样本特征与子联邦模型的特征提取层提取的样本特征间的第一距离损失确定的第一总损失更新子联邦模型的参数；当中间的教师模型与子联邦模型异构时，根据该子联邦模型对样本的分类损失与该教师模型的分类预测层输出的分类与联邦模型的分类预测层输出的分类之间的第二距离损失确定的第二总损失更新子联邦模型的参数。 5.根据权利要求 4所述的方法，其特征在于，第一总损失按照以下方式确定：权　利　要　求　书 1/4 页 2 CN 115456201 A 2其中，表示第i个子联邦对应的第一总损失，表示第i个子联邦的训练集中的样本数量， (x,y)表示样本x将其对应的标签y，标签y指示样本x所属的分类，表示第i 个子联邦的训练集，表示第i个子联邦的子联邦模型对样本的分类损失， fi表示第i个子联邦的子联邦模型，表示第一距离损失， gj表示第i个子联邦的教师模型的特征提取层， gi表示第i个子联邦的子联邦模型的特征提取层， λ表示预先为第一距离损失设置的权重。 6.根据权利要求 4所述的方法，其特征在于，第二总损失按照以下方式确定：其中，表示第i个子联邦对应的第二总损失，表示第i个子联邦的训练集中的样本数量， (x,y)表示样本x将其对应的标签y，标签y指示样本x所属的分类，表示第i 个子联邦的训练集，表示第i个子联邦的子联邦模型对样本的分类损失，表示第二距离损失， λ表示预先为第二距离损失设置的权重， fi表示第i个子联邦的子联邦模型， fj表示第i个子联邦的中间的教师模型， t表示预设的温度超参数，中间的教师模型、子联邦模型的分类预测层中未经其Softmax函数处理之前的值除以预设的温度超参数后作为其softmax函数的输入。 7.根据权利要求4所述的方法，其特征在于，在步骤S2中，在子联邦模型在本地的验证集上的精度小于等于预定的第一阈值时，当前子联邦按照以下方式训练其子联邦模型：当中间的教师模型与当前子联邦模型同构时，以该中间的教师模型的参数替换该子联邦模型的参数后，利用样本的分类损失更新替换后的子联邦模型的参数；当中间的教师模型与当前子联邦模型异构时，根据该子联邦模型对样本的分类损失与中间的教师模型的分类预测层输出的分类与子联邦模型的分类预测层输出的分类之间的第二距离损失确定的第三总损失更新子联邦模型的参数。 8.根据权利要求7 所述的方法，其特征在于，第三总损失按照以下方式确定：其中，表示第i个子联邦对应的第二总损失，表示第i个子联邦的训练集中的样本数量， (x,y)表示样本x将其对应的标签y，标签y指示样本x所属的分类，表示第i 个子联邦的训练集，表示第i个子联邦的子联邦模型对样本的分类损失，权　利　要　求　书 2/4 页 3 CN 115456201 A 3

专利 一种面向联邦的联邦的模型训练方法以及分类方法

专利一种面向联邦的联邦的模型训练方法以及分类方法