(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211188985.6
(22)申请日 2022.09.28
(71)申请人 中国科学院计算 技术研究所
地址 100190 北京市海淀区中关村科 学院
南路6号
(72)发明人 陈益强 卢旺 秦欣
(74)专利代理 机构 北京泛华伟业知识产权代理
有限公司 1 1280
专利代理师 王勇
(51)Int.Cl.
G06N 20/00(2019.01)
G06F 21/62(2013.01)
G06T 7/00(2017.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种面向联邦的联邦的模型训练方法以及
分类方法
(57)摘要
本发明提供了一种面向联邦的联邦的模型
训练方法, 用于多个子联邦的子联邦模型训练,
其中, 每个子联邦是由同一组织的多个客户端构
成的联邦, 该方法包括: S1、 在每个子联邦利用该
子联邦的训练集在本地初始化训练其子联邦模
型, 其中, 不同子联邦对应的子联邦模型的分类
空间相同; S2、 按照预定的传递顺序将前一个子
联邦的子联邦模 型传递给相邻的下一个子联邦,
分别进行多轮联邦训练, 得到含有公共知识的子
联邦模型; S3、 将含有公共知识 的子联邦模型传
递给每一个子联邦作为最终的教师模 型, 每个子
联邦分别利用最终的教师模型的知识和本地的
训练集训练其子联邦模型以得到每个子联邦最
终的子联邦模型。
权利要求书4页 说明书18页 附图1页
CN 115456201 A
2022.12.09
CN 115456201 A
1.一种面向联邦的联邦的模型训练方法, 其特征在于, 用于多个子联邦的子联邦模型
训练, 其中, 每个子联邦是由同一组织的多个客户端构成的联邦, 子联邦的所有客户端将收
集到的样本汇集到代表子联邦的设备上以形成该子联邦的包含训练集、 验证集的数据集,
该方法包括:
S1、 在每个子联邦利用该子联邦的训练集在本地初始化训练其子联邦模型, 其中, 不同
子联邦对应的子联邦模型的分类空间相同;
S2、 按照预定的传递顺序将前一个子联邦的子联邦模型传递给相邻的下一个子联邦,
分别进行多轮联邦训练, 得到含有公共知识的子联邦模型, 其中, 每按 预设的传递顺序执行
一遍完整的传递过程完成一轮联邦训练, 每个子联邦利用传递来的前一个子联邦模型的知
识和本地的训练集完成对自身的子联邦模型的训练;
S3、 将所述含有公共知识的子联邦模型传递给每一个子联邦作为最终的教师模型, 每
个子联邦分别利用最终的教师模型的知识和本地的训练集训练其子联邦模型以得到每个
子联邦最终的子联邦模型。
2.根据权利要求1所述的方法, 其特征在于, 在步骤S2中, 每一轮的联邦训练包括: 按照
预定的传递顺序, 从排在首位的子联邦开始, 依 次将在前 的子联邦在本轮训练后的子联邦
模型传递给相邻的下一个子联邦作为中间的教师模型以完成下一个子联邦的子联邦模型
在本轮的训练, 其中, 初始轮时排在首位的子联邦的子联邦模型将初始化的子联邦模型传
递给下一个子联邦, 其他轮时排在首位的子联邦利用上一轮最后一个子联邦传递来的子联
邦模型完成对自身的子联邦模型的训练后传递给 下一个子联邦 。
3.根据权利要求2所述的方法, 其特征在于, 每个子联邦模型包括用于提取样本特征的
特征提取层和用于根据样本特征进行分类的分类预测层, 不同的子联邦可以采用异构的或
者同构的子联邦模型, 其中,
当一个子联邦的教师模型与其子联邦模型为同构的模型时, 至少根据子联邦模型的分
类损失、 教师模型的特征提取层与子联邦模型的特征提取层提取的样本特征之 间的距离损
失确定的总损失更新子联邦模型的参数; 或者
当一个子联邦的教师模型与其子联邦模型为异构的模型时, 至少根据子联邦模型的分
类损失、 教师模型与子联邦模型的输出之 间的距离损失确定的总损失更新子联邦模型的参
数。
4.根据权利要求3所述的方法, 其特征在于, 在步骤S2中, 当子联邦模型在本地的验证
集上的精度大于预定的第一阈值时, 该子联邦按照以下 方式训练其子联邦模型:
当中间的教师模型与子联邦模型同构时, 根据该子联邦模型对样本的分类损失与其教
师模型的特征提取层提取的样本特征与子联邦模型的特征提取层提取的样本特征间的第
一距离损失确定的第一总损失更新子联邦模型的参数;
当中间的教师模型与子联邦模型异构时, 根据该子联邦模型对样本的分类损失与 该教
师模型的分类预测层输出的分类与联邦模型的分类预测层输出的分类之间的第二距离损
失确定的第二总损失更新子联邦模型的参数。
5.根据权利要求 4所述的方法, 其特 征在于, 第一总损失按照以下 方式确定:权 利 要 求 书 1/4 页
2
CN 115456201 A
2其中,
表示第i个子联邦对应的第一总损失,
表示第i个子联邦的训练集中的
样本数量, (x,y)表示样本x将其对应的标签y, 标签y指示样本x所属的分类,
表示第i
个子联邦的训练集,
表示第i个子联邦的子联邦模型对样本的分类损失, fi表
示第i个子联邦 的子联邦模型,
表示第一距离损失, gj表示第i个子联邦的
教师模型的特征提取层, gi表示第i个子联邦的子联邦模型的特征提取层, λ表示预先为第
一距离损失设置的权 重。
6.根据权利要求 4所述的方法, 其特 征在于, 第二总损失按照以下 方式确定:
其中,
表示第i个子联邦对应的第二总损失,
表示第i个子联邦的训练集中的
样本数量, (x,y)表示样本x将其对应的标签y, 标签y指示样本x所属的分类,
表示第i
个子联邦的训练集,
表示第i个子联邦的子联邦模型对样本的分类损失,
表示第二距离损失, λ表示预先为第二距离损失设置的权重, fi表示第i个
子联邦的子联邦模型, fj表示第i个子联邦的中间的教师模型, t表示预设的温度超参数, 中
间的教师模型、 子联邦模型的分类预测层中未经其Softmax函数处理之前的值除以预设的
温度超参数后作为 其softmax函数的输入。
7.根据权利要求4所述的方法, 其特征在于, 在步骤S2中, 在子联邦模型在本地的验证
集上的精度小于等于预定的第一阈值时, 当前子联邦按照以下 方式训练其子联邦模型:
当中间的教师模型与当前子联邦模型同构时, 以该中间的教师模型的参数替换该子联
邦模型的参数后, 利用样本的分类损失更新 替换后的子联邦模型的参数;
当中间的教师模型与当前子联邦模型异构时, 根据 该子联邦模型对样本的分类损失与
中间的教师模型 的分类预测层输出的分类与子联邦模型的分类预测层输出的分类之间的
第二距离损失确定的第三总损失更新子联邦模型的参数。
8.根据权利要求7 所述的方法, 其特 征在于, 第三总损失按照以下 方式确定:
其中,
表示第i个子联邦对应的第二总损失,
表示第i个子联邦的训练集中的
样本数量, (x,y)表示样本x将其对应的标签y, 标签y指示样本x所属的分类,
表示第i
个子联邦的训练集,
表示第i个子联邦的子联邦模型对样本的分类损失,权 利 要 求 书 2/4 页
3
CN 115456201 A
3
专利 一种面向联邦的联邦的模型训练方法以及分类方法
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:35:27上传分享