专利 一种针对分布式边缘学习中的模型聚合的分组优化方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111603177.7 (22)申请日 2021.12.24 (71)申请人华南理工大学地址 510640 广东省广州市天河区五山路 381号 (72)发明人杨磊　何紫琦　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 代理人周春丽 (51)Int.Cl. G06F 30/18(2020.01) G06F 30/27(2020.01) G06F 15/173(2006.01) G06N 3/12(2006.01) (54)发明名称一种针对分布式边缘学习中的模型聚合的分组优化方法 (57)摘要本发明公开了一种针对分布式边缘学习中的模型聚合的分组优化方法。所述方法包括以下步骤：量化各设备的本地数据分布与全局数据分布的差异；计算设备间点对点传输的最小传输时延；采用启发式的遗传算法编码网络中设备可能的分组方式，并通过遗传操作来自动的搜寻最优的分组结果，确定设备分组后模型分组聚合的方式；将网络中的设备划分为不同的组，并且设备按照获取的分组方式进行分组训练及分组模型聚合。本发明能够在不提前指定分组数的前提下根据网络中节点的数据分布和节点间的传输时延自动的对网络中的设备进行分组，有效的减缓了在分布式边缘学习中设备间数据分布非独立同分布对全局模型收敛性能的影响，提高全局模型的训练精度和收敛速度。权利要求书4页说明书14页附图4页 CN 114372337 A 2022.04.19 CN 114372337 A 1.一种针对分布式边缘学习中的模型聚合的分组优化方法，其特征在于，包括以下步骤： S1、根据各设备在相同的初始全局模型上使用其各自的本地数据集进行多轮训练得到的更新后的梯度与初始全局模型梯度的差异，来表示各设备的本地模型与初始全局模型的差异，从而根据设备的本地模型与初始全局模型的差异来量化各设备的本地数据分布与全局数据分布的差异； S2、根据连接各个设备的网络拓扑信息获取各设备间点对点传输的连接关系和设备链路间的带宽资源，同时结合设备间点对点传输的模型大小,计算设备间点对点传输的最小传输时延； S3、基于设备间点对点传输的最小传输时延以及各设备的本地数据分布与全局数据分布的差异，采用启发式的遗传算法编码网络中设备可能的分组方式，并通过遗传操作来自动的搜寻最优的分组结果，分组结果包括分组数和每组包括的成员设备，从而确定设备分组后模型分组聚合的方式； S4、根据步骤S3中所确定的模型分组聚合的方式将网络中的设备划分为不同的组，并且设备按照获取的分组方式进行分组训练及分组模型聚合。 2.根据权利要求1所述的一种针对分布式边缘学习中的模型聚合的分组优化方法，其特征在于，每个设备都拥有多个数据样本，多个数据样本构成各个设备的本地数据集；并且每个设备在其本地数据集上进行基于梯度下降的模型训练，即可获取基于本地数据集训练得到的本地模型；对于各个设备来说，设备间的数据分布往往是非独立同分布的，即各设备间本地数据分布不一致且不同于全局数据分布；步骤S1中，为表示各设备分布与全局分布的差异，根据各设备在相同的初始全局模型上使用其各自的本地数据集进行多轮训练得到的更新后的梯度与初始全局模型梯度的差异量化设备的本地数据分布和全局数据分布间的差异，具体包括以下步骤： S1.1、随机初始化一个全局模型并将该全局模型作为各设备统一的初始模型；所述全局模型为由本领域技术人员指定的机器学习模型，包括Linear Regression(LR)、 Multilayer Perceptrons(MLP)或Co nvolutional Neural Networks(CNN)； S1.2、在去中心化的分布式机器学习的框架下对各个设备进行多轮的本地更新和全局聚合，即各设备使用其完整的本地数据集在初始模型上进行一轮本地模型训练并获取其相应的本地模型后，所有设备按照其数据量对获取的本地模型进行加权平均得到一个全局聚合模型； S1.3、将该全局聚合模型下发给各设备并作为各设备在下一轮本地模型训练的初始模型，返回步骤S1.2； S1.4、步骤S1.2～步骤S1.3的本地模型训练和全局模型聚合的步骤在循环执行多轮后，使用当前获取的全局聚合模型作为度量本地模型与全局模型差异时的初始全局模型； S1.5、在获取初始全局模型之后，各设备使用各自完整的本地数据集在初始全局模型上连续的执行多轮步骤S1.2中的本地模型训练，其中，对于每个本地设备来说，每一个本地模型训练轮都会遍历完所有的本地数据；并且在执行连续多轮的本地模型训练的过程中，各设备不会进行全局模型聚合的操作，即各设备使用其各自设备上的本地数据集对初始全权　利　要　求　书 1/4 页 2 CN 114372337 A 2局模型进行一轮本地模型训练，得到本地模型后，再循环多次对获取的本地模型进行一轮本地模型训练，循环多次得到本地模型，即可获取各设备在其本地数据集上进行本地模型训练得到的本地模型； S1.6、通过模型梯度间的距离度量步骤S1.2～步骤S1.5中获取的初始全局模型的梯度和各设备的本地模型的梯度间的差异，模型梯度间距离的度量指标包括余弦距离、欧氏距离或曼哈顿距离；使用各设备的本地模型梯度与初始全局模型间梯度的差异表示各设备的本地数据分布和全局数据分布间的差异。 3.根据权利要求1所述的一种针对分布式边缘学习中的模型聚合的分组优化方法，其特征在于，步骤S2中，所述网络拓扑信息包括参与训练的设备、直连设备的链路以及各设备直连的链路的带宽资源，以参与训练的设备作为节点、以链路作为边以及以链路的带宽资源作为边的权值的形式将网络拓扑以有权无向图的数据结构进行存储。 4.根据权利要求3所述的一种针对分布式边缘学习中的模型聚合的分组优化方法，其特征在于，步骤S2包括以下步骤： S2.1、通过广度优先搜索方法和深度优先搜索方法，根据网络拓扑结构以及各设备直连的链路的带宽资源首先计算得出使得设备间点对点传输带宽最大的传输路径，设备间点对点的传输路径由至少一条直连设备的链路构成； S2.2、根据设备间点对点的传输路径上的带宽资源相加得到设备间点对点的传输路径可用的带宽资源，并根据该带宽资源和设备间点对点传输的模型的大小，即可通过将设备间点对点传输的模型大小除以设备间点对点传输路径可用的带宽资源得到设备间点对点传输的最小传输时延；设备间点对点传输的模型的大小指模型的非0参数数量。 5.根据权利要求1所述的一种针对分布式边缘学习中的模型聚合的组优化方法，其特征在于，步骤S3中，使用启发式遗传算法在不提前指定分组数的前提下根据网络中各设备的本地数据分布与全局数据分布的差异，以及设备间点对点传输的最小传输时延自动地搜索最优分组结果作为设备分组训练和聚合的方式，具体包括以下步骤： S3.1、将编码网络中设备可能的分组方式作为遗传算法中个体的表示，并将多种分组方式即不同的个体组合成种群； S3.2、确定评估方式，引入适应度函数来评判种群中每种分组方式(个体)的优良程度； S3.3、确定种群中个体的选择方式，根据种群中各个个体评估的适应度数值从种群中选择适应度数值最高的个体直接加入下一代种群中参与下一轮迭代，其他个体进入下一代的概率为由个体适应度与群体适应度之比决定，群体适应度是所有个体适应度之和； S3.4、确定交叉和变异的遗传操作，从选择的个体中按照当前种群的交叉率和变异率选择两个个体参与交叉和变异的遗传操作，从而产生适应度更高的后代加入下一代种群中参与下一轮迭代； S3.5、重复执行步骤S3.3和步骤S3.4，直到迭代轮次达到预先设定的阈值为止，然后从最后的种群中选择适应度最高的个体作为最优的分组结果，并将其作为设备分组训练和聚合的方式。 6.根据权利要求5所述的一种针对分布式边缘学习中的模型聚合的分组优化方法，其特征在于，步骤S3.1具体包括以下步骤：权　利　要　求　书 2/4 页 3 CN 114372337 A 3

专利 一种针对分布式边缘学习中的模型聚合的分组优化方法

专利一种针对分布式边缘学习中的模型聚合的分组优化方法