专利 一种基于深度强化学习的边缘计算主动服务方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111370645.0 (22)申请日 2021.11.18 (71)申请人国网江苏省电力有限公司信息通信分公司地址 210024 江苏省南京市鼓楼区北京西路20号 (72)发明人缪巍巍　张明轩　曾锃　黄进　张瑞　张震　李世豪　滕昌志　 (74)专利代理机构南京纵横知识产权代理有限公司 32224 代理人许婉静 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06F 30/27(2020.01) (54)发明名称一种基于深度强化学习的边缘计算主动服务方法及系统 (57)摘要本发明公开了一种基于深度强化学习的边缘计算主动服务方法及系统，方法包括以下步骤： 1)提取用户特征信息，同时提取用户意图分类； 2)通过深度神经网络预训练意图预判模型，意图预判模型输出为经过归一化指数函数 softmax的多分类用户意图概率，然后利用交叉熵损失函数优化意图预判模型，优化后的意图预判模型输出为当前的意图的类别，同时将意图预判模型的倒数第二层作为表示向量，建立DDPG模型； 3)通过线上探索对DDPG模型进行优化； 4)设定强化学习的奖赏函数，如果用户使用其中一个服务，则奖赏值为1，否则奖赏值为0；根据奖赏值对用户资源请求进行预判。本发明的方法可以提升边缘节点的服务效率，并提升用户满意度。权利要求书2页说明书4页附图1页 CN 114154566 A 2022.03.08 CN 114154566 A 1.一种基于深度强化学习的边缘计算主动服务方法，其特征在于，包括以下步骤： 1)提取用户特征信息，特征信息包括用户画像、用户在设定期间内的应用负载、用户位置，同时提取用户意图分类； 2)通过深度神经网络预训练意图预判模型，所述意图预判模型为多分类神经网络模型，意图预判模型的输入为用户画像、用户在设定期间内的应用负载、用户位置，意图预判模型的输出为经过归一化指数函数softmax的多分类用户意图概率，然后利用交叉熵损失函数优化意图预判模型，训练后的意图预判模型输出为当前的意图的类别，同时将训练后的意图预判模型的倒数第二层作为表示向量，建立D DPG模型； 3)通过线上探索对D DPG模型进行优化； 4)设定强化学习的奖赏函数，如果用户使用其中一个意图对应的服务，则奖赏值为1，否则奖赏值为0；主动服务系统在与用户交互过程中，根据奖赏值对用户资源请求进行预判，选择使得critic估值函数最大的动作，即提供相应的服务。 2.根据权利要求1所述的基于深度强化学习的边缘计算主动服务方法，其特征在于，还包括： 5)当有用户新增需求时，保持步骤2)中的深度神经网络不变，修改步骤3)中actor网络输出和critic网络的输入，对新的意图进行动态的探索，提升用户点击率。 3.根据权利要求1或2所述的基于深度强化学习的边缘计算主动服务方法，其特征在于，在步骤3)中，具体步骤为： 31)通过强化学习DDP G算法实现强化学习，其中actor网络以步骤2)获得的表示向量作为输入， D DPG算法输出向用户提供的存储或计算服务； 32)critic网络通过表示向量和展示的问题预测进行服务后的长期收益并通过时序差分误差进行优化，其中， Q代表critic网络， s为当前的环境状态， a为选取的服务动作， w为critic网络的参数； s',a'分别为下一时刻的状态和动作， r 为奖赏函数， γ为折扣因子； L(w)表示优化值， E[.]为期望值， a ′是使critic网络Q(s ′,a′,w)最大的值； 33)DDPG算法通过噪声函数OUN oise进行动态探索。 4.根据权利要求1或2所述的基于深度强化学习的边缘计算主动服务方法，其特征在于，所述D DPG模型的具体工作步骤为： 1)根据策略函数向用户推送计算或存储服务，在训练时刻，对策略输出加ounoise噪声之后，选择使得critic估值函数最大的动作；在测试时刻，选择使得critic估值函数最大的动作；所述策略函数是指策略网络的输出值，针对每种状态输出相对应的动作，所述动作为推送的服务； 2)在用户端由用户选择是否使用推送的服务； 3)根据用户的选择获取奖赏函数，同时更新估值函数和策略函数； 4)继续返回至步骤1)循环工作。 5.一种基于深度强化学习的边缘计算主动服务系统，其特征在于，包括以下程序模块；特征提取模块：提取用户特征信息，特征信息包括用户画像、用户在设定期间内的应用权　利　要　求　书 1/2 页 2 CN 114154566 A 2负载、用户位置，同时提取用户意图分类；神经网络训练模块：通过深度神经网络预训练意图预判模型，所述意图预判模型为多分类神经网络模型，意图预判模型输出为经过归一化指数函数softmax的多分类用户意图概率，然后利用交叉熵损失函数优化意图预判模型，优化后的意图预判模型输出为当前的意图的类别，同时将意图预判模型的倒数第二层作为表示向量，建立D DPG模型；模型优化模块：过线上探索对D DPG模型进行优化；预判模块：设定强化学习的奖赏函数，如果用户使用其中一个服务，则奖赏值为1，否则奖赏值为0；在与用户交互过程中，根据奖赏值对用户资源请求进行预判，选择使得critic 估值函数最大的动作。 6.根据权利要求5所述的一种基于深度强化学习的边缘计算主动服务系统，其特征在于，还包括：提升模块：当有用户新增需求时，保持神经网络训练模块中的深度神经网络不变，修改模型优化模块中act or网络输出和cr itic网络的输入，对新的意图进行动态的探索，提升用户点击率。 7.根据权利要求5所述的一种基于深度强化学习的边缘计算主动服务系统，其特征在于，所述D DPG模型的具体工作步骤为： 1)根据策略函数向用户推送计算或存储服务，在训练时刻，对策略输出加ounoise噪声之后，选择使得critic估值函数最大的动作；在测试时刻，选择使得critic估值函数最大的动作；所述策略函数是指策略网络的输出值，针对每种状态输出相对应的动作，所述动作为推送的服务； 2)在用户端由用户选择是否使用推送的服务； 3)根据用户的选择获取奖赏函数，同时更新估值函数和策略函数； 4)继续返回至步骤1)循环工作。权　利　要　求　书 2/2 页 3 CN 114154566 A 3

专利 一种基于深度强化学习的边缘计算主动服务方法及系统

专利一种基于深度强化学习的边缘计算主动服务方法及系统