(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111370645.0
(22)申请日 2021.11.18
(71)申请人 国网江苏省电力有限公司信息通信
分公司
地址 210024 江苏省南京市 鼓楼区北京西
路20号
(72)发明人 缪巍巍 张明轩 曾锃 黄进
张瑞 张震 李世豪 滕昌志
(74)专利代理 机构 南京纵横知识产权代理有限
公司 32224
代理人 许婉静
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06F 30/27(2020.01)
(54)发明名称
一种基于深度强化学习的边缘计算主动服
务方法及系统
(57)摘要
本发明公开了一种基于深度强化学习的边
缘计算主动服务方法及系统, 方法包括以下步
骤: 1)提取用户特征信息, 同时提取用户意图分
类; 2)通过深度神经网络预训练意图预判模型,
意图预判模型输出为经过归一化指数函数
softmax的多分类用户意 图概率, 然后利用交叉
熵损失函数优化意图预判模型, 优化后的意图预
判模型输 出为当前的意图的类别, 同时将意图预
判模型的倒数第二层作为表示向量, 建立DDPG模
型; 3)通过线上探索对DDPG模型进行优化; 4)设
定强化学习的奖赏函数, 如果用户使用其中一个
服务, 则奖赏值为1, 否则奖赏值为0; 根据奖赏值
对用户资源请求进行预判。 本发 明的方法可以提
升边缘节点的服 务效率, 并提升用户满意度。
权利要求书2页 说明书4页 附图1页
CN 114154566 A
2022.03.08
CN 114154566 A
1.一种基于深度强化学习的边 缘计算主动服 务方法, 其特 征在于, 包括以下步骤:
1)提取用户特征信息, 特征信息包括用户画像、 用户在设定期间内的应用负载、 用户位
置, 同时提取用户意图分类;
2)通过深度神经网络预训练意图预判模型, 所述意图预判模型为多分类神经网络模
型, 意图预判模型 的输入为用户画像、 用户在设定期间内的应用负载、 用户位置, 意图预判
模型的输出为经过归一化指数函数softmax的多分类用户意图概率, 然后利用交叉熵损失
函数优化意图预判模型, 训练后的意图预判模型输出为当前 的意图的类别, 同时将训练后
的意图预判模型的倒数第二层作为表示向量, 建立D DPG模型;
3)通过线上探索对D DPG模型进行优化;
4)设定强化学习的奖赏函数, 如果用户使用其中一个意 图对应的服务, 则奖赏值为1,
否则奖赏值为0; 主动服务系统在与用户交互过程中, 根据奖赏值对用户资源请求进行预
判, 选择使得critic估值 函数最大的动作, 即提供相应的服 务。
2.根据权利要求1所述的基于深度强化学习的边缘计算主动 服务方法, 其特征在于, 还
包括:
5)当有用户新增需求时, 保持步骤2)中的深度神经网络不变, 修改步骤3)中actor网络
输出和critic网络的输入, 对新的意图进行动态的探索, 提升用户点击率。
3.根据权利要求1或2所述的基于深度强化学习的边缘计算主动服务方法, 其特征在
于, 在步骤3)中, 具体步骤为:
31)通过强化学习DDP G算法实现强化学习, 其 中actor网络以步骤2)获得的表示向量作
为输入, D DPG算法输出向用户提供的存 储或计算 服务;
32)critic网络通过表示向量和展示的问题预测进行服务后的长期收益并通过时序差
分误差进行优化,
其中, Q代表critic网络, s为当前的环境状态, a为选取的服务动作, w为critic网络的
参数; s',a'分别为下一时刻的状态和动作, r 为奖赏函数, γ为折扣因子; L(w)表 示优化值,
E[.]为期望值, a ′是使critic网络Q(s ′,a′,w)最大的值;
33)DDPG算法通过噪声函数OUN oise进行动态探索。
4.根据权利要求1或2所述的基于深度强化学习的边缘计算主动服务方法, 其特征在
于, 所述D DPG模型的具体工作步骤为:
1)根据策略函数向用户推送计算或存储服务, 在训练时刻, 对策略输出加ounoise噪声
之后, 选择使 得critic估值函数最大的动作; 在测试时刻, 选择使得critic估值函数最大的
动作; 所述策略函数是指策略网络的输出值, 针对每种状态输出相对应的动作, 所述动作为
推送的服 务;
2)在用户端由用户选择 是否使用推送的服 务;
3)根据用户的选择获取 奖赏函数, 同时更新估值 函数和策略函数;
4)继续返回至步骤1)循环工作。
5.一种基于深度强化学习的边 缘计算主动服 务系统, 其特 征在于, 包括以下程序模块;
特征提取模块: 提取用户特征信息, 特征信 息包括用户画像、 用户在设定期间内的应用权 利 要 求 书 1/2 页
2
CN 114154566 A
2负载、 用户位置, 同时提取用户意图分类;
神经网络训练模块: 通过深度神经网络预训练意图预判模型, 所述意图预判模型为多
分类神经网络模型, 意图预判模型输出为经过归一化指数函数softmax的多分类用户意图
概率, 然后利用交叉熵损失函数优化意图预判模型, 优化后的意图预判模型输出为当前 的
意图的类别, 同时将意图预判模型的倒数第二层作为表示向量, 建立D DPG模型;
模型优化模块: 过线上探索对D DPG模型进行优化;
预判模块: 设定强化学习的奖赏函数, 如果用户使用其中一个服务, 则奖赏值为1, 否则
奖赏值为0; 在与用户交互过程中, 根据奖赏值对用户资源请求进行预判, 选择使得critic
估值函数最大的动作。
6.根据权利要求5所述的一种基于深度强化学习的边缘计算主动服务系统, 其特征在
于, 还包括:
提升模块: 当有用户新增需求 时, 保持神经网络训练模块中的深度神经网络不变, 修改
模型优化模块中act or网络输出和cr itic网络的输入, 对新的意图进行动态的探索, 提升用
户点击率。
7.根据权利要求5所述的一种基于深度强化学习的边缘计算主动服务系统, 其特征在
于, 所述D DPG模型的具体工作步骤为:
1)根据策略函数向用户推送计算或存储服务, 在训练时刻, 对策略输出加ounoise噪声
之后, 选择使 得critic估值函数最大的动作; 在测试时刻, 选择使得critic估值函数最大的
动作; 所述策略函数是指策略网络的输出值, 针对每种状态输出相对应的动作, 所述动作为
推送的服 务;
2)在用户端由用户选择 是否使用推送的服 务;
3)根据用户的选择获取 奖赏函数, 同时更新估值 函数和策略函数;
4)继续返回至步骤1)循环工作。权 利 要 求 书 2/2 页
3
CN 114154566 A
3
专利 一种基于深度强化学习的边缘计算主动服务方法及系统
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 05:14:46上传分享