说明:最全专利文库
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111308953.0 (22)申请日 2021.11.05 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 吴贺俊 游永强 王海涛  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 代理人 禹小明 (51)Int.Cl. G06F 16/53(2019.01) G06F 16/583(2019.01) G06F 17/16(2006.01) G06F 30/27(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种面向农业采摘的高效识别控制强化学 习算法 (57)摘要 本发明提供一种农业采摘中基于离散对比 特征的强化学习算法, 该算法采用离散对比特征 学习来获得状态特征输入, 通过数据增强获得锚 点、 正样本、 负样本, 再使得锚点特征表示与正样 本特征表 示尽可能接近, 与 负样本特征表示尽可 能不同, 随后通过离散化来获得良好的输入特征 表示。 此方法无需高成本的标签数据, 也不需要 可能会造成训练不稳定的复杂模 型, 实现了一种 样本效率高效、 训练过程稳定迅速、 端到端的深 度强化学习算法。 权利要求书3页 说明书7页 附图1页 CN 114020945 A 2022.02.08 CN 114020945 A 1.一种面向农业采摘的高效识别控制强化学习算法, 其特 征在于, 包括以下步骤: S1: 对采集的图片进行 数据增强, 获得查询(Query)和键(K ey); S2: 这些数据通过 卷积神经网络 CNN编码成查询特 征F(Ou)和键特征G(Ov); S3: 通过离散对比学习获得紧密的离散特征输入, 其中键Key的卷积神经网络训练时不 进行更新, 通过查询Query的卷积神经网络的参数来进行更新, 最后采用柔性致动/评价 Soft Actor‑Critic的策略进行评估回传。 2.根据权利要求1所述的面向农业采摘的高效识别控制强化学习算法, 其特征在于, 步 骤S1中, 读取n个样本的转移元组 其中含有观察输入O, 使用随机数据增强方法通过观测 输入O产生 查询Ou和键Ov。 3.根据权利要求2所述的面向农业采摘的高效识别控制强化学习算法, 其特征在于, 步 骤S2中, 使用编码器CNN变成编码F(Ou)和编码G(Ov), 再通过符号函数变成U=sign(F(Ou)) 和V=sign(G(Ov))。 4.根据权利要求3所述的面向农业采摘的高效识别控制强化学习算法, 其特征在于, 步 骤S3中, 用步骤S2得到的数据进行离 散对比学习: 给出查询表示q和键表示K=k0,k1,…, 其中键表示包含正样本键表示k+和负样本键表 示K\{k+}, 采用如下损失函数公式进行离 散对比学习: 其中qT是键表示向量的转置向量, W是为了对正样本键表示k+进行线性转换的向量矩 阵, ki是采样的下 标为i的负样本键表示。 5.根据权利要求4所述的面向农业采摘的高效识别控制强化学习算法, 其特征在于, 步 骤S3中, 定义 其中c是U的列维度, λ是超参数, Ui*和Vj*分别是U和V的第i行和第 j行, Θij可以看作第i个查询表示和第j个键表示的内积相似度, 定义A为Θij的sigmoid函 数: 得到相似矩阵的似然函数, 有公式: 其中矩阵S为相似邻接矩阵, 这里设定为单位矩阵, 定义p(Sij|U,V)如下: 得到U和V的l og似然函数: 步骤S3的任务 就是最大化 log似然函数, 目标 可以表示如下: s.t.U,V∈{ ‑1,1}n*c。权 利 要 求 书 1/3 页 2 CN 114020945 A 26.根据权利要求5所述的面向农业采摘的高效识别控制强化学习算法, 其特征在于, 步 骤S3中, 固定住V更新U, 先计算公式(5)的关于U*i的梯度和黑塞矩阵: 其中 diag(a1,a2,…,an)是一个对角矩阵, 定义 其中I 是一个单位矩阵, n是样本个数, c是U的列维度, λ是超参数, 可以构造一个L(U*i)的下界: 把优化问题转 为如下公式: 得到公式(8)的解 为: 通过公式(9)可以得到U*i(t+1)。 7.根据权利要求6所述的面向农业采摘的高效识别控制强化学习算法, 其特征在于, 步 骤S3中, 固定U更新V, 得到V的更新公式: 其中L是U和V的log似然函数, 为优化中间变量, 其中I是一个单位矩阵, n是 样本个数, c是U的列维度, λ是超参数。 通过公式(10)可以得到V*i(t+1)。 8.根据权利要求7所述的面向农业采摘的高效识别控制强化学习算法, 其特征在于, 步 骤S3中, 当表示U和V得到更新后, 当作参数为θm的状态编码器C( ·)的自回归目标, 编码器 的采用均方误差 MSE更新: 给出参数为θv的键编码器G( ·)和参数为θu查询编码器F( ·), θv采取动量更新而不进 行梯度回传, 动量更新如下:权 利 要 求 书 2/3 页 3 CN 114020945 A 3

.PDF文档 专利 一种面向农业采摘的高效识别控制强化学习算法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向农业采摘的高效识别控制强化学习算法 第 1 页 专利 一种面向农业采摘的高效识别控制强化学习算法 第 2 页 专利 一种面向农业采摘的高效识别控制强化学习算法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:15:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。