(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111308953.0
(22)申请日 2021.11.05
(71)申请人 中山大学
地址 510275 广东省广州市海珠区新港西
路135号
(72)发明人 吴贺俊 游永强 王海涛
(74)专利代理 机构 广州粤高专利商标代理有限
公司 44102
代理人 禹小明
(51)Int.Cl.
G06F 16/53(2019.01)
G06F 16/583(2019.01)
G06F 17/16(2006.01)
G06F 30/27(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种面向农业采摘的高效识别控制强化学
习算法
(57)摘要
本发明提供一种农业采摘中基于离散对比
特征的强化学习算法, 该算法采用离散对比特征
学习来获得状态特征输入, 通过数据增强获得锚
点、 正样本、 负样本, 再使得锚点特征表示与正样
本特征表 示尽可能接近, 与 负样本特征表示尽可
能不同, 随后通过离散化来获得良好的输入特征
表示。 此方法无需高成本的标签数据, 也不需要
可能会造成训练不稳定的复杂模 型, 实现了一种
样本效率高效、 训练过程稳定迅速、 端到端的深
度强化学习算法。
权利要求书3页 说明书7页 附图1页
CN 114020945 A
2022.02.08
CN 114020945 A
1.一种面向农业采摘的高效识别控制强化学习算法, 其特 征在于, 包括以下步骤:
S1: 对采集的图片进行 数据增强, 获得查询(Query)和键(K ey);
S2: 这些数据通过 卷积神经网络 CNN编码成查询特 征F(Ou)和键特征G(Ov);
S3: 通过离散对比学习获得紧密的离散特征输入, 其中键Key的卷积神经网络训练时不
进行更新, 通过查询Query的卷积神经网络的参数来进行更新, 最后采用柔性致动/评价
Soft Actor‑Critic的策略进行评估回传。
2.根据权利要求1所述的面向农业采摘的高效识别控制强化学习算法, 其特征在于, 步
骤S1中, 读取n个样本的转移元组
其中含有观察输入O, 使用随机数据增强方法通过观测
输入O产生 查询Ou和键Ov。
3.根据权利要求2所述的面向农业采摘的高效识别控制强化学习算法, 其特征在于, 步
骤S2中, 使用编码器CNN变成编码F(Ou)和编码G(Ov), 再通过符号函数变成U=sign(F(Ou))
和V=sign(G(Ov))。
4.根据权利要求3所述的面向农业采摘的高效识别控制强化学习算法, 其特征在于, 步
骤S3中, 用步骤S2得到的数据进行离 散对比学习:
给出查询表示q和键表示K=k0,k1,…, 其中键表示包含正样本键表示k+和负样本键表
示K\{k+}, 采用如下损失函数公式进行离 散对比学习:
其中qT是键表示向量的转置向量, W是为了对正样本键表示k+进行线性转换的向量矩
阵, ki是采样的下 标为i的负样本键表示。
5.根据权利要求4所述的面向农业采摘的高效识别控制强化学习算法, 其特征在于, 步
骤S3中, 定义
其中c是U的列维度, λ是超参数, Ui*和Vj*分别是U和V的第i行和第
j行, Θij可以看作第i个查询表示和第j个键表示的内积相似度, 定义A为Θij的sigmoid函
数:
得到相似矩阵的似然函数, 有公式:
其中矩阵S为相似邻接矩阵, 这里设定为单位矩阵, 定义p(Sij|U,V)如下:
得到U和V的l og似然函数:
步骤S3的任务 就是最大化 log似然函数, 目标 可以表示如下:
s.t.U,V∈{ ‑1,1}n*c。权 利 要 求 书 1/3 页
2
CN 114020945 A
26.根据权利要求5所述的面向农业采摘的高效识别控制强化学习算法, 其特征在于, 步
骤S3中, 固定住V更新U, 先计算公式(5)的关于U*i的梯度和黑塞矩阵:
其中
diag(a1,a2,…,an)是一个对角矩阵, 定义
其中I
是一个单位矩阵, n是样本个数, c是U的列维度, λ是超参数, 可以构造一个L(U*i)的下界:
把优化问题转 为如下公式:
得到公式(8)的解 为:
通过公式(9)可以得到U*i(t+1)。
7.根据权利要求6所述的面向农业采摘的高效识别控制强化学习算法, 其特征在于, 步
骤S3中, 固定U更新V, 得到V的更新公式:
其中L是U和V的log似然函数,
为优化中间变量, 其中I是一个单位矩阵, n是
样本个数, c是U的列维度, λ是超参数。
通过公式(10)可以得到V*i(t+1)。
8.根据权利要求7所述的面向农业采摘的高效识别控制强化学习算法, 其特征在于, 步
骤S3中, 当表示U和V得到更新后, 当作参数为θm的状态编码器C( ·)的自回归目标, 编码器
的采用均方误差 MSE更新:
给出参数为θv的键编码器G( ·)和参数为θu查询编码器F( ·), θv采取动量更新而不进
行梯度回传, 动量更新如下:权 利 要 求 书 2/3 页
3
CN 114020945 A
3
专利 一种面向农业采摘的高效识别控制强化学习算法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 05:15:55上传分享