专利 基于机器学习的智能数据处理系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111618877.3 (22)申请日 2021.12.27 (65)同一申请的已公布的文献号申请公布号 CN 114357875 A (43)申请公布日 2022.04.15 (73)专利权人广州龙数科技有限公司地址 510260 广东省广州市海珠区新港西路135号大院中大蒲园区628栋中大科技园A座自编号70 3室（仅限办公）专利权人广州弈衡大数据研究院有限公司 (72)发明人吴锐彬　曹晓虹　 (74)专利代理机构广州名扬高玥专利代理事务所(普通合伙) 44738 专利代理师郭琳(51)Int.Cl. G06F 30/27(2020.01) G06F 119/02(2020.01) 审查员高琳 (54)发明名称基于机器学习的智能数据处理系统 (57)摘要本发明涉及一种基于机器学习的智能数据处理系统，该系统包括设置模块，用以设置若干个学习周期；构建模块，用以构建学习模型并在每个学习周期内利用学习模型进行数据输入以及输出数据处理结果，学习模型包括至少两个参数元；采集模块，用以在学习周期内采集环境参数，将环境参数输入至学习模型内；比较模块，用以在获取历史学习周期内的任意多个学习周期内的数据处理结果的均值与当前的数据处理结果进行比较，获取比较结果，处理模块根据比较结果调整采集模块的采集策略以及构建模块内的参数元的数量。通过在后续的学习周期内学习模型的选择更为准确，实现学习模型的不断修正，进而不断提高数据处理的精度，提高数据处理准确性。权利要求书2页说明书8页附图1页 CN 114357875 B 2022.09.02 CN 114357875 B 1.一种基于机器学习的智能数据处理系统，其特征在于，包括：设置模块，用以设置若干个学习周期，每个学习周期的时间长度是相同的；构建模块，用以构建学习模型并在每个学习周期内利用所述学习模型进行数据输入以及输出数据处理结果，所述学习模型包括至少两个参数元；采集模块，用以在学习周期内采集环境参数，将所述环境参数输入至学习模型内，利用所述学习模型内的参数元对环境参数进行处理，获取在当前学习周期内的数据处理结果；比较模块，用以在获取历史学习周期内的任意多个学习周期内的数据处理结果的均值与当前的数据处理结果进行比较，获取比较结果，在所述比较模块内对于数据处理结果的数据量进行检测，获取实际数据量D，在对历史学习周期内的数据处理结果的均值进行获取时，若设置第一历史学习周期、第二历史学习周期以及第三历史学习周期，且第一历史学习周期的处理结果的数据量为D1、第二历史学习周期的处理结果的数据量为D2、第三历史学习周期的处理结果的数据量为D3，在计算历史学习周期内的数据处理结果的均值DA则为DA ＝(D1+D2+D3)/3，当实际数据量D>处理结果的均值DA时，则在下一学习周期内增加采集策略和/或增加参数元的数量；当实际数据量D<处理结果的均值DA时，则在下一学习周期内降低采集策略和/或降低参数元的数量；当实际数据量D＝处理结果的均值DA时，则将当前学习周期内的采集策略以及参数元的数量应用在下一学习周期内；在下一学习周期内增加采集策略时，处理模块预先设置有若干采集策略，每个采集策略对应一个关键词，在进行数据采集时，采集与所述关键词匹配的数据，设置处理模块内的关键词的标准数量为n0，在处理模块内还设置有第一调整系数k1、第二调整系数k2和第三调整系数k3，处理模块在进行增加采集策略时，若1.2 ×DA≥实际数据量D>DA，则处理模块选择第一调整系数k1对关键词的标准数量进行增加；若1.5×DA≥实际数据量D>1.2 ×DA，则处理模块选择第二调整系数k2对关键词的标准数量进行增加；若实际数据量D> 1.5×DA，则处理模块选择第三调整系数k3对关键词的标准数量进行增加；增加后的关键词的数量为ni＝n0 ×(1+ki)，其中i＝1， 2， 3，并且ni为整数， n0为整数，且0<k1<k2<k3 <1，并且当n i计算时不为整数时采用向上取整；处理模块，分别与所述采集模块、构建模块和比较模块连接，所述处理模块根据比较结果调整采集模块的采集策略以及所述构建模块内的参数元的数量。 2.根据权利要求1所述的基于机器学习的智能数据处理系统，其特征在于，第一调整系数k1＝(D ‑DA)/D；第二调整系数k2＝(D ‑0.8×DA)/D；第三调整系数k3＝(D ‑0.5×DA)/D。 3.根据权利要求2所述的基于机器学习的智能数据处理系统，其特征在于，在下一学习周期内增加参数元的数量时，设置原学习模型内的参数元的数量为X个，若 1.2×DA≥实际数据量D>DA，则处理模块将学习模型内的参数元增加至原来的2倍,增加之后的参数元的数量为2×X；权　利　要　求　书 1/2 页 2 CN 114357875 B 2若1.5×DA≥实际数据量D>1.2 ×DA，则处理模块将学习模型内的参数元增加至原来的5 倍，增加之后的参数元的数量为5×X；若实际数据量D> 1.5×DA，则处理模块将学习模型内的参数元增加至原来的8倍，增加之后的参数元的数量为8×X；每个学习模型内的参数元均设置有极限数量Xmax，若调整后的参数元的数量 ≥极限数量Xmax，则将参数元的数量调整为极限数量Xmax。 4.根据权利要求3所述的基于机器学习的智能数据处理系统，其特征在于，所述极限数量Xmax为10 0。 5.根据权利要求4所述的基于机器学习的智能数据处理系统，其特征在于，在下一学习周期内降低采集策略时，在处理模块内设置有标准差值ΔD0，将处理结果的均值DA与D的实际差值设置为ΔD，若实际差值ΔD≤标准差值ΔD0，则采用第一参数α 1降低关键词中关键字的耦合关系；若实际差值ΔD>标准差值ΔD0，则采用第二参数α2降低关键词中关键字的耦合关系，其中第一参数α 1+第二参数α 2＝1，且第一参数α 1<第二参数α 2。 6.根据权利要求5所述的基于机器学习的智能数据处理系统，其特征在于，所述第一参数α 1＝k1/(k1+k2+k3)；所述第二参数α 2＝(k2+k3)/(k1+k2+k3)。 7.根据权利要求6所述的基于机器学习的智能数据处理系统，其特征在于，在下一学习周期内降低参数元的数量时，若0.8 ×DA≥实际数据量D<DA，则处理模块将学习模型内的参数元的降幅调整为原来的0.2倍,降低之后的参数元的数量为0.8×X；若0.5×DA≤实际数据量D<0.8 ×DA，则处理模块将学习模型内的参数元的降幅调整至原来的0.5倍，降低之后的参数元的数量为0.5×X；若实际数据量D<0.5 ×DA，则处理模块将学习模型内的参数元的降幅调整至原来的0.8 倍，降低之后的参数元的数量为0.2×X；每个学习模型内的参数元均设置有极值数量Xmin，若调整后的参数元的数量≤极值数量Xmin，则将参数元的数量调整为极值数量Xmi n。 8.根据权利要求7所述的基于机器学习的智能数据处理系统，其特征在于，在任意学习周期内，所述环境参数为图像数据中的参数，所述学习模型为卷积神经网络，所述参数元为对于任意参数的迭代次数，所述数据处理结果为基于所述图像数据经过处理之后的简要图像中的直接获取数据量。权　利　要　求　书 2/2 页 3 CN 114357875 B 3

专利 基于机器学习的智能数据处理系统

专利基于机器学习的智能数据处理系统