专利 一种数据异常检测方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111660188.9 (22)申请日 2021.12.31 (71)申请人深圳前海微众银行股份有限公司地址 518027 广东省深圳市前海深港合作区前湾一路1号A栋201室 (72)发明人梁永富　熊刚　江旻　 (74)专利代理机构北京同达信恒知识产权代理有限公司 1 1291 代理人雷航 (51)Int.Cl. G06F 30/27(2020.01) G06F 119/02(2020.01) (54)发明名称一种数据异常检测方法及装置 (57)摘要本发明实施例提供了一种数据异常检测方法及装置，该方法包括获取当前时刻的原始运维数据；原始运维数据包括多个运维指标的数据，将原始运维数据输入至异常检测模型，得到原始运维数据对应的重构数据；异常检测模型是根据历史的正常运维数据对VAE ‑GAN模型进行训练得到的，然后，计算原始运维数据对应的重构数据与原始运维数据之间的重构误差；根据重构误差，确定原始运维数据中的异常指标。如此，可以实现采用一个模型对多维运维指标进行检测，实时地识别出原始运维数据中的异常指标，从而可以避免仅根据某一维度指标异常而判断为应用实例异常的问题，进而可以提高对应用实例的原始运维数据异常检测的准确性。权利要求书3页说明书18页附图5页 CN 114297936 A 2022.04.08 CN 114297936 A 1.一种数据异常检测方法，其特征在于，包括：获取当前时刻的原始运维数据；所述原始运维数据包括多个运维指标的数据；将所述原始运维数据输入至异常检测模型，得到所述原始运维数据对应的重构数据；所述异常检测模型是根据历史的正常运维数据对V AE‑GAN模型进行训练得到的；计算所述原始运维数据对应的重构数据与所述原始运维数据之间的重构误差；根据所述重构误差，确定所述原始运维数据中的异常指标。 2.如权利要求1所述的方法，其特征在于，所述根据所述重构误差，确定所述原始运维数据中的异常指标，包括：若所述重构误差大于或等于误差阈值，则确定所述原始运维数据异常；根据所述原始运维数据中每个运维指标的数据与所述原始运维数据对应的重构数据中对应所述运维指标的数据之间的重构误差，确定所述原始运维数据中的异常指标。 3.如权利要求2所述的方法，其特征在于，所述根据所述原始运维数据中每个运维指标的数据与所述原始运维数据对应的重构数据中对应所述运维指标的数据之间的重构误差，确定所述原始运维数据中的异常指标，包括：计算所述原始运维数据中每个运维指标的数据与所述原始运维数据对应的重构数据中对应所述运维指标的数据之间的重构误差，得到所述多个运维指标对应的多个重构误差；将所述多个运维指标对应的多个重构误差中的M个最大值所对应的运维指标确定为异常指标，所述M为正整数。 4.如权利要求3所述的方法，其特征在于，所述计算所述原始运维数据对应的重构数据与所述原始运维数据之间的重构误差，包括：将所述多个运维指标对应的多个重构误差之和，确定为所述重构数据与所述原始运维数据之间的重构误差。 5.如权利要求1 ‑4任一项所述的方法，其特征在于，所述将所述原始运维数据输入至异常检测模型之前，所述方法还包括：获取离线的历史运维数据；将所述历史运维数据作为输入构建VAE ‑GAN模型，以VAE ‑GAN模型的损失函数最小值为优化目标对所述V AE‑GAN模型进行无监督训练，得到所述异常检测模型；其中，所述VAE ‑GAN模型包括VAE网络和GAN网络，所述VAE网络包括编码器和解码器，所述编码器用于输出变分分布所述解码器用于输出后验概率分布pθ(z|x)；所述 GAN网络用于约束所述编码器输出的变分分布与后验概率分布pθ(z|x)之间的KL散度最小，以及用于约束所述解码器输出的重构数据与历史运维数据之间的重构误差最小。 6.如权利要求5所述的方法，其特征在于，所述将所述历史运维数据作为输入构建VAE ‑ GAN模型，包括：根据历史运维数据的似然函数，采用最大化对数似然函数的方式估计后验概率分布pθ (z|x)的参数θ；根据以下公式(1)以及公式(2)将计算变分分布与后验概率分布pθ(z|x)之间权　利　要　求　书 1/3 页 2 CN 114297936 A 2的KL散度最小值，转换为寻找参数使得变分证据下界的值最大：其中，为变分分布与后验概率分布pθ(z|x)之间的KL 散度，为变分证据下界；根据所述参数θ构建V AN网络的解码器，根据参数构建VAN网络的编码器；在所述VAN网络的编码器的输出端增加分布约束的GAN判别器，并在所述VAN的编码器的输出端增加输出约束的GAN判别器，得到VAE ‑GAN模型；其中，所述分布约束的GAN判别器用于判别所述变分分布与后验概率分布pθ(z|x)是否接近；所述输出约束的GAN判别器用于判别所述解码器输出的重构数据与所述历史运维数据是否接近。 7.如权利要求6所述的方法，其特征在于，以VAE ‑GAN模型的损失函数最小值为优化目标对所述V AE‑GAN模型进行无监督训练，得到所述异常检测模型，包括：确定VAE‑GAN模型中分布约束的GAN判别器的损失函数：其中， y为随机噪声， p(y)为低维的噪声分布， x为真实样本， p(x)为真实样本分布， DE(z) 表示输入的样本是真实样本的概率， DE(GE(x))表示以编码器的输出结果作为输入的样本是真实样本的概率；确定VAE‑GAN模型中与所述编码器等效的生成器的损失函数：其中， x为真实样本， p(x)为真实样本分布， DE(GE(x))表示以编码器的输出结果作为输入的样本是真实样本的概率；根据所述分布约束的GAN判别器的损失函数和所述解码器等效的生成器的损失函数的最小值为目标，约束编码器输出的变分分布与后验概率分布pθ(z)之间的KL散度最小，不断优化所述V AE‑GAN模型；确定VAE‑GAN模型中基于输出约束的GAN判别器的损失函数：其中， x为真实样本， p(x)为真实样本分布，表示以输入的样本是真实样本的概率，表示以解码器的输出结果作为输入的样本是真实样本的概率；确定与所述解码器等效的生成器的损失函数：其中， x为真实样本， p(x)为真实样本分布，表示以解码器的输出结果权　利　要　求　书 2/3 页 3 CN 114297936 A 3

专利 一种数据异常检测方法及装置

专利一种数据异常检测方法及装置