说明:最全专利文库
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111367153.6 (22)申请日 2021.11.18 (71)申请人 中通服咨询设计 研究院有限公司 地址 210019 江苏省南京市 建邺区楠溪江 东街58号 (72)发明人 李玉萍 张巍 徐磊 杨晓波  崔昕  (74)专利代理 机构 江苏圣典律师事务所 32 237 代理人 于瀚文 胡建华 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/30(2012.01) G06F 16/182(2019.01) G06F 30/27(2020.01) G06F 119/12(2020.01) (54)发明名称 一种基于改进KNN的分布式地铁客流预测方 法 (57)摘要 本发明提供了一种基于改进 KNN的分布式地 铁客流预测方法, 包括: 搭建集群环境; 获取具体 一个地铁站的所有的历史入站刷卡记录以及预 测当天的入站刷卡记录; 利用分布式系统, 将地 铁入站刷卡记录按照小时划分, 作为一小时内的 地铁客流; 计算所有的历史入站人数与预测当天 的入站人数的向量距离; 选 取不同的K值, 并且计 算偏差和方差, 得到最优的K值; 利用历史入站人 数数据, 训练LightGBM算法模型; 选 择K条向量距 离最小的历史入站人数数据, 输入模型, 得到一 组预测值。 根据LightGBM的预测值, 用KNN公式预 测当天每小时的地铁客流。 本方法融合了KNN和 LightGBM算法, 有效地利用了 所有历史数据来预 测地铁客 流情况, 并且 模型准确率较高。 权利要求书2页 说明书5页 附图3页 CN 114118555 A 2022.03.01 CN 114118555 A 1.一种基于改进KN N的分布式地铁客 流预测方法, 其特 征在于, 包括如下步骤: 步骤1: 搭建Hadoop分布式环境, Hadoop分布式环境包括HDFS分布式文件系统, 搭建服 务器的Spark分布式环境; 步骤2: 获取具体一个地铁站 的所有的历史入站刷卡记录以及预测当天的入站刷卡记 录, 存入HDFS分布式文件系统; 步骤3: 根据历史入站刷卡记录, 按照小时划分, 利用分布式系统统计出一天中每个小 时的刷卡数量, 作为 一小时内的地铁客 流; 步骤4: 分布式计算所有的历史入站人数与预测当天的入站人数的向量距离, 按照升序 排列; 步骤5: 对于步骤4中得到的数据, 选取不同的K值, 计算第一至第K个向量距离的偏差和 方差, 当偏差和方差最小时, 得到最优的K值; 步骤6: 根据最优的K值, 利用历史的客 流数据, 用来训练L ightGBM算法模型; 步骤7: 根据 最优的K值, 选择K条历史入站人数的数据, 输入到LightGBM算法模型, 得到 K组每小时的预测值; 步骤8: 根据K组每小时的预测值, 利用K近邻预测当天每小时的地铁客 流。 2.根据权利要求1所述的一种基于改进KNN的分布式地铁客流预测方法, 其特征在于, 步骤2中, 对于历史入站刷卡记录和预测当天的入站刷卡记录, 以入站刷卡记录作为入站人 数, 记录的结构包括记录时间和用户识别号。 3.根据权利要求2所述的一种基于改进KNN的分布式地铁客流预测方法, 其特征在于, 步骤3中, 从HDFS分布式文件系统中读取历史入站刷卡记录数据, 并对读取的数据进 行分布 式并行处 理, 得到每一天的人 数数据, 一天中按照小时划分。 4.根据权利要求3所述的一种基于改进KNN的分布式地铁客流预测方法, 其特征在于, 步骤4中, 利用了Ha doop的MapReduc e过程进行计算, MapReduce包括Map阶段和Reduce阶段, 具体包括如下步骤: 步骤4‑1: 读取n天的历史入站人数sn={xn1, xn2,…, xn24}, xni代表第n天i时的人数, i取 值为1~24且i为整数, 读取预测当天的数据q={y1, y2,…, yk}, yk代表预测当天k时的人数, k取值为2~23, 且为整数; 步骤4‑2: 分布式计算向量距离 i=1, 2,…, n, 具体的, 将键值对 <i, si>作为Map阶段的输入, 其中si为第i天的历史入站人数; 将<Li, i>作为Map阶段的 输出; 在Reduce阶段, 对<Li, i>进行升序排序, 并交换参数位置, 记为<i, Mi>, Mi表示升序 排列第i位的向量距离, 将结果保存到 HDFS分布式文件系统。 5.根据权利要求4所述的一种基于改进KNN的分布式地铁客流预测方法, 其特征在于, 步骤5包括: 步骤5‑1: 读取结果<i, Mi>, 分布式计算{Mi|i=1, 2, …, K}的偏差B和方差V, 具体的, 先生成键值对<i, (M1, M2,…Mi)>, 作为Map阶段的输入, 将<i, (B, V)>作为Map阶段的输 出; 步骤5‑2: 当K值在1到n之间变化时, 存在一个最优的K值, 使得偏差B和方差V最低, 选取权 利 要 求 书 1/2 页 2 CN 114118555 A 2此时的K值。 6.根据权利要求5所述的一种基于改进KNN的分布式地铁客流预测方法, 其特征在于, 步骤6包括: 步骤6‑1: 初始化变量x= k, 预测当天k时的人 数; 步骤6‑2: 将历史前k小时的历史入站人数数据作为特征值, 第x小时的历史入站人数数 据作为目标值; 步骤6‑3: 将历史入站人 数数据进行归一 化操作; 步骤6‑4: 利用K折交叉验证法训练L ightGBM算法模型, L ightGBM算法模型记为CLFx; 步骤6‑5: 更新x=x+1, 重复步骤6 ‑2至步骤6 ‑5, 直到x=24。 7.根据权利要求6所述的一种基于改进KNN的分布式地铁客流预测方法, 其特征在于, 步骤7中, 将K条历史入站人数数据作为输入, 通过LightGBM算法模型CLFx得到多组预测 值 λxi, i=1,…, K, x=k, …, 24, λxi代表第i条历史入站 人数对应的LightGB M算法预测的第x小 时的人数。 8.根据权利要求7所述的一种基于改进KNN的分布式地铁客流预测方法, 其特征在于, 步骤8中, 利用公式 x=k,…, 24来计算当天每小时的地铁客流, yx表示x 时的预测的人 数。 9.根据权利要求8所述的一种基于改进KNN的分布式地铁客流预测方法, 其特征在于, 还包括步骤9: 将预测结果可视化, 以时间为横坐标, 以人数为 纵坐标, 用两条折线代表实际 人数和预测的人 数, 生成折线图。权 利 要 求 书 2/2 页 3 CN 114118555 A 3

.PDF文档 专利 一种基于改进KNN的分布式地铁客流预测方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于改进KNN的分布式地铁客流预测方法 第 1 页 专利 一种基于改进KNN的分布式地铁客流预测方法 第 2 页 专利 一种基于改进KNN的分布式地铁客流预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:14:31上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。