(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111303117.3
(22)申请日 2021.11.05
(71)申请人 中国医学 科学院医学信息 研究所
地址 100020 北京市朝阳区雅宝路3号
(72)发明人 陈松景 吴思竹
(74)专利代理 机构 北京正阳理工知识产权代理
事务所(普通 合伙) 11639
代理人 张利萍
(51)Int.Cl.
G16H 50/20(2018.01)
G16H 50/30(2018.01)
G06F 30/27(2020.01)
G06F 119/02(2020.01)
(54)发明名称
一种老年肺癌发病危险因素定量分析方法
(57)摘要
本发明涉及一种老年肺癌发病危险因素定
量分析方法, 属于医学生物信息处理技术领域。
所述方法整合调查对象 的相关数据, 如人口统计
学数据, 吸烟习惯、 疾病史、 辐射暴露和行为风险
有关数据; 针对肺癌实际发病人数远低于未患病
人数的问题, 开展数据不平衡处理, 进而对数据
进行预处理和分层划分; 使用深度神经网络方法
对老年分层数据分别训练模型, 识别出各自的危
险因素, 开展老年肺癌发病危险因素的定量分
析。 所述方法具有精度高、 计算速度快的优势, 可
作为大规模 数据的高速计算使用; 具有定量化分
析、 准确率高的优点且操作简单。
权利要求书1页 说明书4页 附图2页
CN 113936795 A
2022.01.14
CN 113936795 A
1.一种老年肺癌发病危险因素定量分析 方法, 其特 征在于: 包括如下步骤:
步骤1、 获取老年人调查数据, 并结合气象数据和环境数据, 整合形成跨领域数据源M;
步骤2、 在步骤1得到跨领域数据源M的基础上开展数据预处 理, 得到预处 理后数据;
步骤3、 用步骤2得到的预处理后数据分别训练深度神经网络模型, 得到各分层人群的
危险因素, 具体包括:
步骤3.1、 对n组分层人群的数据分别进行 数据格式转换, 分别建立训练集和 测试集;
步骤3.2、 利用训练集训练产生n个训练好的深度神经网络模型, 具体为: 把训练集中的
数据作为深度神经网络模型 的输入, 通过隐含层计算不同危险因素 的权重, 在输出层得到
危险因素 各自的权 重值, 得到n个训练好的深度神经网络模型;
步骤3.3、 将测试集输入n个训练好的深度神经网络模型, 识别出各分层人群的危险因
素, 具体为: 把测试集中的数据作为n个训练好的深度神经网络模型 的输入, 神经网络模型
隐含层计算 不同危险因素的权 重, 输出层得到危险因素 各自的权 重值;
步骤4、 对各分层人群的危险因素对应的不同分层人群肺癌发病危险因素的权重分别
进行归一 化处理, 得到定量的n组分层人群的危险因素。
2.依据权利要求1所述的一种老年肺癌发病危险因素定量分析方法, 其特征在于: 步骤
2, 具体包括如下子步骤:
步骤2.1、 采用合成少数 过采样SMOTE对数据进行平衡处 理, 得到平衡处 理后数据;
步骤2.2、 对平衡处 理后数据采取空缺 值弥补和噪声平 滑, 得到平 滑后数据;
步骤2.3、 对步骤2.2输出的平 滑后数据进行分层划分, 得到预处 理后数据。
3.依据权利要求2所述的一种老年肺癌发病危险因素定量分析方法, 其特征在于: 步骤
2.1中, SMOTE, 即合成少数过采样; 所述平衡处理即解决数据不平衡问题, 该不平衡问题由
于肺癌患病率低, 实际发病人 数远低于未患病人 数而引起的。
4.依据权利要求2所述的一种老年肺癌发病危险因素定量分析方法, 其特征在于: 步骤
2.2中, 平滑后数据与平衡处理后数据相比, 解决了数据源即平衡处理后数据存在空缺值以
及数据不完整的问题。
5.依据权利要求2所述的一种老年肺癌发病危险因素定量分析方法, 其特征在于: 步骤
2.3中, 分层划分, 具体为: 首先对数据按照性别划分, 然后按照年龄大于等于r岁和小于r岁
进行划分, 从而生成n组分层人群, 分层划分后的数据, 称为预处 理后数据。
6.依据权利要求1所述的一种老年肺癌发病危险因素定量分析方法, 其特征在于: 步骤
3.1中, n组分层人群的数据中的x%为训练集, 1 ‑x%为测试集; 其中, x%中x的范围为50到
80。
7.依据权利要求1所述的一种老年肺癌发病危险因素定量分析方法, 其特征在于: 步骤
3.2中, 隐含层权 重构成了训练好后的深度神经网络模型。权 利 要 求 书 1/1 页
2
CN 113936795 A
2一种老年肺癌发病危险因素定量分析方 法
技术领域
[0001]本发明涉及 一种老年肺癌发病危险因素定量分析方法, 属于医学生物信息处理技
术领域。
背景技术
[0002]肺癌已成为全球发病率和死亡率增长最快的恶性肿瘤, 尤其在老年人中更加突
出, 对其生活质量产生很大影响, 也给国家和家庭带来巨大经济压力, 同时, 老年人肺癌发
病隐匿、 临床表现无特异性, 容易出现误诊和漏诊, 又加上年龄偏大, 易伴随发生或共存多
系统疾病, 导致后续治疗难度增加。 近年来, 随着我国人 口老龄化日益凸显, 开展积极有效
的针对老年人的肺癌预防和控制研究越来越急迫。 但是, 肺癌发生是个复杂的过程, 涉及多
种危险因素 的综合作用, 及时发现这些危险因素与肺癌 发病之间的定量关联关系, 有助于
了解老年肺癌 发病机理, 有利于有效开展针对老年肺癌的精准预防, 能够为积极应对老龄
化战略目标提供技 术支撑。
[0003]本发明采用深度学习方法识别老年肺癌发病的危险因素, 并定量分析这些危险因
素对肺癌发生的影响程度。
发明内容
[0004]本发明的目的在于针对老年肺癌发生与多种危险因素之间的定量关联关系尚不
明确的问题, 提出了一种老年肺癌 发病危险因素定量分析方法, 该方法基于深度神经网络
定量分析老年肺癌发病危险因素。
[0005]本发明的核心思想为在于: 整合调查对象的相关数据, 如人口统计学数据, 吸烟习
惯、 疾病史、 辐射暴露和行为风险有关数据; 针对肺癌实际发病人数远低于未患病人数的问
题, 开展数据不平衡处理, 进而对数据进 行预处理和分层划分; 使用深度神经网络方法对老
年分层数据分别训练模型, 识别出各自的危险因素, 开展老年肺癌 发病危险因素 的定量分
析。
[0006]为了实现上述目的, 本发明采用的技 术方案如下:
[0007]所述老年肺癌发病危险因素定量分析 方法, 包括如下步骤:
[0008]步骤1、 获取老年人调查数据, 并结合气象数据和环境数据, 整合形成跨领域数据
源M;
[0009]步骤2、 在步骤1得到跨领域数据源M的基础上开展数据预处理, 得到预处理后数
据, 具体包括如下子步骤:
[0010]步骤2.1、 采用合成少数 过采样SMOTE对数据进行平衡处 理, 得到平衡处 理后数据;
[0011]其中, SMOTE, 即合成少数过采样; 所述平衡处理即解决数据不平衡问题, 该不平衡
问题由于肺癌 患病率低, 实际发病人 数远低于未患病人 数而引起的;
[0012]步骤2.2、 对平衡处 理后数据采取空缺 值弥补和噪声平 滑, 得到平 滑后数据;
[0013]其中, 平滑后数据与平衡处理后数据相比, 解决了数据源即平衡处理后数据存在说 明 书 1/4 页
3
CN 113936795 A
3
专利 一种老年肺癌发病危险因素定量分析方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 05:15:41上传分享