说明:最全专利文库
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111305379.3 (22)申请日 2021.11.05 (71)申请人 南京邮电大 学 地址 210003 江苏省南京市栖霞区文苑路9 号 (72)发明人 郭丽 姜雯雯 夏道良  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 代理人 刘妍妍 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06F 119/02(2020.01) (54)发明名称 一种跨物种编码多肽s ORF的预测方法 (57)摘要 本发明属于生物信息领域, 公开了一种跨物 种编码多肽sORF的预测方法, 整 合了sORF数据库 中人和小鼠、 TAIR数据库中拟南芥以及NCBI数据 库中部分原核生物的可编码蛋白的DNA序列, 并 通过数据过滤策略和负样本产生策略构建各物 种相应的正负样本; 提取序列特征, 并利用最大 相关最小冗余和增量选择的方法对训练集进行 特征筛选, 得到不同方法对应的最佳特征集, 构 建肽编码sORF预测模型; 利用贪婪的网格搜索方 法进行参数优化, 构建基于支持向量机的最佳预 测模型, 并通过灵敏度、 特异度、 准确率和马修斯 相关系数对 预测模型经行评估。 本方法有助于分 类识别肽编码sORFs, 对肽编码sORFs的研究和基 因注释有重要意 义。 权利要求书2页 说明书9页 附图2页 CN 114154396 A 2022.03.08 CN 114154396 A 1.一种跨物种编码多肽s ORF的预测方法, 其特 征在于, 包括以下步骤: 将非编码序列产生策略应用于多个物种的肽编码sORFs的数据集, 分别得到与之对应 的非编码sORFs数据集; 将各物种的肽编码sORFs和非编码sORFs分别去冗余, 得到各物种相 应的正负 样本, 构建训练集和 测试集; 提取各数据集中相应的特征参数; 结合最大相关最小冗余策略和增量选择方法选取表 现较好的特征, 构建相应特征集; 构建基于支持向量机肽编码sORFs的预测模型, 将训练集 的特征集用于模型训练; 利用贪婪的网格搜索方法对训练模型进一步优化, 分别得到指定 参数范围内的最佳 预测模型; 利用预测模型对测试集进行预测, 分析各数据集预测结果, 比较评估不同特征选取策 略的预测效率, 得到表现最 好的特征集和预测模型作为 最佳的特 征集和预测模型。 2.根据权利 要求1所述的跨物种编码多肽sORF的预测方法, 其特征在于, 从sORF数据库 中下载人和小鼠的编码序列, 从TAIR数据库中下载拟南芥的CDS, 从NCBI数据库中下载部 分 原核生物基因组的CDS; 根据数据过滤策略滤除 “错误”序列, 得到多个物种的肽编码sORFs 的数据集。 3.根据权利 要求2所述的一种跨物种编码多肽sORF的预测方法, 其特征在于, “错误”序 列过滤策略为: 滤除sORF长度≥10 0aa; 滤除序列长度不能被3整除的s ORF; 滤除以终止密码子开头的s ORF; 滤除不以终止密码子结尾的s ORF; 滤除序列中带有终止密码子的s ORF。 4.根据权利要求1所述的跨物种编码多肽s ORF的预测方法, 其特 征在于, 非编码序列产生策略为: 固定起始密码子和终止密码子, 随机打乱每 个正sORF序列; 确保在序列末端的终止密码子之前没有任何终止密码子 。 5.根据权利要求1所述的跨物种编码多肽sORF的预测方法, 其特征在于, 去冗余方法 为: 通过CDHit程序, 将各物种的肽编码sORFs和非编码sORFs分别去冗余, 得到各物种相应 的正负样本, 构建训练集和 测试集; 去冗余阈值设为0.80, 滤除相似度大于80%的DNA序列。 6.根据权利要求1所述的跨物种编码多肽sORF的预测方法, 其特征在于, 根据9种不同 的特征选取策略, 提取各数据集中相应的特征参数; 所述9种不同的特征选取策略分别为: CPPred、 2mer、 3mer、 TN、 ITN、 Cyl indrical、 Spherical、 Codo n、 Amino。 7.根据权利要求1所述的跨物种编码多肽sORF的预测方法, 其特征在于, 利用PyCharm 软件提取各数据集中DNA序列的特征参数; 利用PyCharm软件pymrmr包实现MRMR策略和增量 选择方法, 完成特 征排序, 构建相应的特 征集。 8.根据权利要求1所述的跨物种编码多肽s ORF的预测方法, 其特 征在于, 网格搜索方法的参数设置: cmin: 惩罚参数c的变化范围的最小值; 默认为 ‑5; cmax: 惩罚参数c的变化范围的最大值; 默认为5;权 利 要 求 书 1/2 页 2 CN 114154396 A 2gmin: 参数g的变化范围的最小值; 默认为 ‑5; gmax: 参数g的变化范围的最大值; 默认为5; v: 交叉验证的参数; 默认为3; cstep: 参数c步进的大小; 默认为1; gstep: 参数g步进的大小; 默认为1; accstep: 最后显示 准确率图时的步进大小; 默认为1.5 。 9.根据权利要求1所述的一种跨物种编码多肽sORF的预测方法, 其特征在于, 利用 matlab的libsvm包, 利用预测模型对测试集进行跨物种预测, 根据Sn、 Sp、 A CC、 MCC, 4个指标 分析预测结果, 对预测模型进行比较评估, 将表现最好的特征集和预测模型作为跨物种编 码多肽sORF的预测方法的特 征集和预测模型。 10.根据权利要求9所述的一种跨物种编码多肽sORF的预测方法, 评估指标计算公式如 下: 其中, Sn为灵敏度, Sp为特异度, ACC为准确率, MCC为马修斯相关系数, TP为真正例, FN 为假负例, TN 为真负例, FP假 正例。权 利 要 求 书 2/2 页 3 CN 114154396 A 3

.PDF文档 专利 一种跨物种编码多肽sORF的预测方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种跨物种编码多肽sORF的预测方法 第 1 页 专利 一种跨物种编码多肽sORF的预测方法 第 2 页 专利 一种跨物种编码多肽sORF的预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:15:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。