专利 一种跨物种编码多肽sORF的预测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111305379.3 (22)申请日 2021.11.05 (71)申请人南京邮电大学地址 210003 江苏省南京市栖霞区文苑路9 号 (72)发明人郭丽　姜雯雯　夏道良　 (74)专利代理机构南京纵横知识产权代理有限公司 32224 代理人刘妍妍 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06F 119/02(2020.01) (54)发明名称一种跨物种编码多肽s ORF的预测方法 (57)摘要本发明属于生物信息领域，公开了一种跨物种编码多肽sORF的预测方法，整合了sORF数据库中人和小鼠、 TAIR数据库中拟南芥以及NCBI数据库中部分原核生物的可编码蛋白的DNA序列，并通过数据过滤策略和负样本产生策略构建各物种相应的正负样本；提取序列特征，并利用最大相关最小冗余和增量选择的方法对训练集进行特征筛选，得到不同方法对应的最佳特征集，构建肽编码sORF预测模型；利用贪婪的网格搜索方法进行参数优化，构建基于支持向量机的最佳预测模型，并通过灵敏度、特异度、准确率和马修斯相关系数对预测模型经行评估。本方法有助于分类识别肽编码sORFs，对肽编码sORFs的研究和基因注释有重要意义。权利要求书2页说明书9页附图2页 CN 114154396 A 2022.03.08 CN 114154396 A 1.一种跨物种编码多肽s ORF的预测方法，其特征在于，包括以下步骤：将非编码序列产生策略应用于多个物种的肽编码sORFs的数据集，分别得到与之对应的非编码sORFs数据集；将各物种的肽编码sORFs和非编码sORFs分别去冗余，得到各物种相应的正负样本，构建训练集和测试集；提取各数据集中相应的特征参数；结合最大相关最小冗余策略和增量选择方法选取表现较好的特征，构建相应特征集；构建基于支持向量机肽编码sORFs的预测模型，将训练集的特征集用于模型训练；利用贪婪的网格搜索方法对训练模型进一步优化，分别得到指定参数范围内的最佳预测模型；利用预测模型对测试集进行预测，分析各数据集预测结果，比较评估不同特征选取策略的预测效率，得到表现最好的特征集和预测模型作为最佳的特征集和预测模型。 2.根据权利要求1所述的跨物种编码多肽sORF的预测方法，其特征在于，从sORF数据库中下载人和小鼠的编码序列，从TAIR数据库中下载拟南芥的CDS，从NCBI数据库中下载部分原核生物基因组的CDS；根据数据过滤策略滤除 “错误”序列，得到多个物种的肽编码sORFs 的数据集。 3.根据权利要求2所述的一种跨物种编码多肽sORF的预测方法，其特征在于， “错误”序列过滤策略为：滤除sORF长度≥10 0aa；滤除序列长度不能被3整除的s ORF；滤除以终止密码子开头的s ORF；滤除不以终止密码子结尾的s ORF；滤除序列中带有终止密码子的s ORF。 4.根据权利要求1所述的跨物种编码多肽s ORF的预测方法，其特征在于，非编码序列产生策略为：固定起始密码子和终止密码子，随机打乱每个正sORF序列；确保在序列末端的终止密码子之前没有任何终止密码子。 5.根据权利要求1所述的跨物种编码多肽sORF的预测方法，其特征在于，去冗余方法为：通过CDHit程序，将各物种的肽编码sORFs和非编码sORFs分别去冗余，得到各物种相应的正负样本，构建训练集和测试集；去冗余阈值设为0.80，滤除相似度大于80％的DNA序列。 6.根据权利要求1所述的跨物种编码多肽sORF的预测方法，其特征在于，根据9种不同的特征选取策略，提取各数据集中相应的特征参数；所述9种不同的特征选取策略分别为： CPPred、 2mer、 3mer、 TN、 ITN、 Cyl indrical、 Spherical、 Codo n、 Amino。 7.根据权利要求1所述的跨物种编码多肽sORF的预测方法，其特征在于，利用PyCharm 软件提取各数据集中DNA序列的特征参数；利用PyCharm软件pymrmr包实现MRMR策略和增量选择方法，完成特征排序，构建相应的特征集。 8.根据权利要求1所述的跨物种编码多肽s ORF的预测方法，其特征在于，网格搜索方法的参数设置： cmin：惩罚参数c的变化范围的最小值；默认为 ‑5； cmax：惩罚参数c的变化范围的最大值；默认为5；权　利　要　求　书 1/2 页 2 CN 114154396 A 2gmin：参数g的变化范围的最小值；默认为 ‑5； gmax：参数g的变化范围的最大值；默认为5； v：交叉验证的参数；默认为3； cstep：参数c步进的大小；默认为1； gstep：参数g步进的大小；默认为1； accstep：最后显示准确率图时的步进大小；默认为1.5 。 9.根据权利要求1所述的一种跨物种编码多肽sORF的预测方法，其特征在于，利用 matlab的libsvm包，利用预测模型对测试集进行跨物种预测，根据Sn、 Sp、 A CC、 MCC， 4个指标分析预测结果，对预测模型进行比较评估，将表现最好的特征集和预测模型作为跨物种编码多肽sORF的预测方法的特征集和预测模型。 10.根据权利要求9所述的一种跨物种编码多肽sORF的预测方法，评估指标计算公式如下：其中， Sn为灵敏度， Sp为特异度， ACC为准确率， MCC为马修斯相关系数， TP为真正例， FN 为假负例， TN 为真负例， FP假正例。权　利　要　求　书 2/2 页 3 CN 114154396 A 3

专利 一种跨物种编码多肽sORF的预测方法

专利一种跨物种编码多肽sORF的预测方法