说明:最全专利文库
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111305379.3 (22)申请日 2021.11.05 (71)申请人 南京邮电大 学 地址 210003 江苏省南京市栖霞区文苑路9 号 (72)发明人 郭丽 姜雯雯 夏道良 (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 代理人 刘妍妍 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06F 119/02(2020.01) (54)发明名称 一种跨物种编码多肽s ORF的预测方法 (57)摘要 本发明属于生物信息领域, 公开了一种跨物 种编码多肽sORF的预测方法, 整 合了sORF数据库 中人和小鼠、 TAIR数据库中拟南芥以及NCBI数据 库中部分原核生物的可编码蛋白的DNA序列, 并 通过数据过滤策略和负样本产生策略构建各物 种相应的正负样本; 提取序列特征, 并利用最大 相关最小冗余和增量选择的方法对训练集进行 特征筛选, 得到不同方法对应的最佳特征集, 构 建肽编码sORF预测模型; 利用贪婪的网格搜索方 法进行参数优化, 构建基于支持向量机的最佳预 测模型, 并通过灵敏度、 特异度、 准确率和马修斯 相关系数对 预测模型经行评估。 本方法有助于分 类识别肽编码sORFs, 对肽编码sORFs的研究和基 因注释有重要意 义。 权利要求书2页 说明书9页 附图2页 CN 114154396 A 2022.03.08 CN 114154396 A 1.一种跨物种编码多肽s ORF的预测方法, 其特 征在于, 包括以下步骤: 将非编码序列产生策略应用于多个物种的肽编码sORFs的数据集, 分别得到与之对应 的非编码sORFs数据集; 将各物种的肽编码sORFs和非编码sORFs分别去冗余, 得到各物种相 应的正负 样本, 构建训练集和 测试集; 提取各数据集中相应的特征参数; 结合最大相关最小冗余策略和增量选择方法选取表 现较好的特征, 构建相应特征集; 构建基于支持向量机肽编码sORFs的预测模型, 将训练集 的特征集用于模型训练; 利用贪婪的网格搜索方法对训练模型进一步优化, 分别得到指定 参数范围内的最佳 预测模型; 利用预测模型对测试集进行预测, 分析各数据集预测结果, 比较评估不同特征选取策 略的预测效率, 得到表现最 好的特征集和预测模型作为 最佳的特 征集和预测模型。 2.根据权利 要求1所述的跨物种编码多肽sORF的预测方法, 其特征在于, 从sORF数据库 中下载人和小鼠的编码序列, 从TAIR数据库中下载拟南芥的CDS, 从NCBI数据库中下载部 分 原核生物基因组的CDS; 根据数据过滤策略滤除 “错误”序列, 得到多个物种的肽编码sORFs 的数据集。 3.根据权利 要求2所述的一种跨物种编码多肽sORF的预测方法, 其特征在于, “错误”序 列过滤策略为: 滤除sORF长度≥10 0aa; 滤除序列长度不能被3整除的s ORF; 滤除以终止密码子开头的s ORF; 滤除不以终止密码子结尾的s ORF; 滤除序列中带有终止密码子的s ORF。 4.根据权利要求1所述的跨物种编码多肽s ORF的预测方法, 其特 征在于, 非编码序列产生策略为: 固定起始密码子和终止密码子, 随机打乱每 个正sORF序列; 确保在序列末端的终止密码子之前没有任何终止密码子 。 5.根据权利要求1所述的跨物种编码多肽sORF的预测方法, 其特征在于, 去冗余方法 为: 通过CDHit程序, 将各物种的肽编码sORFs和非编码sORFs分别去冗余, 得到各物种相应 的正负样本, 构建训练集和 测试集; 去冗余阈值设为0.80, 滤除相似度大于80%的DNA序列。 6.根据权利要求1所述的跨物种编码多肽sORF的预测方法, 其特征在于, 根据9种不同 的特征选取策略, 提取各数据集中相应的特征参数; 所述9种不同的特征选取策略分别为: CPPred、 2mer、 3mer、 TN、 ITN、 Cyl indrical、 Spherical、 Codo n、 Amino。 7.根据权利要求1所述的跨物种编码多肽sORF的预测方法, 其特征在于, 利用PyCharm 软件提取各数据集中DNA序列的特征参数; 利用PyCharm软件pymrmr包实现MRMR策略和增量 选择方法, 完成特 征排序, 构建相应的特 征集。 8.根据权利要求1所述的跨物种编码多肽s ORF的预测方法, 其特 征在于, 网格搜索方法的参数设置: cmin: 惩罚参数c的变化范围的最小值; 默认为 ‑5; cmax: 惩罚参数c的变化范围的最大值; 默认为5;权 利 要 求 书 1/2 页 2 CN 114154396 A 2gmin: 参数g的变化范围的最小值; 默认为 ‑5; gmax: 参数g的变化范围的最大值; 默认为5; v: 交叉验证的参数; 默认为3; cstep: 参数c步进的大小; 默认为1; gstep: 参数g步进的大小; 默认为1; accstep: 最后显示 准确率图时的步进大小; 默认为1.5 。 9.根据权利要求1所述的一种跨物种编码多肽sORF的预测方法, 其特征在于, 利用 matlab的libsvm包, 利用预测模型对测试集进行跨物种预测, 根据Sn、 Sp、 A CC、 MCC, 4个指标 分析预测结果, 对预测模型进行比较评估, 将表现最好的特征集和预测模型作为跨物种编 码多肽sORF的预测方法的特 征集和预测模型。 10.根据权利要求9所述的一种跨物种编码多肽sORF的预测方法, 评估指标计算公式如 下: 其中, Sn为灵敏度, Sp为特异度, ACC为准确率, MCC为马修斯相关系数, TP为真正例, FN 为假负例, TN 为真负例, FP假 正例。权 利 要 求 书 2/2 页 3 CN 114154396 A 3
专利 一种跨物种编码多肽sORF的预测方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-19 05:15:46
上传分享
举报
下载
原文档
(1.0 MB)
分享
友情链接
GB-T 42453-2023 信息安全技术 网络安全态势感知通用技术要求.pdf
ISOIEC 30111-2019.pdf
YD-T 4011-2022 5G网络管理技术要求 总体要求.pdf
GB-T 31986-2015 电子工业用气体 八氟丙烷.pdf
GB-T 1457-2022 夹层结构滚筒剥离强度试验方法.pdf
GB-T 33647-2017 车用汽油中硅含量的测定 电感耦合等离子体发射光谱法.pdf
专利 数据资产风险发现方法和装置.PDF
T-CSPSTC 103—2022 氢气管道工程设计规范.pdf
GB-T 5398-2016 大型运输包装件试验方法.pdf
DB31-T 1343-2022 医用超声探头消毒卫生要求 上海市.pdf
DB5301-T 62-2021 滇池流域农村生活污水处理设施水污染物排放要求及限值 昆明市.pdf
GB-T 22264.4-2022 安装式数字显示电测量仪表 第4部分:频率表的特殊要求.pdf
YD-T 3763.6-2021 研发运营一体化(DevOps)能力成熟度模型 第6部分:安全及风险管理.pdf
GB-T 36250-2018 基于模型的航空装备研制 企业数字化能力等级评价.pdf
T-CPUMT 006—2022 工业数据安全事件应急预案编制指南.pdf
GB-T 35010.3-2018 半导体芯片产品 第3部分:操作、包装和贮存指南.pdf
GB-T 21511.2-2008 纳米磷灰石-聚酰胺复合材料 第2部分:技术要求.pdf
YD-T 1731-2008 电信网和互联网灾难备份及恢复实施指南.pdf
GB-T 14055.1-2008 中子参考辐射 第1部分:辐射特性和产生方法.pdf
绿盟 2020 数据安全前沿技术研究报告.pdf
1
/
3
14
评价文档
赞助2元 点击下载(1.0 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。