基于回归森林模型的蛋白质序列二硫键连接模式的预测方法
发布时间: 2022-05-30
来源: 试点城市(园区)
基本信息
本发明公开一种基于回归森林模型的蛋白质序列二硫键连接模式的预测方法,包括以下步骤:步骤1、通过多视角特征提取和特征组合,得到蛋白质序列中每个半胱氨酸残基对的特征向量;步骤2、对于待预测的蛋白质序列信息和训练数据集合,生成待预测的蛋白质序列信息和训练数据集合中所有半胱氨酸残基对的特征向量,从而分别构成训练样本集合与待预测样本集合;步骤3、采用随机森林算法学习二硫键样本在特征空间中的分布规律,生成随机森林回归模型;步骤4、利用随机森林回归模型对待预测样本集合的特征向量进行预测,得到每个半胱氨酸残基对形成二硫键的倾向值,得分最高的二硫键连接模式即为最终预测得到的蛋白质序列中的二硫键连接模式。