本发明适用于生物信息技术领域,提供了一种甲基化作用的预测方法、装置,所述方法包括:下载得到被甲基化作用的数据;根据所述被甲基化作用的数据获取原始蛋白质序列数据;对所述原始蛋白质序列数据进行预处理,得到阳性数据集和阴性数据集;对所述阳性数据集和所述阴性数据集中的字符串数据进行编码,得到数值型数据;对所述阳性数据集和所述阴性数据集中的数值型数据利用分类算法进行建模,根据建模得到的模型计算最佳的分割方式,最后根据所述分割方式将需要预测是否被甲基化的数据集中的数据划分为两类,一类为被甲基化作用的数据,另一类为没有被甲基化作用的数据。本发明,不需要人工的参与,也不需要绘制图谱,可以节省时间,费用也便宜。
一种甲基化作用的预测方法,其特征在于,所述方法包括:步骤1、下载得到被甲基化作用的数据;步骤2、根据所述被甲基化作用的数据获取原始蛋白质序列数据;步骤3、对所述原始蛋白质序列数据进行预处理,得到阳性数据集和阴性数据集;步骤4、对所述阳性数据集和所述阴性数据集中的字符串数据进行编码,得到数值型数据;步骤5、对所述阳性数据集和所述阴性数据集中的数值型数据利用分类算法进行建模,根据建模得到的模型计算最佳的分割方式,最后根据所述分割方式将需要预测是否被甲基化的数据集中的数据划分为两类,一类为被甲基化作用的数据,另一类为没有被甲基化作用的数据;其中,所述方法还包括下述步骤:在获得被甲基化位点数据的蛋白质序列数据后,根据该被甲基化位点数据的蛋白质序列数据得到蛋白质不稳定结构区间的数据,进而得到新的11个长度的字符串数据,然后对原11肽PSP(5,5)加上所述新的11个长度的字符串数据,得到总计长度为22的字符串数据,再按照步骤4中提到的编码方法对所述长度为22的字符串数据进行编码,得到数值型数据再进行后续的分类预测。
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
评价单位:- (-)
评价时间:2022-10-31
综合评价
这个企业已经有一定的基础,建议与相关学会组织搭建平台,请学会以及研究所、大学和相关企业参与,可能会攻克难关,会对我们国家甚至世界所存在问题提出解决的措施并做出贡献,前途可期。
查看更多>