您所在的位置: 成果库 一种甲基化作用的预测方法、装置

一种甲基化作用的预测方法、装置

成果类型:: 发明专利

发布时间: 2022-10-27 10:32:52

科技成果产业化落地方案
方案提交机构:天津市滨海新区| 门松 | 2022-10-27 17:21:41
本发明适用于生物信息技术领域,提供了一种甲基化作用的预测方法、装置,所述方法包括:下载得到被甲基化作用的数据;根据所述被甲基化作用的数据获取原始蛋白质序列数据;对所述原始蛋白质序列数据进行预处理,得到阳性数据集和阴性数据集;对所述阳性数据集和所述阴性数据集中的字符串数据进行编码,得到数值型数据;对所述阳性数据集和所述阴性数据集中的数值型数据利用分类算法进行建模,根据建模得到的模型计算最佳的分割方式,最后根据所述分割方式将需要预测是否被甲基化的数据集中的数据划分为两类,一类为被甲基化作用的数据,另一类为没有被甲基化作用的数据。本发明,不需要人工的参与,也不需要绘制图谱,可以节省时间,费用也便宜。
一种甲基化作用的预测方法,其特征在于,所述方法包括:步骤1、下载得到被甲基化作用的数据;步骤2、根据所述被甲基化作用的数据获取原始蛋白质序列数据;步骤3、对所述原始蛋白质序列数据进行预处理,得到阳性数据集和阴性数据集;步骤4、对所述阳性数据集和所述阴性数据集中的字符串数据进行编码,得到数值型数据;步骤5、对所述阳性数据集和所述阴性数据集中的数值型数据利用分类算法进行建模,根据建模得到的模型计算最佳的分割方式,最后根据所述分割方式将需要预测是否被甲基化的数据集中的数据划分为两类,一类为被甲基化作用的数据,另一类为没有被甲基化作用的数据;其中,所述方法还包括下述步骤:在获得被甲基化位点数据的蛋白质序列数据后,根据该被甲基化位点数据的蛋白质序列数据得到蛋白质不稳定结构区间的数据,进而得到新的11个长度的字符串数据,然后对原11肽PSP(5,5)加上所述新的11个长度的字符串数据,得到总计长度为22的字符串数据,再按照步骤4中提到的编码方法对所述长度为22的字符串数据进行编码,得到数值型数据再进行后续的分类预测。

甲基化是蛋白质和核酸的一种重要的修饰,调苄基因的表达和关闭,与癌症、衰 老、老年痴呆等许多疾病密切相关,是表观遗传学的重要研究内容之一。因此,了解特定甲 基化作用机制将会影响当前分子生物学的许多领域,对疾病的相关研究以及药物设计等方 面也都有很大的帮助。美国Salk生物研究院的Joseph Ecker及其同事刚刚通过高通量测序的方法,展现 了一张人胚胎干细胞中所有甲基胞嘧啶的完整图谱。美国Whitehead研究院的Meissner等 也曾绘制了类似的图谱。他们利用高通量的亚硫酸氢盐测序和单分子测序,产生了覆盖大 部分CpG岛的DNA甲基化图谱。

另外,两个独立的研究小组,分别为哈佛大学的George Church等,以及加州大学 的Kun Zhang连同弗吉尼亚联邦大学的Yuan Gao等,也将传统的甲基化工具如DNA的重亚硫 酸盐转化与目标基因组捕获技术和高通量测序相结合,定量测定人基因组中的甲基化。尽管这些甲基化图谱的绘制方法略有不同,但他们都采用了亚硫酸氢盐转化,将 未甲基化的胞嘧啶转化成尿嘧啶,并在随后的扩增步骤中转化成胸腺嘧啶。虽然这种甲基 化作用的测定方法很有效,但这种方法需要一些手工操作来确保完全的转化,并需要通过 计算分析来绘制图谱。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

提供了一种甲基化作用的预测方法、装置,所述方法包括:下载得到被甲基化作用的数据;根据所述被甲基化作用的数据获取原始蛋白质序列数据;对所述原始蛋白质序列数据进行预处理,得到阳性数据集和阴性数据集;对所述阳性数据集和所述阴性数据集中的字符串数据进行编码,得到数值型数据;对所述阳性数据集和所述阴性数据集中的数值型数据利用分类算法进行建模,根据建模得到的模型计算最佳的分割方式,最后根据所述分割方式将需要预测是否被甲基化的数据集中的数据划分为两类,一类为被甲基化作用的数据,另一类为没有被甲基化作用的数据。本发明,不需要人工的参与,也不需要绘制图谱,可以节省时间,费用也便宜。

技术合作

本发明实施例提供的甲基化作用的预测装置可以应用在前述对应的方法实施例 一中,详情参见上述实施例一的描述,在此不再赘述。值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划 分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体 名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。