您所在的位置: 成果库 一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法

一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法

成果类型:: 发明专利

发布时间: 2022-10-27 09:54:25

科技成果产业化落地方案
方案提交机构:天津市滨海新区| 门松 | 2022-10-27 11:27:51
本发明提供的由生物芯片数据构建多类别特异表达分子集及类别网的方法包括:设置和输入n组芯片数据;筛选多组间差异表达的分子;计算差异表达分子在任意两组间的表达差异,得到每个分子的差异表达模式编码;将具有相同编码模式的分子归为同一组,得到m个阶段特异表达分组;采用单侧Fisher精确检验进行富集分析,得到类别特异表达的分子集合;构建各状态间的连接网络,得到类别网。该方法有利于对疾病状态进展的预测,对临床的诊疗具有重要意义。此外,本发明还提供了一种评价由生物芯片数据构建的多类别特异表达分子集的分类能力的方法,以及一种由生物芯片数据构建多类别特异表达分子集及类别网的方法的应用。
一种由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,包括以下步骤:(1)设置和输入n组芯片数据;(2)筛选多组间差异表达的分子,包括:对任意一个分子进行多组间的单因素方差分析,并为所得统计值设定阈值;判断所得统计值是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果,执行下一步;(3)通过统计学检验的方法计算多组间差异表达分子在任意两组间的表达差异,为所得统计值设定阈值;并针对多组间差异表达分子中的每个分子,构建长度为的向量,如果所得统计值高于阈值,则在向量中相应的位置记为0,反之,记为1,得到多组间差异表达分子中的每个分子的差异表达模式编码

 随着人类基因组测序的完成,基于高通量的生物芯片分析,可显著提高寻找生物 学标记的能力,极大的提高制药业等行业的研发效率,加快产业化进程。一次芯片实验可获 取大量分子的表达信息,如人类mRNA芯片可一次性检测3万左右的基因,人类microRNA芯片 一次性可检测1千左右的microRNA。

分析芯片数据最重要的步骤之一为合理的从大量分子表达信息中挖掘表达具有 生物学意义的分子,即差异表达的分子。要进行差异表达的分析必须保证样本类别至少为 两类。对于两类样本的芯片数据,传统的方法通常为倍数分析法或t检验。t检验可检测两类 样本的分子表达值的均值间是否存在显著的统计学差异。对于多类样本,传统的方法为采 用方差分析的方法。方差分析是从观测变量的方差入手,研究众多控制变量中哪些变量是 对观测变量有显著影响的变量。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

本发明提供了一种由生物芯片数据构建多类别特异表达分子集及类别网的方法, 该方法先采用统计学的方法筛选出差异表达分子,并统计差异表达分子的表达编码模式, 然后再结合生物注释数据库的已知信息,对差异表达分子的表达编码模式进行富集分析, 并构建了类别网络。本发明提供的方法综合了统计学分析、模式识别以及生物学意义的优 势。该方法构建的类别网络,有利于对疾病状态进展的预测,对临床的诊疗具有重要意义。

本发明提供的方法首先对任意一个分子进行多组间的单因素方差分析,筛选出多 组间差异表达的分子,初步筛除非差异表达的分子。随后,通过统计学检验的方法计算所得 多组间差异表达分子在任意两组间的表达差异,找出差异表达分子具体在哪两组数据中存 在表达差异;并为每个分子在不同组间的差异表达情况标记表达编码〇或1,将具有同一种 表达编码模式的分子归为一类。之后结合现有的生物数据库等信息,对归类后的差异表达 分子进行富集分析,筛选出具有生物意义的差异表达分子,为临床等实际研究、应用提供参 考。

技术合作

根据类别特异基因集,构建各个状态间的连接网络,如图4所示。图4所示的类别 网为采用本发明应用实施例步骤4提供的60种差异表达模式中的一种构建类别网的结果, 由图4可知,除肝硬化状态(CS)与非肿瘤的癌旁状态(AS)两者之间没有筛选到类别特异表 达分子集,其他正常状态(HS)、肝硬化状态(CS)、肝细胞癌状态(HCS)以及非肿瘤的癌旁状 态(AS)两两之间皆具有类别特异表达分子集,即通过现有的生物数据库或相关信息注释 后,筛留到了在组合间具有相同表达变化趋势的分子集,这些分子能为临床或研究提供重 要指导意义。

综上,本发明提供的方法基于差异表达模式对生物芯片进行多类别的分析和富 集,构建的类别网络将使疾病状态进展的预测成为可能,对临床的诊疗具有重要意义。