一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法
成果类型:: 发明专利
发布时间: 2022-10-27 09:54:25
随着人类基因组测序的完成,基于高通量的生物芯片分析,可显著提高寻找生物 学标记的能力,极大的提高制药业等行业的研发效率,加快产业化进程。一次芯片实验可获 取大量分子的表达信息,如人类mRNA芯片可一次性检测3万左右的基因,人类microRNA芯片 一次性可检测1千左右的microRNA。
分析芯片数据最重要的步骤之一为合理的从大量分子表达信息中挖掘表达具有 生物学意义的分子,即差异表达的分子。要进行差异表达的分析必须保证样本类别至少为 两类。对于两类样本的芯片数据,传统的方法通常为倍数分析法或t检验。t检验可检测两类 样本的分子表达值的均值间是否存在显著的统计学差异。对于多类样本,传统的方法为采 用方差分析的方法。方差分析是从观测变量的方差入手,研究众多控制变量中哪些变量是 对观测变量有显著影响的变量。
本发明提供了一种由生物芯片数据构建多类别特异表达分子集及类别网的方法, 该方法先采用统计学的方法筛选出差异表达分子,并统计差异表达分子的表达编码模式, 然后再结合生物注释数据库的已知信息,对差异表达分子的表达编码模式进行富集分析, 并构建了类别网络。本发明提供的方法综合了统计学分析、模式识别以及生物学意义的优 势。该方法构建的类别网络,有利于对疾病状态进展的预测,对临床的诊疗具有重要意义。
本发明提供的方法首先对任意一个分子进行多组间的单因素方差分析,筛选出多 组间差异表达的分子,初步筛除非差异表达的分子。随后,通过统计学检验的方法计算所得 多组间差异表达分子在任意两组间的表达差异,找出差异表达分子具体在哪两组数据中存 在表达差异;并为每个分子在不同组间的差异表达情况标记表达编码〇或1,将具有同一种 表达编码模式的分子归为一类。之后结合现有的生物数据库等信息,对归类后的差异表达 分子进行富集分析,筛选出具有生物意义的差异表达分子,为临床等实际研究、应用提供参 考。
技术合作
根据类别特异基因集,构建各个状态间的连接网络,如图4所示。图4所示的类别 网为采用本发明应用实施例步骤4提供的60种差异表达模式中的一种构建类别网的结果, 由图4可知,除肝硬化状态(CS)与非肿瘤的癌旁状态(AS)两者之间没有筛选到类别特异表 达分子集,其他正常状态(HS)、肝硬化状态(CS)、肝细胞癌状态(HCS)以及非肿瘤的癌旁状 态(AS)两两之间皆具有类别特异表达分子集,即通过现有的生物数据库或相关信息注释 后,筛留到了在组合间具有相同表达变化趋势的分子集,这些分子能为临床或研究提供重 要指导意义。
综上,本发明提供的方法基于差异表达模式对生物芯片进行多类别的分析和富 集,构建的类别网络将使疾病状态进展的预测成为可能,对临床的诊疗具有重要意义。