本发明涉及计算机分析高维度生物学数据的技术领域,特别是涉及一种生物学数据分析方法和系统。本发明的方法包括:接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;根据原始数据的技术领域查找背景知识数据;依据所述背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集;判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤;执行选择的特征筛选步骤,获得预筛选的结果。本发明为高维度生物学数据的分析提供一种新的兼顾统计、生物学意义的特征预筛选方案。
1.一种生物学数据分析方法,其特征在于,所述方法包括:接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;根据原始数据的技术领域查找生物学背景知识数据;依据所述生物学背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集,包括:判断所述生物学背景知识数据是否是文本类型,若是,则将所述生物学背景知识数据构建为源自文本型的本体论知识库;若否,则判断所述生物学背景知识数据的内部是否有结构关系,若否,则将所述生物学背景知识数据构建为源自独立背景知识集合的n倍数据集,若是,则判定所述生物学背景知识数据为非独立背景知识的数据集,所述n为背景知识集合中数目超过原始数据特征数的倍数;判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤;所述源自文本型的本体论知识库对应的特征筛选步骤包括:利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第一阈值的节点,选择可富集于所述节点的特征,作为预筛选的结果;所述源自独立背景知识集合的n倍数据集对应的特征筛选步骤包括:当n小于或接近1时,将所述矩阵形式中的特征映射到此数据
随着生物学高通量检测技术的飞速发展,目前可一次性同时检测几万个分子的表 达值。但由于受到资金等情况的限制,往往在实验中出现样本数目远远小于被检测的分子 数目的情况。以基因芯片为例,人类mRNA芯片可一次性检测3万左右的基因。如何从此类数 据中合理的挖掘出具有生物学意义的分子是该领域的重要研究方向之一。常用的方式为利 用机器学习领域中的特征选择方法对高维数据进行降维,去除其中的冗余及噪声数据,从 而得到原始特征的子集为最终的特征集合。然而,由于生物学数据中往往原始特征数目过 于庞大,导致运算时间过长,且通常将特征作为彼此无关的个体,这在一定程度上与生物分 子彼此间存在关联的特点相冲突。所以,有必要改进现有技术中存在的无法根据生物学背 景知识数据的实际特点而分析实际实验生物学数据的问题。
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
上述方法和系统,根据相应生物学数据的类型特点进行分类、依据分类结果针对 不同类型的生物学背景知识数据配置不同的特征预筛选方案,从而使得数据的分析和处理 更加匹配背景知识,使得筛选的结果更加精确,与背景知识的关联性更大,更加有应用价 值。本发明为高维度生物学数据的分析提供一种新的兼顾统计、生物学意义的特征预筛选 方案,其克服之前发明、专利中仅从模式识别角度出发导致计算过程耗时而且结果不具备 实际应用价值的不足,为各类生物学数据的计算机分析设计了新的应用性较强、省时间的 技术流程方案。
技术合作
]以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并 不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员 来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保 护范围。因此,本发明专利的保护范围应以所附权利要求为准。