成果介绍
本发明涉及计算机分析高维度生物学数据的技术领域,特别是涉及一种生物学数据分析方法和系统。本发明的方法包括:接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;根据原始数据的技术领域查找背景知识数据;依据所述背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集;判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤;执行选择的特征筛选步骤,获得预筛选的结果。本发明为高维度生物学数据的分析提供一种新的兼顾统计、生物学意义的特征预筛选方案。
成果亮点
1.一种生物学数据分析方法,其特征在于,所述方法包括:接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;根据原始数据的技术领域查找生物学背景知识数据;依据所述生物学背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集,包括:判断所述生物学背景知识数据是否是文本类型,若是,则将所述生物学背景知识数据构建为源自文本型的本体论知识库;若否,则判断所述生物学背景知识数据的内部是否有结构关系,若否,则将所述生物学背景知识数据构建为源自独立背景知识集合的n倍数据集,若是,则判定所述生物学背景知识数据为非独立背景知识的数据集,所述n为背景知识集合中数目超过原始数据特征数的倍数;判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤;所述源自文本型的本体论知识库对应的特征筛选步骤包括:利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第一阈值的节点,选择可富集于所述节点的特征,作为预筛选的结果;所述源自独立背景知识集合的n倍数据集对应的特征筛选步骤包括:当n小于或接近1时,将所述矩阵形式中的特征映射到此数据
团队介绍
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
成果资料
产业化落地方案