本发明提供了一种基于生物学数据的聚类方法,包括如下步骤:数据获取步骤、数据分类步骤、距离计算步骤以及聚类步骤。本发明还提供了一种基于生物学数据的聚类结果评价方法,包括如下步骤:获取聚类结果的步骤、计算聚类评价分数的步骤、转换聚类评价分数的步骤以及集成决策的步骤。本发明还提供了一种基于生物学数据的聚类系统以及一种基于生物学数据的聚类结果评价系统。本发明的基于生物学数据的聚类方法及系统、聚类结果评价方法及系统,提高了聚类结果的生物学应用价值,实用性强。
矩阵的行表示生物学特征,矩阵的列表示生物学样本;距离计算步骤:根据每组生物样本数据具有的生物学特征的信息类型,选择不同的距离计算方式,分别计算每组生物样本数据中多个所述生物样本之间的距离,将计算获得的每组生物样本数据中的多个所述生物样本之间的距离形成距离矩阵;其中,在所述距离计算步骤之前还包括采用如下步骤对有序列信息的生物样本数据进行序列对比的步骤:根据所述有序列信息的生物样本数据中多个所述生物样本具有的序列特征将多个所述生物样本分为两组以上,其中,所述生物样本的序列特征包括核酸序列特征、以及蛋白质/氨基酸序列特征;针对每组所述生物样本选择不同的替换矩阵,并选择至少两种以上的序列对比算法进行序列对比,获得两个以上序列对比结果;针对每个所述序列对比结果计算任意两个生物样本的第一相似性得分;分别根据所述第一相似性得分计算任意两个所述生物样本之间的第一距离分数,每个所述序列对比结果对应的多个所述第一距离分数形成所述距离矩阵;其中,所述第一距离分数=1-所述第一相似性得分;聚类步骤:根据所述距离矩阵,分别对每组生物样本数据中的多个生物样本采用层次聚类方法进行聚类。
随着生物学数据的大量涌现,如何快速合理的分析各类不同的生物学数据成为目前生物学相关领域的热点和难点问题。以基因分析为例,目前的技术可以一次性同时检测几万个基因的表达值,并可通过各种途径获取基因的序列信息、功能信息等。因此,如何将众多的基因进行聚类及分析,挖掘出具有生物学意义的基因是该领域的重要研究方向之一。常用的方法是利用机器学习领域的聚类方法,但是一般的聚类方法仅从计算角度出发进行聚类和聚类结果的评价,而忽略了生物学数据本身的含义,从而导致聚类结果不具备实际应用价值,聚类结果的应用性低。
发明人:王莹莹;蔡云鹏
联系方式:0755-86392458
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
本发明的基于生物学数据的聚类方法及系统、聚类结果评价方法及系统,首先通过数据分类步骤将复杂的原始生物学数据分为不同的组别,然后针对每组的生物样本数据根据其具有的生物学特征的信息类型选择不同的距离计算方式,分别计算每组生物样本数据中多个生物样本之间的距离,提高了聚类结果的生物学应用价值,实用性强。同时,针对每个聚类结果采用两种以上的评价方式计算聚类评价分数,并采用集成决策的方式选择优选聚类结果,提高了聚类结果评价的精度及实用性。
本实施例的基于生物学数据的聚类结果评价方法,针对每个聚类结果采用两种以上的评价方式计算聚类评价分数,并采用集成决策的方式选择优选聚类结果,提高了聚类结果评价的精度及实用性。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。