您所在的位置: 成果库 基因测序数据读取方法及系统

基因测序数据读取方法及系统

成果类型:: 发明专利

发布时间: 2023-02-08 09:38:05

科技成果产业化落地方案
方案提交机构:天津市滨海新区| 郝建平 | 2023-02-16 14:33:31
本发明涉及生物信息学技术领域,提出了一种基因测序数据读取方法,包括如下步骤:对用户参数进行解析,确定任务个数;根据任务个数将测序数据分割成相同大小的文件块;对每个文件块的起始地址和终止地址进行调整;各任务对调整后的文件块结果进行读取。本发明还提供了基因测序数据读取系统及设有所述系统的基因测序数据分析装置。本发明实现了基因测序数据的并行读取,且各个文件块大小均匀,还避免了将一个序列分割到两个不同的文件块中。
一种基因测序数据读取方法,其特征在于,包括如下步骤:步骤a:对用户参数进行解析,确定任务个数;步骤b:根据任务个数将测序数据分割成相同大小的文件块;步骤c:对每个文件块的起始地址和终止地址进行调整;步骤d:各任务对调整后的文件块结果进行读取;在所述步骤a之前还包括如下步骤:对任务进行初始化,在所有节点之间建立连接,并对节点信息、任务信息进行统计;所述步骤d为各任务对调整后的文件块结果进行多视口并行文件读取;所述步骤b具体为:根据任务个数将测序数据分割成相同大小的文件块,得到每个文件块的起始位置和终止位置;所述步骤c具体为:将步骤b所得每个文件块的起始位置调整为所述起始位置后第一个序列的起始点;将步骤b所得每个文件块的终止位置调整为所述终止位置后第一个序列的起始点,或调整为所述终止位置后的文件终止符;所述任务为进程,或程序中的线程。

生物大分子的测序自始至终贯穿着生物信息学的发展,尤其是对核酸与蛋白质的 测序。生物基因组中包括所有的细胞结构以及生命活动的遗传信息,从根本上指导着生物 体的快速发育。精确和实时获取生物体的遗传信息可以有效的指引生命科学的研究。测序 技术可以快速获取DNA上的遗传信息,全面阐释基因组的多样性和复杂性,在生物信息研究 中扮演着越来越重要的角色。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

通过分割单元12将基因测序数据分割为大小相同的文件块,可以保证每个文件块 中所含有的序列读段数量相当,保证序列读段在每个文件块中的分布均匀。调整单元13将 分割单元12分割的每个文件块的起始地址和终止地址进行调整,保证一个序列不会被分割 到两个不同的文件块中。结果读取单元14将数量为η的任务与数量为η的文件块--对应, 每个任务都清楚的知道所对应的文件块的准确位置,由调整后的起始位置向调整后的终止 位置顺序读取。例如,可对调整后的文件块结果进行多视口并行文件读取。

技术合作

以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明 的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范 围之内。