Nat Biotechnol:科学家开发单细胞三维基因组机器学习方法
发布时间: 2021-10-13
随着染色体构象捕获技术 (Hi-C) 等高通量实验技术的发展,染色质在真核生物细胞核内的多尺度的三维基因组特征(例如A/B区室 (A/B compartment), 亚区室 (subcompartments), 拓扑关联结构域 (TAD) 和染色质环 (chromatin loop))得以被不断揭示。这些不同尺度的三维基因组特征整体上与重要细胞功能 (譬如基因表达和遗传物质复制) 紧密相关。然而在单细胞层面,我们对这些三维基因组特征的变化及其潜在的影响仍知之甚少。
新兴的单细胞染色体构象捕获技术 (scHi-C) 的出现使得我们能够在单细胞层面理解三维基因组的功能特性。然而,能够充分利用高维但稀疏的scHi-C数据分析细胞与细胞间三维基因组变化的系统性计算方法严重不足。
2021年10月11日,美国卡内基梅隆大学计算机学院计算生物系的马坚实验室 (第一作者为博士研究生张若弛,第二作者为博士研究生周天茗) 在 Nature Biotechnology发表了题为Multiscale and integrative single-cell Hi-C analysis with Higashi的长文。文章详细介绍了一种全新的基于超图表征学习 (hypergraph representation learning)的机器学习方法来进行多尺度和综合性的scHi-C分析。

这个名为Higashi的机器学习算法通过将scHi-C数据表示为超图,首次把单细胞数据嵌入问题 (scHi-C embedding) 和数据补缺问题 (imputation) 纳入了一个统一的计算框架。具体而言,单细胞数据嵌入问题被转换为超图嵌入问题 (hypergraph embedding),而数据补缺问题变为超边预测问题 (hyperedge prediction)。

这个研究首先将Higashi应用于多个有已知细胞类型标注的scHi-C数据集和基于超分辨显微成像的仿真数据集,并与现有的scHi-C嵌入方法和数据补缺方法进行了全面比较。结果显示,Higashi能更有效和准确的完成单细胞数据嵌入和数据补缺。
更有意义的是,研究小组又将Higashi应用于人脑前额叶皮层组织的单细胞数据集 (sn-m3c-seq) 并充分展示了Higashi在复杂组织上仅使用染色质三维结构特征发现亚细胞类型的强大能力。通过使用Higashi生成的单细胞嵌入向量和增强补缺的scHi-C接触图 (contact map), 研究小组发现了细胞间A/B区室和拓扑关联结构域的异质性和其对细胞特异性生物功能的影响。
作为迄今为止最系统的针对scHi-C的计算方法,Higashi能够极大提高对scHi-C数据的分析,对研究三维基因组结构的时空动态性及其在不同生物学过程中的影响大有裨益。
原文链接:
#

Copyright © 2022 中国科学技术协会 版权所有 | 京ICP备16016202号-20
Copyright © 2022 中国科学技术协会 版权所有 | 京ICP备16016202号-20