近日,哈尔滨工业大学数学学院靳水林教授团队在单细胞测序数据建模与分析领域取得重要进展,解决了多生物来源数据整合建模的关键问题。研究成果发表在《美国国家科学院院刊》(PNAS)上。
单细胞数据整合旨在通过消除数据中的批次效应,以融合不同实验批次的单细胞测序数据,对胚胎发育、组织功能及疾病机制等研究具有重要意义。针对相关难题,靳水林教授团队提出了一种多源生物变异的数据整合新模型——组中心化主成分分析。该模型首次定义了多生物来源数据的组技术变异,利用生物来源的总体变异和批次内变异估计批次效应,构建了组技术变异最小化的优化模型,进而在保留多源生物变异条件下对数据进行了整合,取得了优良效果。该研究为多生物来源单细胞测序数据的有效整合提供了高效、可靠的数学模型。