单细胞数据分析新突破:CHOIR算法助力精准识别细胞类型和状态
发布时间:2025-04-07 浏览次数:127
单细胞技术的发展使得研究者能够深入探索细胞异质性,识别和表征不同的细胞群体。然而,现有的聚类工具大多缺乏对聚类结果的统计推断测试,容易导致过度聚类或聚类不足,进而影响对细胞类型的准确识别。
美国Gladstone研究所的研究团队开发了一种名为CHOIR(Clustering Hierarchy Optimization by Iterative Random Forests)的新型算法,通过整合随机森林分类器和排列测试,显著提高了单细胞数据中细胞类型和状态识别的准确性与可靠性。
研究内容
图 1 通过统计推断进行排列测试的CHOIR层次聚类算法示意图
CHOIR的核心优势在于其统计推断框架。算法通过构建层次聚类树,利用随机森林分类器评估每个聚类的区分能力,并通过排列测试验证聚类的统计学显著性(图1a)。若两个相邻聚类无法通过随机分类器区分,则合并为一个聚类;反之则保留独立。这种“自顶向下构建树+自底向上修剪树”的策略,确保了聚类结果既不过度分割(过聚类)也不遗漏差异(欠聚类)(图1b)。
此外,CHOIR可无缝集成多模态数据(如RNA-seq、ATAC-seq、空间转录组等),通过联合特征分析增强聚类的生物学意义,适用于跨技术平台的单细胞研究。
研究团队在100个模拟数据集和4个真实数据集(涵盖癌症细胞系、小鼠胚胎发育等场景)中对CHOIR进行了全面验证。
图 2 15种聚类方法在100个模拟数据集中的应用
在包含1至20个细胞群体的复杂场景中,CHOIR的调整兰德指数(ARI)表现优于1种现有方法(图2a-c)。在单群体数据中,仅CHOIR等3种方法避免了过聚类(图2d-f)。
图 3 CHOIR在混合癌细胞系数据中的聚类性能
图3通过一系列UMAP嵌入图展示了CHOIR在包含48,879个细胞的混合癌细胞系单细胞RNA测序数据中的聚类性能。CHOIR成功区分了所有190种细胞系,而其他聚类方法(如Cytocipher、GiniClust3、SCCAF、sc-SHC和Seurat)存在聚类不足的问题。通过聚类准确度的熵值分析进一步证实了CHOIR在防止聚类不足方面的优势。此外,通过独立数据集的验证,CHOIR不仅能够准确识别细胞系,还能区分细胞系内的不同状态,如增殖和非增殖细胞,展现了其在单细胞数据分析中的高效性和准确性。
图 4 CHOIR利用多组学数据验证细胞簇的性能
图4利用Hao等人2021年的CITE-seq数据集,通过多组学分析展示了CHOIR在正交验证细胞簇识别方面的优势。堆叠条形图(a)显示,CHOIR是唯一在所有50对最近细胞簇比较中均发现差异表达蛋白的方法,表明其在避免过度聚类方面表现优异。点图(b)进一步证实了CHOIR在最大化细胞簇数量的同时避免过度聚类的能力。UMAP嵌入图(c)展示了CHOIR识别的23个细胞簇,而图(d-e)通过幼稚T细胞标记物CCR7和树突状细胞标记物CLEC9A的表达水平对这些细胞簇进行了验证,证明CHOIR能够准确区分不同的细胞类型和状态。
此外,在小鼠胚胎发育空间转录组数据中,CHOIR准确划分了心脏(心肌细胞、内皮细胞)和大脑(丘脑神经元、神经祖细胞)等解剖学特异性细胞群,而其他方法存在或遗漏或过度分割的情况。
CHOIR的自动化、无参数依赖特性显著减少了手动优化时间,其提供的特征重要性分析还可辅助聚类注释。研究团队表示,CHOIR为单细胞数据分析提供了更可靠的“终端聚类”结果,适用于基础研究和临床应用(如肿瘤异质性分析、发育生物学研究)。未来,该算法可进一步扩展至大规模单细胞数据及多组学整合分析。
原文链接:https://doi.org/10.1101/2024.01.18.576317
来源:微生物安全与健康网,作者~梁冬雪。