发布于2025-01-09 阅读(0)
扫一扫,手机访问
编辑 | 萝卜皮
单细胞和空间转录组测序是目前最受关注的两种转录组测序方法,被广泛应用于癌症和其他疾病的研究。
细胞注释在研究中扮演着重要角色,尤其是对恶性细胞的注释。然而,目前的算法在准确性和泛化性方面存在不足,这导致从广泛的癌症数据中迅速、一致地推断恶性细胞变得困难。
为了解决这个问题,厦门大学和上海交通大学的研究团队提出了 Cancer-Finder,一种基于域泛化(Domain Generalization,DG)的深度学习算法,可以快速识别单细胞数据中的恶性细胞,平均准确率达到 95.16%。重要的是,通过用空间转录组数据集替换单细胞训练数据,Cancer-Finder 可以准确识别空间幻灯片上的恶性 spots。
该研究以「Domain generalization enables general cancer cell annotation in single-cell and spatial transcriptomics」为题,于 2024 年 3 月 2 日发布在《Nature Communications》。
人们早已认识到肿瘤异质性对于有效癌症治疗构成了重大挑战。单细胞 RNA 测序(scRNA-seq)技术的应用,使得我们能够深入了解肿瘤内部和不同肿瘤之间的异质性,从而有助于推动个性化治疗的研究和发展。
空间转录组学(ST)是一种潜力巨大的测序技术,随着单细胞RNA测序(scRNA-seq)的发展而兴起。它能够捕获组织内完整的转录活动信息,因此在癌症研究中得到了广泛应用。ST技术已经在癌症异质性研究中取得了许多突破性的成果,精确地注释单个细胞spots(ST中的测量单位)的恶性状态对于这些研究至关重要而且是基础性的工作。
恶性细胞 spots 通常是通过标记基因或拷贝数变异(CNV)事件来确认。当前,急需开发一种高精度、泛化性好、易于扩展以处理各种数据类型的无参考恶性细胞注释算法。
厦门大学和上海交通大学的研究团队提出了 Cancer-Finder,一种基于域泛化的恶性细胞注释策略,可以从具有不同分布的多个数据集中学习泛化模型。这允许在具有未定义分布(未知域)的单细胞数据内直接区分泛癌肿瘤微环境中的恶性细胞和正常细胞。
此外,通过替换训练集,该团队快速扩展 Cancer-Finder 来注释 ST 数据中的恶性 spots,并在使用小训练集训练后证明了其高预测精度。
通过精确识别 5 个 ccRCC ST 载玻片上的恶性 spots,该团队成功发现了由 10 个基因组成的基因特征;这些基因往往在肿瘤和正常组织之间的界面处富集,可能与侵袭性肿瘤微环境的形成有关,并可作为理想的预后指标。
图示:Cancer-Finder 概述及其应用。(来源:论文)
由于该方法的高性能和计算简单性,这里采用风险外推法。在风险外推中结合平均风险和方差风险,使 Cancer-Finder 能够在数据集、癌症类型和技术平台上实现良好的泛化性能。
与现有技术相比,Cancer-Finder 对多种癌症的 scRNA-seq 数据集的恶性注释建立了更高的精度和稳定性,在金标准数据集中实现了 98.30% 的准确率,在银标准数据集中实现了 90.89% 的相似性。Cancer-Finder 更加准确,是因为深度学习模型比逻辑回归等传统模型更具适应性并且具有更大的拟合能力。
图示:Cancer-Finder的性能评估。(来源:论文)
此外,Cancer-Finder还有效利用了积累的癌组织数据和注释信息(主要通过算法计算和手动注释),从而增加了准确区分恶性和非恶性细胞的机会。虽然大多数现有算法都基于简单模型或单数据集分析,但前者容易受到模型限制,而后者容易受到重点数据集的质量及其包含的细胞类型的影响。
与其他方法不同(CopyKAT 必须推断 CNV 并根据 CNV 配置文件进行分类,SCEVAN 需要表征克隆结构,CaSee 必须找到训练的参考),Cancer-Finder 的推断过程只需要简单的前向传播线性计算。随着单细胞数据量的增加,相信使用更大量的数据进行再训练将为 Cancer-Finder 在癌症研究中提供巨大的潜力。
图示:Cancer-Finder 在 ccRCC ST 数据集中肿瘤间异质性分析中的应用。(来源:论文)
通过替换训练数据集,研究人员快速扩展 Cancer-Finder 来注释 ST 数据中的恶性 spots,并在使用小训练集训练后证明了其超高的预测精度。
虽然训练集中只有少量相关 ST 数据,Cancer-Finder 在训练组织的 ST 数据上显示出很高的准确性 (82.00-97.37%)。
此外,预先训练的 Cancer-Finder 可以轻松扩展到由其他技术生成的具有相当序列分辨率的 ST 数据集,验证了 Cancer-Finder 强大的泛化能力。
除了扩展训练数据类型外,Cancer-Finder 还可以扩展为通过替换训练标签来注释其他细胞状态(或细胞类型)。例如,将训练标签更改为免疫细胞,使得 Cancer-Finder 能够从单个细胞中准确识别免疫细胞。
在外部测试中,Cancer-Finder 识别肺、乳腺、卵巢和肝脏中免疫细胞的准确度在 85.21% 到 95.76% 之间。随着单细胞数据的积累,研究人员将能够使用 Cancer-Finder 来注释各种细胞状态,例如稀有细胞。
尽管有这些优势,但目前的模式仍然有发展空间。Cancer-Finder 在大多数癌症上表现良好(准确度 > 0.8),但其在血液肿瘤中的表现有限,可能是由于血液肿瘤和实体瘤之间存在显著差异。因此,研究人员不推荐 Cancer-Finder 用于血液肿瘤数据。
研究人员表示,Cancer-Finder 忽略了 ST 数据中 spots 之间的空间关系,这是一个有可能提高其整体功效的因素。这些都值得进一步探索。
论文链接:https://www.nature.com/articles/s41467-024-46413-6
下一篇:UG建模儿童玩具篮的操作过程
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店