新闻中心
一文了解空间转录组数据分析(空间转录组测序流程)
空间转录组(ST)能够在单细胞或亚细胞水平上全面刻画组织结构,帮助理解传统技术无法获得的生物学机制。过去的几年已经开发出了各种各样空间转录组分析技术,这些技术被Nature Methods评为2020年的最佳方法。因此,今天小编和大家分享一篇今年10月发表在Genome Research(IF:9.043)杂志上的综述。文章总结了空间转录组数据分析方法的现状,并讨论了它们如何在不同的技术平台上运行,可以说一文带你了解空间转录组,感兴趣的小伙伴get起来吧。
Advances in spatial transcriptomic data analysis
空间转录组数据分析进展
一.文章背景
多细胞生物由组织和器官组成,组织和器官都专门从事一个生物过程。虽然正常细胞都拥有相同基因组,但它们的基因表达模式和形态可能截然不同。这种差异不仅是由内部基因调控引起,也是由外部组织环境发出的信号引起的。尽管几十年来基因组研究积累了大量细胞类型特异性基因调控的信息,但目前对细胞外部环境相互的理解仍然有限。不过随着近年来技术的爆炸式增长,已经实现了细胞异质性和组织及器官空间组织的系统级刻画。其中最值得注意的是单细胞RNA-seq技术(scRNA-seq)的快速发展,使得在一个器官中描绘和比较细胞的基因表达模式成为可能。scRNA-seq在发现新细胞类型方面发挥了关键作用,并为创建不同物种的综合细胞图谱奠定了基础。然而,由于实验过程通过机械和酶解步骤创造单细胞悬浮液,这不可避免地破坏了原始的组织结构。因此,仅从细胞成分重建组织结构是极其困难的。
二.空间转录组主要技术及数据
目前在单细胞分辨率和全基因组规模上研究组织的方法主要有三种,分别为序列荧光原位杂交(FISH),及连接已知坐标的所有转录本的空间标记和选择基因用于原位测序(ISS)。文章主要使用了四个数据集(图1)来说明不同空间转录组分析的结果或方法:1)乳腺肿瘤生物标本切片的全基因空间转录组数据集。2)全小鼠冠状脑切片的亚细胞空间数据集。3)人类心脏全基因组空间数据集。4)老鼠体感皮层内数百个细胞的10000个基因的亚细胞空间数据。从原始ST数据集获取基因表达矩阵和相应的空间坐标不是一个简单的过程,它包含许多预处理步骤。这些步骤通常依赖于技术或平台,但有一些重复的步骤是固有的,例如基于成像数据的图像配准、拼接和细胞分割(图2)。对于基于图像的ST数据,如FISH和ISS技术,最常见的图像处理步骤是图像校正、拼接、配准、分割,然后定位和解码。另一方面,有些数据并不一定需要成像,而是通过在一个定义的空间单元内捕获转录本,并在测序步骤之前将它们与一个已知的坐标系统连接。因此,这些方法通常不依赖于上述图像处理步骤。然而,测序后还需要额外的步骤来将转录本映射回它们的空间坐标。当有组织图像时,可以将其与空间坐标系统叠加。不过无论技术如何差异,ST分析的一个共同目标是连接和整合来自基因表达和细胞转录本位置的信息,这对于提取有用的生物信息至关重要(图3)。



三.ST数据识别细胞类型
细胞类型的识别和定位是ST数据分析最基本的任务,因此在这一部分作者对ST数据识别细胞类型进行了介绍。如果数据有单细胞分辨率,无监督聚类结合手动或自动注释是识别细胞类型的常见方法(图4A)。由于细胞类型识别不需要空间信息,因此与scRNA-seq分析相似,如基于community的方法,如Louvain和Leiden聚类。为了说明,作者使用MERFISH冠状切片数据集并应用Leiden聚类,总共得到19个不同的类。然后对这些簇进行注释并映射回空间坐标(图4B)。目前有两种估算细胞类型组成的方法(图4C)。第一种方法是评估每个位点上表达基因中细胞类型特异性标记的富集情况。这种方法速度很快,每次可以执行一种细胞类型。然而,结果是定性的,表明存在或不存在一种细胞类型。第二种方法是去卷积,目的是定量估计每个位置不同类型细胞的比例。已经开发了许多去卷积方法用于RNA-seq数据分析,原则上也可以应用于ST分析,不过ST数据具有某些不同的特性,如与每个位置关联的细胞数量很少。因此,通常使用专为ST分析设计的方法。在这些方法中,RCTD使用了基因计数的线性回归模型,进一步纳入了针对平台特异性变异的随机效应项,基因表达水平采用泊松分布模型。Cell2location使用类似的方法,但基因表达使用负二项分布模型,它还可以模拟特定平台和特定位置的效果。SpatialDWLS使用两个步骤来减少噪声:第一步使用富集分析来识别细胞类型,第二步使用衰减加权最小二乘法量化每种细胞类型的相对比例。SPOTlight使用种子非负矩阵分解(NMF)回归,并使用细胞类型marker基因和非负最小二乘(NNLS)进行初始化,用于后续的去卷积。DSTG使用基于图的卷积网络。DestVI使用变化推理方法去卷积。作者使用Visium心脏数据集和匹配的scRNA-seq数据进行细胞类型富集(图4D)和空间去卷积(图4E),对这些方法具体说明。研究细胞类型定位的一种补充方法是使用scRNA-seq数据作为起点,然后根据空间表达轮廓的相似性重构空间信息。在ST技术爆炸之前,使用传统方法只能获得少数标志性基因的空间信息。利用这些有限的信息开发了tomo-seq和Geo-seq技术,能从2D切片中获得的基因表达谱重建3D模式。不过这些空间信息不是直接从数据中测量的,因此仍然是推测性的。随着ST技术在过去几年的快速发展,现在可以直接测量空间信息,并进一步与scRNA-seq数据整合。因此,新的方法以更平衡的方式整合scRNA-seq和ST数据。例如,使用了与平台无关的相互最近邻(MNN)方法来对齐这些数据类型,从而生成细胞位置映射。其中DEEPsc使用人工神经网络来预测空间位置;GLUER结合NMF、MNN算法和深度神经网络对数据进行对齐;Tangram将scRNA-seq和ST数据集对齐,同时优化了scRNA-seq数据和空间数据中每个基因之间的空间相关性。NovaSparc和D-CE也类似,不过对齐可以是概率的,也可以是确定性的。在已知细胞总数的前提下,Tangram对齐的确定性模式也可以作为一种去卷积方法。

四.刻画转录组谱的空间模式
ST分析的关键不仅在于刻画细胞类型,还在于它们的空间组织。这对于研究组织结构和细胞间相互作用至关重要(图5A,C,E)。成对富集分析可以用于识别可能相邻的细胞类型对,为了说明如何研究空间网络模式和细胞邻近,作者使用MERFISH冠状切片数据,基于每个细胞的物理坐标创建了一个细胞邻近网络。细胞-细胞邻近网络连接热图显示不同细胞类型之间的连接性及所研究组织的空间拓扑结构(图5B)。图5D显示了对单个生态位的详细探索,将特定的细胞识别为源,然后描述它们与其他邻近细胞类型的连接。spatialDE使用一个随机效应模型,该模型包含两个terms,分别对应于空间成分和非空间成分。空间变量可以指定为各种形式,如线性、周期或高斯过程。空间变异性的程度由这两项所解释的方差比来量化。SOMDE就使用类似的方法,但通过使用自组织映射变换压缩空间信息来提高计算效率;Trendsceek将空间格局模型作为一个标记点过程;SPARK通过广义线性空间模型对空间计数数据进行建模;有些方法主要考虑局部连续性,如binSpect检测空间相干基因,即倾向于在相邻细胞中共同表达的基因。另一种方法是量化空间结构的扩散步骤。作者以MERFISH冠状脑切片数据为例,利用binSpect识别具有空间相干模式的基因,排名靠前的基因如图5F所示。

五.亚细胞结构分析
在这一部分作者使用小鼠体感皮层数据集来说明亚细胞数据分析的一些关键概念(图6)。在亚细胞分辨率的数据集中,每个点通常代表一个单一的转录本(图6A)。分析亚细胞基因表达模式可以作为空间分析的一种替代方法,也可以用于提高细胞分割的准确性(图6B)。通过分析共定位模式(图6C)和每个细胞内的转录动力学(图6D),可以发现基因之间或基因与亚细胞结构之间的空间关系。许多方法尝试利用亚细胞基因表达模式来规避细胞分割。如SSAM直接将细胞类型标签分配给像素,而不进行细胞分割。stLearn使用类似的方法,但将空间近端像素进一步集群。Spage2vec也使用了类似的方法,但采用了一种神经网络公式。另外,也开发了基于已知细胞类型特定签名的监督细胞类型映射策略。如用朴素贝叶斯模型为HDST数据分配细胞类型。亚细胞基因表达模式可以反过来用于改善细胞分割。例如,Baysor模型利用马尔可夫随机场模型对亚细胞基因表达模式进行建模,并进一步整合细胞形状标记信息来提高细胞分割的准确性。Sparcle使用Dirichlet过程混合模型以及相邻细胞与相邻转录本之间的转录本距离来增强细胞分割。JTSA使用EM算法迭代改进像素及基因表达谱分类和细胞边界标注。分析基因表达的亚细胞模式也可以提供新的生物学见解。如已经开发了一种原位RNA速度方法,利用亚细胞RNA定位信息来推断转录速率。由于新转录的RNA在细胞核中积累,而成熟的mRNA需要被运输到细胞质中进行翻译(图6D),每个基因相关的核转录本与细胞质转录本的相对组成可以用来估计转录活性。此外,利用过氧化物酶APEX2对RNA进行直接邻近标记(APEX-seq),可以高分辨率地识别细胞质中共定位的mRNA种类。对结果数据的分析发现,共定位的RNA与已知的蛋白质共定位模式之间存在显著的对应关系,这表明RNA共定位可能有助于局部蛋白质翻译和复杂的形成(图6c)。

六.细胞与组织环境沟通
ST分析的一个重要目标是研究细胞如何与组织环境沟通(图7)。细胞行为可以通过直接的物理相互作用、分泌分子或与细胞外基质相互作用受到组织环境的影响(图7A)。细胞间的通信通常是空间协调的,并且具有高度的细胞类型特异性。因此,即使在相同的细胞类型中,细胞类型组成的变化也可能导致基因表达的显著变化(图7B,C)。R包Giotto采用双向比较,比较同一细胞类型被不同相邻细胞包围的基因表达模式,来识别相互作用改变基因。与单独使用基因表达信息相比,使用空间信息可以显著减少假阳性配体受体活性预测的数量,CellPhoneDB中使用了类似的方法。在这一部分作者使用Cell2location来推断不同细胞类型的位置,然后比较不同细胞邻区相关的基因表达模式。也有其他方法用于量化相邻细胞类型的影响,包括卷积神经网络。及将基因表达谱分解为空间分量和非空间分量,然后利用邻域内的细胞类型组成来估计空间分量的方法。此外,也有算法根据细胞与细胞的相互作用模式重建空间位置。

七.空间数据分析和可视化工具
开发空间数据结构工具如今越来越重要,理想情况下导入原始数据(图8A)及图像分析(图8B),和分析结果及数据准备发表(图8C)都应该是在个人电脑上。这一部分作者介绍了下游数据分析工具。这些工具基本都是用R或Python编写的。如R包Giotto可以用于各种各样的ST技术,核心由一个专门为空间数据设计的对象组成。同时,Giotto提供了一个基于浏览器的可视化工具,该工具允许用户导出他们获得的结果,并交互式的探索空间数据集。Seurat作为一个流行scRNA-seq分析R包为人所熟知,它也开始提供一些针对空间数据可视化和识别空间表达模式的功能。此外其他工具如STUtility和SPATA也建立在Seurat数据结构之上创建了更全面的管道,这些管道目前仅适用于ST技术。STUtility是专为ST技术开发的,提供了多种成像和数据分析方法。SPATA也关注ST数据,其开发目的是促进Seurat和Monocle集成。除了可视化和常见的数据分析功能,SPATA还可以识别或描绘空间轨迹。Squidpy是空间版的SCANPY, SCANPY是用于scRNA-seq分析的Python库,它还提供图像层面的分析。Stlearn是另一个用于ST数据分析的Python库,它专注于将基因表达和图像信息集成。这些包或工具大多数都是独立的实验室开发的,导致这些数据结构不一定共享相同的数据格式。因此R/Bioconductor团队精心设计普遍适用的数据结构,并于最近发布了spatialExperiment class的第一个版本。这是一种新的S4类,它扩展了singleCellExperexperiment class,能用于操作几种类型的ST数据集。一些R包已经开始使用这种数据结构,如SpatialLIBD和Spaniel,它们都擅长创建交互式程序来可视化ST数据集。总之,这些努力可以在未来促进不同工具之间的交互操作性。

到这里这篇文章的主要内容就介绍完了,文章对空间转录组数据分析方法进行了总结,并使用空间转录数据集进行了举例说明。近几年来空间转录组领域快速发展,是一个热点方向,感兴趣的小伙伴不要错过呀。
参考文献
1.Advances in spatial transcriptomic data analysis;2.High-throughput spatial mapping of single-cell RNA-seq data to tissue of origin;
团队介绍
北京概普生物(生信人)团队成立于2014 年6 月份。主要业务为医学科研服务,个性化生信分析,软件开发和台构建。团队主创人员均为一线科研工作者,有着丰富的从业经验。
2020年,团队完成项目300+,累计影响因子700+,开发生信工具140+,软著等知识产权申请30+,服务客户达220+。
公司深耕生信个性化分析数载,有一套有效的管理方案帮助大家缩短科研最后一公里的时间。从研究方向选择,方案设定,数据选择,售后处理,个性化修改,每一个环节都深深参与其中,真正的做到客户需要的按需定制。
生 信人团队致力于打造新型的科研服务的模式,以技术服务为基础, 以技术培训和数据库平台开发为优势,专注服务医学科研用户, 让你笑对科研,轻松科研。