毕业设计相关内容在此处留档,避免在网页中编辑丢失数据

# 摘要

空间域是指在基因表达和组织结构上具有空间相关性的区域,对其识别对于理解组织结构和细胞间相互作用具有重要意义。随着空间转录组学技术的迅速发展,各类空间数据不断涌现,相关的空间域识别方法也层出不穷。

本文聚焦于空间域建模方法,梳理了空间域的定义及其潜在的生物学功能,分析了常见的空间转录组学数据类型。在此基础上,选取了五种具有代表性的空间域建模方法(包括两种非空间聚类算法),在九种不同类型的空间转录组学数据上进行了系统的对比评估。实验结果表明,不同方法在不同数据集上性能存在差异,但总体而言,空间聚类算法在准确性与空间一致性方面普遍优于非空间聚类方法。

进一步地,本文从模型的准确性、空间连续性、基因表达一致性及可扩展性等方面设计了 11 项量化指标,对各类方法进行了全面评估。结果显示,在 MERFISH 数据集上,STAGATE 在准确性方面表现突出,但在空间连续性上存在不足。

此外,本文还对空间域识别结果的生物学意义进行了实证分析。以人体背外侧前额叶皮层(DLPFC)为例,BayesSpace 和 STAGATE 均能够清晰识别连续的空间区域,特别是在白质层的边界上具有良好的区分能力。

综上所述,本文系统地评估了主流空间域建模方法在多种数据集下的性能差异,并从多个维度对其建模能力进行了深入分析,为空间转录组数据的下游分析与空间组织结构的研究提供了重要参考。

# Abstract

Spatial domains refer to regions with spatially correlated gene expression and tissue structures. Accurate identification of spatial domains plays a crucial role in understanding tissue architecture and cell–cell interactions. With the rapid development of spatially resolved transcriptomics technologies, diverse types of spatial transcriptomic data have become available, giving rise to a wide range of spatial domain identification methods.

This study focuses on spatial domain modeling approaches. We first review the definition and biological significance of spatial domains and analyze commonly used spatial transcriptomic datasets. Based on an extensive literature survey, we select five representative modeling methods—including two non-spatial clustering algorithms—and perform comparative evaluations on nine different spatial transcriptomic datasets. Experimental results show that while performance varies across datasets, spatial clustering algorithms generally outperform non-spatial methods in terms of accuracy and spatial coherence.

To enable a comprehensive assessment, we further introduce eleven quantitative metrics covering accuracy, spatial continuity, gene expression consistency, and model scalability. The results demonstrate that different models excel in different aspects. Notably, STAGATE achieves superior accuracy on the MERFISH dataset, though its spatial continuity is relatively suboptimal.

In addition, we conduct biological analyses of the identified spatial domains. Using human dorsolateral prefrontal cortex (DLPFC) data as a case study, we find that both BayesSpace and STAGATE successfully identify coherent spatial domains and delineate the white matter region with high precision.

Overall, this work provides a systematic evaluation of spatial domain modeling methods across multiple datasets and offers valuable insights for downstream analysis of spatial transcriptomic data and the study of tissue spatial organization.

\documentclass{xduugthesis}
\usepackage{booktabs}
\usepackage{siunitx}
\usepackage{amsmath}
\usepackage

\xdusetup{
style = {
cjk-font = fandol,
latin-font = tac
},
info = {
bib-resource=reference.bib,
title = {基于统计及表示学习建模的空间域 \ 识别算法比较},
author = {李澍},
department = {计算机科学与技术学院},
major = {计算机科学与技术},
class-id = {2103016},
student-id = {21009200542},
supervisor = {高琳},
abstract = {chapters/abstract-zh.tex},
abstract* = {chapters/abstract-en.tex},
keywords = {空间域,空间转录组学,模型评估,聚类算法},
keywords* = {Spatial Domain , Spatial Transcriptomics , Model Evaluation, Clustering Method},
acknowledgements = {chapters/acknowledgements.tex}
}
}

\begin

\chapter {引言}
\section

在生物组织中,不同类型细胞的空间排列与相互作用构成了复杂而精细的组织结构 \cite {asp2020spatially},对理解其生理功能与病理状态具有重要意义 \cite {armingol2021deciphering}。传统的 RNA 测序技术虽然能够准确测量细胞层面的基因表达,但由于缺乏空间定位信息,难以揭示组织内部细胞的空间异质性与交互机制。近年来,空间转录组学技术(Spatially Resolved Transcriptomics, SRT)迅速发展,代表性平台如 10x Visium\cite {ji2020multimodal}、MERFISH\cite {moffitt2018molecular}、osmFISH\cite {codeluppi2018spatial} 和 Slide-seq\cite {rodriques2019slide} 等,能够在保留空间结构的基础上进行高通量基因表达测量,为研究基因表达与组织形态之间的关联提供了强有力的技术支持。

在 SRT 数据分析中,空间域(spatial domain)的识别是一个关键步骤。空间域指的是在空间上相邻、基因表达模式相似的区域,其准确识别不仅有助于刻画组织的功能分区,还为下游的空间可变基因分析 \cite {li2022cell}、组织异质性研究、细胞通信网络构建 \cite {cable2022cell} 以及疾病机制解析 \cite {yuan2022sotip} 等提供了基础支撑。随着空间组技术的不断进步和大规模公开数据集的涌现,研究者亟需系统、稳定且可扩展的算法模型来对空间域进行高效识别。
\section {国内外研究现状}
目前,空间域识别方法大致可分为两类:非空间聚类方法与空间聚类方法。前者如 K-means、Louvain 和 Leiden\cite {blondel2008fast} 等传统聚类算法,仅基于基因表达谱进行建模,忽略了空间坐标信息,容易产生空间上不连续、缺乏生物学解释的聚类结果。部分方法尝试通过单细胞 RNA 测序数据对空间数据中的 spot 进行解卷积 \cite {elosua2021spotlight},但这类方法不适用于细胞或亚细胞分辨率的空间转录组数据。

为了充分利用空间信息,近年来涌现出大量将空间坐标纳入建模过程的空间聚类方法。SRT 数据中每个 spot(或细胞)天然具备空间位置和高维表达特征,这一结构可被视为带属性的图结构,其中节点表示细胞或 spot,节点特征为基因表达值。在此基础上,形成了两大主流的建模范式:图神经网络(GNN, Graph Neural Network) 和 贝叶斯网络(BN, Bayesian Network)。前者如 SpaGCN\cite {hu2021spagcn}、STAGATE\cite {dong2022deciphering}、CCST\cite {li2022cell} 与 SpaceFlow\cite {ren2022identifying} 等,通过深度图学习框架建模空间依赖性,具备良好的可扩展性与运行效率,尤其在 GPU 加速下表现出色,并能输出用于后续分析的上下文表示。然而,这类方法在结果稳定性与可解释性方面存在天然劣势,是深度学习模型的共性问题 \cite {yuan2024mender}。

相比之下,BN 方法如 BayesSpace\cite {zhao2021spatial}、BASS\cite {li2022bass}、SpatialPCA\cite {shang2022spatially} 和 SOTIP\cite {yuan2022sotip} 等则在稳定性与解释性方面更具优势,因其建立在明确的概率模型和变量依赖结构之上。但 BN 方法通常难以处理大规模数据集,运行时间较长,且多数方法无法提供细胞上下文嵌入表示(SpatialPCA 为例外)。此外,部分研究如 SpaGCN\cite {hu2021spagcn}、stLearn\cite {pham2023robust}、SiGra\cite {tang2023sigra} 和 spaVAE\cite {tian2024dependency} 等进一步将空间坐标与组织学图像等多模态数据融合,提升了模型对组织形态结构的感知能力,实现了更符合生物结构的空间域划分。

尽管当前空间域识别方法不断推陈出新,但在面对实际数据中常见的大规模、多切片、多模态等挑战时,仍缺乏统一而稳健的评估体系,方法选择亦缺乏系统指导。因此,有必要对现有主流方法进行系统性比较与综合评价,以发现其优劣和适用范围,进一步推动该领域的算法发展与实际应用。
\section

本文研究不同的空间域建模方法并通过不同的实验数据对这些建模方法对于空间域识别的性能进行分析评估与比较,提供了在不同情况下选择建模方法的准则。

第一章,我们介绍了空间聚类模型的研究背景与意义,并针对国内外研究现状进行了全面系统的介绍。

第二章,我们介绍了空间域及相关的生物功能,明确了实验对象与生物学意义。介绍了实验采用的在准确性、连续性、基因表达模式和可扩展性四个方面的评价指标。

第三章,我们介绍了 5 种本文使用的空间域建模方法(包括两种非空间方法与三种空间聚类方法),重点针对三种空间聚类方法的模型构建部分进行了介绍,并对比分析了各个模型的特点。

第四章,我们对于本文选取的五种具有代表性的空间域建模方法,在九个公开的空间转录组数据集上开展系统评估。我们从聚类准确性、空间连续性、基因表达一致性与模型可扩展性等多个维度设计了十一项量化指标,全面对比了不同方法的性能差异与适用场景。同时结合人类肝脏组织与小鼠嗅球组织两个数据集,我们进一步探讨了空间域识别结果的生物学解释力,验证了各方法在真实组织结构解析中的应用潜力与实用价值。

第五章,我们对全文工作进行了总结,概括了本研究的主要成果与贡献,指出当前工作的局限性,并提出未来可进一步深入研究的方向,为空间域划分领域的发展提供思路和参考

\chapter {相关基础知识介绍}
\section {空间域及相关的生物功能意义}
\subsection {空间域的概念}
空间转录组学(Spatially Resolved Transcriptomics, SRT)的进展使得基因表达的空间多重映射成为可能,使研究者能够突破传统的细胞聚类分析,借助额外的空间信息识别更高层级的组织结构,即空间域(spatial domains)\cite {vandereyken2023methods,seferbekova2023spatial,moffitt2022emerging}。空间域是指拥有相类似的空间表达模式的区域。这些区域通常对应于特定的解剖结构或者功能分区。\cite {maynard2021transcriptome} 通过空间聚类识别空间域,已成为构建空间图谱的标准起始步骤,并在组织解剖可视化、组织空间连续性推断、特定区域标志基因识别、发育与疾病的空间特征挖掘以及区域依赖的分子调控网络的构建等方面发挥着关键作用。
\subsection {生物功能意义}
对于组织结构的识别来说,传统上,组织结构由组织学专家进行标注,这种方法劳动强度大且具有主观性。然而,空间聚类方法提供了一种无偏且高效的方式来自动划分组织结构,减少了人工干预的需求 \cite {chen2018baristaseq,keren2018structured}。例如,经典的背外侧前额叶皮层(DLPFC\cite {maynard2021transcriptome})数据集最初由专家标注,但当前的空间聚类方法已经能够自动注释组织,其性能与人工标注相当。未来,整个大脑乃至更复杂的组织和器官有望通过计算方法以无偏且高效的方式进行标注。

某些组织结构无法仅通过 H&E(苏木精 - 伊红染色)图像直接识别。例如肝脏,在肝小叶内,组织空间上经典地被划分为不同区域(称为肝分区)。每个区域主要由具有不同代谢功能的肝细胞组成,但它们在形态上非常相似。\cite {cho2021seqscope,benmoshe2019spatial,halpern2017spatial} 由于肝脏小叶数量庞大且形态复杂,手动标注尤其具有挑战性,在这种情况下,计算方法尤为重要。

针对组织空间连续性的识别来说,某些组织显示出连续的空间模式,而不是具有明确边界的组织界面。例如,大脑皮层虽然被划分为多个离散层,但其边界可能并不严格。许多基因在皮层轴上表现出强烈的连续性 \cite {fang2022merfish,zhang2021merfish},某些更高级的细胞组织结构也显示出连续性,如细胞类型的复杂性和空间异质性,这些特征被发现与皮层深度具有很强的相关性 \cite {zhang2021merfish}。这种空间连续性有时在疾病和癌症研究中具有临床意义。例如,研究人员已经开始探索从正常组织到癌组织的逐渐结构变化,以更深入地理解癌症的分子和组织生物学 \cite {hunter2021tumorinterface,pelka2021immunehubs}。

不同于细胞类型特异性标志基因,空间域特异性标志基因表现出更强的空间自相关性,其功能更可能与特定的空间环境相关 \cite {zhu2018spatial}。在某些疾病状态下,基因的空间分布极为关键。例如:肝纤维化研究发现,在肝域内,与糖酵解相关的代谢物在纤维化区域边界处呈现出极化模式 \cite {yuan2021seam}。

在研究发育和疾病的空间特征方面,许多疾病和癌症的关键特征并不体现在细胞类型比例上,而是细胞在空间组织中的排列方式。\cite {schurch2020cellular,kim2022unsupervised} 例如,在不同的癌症(如乳腺癌、结直肠癌)以及 COVID-19 研究中,细胞的空间组织模式被发现比细胞类型比例更能反映疾病状态。前沿计算方法已经证明了这一特征在疾病诊断中的重要性 \cite {wu2022graph}。

对于识别空间域相关的分子调控网络中,例如:STARmapPlus 作为一种新兴技术,能够同时对目标蛋白和基因表达进行空间解析,并已被用于研究阿尔茨海默病相关蛋白在不同空间域内的分布模式。另一项研究利用计算方法,结合空间微环境信息来预测蛋白的丰度,进一步探索疾病相关蛋白的空间调控机制。\cite

总体而言,空间域的识别不仅在组织结构注释中具有重要作用,更在疾病诊断、发育研究以及分子调控机制探索等方面展现出广阔的应用前景。深入理解空间域所承载的生物功能意义,将为空间转录组数据的挖掘与解释提供关键支撑。

\section {评价指标}
\subsection {准确性指标}
NMI(归一化互信息)用于衡量两个聚类之间的相似性。NMI 的取值范围为 0 到 1,越接近 1 表示两个聚类结果越相似。NMI 衡量的是从一个聚类结果预测另一个聚类结果所需的额外信息量,适用于类别数量不一致的聚类结果评估。

PP 是空间域聚类结果,TT 是真实标签,H(P)H(P)H(T)H(T) 分别为它们的信息熵,MI(P,T)MI(P,T) 表示它们的互信息,则 NMI 计算公式为:
\begin{equation}
NMI = \frac{MI(P,T)}{\sqrt{H(P)H(T)}}
\end

ARI(调整兰德指数)用于比较两个聚类结果中每一对数据点是否被划分到相同簇中,适合用于类别数量一致时的聚类结果评估。

ARI 的计算公式为:
\begin{equation}
\begin{alignedat}{2}
ARI &= \frac{TP + TN - E}{TP + TN + FP + FN - E} \
\text{where} \quad
E &= \frac{(TP+FP)\times TP + (FN+TN)\times (FP+TN)}{TP+TN+FP+FN}
\end{alignedat}
\end

HOM\cite {pedregosa2014homogeneity}(同质性得分)衡量聚类结果与真实标签的同质性。如果每个聚类簇仅包含同一类别的数据点,则聚类是完全同质的。HOM 得分范围为 0 到 1,1 表示完全同质。

COM\cite {pedregosa2014completeness}(完整性得分)衡量聚类结果相对于真实标签的完整性。如果同一类别的所有数据点都被正确划分到一个簇中,则聚类是完全完整的。COM 得分范围为 0 到 1,1 表示完全完整。
\subsection {连续性指标}
CHAOS\cite {shang2022spatially}(高通量开放科学的连续性评估) 是用于质谱成像和空间转录组学中空间连续性评估的指标。得分越低,表示空间域识别结果的连续性越好。

计算步骤如下:
\beginenumerate} \item 构建每个数据点的 1 - 最近邻(1-NN)图,连接物理空间中欧几里得距离最近的细胞。 \item 定义权重 $w_{kij}$:若细胞 $i$ 和 $j$ 属于同一簇 $k$,则 $w_{kij} = d_{ij}$(欧几里得距离),否则为 0。 \item CHAOS 得分计算公式为: \begin {equation} CHAOS = \sum_{k=1}({K)\sum_i=1}({n_k)w_{kij}
\end

其中 nkn_k 表示簇 kk 中的细胞数,KK 为空间域的总数。
\end

PAS\cite {shang2022spatially}(共享区域百分比) 是衡量空间同质性的指标,用于量化空间转录组学中空间域识别算法的性能。PAS 值越低,表示空间域的连续性越好。其计算方式为:具有不同空间域标签的细胞,在其邻近的 10 个细胞中至少有 6 个与其标签不同的百分比。

ASW\cite {rousseeuw1987silhouettes} 最初用于评估聚类标签与嵌入空间(或距离矩阵)之间的一致性,后扩展用于评估预测空间域与物理空间的一致性。

ASW(平均轮廓宽度) 的取值范围通常归一化到 0 到 1,越接近 1 表示聚类性能越好。其计算包括:

\begin{enumerate}
\item \textbf {轮廓宽度(SW)的定义}:
\begin{itemize}
\item aa:细胞与同一空间域中其他细胞的平均距离;
\item bb:细胞与最近邻其他簇中细胞的平均距离;
\item 则:
\begin{equation}
SW = \frac{b - a}{\max(a, b)}
\end{equation}
\end{itemize}
\item \textbf {ASW 的定义}:对所有细胞的 SW 值取平均。
\end

\subsection {基因表达模式指标}
Moran's I\cite {miller2021characterizing} 是空间统计学中衡量空间自相关程度的指标,常用于空间组学中评估 SVG(空间变异基因)的空间表达模式是否有序。

其取值范围为 -1 到 1:
\begin{itemize}
\item 趋近于 1:相似基因表达值空间聚集;
\item 趋近于 0:表达随机无序;
\item 趋近于 -1:呈棋盘格状交替分布。
\end

xix_ixjx_j 分别为细胞 iijj 的基因表达值,xˉ\bar{x} 为平均表达值,NN 为细胞数,wijw_{ij} 为空间权重,则:
\beginequation} \begin{aligned} \text{Moran's } I &= \frac{N}{W} \cdot \frac{\sum_{i=1}({N)\sum_j=1}({N)w_ij} (x_i - \bar{x})(x_j - \bar{x})}{\sum_{i=1}({N)(x_i - \barx})(2)\
w_{ij} &=
\begin{cases}
1, & \text {若} i \text { 与 } j \text { 是空间邻居} \
0, & \text {否则}
\end{cases} \
W &= \sum_{i,j} w_{ij}
\end{aligned}
\end

Geary's C \cite {miller2021characterizing} 同样用于度量空间自相关,与 Moran's I 类似,但更关注邻近细胞间的差异性。

计算公式如下:
\beginequation} Geary's\ C = \frac{N \cdot \sum_{i=1}({N)\sum_j=1}({N)w_ij} (x_i - x_j)(2)2W \cdot \sum_{i=1}({N)(x_i - \barx})(2)
\end

其中各符号含义同 Moran's I。

\subsection {可扩展性指标}
Time(运行时间) 指标用于评估空间域识别算法在给定数据集上的运行效率。它衡量模型从输入数据开始处理到输出预测结果所需的总时间,单位为秒(s)。在算法比较中,较小的 Time 值表示更高的计算效率。

Memory 指标衡量算法在运行过程中占用的最大内存量,以兆字节(MB)为单位。内存峰值反映了模型在运行过程中的资源需求,较小的 Memory 值通常表示更优的资源利用率,尤其在资源受限的计算环境下具有重要意义。
\subsection

综上所述,本文从多个维度系统地引入了用于评估空间域识别算法性能的指标体系,包括准确性、连续性、基因表达一致性及可扩展性。准确性指标(如 NMI、ARI、HOM 和 COM)用于衡量聚类结果与真实标签之间的一致性;连续性指标(如 CHAOS、PAS 和 ASW)反映预测空间域在物理空间上的连贯性与合理性;基因表达模型指标(如 Moran's I 和 Geary's C)评价模型是否能够识别出具有生物学意义的空间变异基因;而可扩展性指标(Time 与 Memory)则用于量化算法在实际应用中的效率与资源消耗。多维度、多角度的指标体系不仅有助于全面评价模型性能,也为后续空间组学算法的优化与选择提供了参考依据。

\chapter {空间域建模方法介绍}
\section {非空间聚类方法}
\subsection{Louvain}
Louvain\cite {wolf2018scanpy} 是一种非空间聚类算法,它利用贪心优化的思路、通过不断迭代地合并和拆分社区来优化模块度,直到模块度不再增大,从而在一个大型的网络中获取非重叠的社区,它能够有效的提取社区的结构。
模块度的定义如下
\begin {equation}
Q = \frac{1}{2m} \sum_{i,j} \left( A_{ij} - \frac{k_i k_j}{2m} \right) \delta(c_i, c_j)
\end

其中:
\begin{itemize}
\item AijA_{ij}:节点 iijj 之间是否有边,1 表示有,0 表示无;
\item kikj2m\frac{k_i k_j}{2m}:节点 iijj 在随机图中预期的连接概率;
\item δ(ci,cj)\delta(c_i, c_j):指示函数,iijj 在同一社区时为 1,否则为 0;
\item mm:图中的总边数,即 m=12ikim = \frac{1}{2} \sum_{i} k_i
\end

\subsection{Leiden}
Leiden\cite {wolf2018scanpy,traag2019from} 是另一种非空间聚类算法,其原理与 Louvain 类似。Leiden 算法通过引入额外的精炼过程,解决了 Louvain 算法可能会产生连接不良的社区的问题,从而产生更高质量的社区结构,以提升聚类效果。
\section

\subsection{BayesSpace}
BayesSpace\cite {zhao2021spatial} 是一种基于贝叶斯建模的空间域识别算法,它实现了一个完全贝叶斯模型,并在此基础上引入马尔可夫随机场,以鼓励属于同一聚类的 spots 在空间上彼此接近。其建模过程通常包括以下几个关键组成部分:

\textbf

对每个 spot ii,我们对其基因表达向量进行降维,得到一个低维表示 γi\gamma_i(例如主成分分析后的主成分)。构建的概率模型如下所示:

\beginequation} \left( \gamma_i \mid z_i = k, w_i \right) \sim \mathcal{N} \left( \mu_k, w_i({-1)\Lambda^{-1} \right)
\end

其中参数含义如下:
\begin{itemize}
\item zi{1,,q}z_i \in \{1, \dots, q\}:表示 spot ii 所属的潜在聚类标签;
\item μk\mu_k:聚类 kk 的均值向量;
\item Λ\Lambda:精度矩阵(precision matrix);
\item wiw_i:一个未知的(观测特异性)缩放因子。
\end

\vspace{1em}
\textbf

在模型推断阶段,μk\mu_kΛ\Lambdawiw_i 的更新采用 Gibbs 采样方法迭代进行,而每个聚类标签 ziz_i 的更新则采用 Metropolis-Hastings 算法。

具体地,ziz_i 的更新同时结合了似然项与空间先验信息。马尔可夫随机场(MRF)先验通过 Potts 模型定义如下:

\begin{equation}
\pi(z_i) = \exp \left( \frac{\delta}{|\langle ij \rangle|} \sum_{\langle ij \rangle} I(z_i = z_j) \right)
\end

其中:
\begin{itemize}
\item ij\langle ij \rangle 表示与 spot ii 相邻的所有 spot jj
\item I()I(\cdot) 是指示函数,当括号内条件满足时取值为 1,否则为 0;
\item δ\delta 是平滑强度控制参数,用于调节空间相邻点倾向属于相同聚类的程度。
\end

该先验鼓励空间上相邻的 spot 被分配到相同的聚类中,从而提升空间聚类的连续性与一致性。

此外,BayesSpace 还支持对 Visium 平台下每个 spot 进一步进行 \textbf {亚像素分辨率提升(subspot resolution enhancement)},即将一个 spot 分割为多个子区域,以实现更细粒度的空间结构识别。

BayesSpace 在多个空间转录组学数据集中展现出优秀的空间聚类性能,尤其适用于组织结构复杂、空间域边界不清晰的场景。其实现基于 R 语言,并集成于 Bioconductor 生态中,具有良好的可重复性与可扩展性。
\subsection{SpaGCN}
SpaGCN\cite {hu2021spagcn} 是一种图卷积网络方法,它在空间转录组数据分析中融合了基因表达、空间位置信息以及组织学图像。SpaGCN 能够从每个样本的邻近点中聚合基因表达信息,从而识别出空间域。

SpaGCN 进行空间域识别的时主要分为三个步骤进行:

一、构建能够代表每个样本点的关系的图,图的距离构建主要考虑空间信息和组织学图像信息。

二、SpaGCN 利用图卷积层去聚合每个样本点周围邻居的基因信息。图卷积层可被表示为:

\begin{equation}
f(X, A) = \delta(AXB),
\end

其中,XX 是从主成分分析(PCA)获得的 N×50N \times 50 嵌入矩阵,BB50×5050 \times 50 的矩阵,表示卷积层的滤波器参数,δ()\delta(\cdot) 是一个非线性激活函数,如 ReLU。

三、通过聚合得到的表达矩阵再次通过无监督聚类算法进行聚类得到最终的结果。

此外,SpaGCN 进行基于结构区域引导的差异表达分析 (domain-guided differential expression, DE),以识别在特定结构区域中富集表达的基因。SpaGCN 检测到的基因具有良好的可迁移性,可用于其它数据集中空间基因表达变异的研究。

SpaGCN 计算速度快,可在多种平台上运行,是一种适用于多种 SRT 数据研究的理想工具。
\subsection{STAGATE}
STAGATE\cite {dong2022deciphering} 是一种图注意力自编码框架,它通过整合空间信息和基因表达谱来学习低维的潜在标识,从而能够准确的识别空间结构域。STAGATE 通过使用注意力机制,从而更好地自适应地学习相邻样本点的相似性,并且可选地通过整合基因表达的预聚类结果,引入对细胞类型感知的模块。

STAGATE 模型的构建主要分为下面三个步骤

一、对 SNN 图的构建。除了常规的 SNN 图构建,STAGATE 提供了对细胞类型感知的 SNN 图构建。

二、使用图注意力自编码框架对数据进行整合,从而学习样本在低维的潜在表示。

三、使用聚类方法对低维表示的数据进行聚类得到划分的空间域结果。当我们知道分类标签的数量时采用 mclust 进行聚类,反之则采用 Louvain 进行聚类。

STAGATE 能显著提升空间结构域识别的准确性,并在保留空间表达模式的同时,有效去噪。更重要的是,STAGATE 可扩展至多张连续切片,有效降低切片间的批次效应,并从重建的三维组织中提取三维表达结构域。
\subsection {小结}
Louvain 和 Leiden 算法由于其原始设计并未考虑空间信息,虽具有较低的算法复杂度与较强的数据适应性,但在空间结构识别方面存在明显不足。相比之下,SpaGCN、BayesSpace 和 STAGATE 作为空间感知算法,能够在建模过程中有效融合空间邻域信息,从而提升聚类的空间连续性与生物学解释能力。SpaGCN 借助图卷积机制与组织学图像信息联合建模,具备较强的空间结构识别能力;STAGATE 采用图注意力机制对邻接关系进行自适应加权,在保留空间表达模式的同时兼具降噪与跨切片扩展能力,适用于多种分辨率与平台。BayesSpace 则基于高斯混合模型与马尔可夫随机场进行贝叶斯建模,能够引入空间先验增强聚类精度,但其模型复杂度较高,且主要面向 Visium 等固定平台,对于如 Slide-seq 等高分辨率或跨平台数据适应性较弱,限制了其通用性。下表这些模型的特点进行了综合的阐述。
\begin{table}[H]
\centering
\begin{tabular}{lcccc}
\toprule
\textbf {特性} & \textbf {Louvain / Leiden} & \textbf {SpaGCN} & \textbf {BayesSpace} & \textbf {STAGATE} \
\midrule
是否空间感知 & 否 & 是 & 是 & 是 \
空间连续性 & 无保障 & GCN 处理 & MRF 建模 & 注意力建模 \
可解释性 & 较弱 & 自带差异分析 & 可视化空间基因 & 可解释注意力机制 \
算法复杂度 & 低 & 中等 & 高 & 高 \
使用数据的多样性 & 强 & 强 & 弱 & 强 \
组织学图像信息 & 否 & 是 & 否 & 否 \
使用平台 & Python & Python & R & Python \
\bottomrule
\end{tabular}
\caption {空间转录组聚类方法的比较}
\end

\chapter

\section {数据预处理}
\subsection {数据}
\textbf

10x Visium 数据集(也被称为 SpatialLIBD 或 DLPFC)是空间聚类方法中最广泛使用的基准数据集之一 \cite {maynard2021transcriptome}。该数据集包含来自三位神经类型正常的成年捐献者的 12 个人类死后背外侧前额叶皮层(DLPFC)组织切片数据,所有样本均采用 10x Visium 技术进行分析,并配有配对的 H&E 染色图像。我们使用编号为 151673 的样本作为数据集,包含 3639 个样本,每个样本包含 33538 个基因。

\textbf {人类肝脏组织:}
这份数据集来自使用 10x Visium 技术的肝脏组织。\cite {guilliams2022spatial} 该数据集包含 13 个数据,其中 8 个是小鼠肝脏数据,5 个是人类肝脏数据。这里我们采用人类肝脏数据作为样本,选取包含 1759 个样本,每个样本包含 32738 个基因的数据。

\textbf

MERFISH\cite {moffitt2018molecular} 数据集是一种基于成像的空间转录组学数据集,发表于 2018 年。在所有切片中,有五个切片被标注了区域标签。我们选取的数据包括 5557 个样本,每个样本包含 155 个基因。

\textbf

osmFISH \cite {codeluppi2018spatial} 数据集是一个基于成像的空间转录组学数据集,于 2018 年发布。该数据集包含来自小鼠体感皮层的一份数据,并与介绍 osmFISH 技术的论文一起发布。细胞数量为 4,839 个。基因的数量为 33 个,这些基因是从已发布的小鼠体感皮层单细胞 RNA 测序数据集中筛选出来的。

\textbf{ST:}
该数据集是使用空间转录组学技术研究的 HER2 阳性乳腺肿瘤数据集 \cite {andersson2021spatial}。细胞数量是 530 个,基因数量为 15029 个。

\textbf

BaristaSeq 数据集 \cite {spacetx2023web} 是通过 BaristaSeq 技术 \cite {chen2018efficient} 获得的基于成像的空间转录组学数据集。数据包含 1690 个细胞和 79 个基因。
\begin{figure}
\centering
\includegraphicswidth=1\linewidth
\caption {Human Liver 和 Stereo-seq 的空间域划分}
\label{fig:enter-label}
\end

\textbf

Stereo-seq 是一个基于成像的空间转录组学数据集,应用于小鼠嗅球组织的基因表达研究。数据集包含多个样本,涵盖了小鼠嗅球的不同区域,包含 19109 个细胞和 27106 个基因。数据集可在 (https://github.com/JinmiaoChenLab/SEDR_analyses/) 中获取。

\subsubsection

综上所述,以上空间转录组学数据集提供了丰富的基因表达信息和细胞分布数据,涵盖了不同的组织、物种以及研究方法。这些数据集为我们深入理解各类生物组织的空间结构和功能提供了强有力的支持,也为空间转录组学技术的进一步应用与发展奠定了基础。表 2.1 对上面的数据集进行了归纳
\begin {table}[htbp]
\centering
\caption {文章中使用的数据集}
\label{tab:comparison}
\begin{tabular}{llcccc}
\toprule
样本名称 & 空间技术 & 半径 & 样本数量 & 基因数量 & 稀疏性 \
\midrule
DLPFC & 10x Visium & 55,\si{\micro\meter} & 3639 & 33538 & 0.93 \
Human Liver & 10x Visium & 55,\si{\micro\meter} & 1759 & 32738 & 0.90 \
MERFISH & MERFISH & \le 1 cell & 5557 & 155 & 0.57 \
osmFISH & osmFISH & \le 1 cell & 4839 & 33 & 0.31 \
ST & ST & 55,\si{\micro\meter} & 530 & 15029 & 0.87 \
BARISTAseq & BARISTAseq & \le 1 cell & 1690 & 79 & 0.86 \
STARmap & STARmap & \le 1 cell & 1049 & 166 & 0.69 \
STARmap* & STARmap* & \le 1 cell & 1207 & 1020 & 0.77 \
Stereoseq & Stereoseq & 500,\si{\nano\meter} & 19109 & 27106 & 0.98 \
\bottomrule
\end{tabular}
\end{table}
\subsection

对于不同的模型我们针对模型本身的使用要求采用不同的数据预处理方式。

针对 Louvain 和 Leiden 模型,先对原始基因表达数据进行标准化处理(如 UMI 归一化并取对数),并筛选出高变异基因以降低数据维度和噪声。随后通过主成分分析(PCA)对表达矩阵进行降维,并在低维空间中构建 K 近邻图(KNN 图),该图将每个样本节点与其在表达模式上最相似的若干邻居连接,为后续的图聚类提供结构基础。

针对 STAGATE 模型,我们首先移除了不在主要组织区域以内的数据。接着我们对于未处理的基因数据进行对数变换并进行规范化。最后选取 3000 个高可变基因作为 STAGATE 的输入。\cite

针对 BayesSpace 模型,我们对于未处理的基因数据进行对数变换并进行规范化。接着我们使用 PCA 对选取的 2000 个高可变基因进行降维并最终选择 15 个主成分进行输入。\cite

针对 SpaGCN 模型,在预处理过程中,表达数量少于三个测量点的基因会被剔除。然后对每个测量点的基因表达值进行归一化处理:即将每个基因的 UMI 计数除以该测量点所有基因的 UMI 总数,再乘以 10,000,最后取自然对数进行转换。预处理完成后,SpaGCN 会将基因表达数据与组织图像数据转化为一个加权无向图 G (V, E) 并将此数据进行输入。\cite

\subsection {不同数据在 STAGATE 模型下的表现}
为了更好的理解模型在不同数据下的表现存在差异,并直观的把握模型在不同类型数据集聚类的效果,首先我们对于不同数据集在 STAGATE 模型下的表现进行了实验。

不同数据集在聚类时的表现存在差异,我们对各个数据集在不同评价指标下的表现进行了可视化展示,直观呈现空间域划分结果(见图 4.2)。

在准确性相关指标方面,基于 10x Visium 平台的 DLPFC 数据集在 ARI、NMI、HOM 和 COM 四项指标中表现最优;BARISTAseq、Human Liver 与 MERFISH 数据集也展现出良好的聚类效果,其余数据集则相对较弱。

\begin{figure}
\centering
\includegraphicswidth=1\linewidth
\caption {数据集在 STAGATE 上的表现}
\label{fig:enter-label}
\end

在反映基因空间表达模式的两个指标中,Moran’s I 更偏重于衡量基因在整体空间中的聚集程度,而 Geary’s C 更关注基因在局部邻域中的变化,并对极端值更为敏感。可以观察到,10x Visium 数据集在聚类后基因分布呈现出整体聚集的趋势,但局部区域的空间自相关性较弱。此外,Moran’s I 与 Geary’s C 在多数数据集上呈现出相反的评价趋势,提示某些数据在整体表达模式与局部连续性之间存在一定的权衡。以 BARISTAseq 数据集为例,其在 Moran’s I 上得分最低,但在 Geary’s C 上反而表现最优,体现出其基因在局部的表达模式更具结构性。

在空间连续性指标方面,BARISTAseq、DLPFC、MERFISH 和 osmFISH 数据集在 CHAOS 指标下表现较好;而在 PAS 指标下,BARISTAseq、DLPFC 和 MERFISH 表现最佳;在 ASW 指标中,BARISTAseq 与 DLPFC 显著优于其余数据集,显示出其空间聚类的紧凑性与一致性。

在可扩展性方面,MERFISH 数据集在时间消耗方面显著高于其他数据集,这与其 “多样本、少基因” 的数据特性相符。在内存消耗方面,不同数据集根据样本数量和基因维度差异表现各异,未呈现明显统一趋势。

如先前的基准研究所指出,空间技术和计算方法的多样性对于实现本研究的核心目标至关重要:一方面,为生物学研究人员提供模型选择的指导依据;另一方面,推动计算方法开发者持续优化现有方法。生物学家需了解在其所使用的数据(无论基于现有技术或新兴平台)上,何种聚类方法最为有效。现有空间转录组技术中,10x Visium 与 MERFISH 占据了已发表数据的大量份额,并凭借商业化发展趋势有望持续扩展其影响力。对于新兴空间技术生成的数据集,本研究亦可通过数据特征相似性进行方法推荐,具有一定推广价值。

综合以上实验结果,结合数据集的商业可获取性及模型适配性,本研究后续主要选择 DLPFC 与 MERFISH 两个数据集作为重点评估对象,并进一步探索若干新兴空间技术数据集中聚类结果的生物学解释与潜在意义。

\section

\subsection

如图 4.1 所示为本研究的总体流程图。为了更好地评估空间聚类模型的性能,我们采用了人工预标注的类别作为真实标签进行对比分析。在五种聚类模型(Leiden、Louvain、BayesSpace、STAGATE、SpaGCN)上,对来自七种空间技术的八个不同数据集进行了空间域划分。为了确保方法间的公平对比,我们统一采用包含空间位置信息和基因表达信息的标准化处理数据作为模型输入。

\begin{figure}
\centering
\includegraphicswidth=\textwidth
\caption {流程图}
\label{fig:enter-label}
\end

\subsection

对于每个模型我们进行 10 次重复的运行,每次运行的我们重新设置模型的种子的随机数以确认模型的运行稳定程度。

对于直接影响聚类结果中空间域数量的参数,我们根据不同方法的特点采用了两种处理策略:(1) 对于可直接设定预期空间域数量的算法(如 SpaGCN 和 BayesSpace),我们将参数设置为与真实标签中空间域数量一致;(2) 对于只能设置聚类分辨率的算法,我们搜索了最接近预期空间域数量的分辨率值。
网络相关参数

对于网络相关参数包括神经网络的层数、隐藏层神经元数量以及训练的停止准则。对于这些参数,我们采用原始文献中作者推荐的设置。

\section

\subsection {针对 10x Visium DLPFC 数据集的模型评估}
\begin{figure}
\centering
\includegraphicswidth=1\linewidth
\caption {各模型在 10x Visium DLPFC 数据集下的表现}
\label{fig:enter-label}
\end{figure}
我们通过在 DLPFC 数据集的组织切片上对预测的空间域进行可视化划分,评估了各个模型的空间聚类性能,相关结果如图 4.3 所示。从图 4.3b 可以看出,SpaGCN、BayesSpace 和 STAGATE 等方法均呈现出符合预期的层状结构,而 Leiden 和 Louvain 方法由于未考虑空间信息,表现明显较差。这也与已有研究一致 —— 它们常作为对照方法,用于展示空间信息在聚类任务中的优势。

在具体数值上,五种方法的最高 NMI(归一化互信息)分别为:STAGATE(0.714)、BayesSpace(0.688)、SpaGCN(0.661)、Leiden(0.307)和 Louvain(0.306)。这些数值与可视化结果高度一致,进一步验证了 STAGATE 的优异性能,其次为 BayesSpace 和 SpaGCN,而 Leiden 与 Louvain 表现最差。

虽然 NMI 是评估聚类效果最核心的指标之一,但其他指标能从不同维度补充分析方法的性能表现。图 4.3a 展示了多项评估指标的可视化结果。从准确性相关指标(如 HOM 和 COM)来看,空间聚类方法整体显著优于非空间方法。在基因表达模式上,我们也观察到了在空间聚类与非空间聚类方法之间的一个典型权衡现象:空间聚类模型更注重局部连续性,因而在表达模式的局部一致性上表现优越,而非空间模型则更倾向于保持全局相似性,这与本章第一节中对数据聚类趋势的观察结果一致。

在连续性指标方面,如 CHAOS 和 PAS,空间聚类模型展现出更高的一致性与紧凑性,尤其是 BayesSpace 和 STAGATE 表现最为突出。然而,在可扩展性方面,BayesSpace 的时间和内存开销最高,表明在追求运行效率时可能需要选用其他方法。

在实际应用中,若目标是获得更高的聚类准确性与空间连续性,推荐使用 STAGATE 和 BayesSpace;若更关注组织结构的精细分辨,可考虑 HOM 值较高的模型;若主要关注全局表达模式的相似性,Leiden 和 Louvain 虽精度较低,但计算效率高,可作为快速探索工具。此外,若希望研究组织学图像信息对聚类效果的影响,SpaGCN 是较合适的选择。而在模型稳定性和结果可解释性方面,BayesSpace 表现尤为突出,适合对结果稳定性要求较高的场景。

不同空间聚类方法在准确性、连续性、表达模式偏好和可扩展性等方面各具优势,选择适合的模型应依据具体应用需求、数据特性和计算资源综合权衡。

\subsection {针对 MERFISH 数据集的模型评估}
\begin{figure}
\centering
\includegraphicswidth=1\linewidth
\caption {各模型在 MERFISH 数据集下的表现}
\label{fig:enter-label}
\end

MERFISH 是一种被广泛应用的、基于成像的空间转录组测序技术。通过对其进行空间域划分(如图 4.4b 所示),可以观察到该组织结构高度复杂,空间域具有异质形状和邻接关系,这使得在该数据集上进行空间聚类预测任务具有较大挑战性。由于 BayesSpace 依赖于具有 spot 位置信息的空间数据,因此无法应用于 MERFISH 数据集,在本节分析中不予考虑。

在 MERFISH 数据集上对剩余可用方法进行评估时,首先从可视化结果来看,STAGATE 表现最为出色,优于其他三种方法;而 SpaGCN 相较于其在 10x Visium DLPFC 数据集上的表现,性能出现了明显下滑。

在具体的 NMI(归一化互信息)指标上,四种方法的最高得分分别为:STAGATE(0.588)、SpaGCN(0.250)、Leiden(0.185)、Louvain(0.186)。这些结果与可视化效果高度一致,进一步验证了 STAGATE 在该数据集上的优异性能;其次为 SpaGCN,而 Leiden 与 Louvain 仍然表现最差,印证了其不适合用于复杂的空间结构聚类任务。

图 4.4a 展示了多项评估指标的可视化结果。从整体趋势来看,各方法在 MERFISH 数据集上的表现与在 DLPFC 数据集上存在显著差异。特别是 SpaGCN,在 DLPFC 数据集中略逊于 STAGATE,而在 MERFISH 数据集中性能显著下降,这说明 SpaGCN 对于成像型、高稀疏度的空间数据处理能力较弱。另一方面,从模型稳定性的角度来看,STAGATE 在 MERFISH 数据集上的预测结果方差高于其在 DLPFC 数据集上的表现,可能原因在于 MERFISH 数据集中基因数量相对较少,且数据更为稀疏,增加了聚类任务的不确定性。

STAGATE 在 MERFISH 数据集上仍然展现出良好的空间聚类能力,是目前分析此类成像型空间转录组数据的优选方法。而 SpaGCN 在面对高度稀疏和结构复杂的组织数据时性能不稳定,提示我们在选择聚类模型时需充分考虑数据类型的特性及适配性。

\subsection

\begin{figure}
\centering
\includegraphicswidth=1\linewidth
\caption {Human Liver 和 Stereo-seq 的空间域划分}
\label{fig:enter-label}
\end{figure}
在空间转录组数据分析中,空间域的划分不仅有助于揭示组织内部的空间结构特征,更承载着重要的生物学意义。不同的空间区域通常对应着功能各异的细胞群体,它们在基因表达、代谢状态,甚至疾病发生机制中扮演着彼此不同但又相互协作的角色。通过精确的空间聚类,不仅可以帮助我们理解细胞如何在空间中协同工作、组织如何维持功能稳态,还能揭示关键的发育过程或病理变化在空间尺度上的动态演化。

我们将多种聚类模型分别应用于两类具有代表性的空间转录组数据集:10x Visium 技术下获得的人类肝脏组织数据,以及 Stereo-seq 技术生成的小鼠嗅球组织数据,结果如图 4.5 所示。其中 Stereo-seq 是一种新兴的空间组学技术,通过 DNA 纳米球图案化芯片可实现亚细胞级的空间分辨率。本研究中使用的数据被重采样(binning)至细胞级分辨率(约 14 μm)。Fu 等人已经在 DAPI 染色图像中对小鼠嗅球冠状切面的层状结构进行了注释,包括前移行流(RMS)、颗粒细胞层(GCL)、内丛状层(IPL)、锥体细胞层(MCL)、外丛状层(EPL)以及嗅神经层(ONL)(图 4.5b)。

在 Human Liver 数据集中(图 4.5a),通过对门脉区(Portal)及其周边区域(Periportal)的观察可以看出,SpaGCN 虽能较好地识别出门脉区,但未能体现门脉区与其周边区域之间的空间关系。相较之下,STAGATE 尽管识别出的门脉区数量更少,但能够准确刻画不同区域之间的结构性关联,表现出更强的生物学一致性。而对于非空间聚类算法而言,其划分结果缺乏空间连续性,甚至在部分区域上出现了明显的误判。

在 小鼠嗅球组织数据中,STAGATE 能够清晰识别出前移行流区域,并在颗粒细胞层内进一步辨识出一个新的空间亚群。此外,根据已有研究,STAGATE 所识别的多个区域均得到了已知基因标志物的支持,如中间神经细胞层中狭窄结构的准确识别进一步体现了其强大的空间解析能力。相比之下,SpaGCN 及非空间方法在该数据集上的识别能力则较为有限,难以呈现清晰的空间域轮廓。

空间域划分不仅为空间转录组数据提供了结构化的理解框架,也为探索组织功能分区和疾病相关机制提供了关键支撑。STAGATE 等空间感知模型展现出更强的泛化能力与生物学解释力,为空间生物信息学的深入发展提供了有力工具。

\chapter {总结与展望}
\section {对论文工作的总结}
在本研究中,我们对主流的空间域识别方法进行了系统的梳理与综合评估。首先,明确了空间域的基本概念,并深入阐述了其在生物学上的功能意义,从而更清晰地界定了研究对象与实验动机。接着,我们详细介绍了空间域建模所涉及的数据,汇总了本研究中使用的八个数据集,并分析了它们的主要特征及相互之间的共性。

随后,我们系统地归纳了用于模型评估的评价指标,将其分为四大类:准确性、连续性、基因表达模式和可扩展性,并针对每一类指标的计算原理与评估意义进行了深入解读。最后,我们对所涉及的各类模型进行了简要介绍,梳理了它们的实现机制,并比较了各自的优势与局限性。

在实验部分,我们以 STAGATE 模型为例,分析了其在不同数据集上的表现,并结合数据的实际应用价值(如商业潜力)为后续数据集的选择提供了依据。我们重点针对 DLPFC 数据集与 MERFISH 数据集这两类分别代表 spot 类型与单细胞类型的典型数据,开展了模型评估,直观展示了不同模型在空间域识别中的性能差异,进一步凸显了空间聚类模型在该任务中的优势。

此外,我们还探索了模型在实际生物学场景中的应用。通过对人类肝脏数据和小鼠嗅球数据的分析,呈现了各模型下的聚类结果,并结合已有生物学知识对聚类区域的功能意义进行了解读,为空间转录组学在生物医学研究中的应用提供了参考依据。

本文从理论梳理、数据集分析、模型评估到生物学应用,系统地探讨了空间域识别方法的研究现状与实际效果,为后续研究提供了坚实的基础和清晰的参考方向。尽管当前的空间建模方法在准确性与适应性方面已取得显著进展,但在跨平台泛化能力、生物学解释性以及多模态数据融合等方面仍存在一定的挑战。未来的研究可在提升模型可解释性、构建统一的评估框架以及深入挖掘空间转录组数据的潜在生物学价值等方面持续探索,以推动空间转录组学在疾病机制研究、组织结构重建等领域的进一步发展。
\section

本文系统性地评估了当前主流的空间域识别算法,从数据集构建、评价指标设计以及生物学意义等多个维度对现有方法进行了补充与完善,基本构建了完整的实验流程体系。然而,本文仍存在以下几方面的不足:

首先,在模型选择方面,本文选取了两种非空间域聚类模型与三种空间域聚类模型,尽管这些模型在当前研究中具有较强的代表性,但总体数量仍显不足,尚不能全面涵盖当前空间域建模方法的全部特征。未来可进一步引入更多空间聚类模型,尤其是近年来新提出的深度学习方法,以提升实验的全面性与结果的说服力。

其次,在数据集选择上,本文仅针对每种空间转录组技术挑选了 1 至 2 个代表性数据集进行分析,这在一定程度上可能引入偏倚,限制了对不同空间技术特性的全面理解。后续研究可拓展至更多样化的数据集,以增强评估结果的普适性,同时为研究者在选择空间技术平台时提供更具参考价值的依据。

最后,受限于实验条件与资源,本文尚未对大规模空间转录组数据开展评估,因此缺乏模型在高维度、大样本环境下的性能表现分析。未来可结合高性能计算平台,对模型在大规模数据集下的计算效率、可扩展性与稳定性进行系统研究。

综上所述,尽管本文在空间域识别方法的系统评估方面做出了一定的探索和贡献,但仍有较大的提升空间。未来的研究可围绕模型种类的多样化、数据集覆盖面的拓展以及对实际应用场景的适应能力进一步深入,以期推动空间转录组学在更广泛生物医学领域的深入发展。
\end