这篇文章用来记录我所有遇到的数据集它们是什么,从哪里来,什么结构,适用于哪些算法等等这些问题,具体的数据会保存在硬盘上。
以下7个是SpaGCN用到的数据,有的有图片有的没有。
Human primary pancreatic cancer ST data (GSE111672)
Species: Human
协议是:Spatial Transcriptomics
这里可以看到文件里面主要包含tsv文件、jpg文件和txt文件
这个文件十分的复杂,记录一下怎么处理这上面的数据:
对于tsv文件:
这玩意是原始数据
列标题是基因名称,行标题是样本和点的标识符,数据值是表达水平
怎么读取:
import pandas as pd
# 读取数据
data = pd.read_csv("data/GSM3036911.tsv", sep="\t")
# 重命名第一列为 'Barcode'
data = data.rename(columns={data.columns[0]: "Barcode"})
# 分解 Barcode 为 X 和 Y 坐标
data[["X", "Y"]] = data["Barcode"].str.split("x", expand=True)
data["X"] = pd.to_numeric(data["X"])
data["Y"] = pd.to_numeric(data["Y"])
# 检查数据
print(data.head())
# 保存坐标和基因表达数据
data[["Barcode", "X", "Y"]].to_csv("spatial_coordinates.csv", index=False)
data.to_csv("gene_expression.csv", index=False)
绘图:
import matplotlib.pyplot as plt
spot_coordinates = pd.DataFrame({
"spot": gene_expression.columns,
"x":[int(spot.split("x")[0]) for spot in gene_expression.columns],
"y":[int(spot.split("x")[1]) for spot in gene_expression.columns],
})
plt.scatter(spot_coordinates["x"], spot_coordinates["y"], s=10, alpha=0.7)
plt.xlabel("X Coordinate")
plt.ylabel("Y Coordinate")
plt.title("Spatial Distribution of Spots")
plt.show()
对于GSM3036911_PDAC-A-ST1-filtered.txt文件
这玩意应该是提取好的数据
第一列是基因名称,标识每一行对应的基因,其余的列是采样点的表示如$10\times10$,其余的和tsv文件类似。
完整的运行过程如下图所示:





这么一看这个数据集中的spot数是真的少啊
LIBD human dorsolateral prefrontal cortex, dorsolateral prefrontal cortex 10x Visium data
Species: Human
协议是:10X Visium
保存了h5文件,tif文件,position文件
对于151673数据: 3639 spots. 33538 genes.
mouse posterior brain 10x Visium data
Species: Mouse
协议是: 10X Visium
保存了h5文件,tif文件,spatial文件夹的数据
对于数据:3353 spots. 31053 genes
mouse cortex SLIDE-seqV2 data
Species: Mouse
协议是: SLIDE-seqV2
保存了h5文件,tif文件,position文件
对于数据: 2560 spots. 22683 genes
Mouse visual cortex data
这上面的数据更加直接,在SpaGCN给出的数据有点抽象了。
Species: Mouse
协议是: STARmap
仅保存了一份csv数据
对于数据: 1207 cells. 1020 genes
Mouse Olfactory bulb
Species: Mouse
协议是: Spatial Transcriptomics
保存的是csv文件和jpg文件,数据直接清晰
对于数据: 262 spots. 16218 genes
Mouse Hypothalamus data
Species: Mouse
协议是: MERFISH
保存了csv文件
对于数据: 5665 cells. 161 genes.
接下来是STAGATE的数据集,目测没有什么好下载的,对于它的3D数据可以记录一下。
Adult Mouse Brain Section 1 (Coronal)
协议: Visium Spatial protocols
保存了h5文件
对于数据:
Spots detected under tissue: 2,903
Median genes per spot: 4,635
Median UMI counts per spot: 12,911
Slide-seqV2 mouse olfactory bulb
这个和之前那个是一样的,这里点明了用的是Puck_200127_15的数据
spots: 20139
Stereo-seq mouse olfactory bulb
spots: 19109
seven hippocampus sections profiled by Slide-seq
处理后的数据
原始数据
Puck_180531_23: spots 18509
接下来是MENDER的数据,挺多且挺杂的
MENDER的数据集感觉就是在推荐它的pysodb的库,不用记录数据来源了,可以直接调用的
接下来是BayesSpace,