对 2025 年 4 月的工作进行总结

本月主要在完成毕业设计论文,部分文章的阅读与复现,系统学习生物信息学涉及到的一些 python 库。以下是具体的情况。

一、 完成毕业设计论文
在完成毕业设计论文的过程中,对于部分概念以及部分数据集进行了梳理。

首先针对我阅读过的文章,例如 BayesSpace、SpaGCN、STAGATE 等文章对于研究背景以及空间域的概念进行了梳理归纳并且整理成了文档,方便论文书写过程资料的收集与获取。其次对于这些论文具体的方法进行了回顾与归纳,明晰了之前阅读比较粗浅的在 BayesSpace 这篇论文中的概念,并重新对方法进行了认识。并且对于 BayesSpace、SpaGCN、STAGATE 这三篇论文的方法在论文中进行了总结。同时我也学习了对于 Leiden 和 Louvain 算法它们的具体实现方法和原理,并针对已有的数据集完成了复现。此外,对于评价指标也更深入的进行了了解。

在数据方面,我对于各类数据集进行了更深入的了解,理解了各个数据集所代表的空间技术是什么,怎么去查看他们的样本数量、基因数量以及计算它们的稀疏性。特别的,对于小鼠嗅球数据进行了收集,并且学习了它的组织结构并且初步对于它的空间域划分结合组织学图像进行了描述;同时收集了 BARISTAseq 数据,这个数据集在各个模型上表现都不错,以后可以使用。

二、 文章的阅读与复现
本月主要是对于 ENSDD 这篇论文进行了阅读与复现,收集了它对应的 Human Breast Cancer 数据并以此做了复现。了解了 R 语言中调用 Python 库的操作,并且深入了解了它的代码实验原理并且做了总结,汇总成文档。

特别的对于这篇论文的核心函数,我进行了推到,粗浅的理解了在线性代数中对于矩阵求偏导的流程,并且对其进行了总结,同时对照代码进行了验证。

目前复现的进展接近尾声,对于基因相关的 tutorial 还需要理解。

三、 系统学习生物信息学涉及到的一些 python 库

由于认识到自身对于 python 代码的书写还处于一种零散的,不成系统的情况,所以去系统学习了 Numpy、pandas 和 Anndata 相关库的函数和操作,并且汇总成了文档以便查阅。具体而言针对 AnnData 数据,我系统的了解了它的各个模块的结构,如何利用 pandas 和 numpy 的函数对其操作,并且学习了例如如何处理大规模数据,如何创建稀疏矩阵等操作。

四、 后面工作的安排

(1)阅读整理完 EnSDD 这篇文章,并且在组会前完成 ppt 等相关工作的整理。
(2)阅读其它的文献,例如《scPerturb: harmonized single-cell perturbation data》并且结合自身情况继续阅读其它文献
(3)继续整理 python 相关的操作,并且可以适当回顾以前文章是怎么利用这些操作形成方法的。
(4)完成毕业设计相关内容。