WGCNA简单原理记录

1673人浏览 / 0人评论 / 添加收藏

WGCNA,全名加权基因网络分析,目的是更好的使用基因在样本中的表达量去衡量基因与基因之间的关系。
 

本文不涉及WGCNA的具体实践,也不涉及具体公式推导和证明,有需要者可以直接参考R包WGCNA的教程。

在理解WGCNA是怎么实现之前,需要先了解基因和基因之间是怎么通过表达值确定关联程度。

  1. 标准化

由于每次生物实验和RNAseq等等操作导致样本和样本之间,甚至基因与基因之间存在一个整体的差异,因此我们需要采用一定的标准化操作进行修正差异。该部分可以参考我前面的其他文章,有很多现在常用的标准化算法可以选择。

2. (可选)选择变化大的基因

根据后续的皮尔森相关系数的定义,或者说简单的理解一下,如果现在有好多基因本身在多个样本中表达值的变化都不大,那只能说明我们不知道是不是相关的,并不能明确的说表达值差别不大就是相关的,可能只是因为基因表达值本身上下调的就不是很明显,像这种基因从意义上讲,反而是我们分析要去探究的对象。但是从实现的难度上说,因为每个基因的上下调水品都是不一样的,这种上下调不明显的是很难分析的,所以可以先去除。当然如果标准化做得好,不去除也是可以的。

3. 皮尔森相关系数

皮尔森相关系数是概率上两个随机事件的相关系数,也就是我们认为基因的表达是两个随机事件,然后用皮尔森相关系数的公式去计算他们之间的关联度。生物学上皮尔森相关系数可谓是一同相关度分析的天下,所有的分析都基本是基于这个的基础上再说的。(但是我估计肯定有比皮尔森相关系数更准确的计算方法存在)

4. 计算TOM矩阵

这部分是WGCNA的核心,但从意义上讲,说白了就是在皮尔森相关系数的基础上进行一些局部的放大和缩小,也就是解决一个我上面说的如果基因变化不大怎么处理的问题。例如说有一个基因表达量在两个样本中是10,15。但是另一个基因在两个样本中表达量是1000,1050.从比例上说肯定是前者更大,但是从绝对值上说后者更大,那他们到底怎么标准化才是一个问题。那么TOM矩阵采用的是用指数函数去做一个映射。当然TOM矩阵还有很多其他的意义,但是核心就是他就是在皮尔森相关系数基础上的修正! 

全部评论