在affy之中,数据预处理有一个叫做constant normalization的方法。
首先,我要说一个我自己认为的东西。我个人认为这个过程要叫做标准化,而不能叫做归一化。
前一篇文章关于RMA算法之中,大家都叫归一化,所以我也就先不改了,但是实际上叫做标准化。
归一化的意思是我们要讲数据归一到0~1的范围内,而标准化是将不同组间进行标准化,使得组间大小的比较具有意义。
然后这个constant normalization其实非常的简单,其调用方式有如下两种:
两个方法的效果肯定是一样的,而且本质上第二种方法是帮大家自动调用了方法一。
这个标准化有如下几个步骤:
我们还是定义矩阵中每一列是一组数据,每一行是某一位探针
先选定一列数据作为参照组,默认是第一组,当然可以通过参数refindex传入
求出参照组的平均数,默认是平均数,比如大家希望求和之类的,可以通过参数FUN传入
之后每一组的数据都除以该组的平均数,再乘以参照组的平均数
很显然是将所有组都向着参照组进行靠拢,这个方法我个人认为效果不会太好,因为在我们进行数据分析之前并不知道哪一组好哪一组不好,
可能参照组本身就是一组很差的数据,那进行标准化之后会导致整体数据被污染。
全部评论