关于PCA变换及其应用的梳理
条评论 最近写了篇关于PCA变换应用的文章,主要利用了PCA变换能够将信息集中的特点,通过PCA变换,信息集中在前几个主成分上,通过信息量的差异可以进行分类等操作。也读了一些PCA关于PCA变换应用于其他方面的文章,因此对PCA变换进行一个总结与梳理,以期能够在以后更好的对其进行应用。
首先介绍一下PCA变换,PCA变换又称为主成分变换其过程可以看作是对数据的重投影,我们可以简单的将PCA变换理解为一个投影变换,将数据从一个正交空间投影到另一个正交空间的过程。在这个过程中最重要的就是投影的正交基的求解,在这里首先解释一下基向量比较学术的解释是:
给定一个向量空间$V$,若$V$中的一组线性无关向量组$B=[e_1,e_2,e_3…]$,对于$V$中任意向量都可以通过$B$线性表示,可以认为向量组$B$为向量空间$V$的一组基
从上面的定义我们可以了解基向量的特征,当然我们最常见的基向量就是正交基,也就是说一组基不仅线性无关而且正交,关于线性无关和正交的区别在这里就不多做解释了,我们下面通过一个简单的例子说明一个二维空间的两组基
$$
B_1=\begin{bmatrix}0&1\
1&0
\end{bmatrix}
B_2=\begin{bmatrix}1&1\
1&-1
\end{bmatrix} (1)
$$
其中$B_1,B_2$为两组二维空间中的正交基,$B_2$可以看作是$B_1$旋转45°的结果。
介绍了基向量之后我们可以对PCA变换进行介绍了,从上面的描述中可得PCA变换实质是一个投影变换,因此我们需要找一个投影方向,也就是在变换空间中找到一组基向量。实际上对于任意一个向量空间都存在无数组基,因此我们需要找的一组基应该存在一些约束条件,对于PCA变换来说其约束条件在于按照投影后信息量最大的方向进行投影,投影后各个特征之间线性无关。根据以上要求可以计算投影方向。具体为什么需要计算协方差及其特征向量以及PCA变换的具体计算可以参考这里。
主要还是要说明一下PCA变换的应用意义:
- 变量之间的去相关性;
- 找到信息量最大的方向;
- 垂直关系;
实际上以上三个应用方向中前两个是很好想到的,也在很多方面得到了应用,如异常检测,数据压缩和降维以及去噪等。第三个实际上在数据空间关系上应用的比较少但是是很重要的应用,通过垂直关系可以简单的找到空间中与平面垂直的方向。进而可以找到数据所在的拟合平面,在数据的分割等应用中具有重要的意义。