主成分分析法简单例题 主成分分析法( 三 )


当然,上述情况在真实数据中是不可能出现的 。这里只是借此介绍一下这种思维 。真实情况中, 我们需要考虑删除哪一列信息可以使得损失最小?或者是通过变换数据就能使得损失信息更小?又如何度量信息的丢失量?原始数据的处理降维有哪些步骤?
坐标示例:
我们来看下面这张图,这是一个椭圆的点阵 。椭圆上面有一个长轴和一个短轴 。现在我们要表示点阵的主要变化趋势,就可以以长短轴(或者平行于长短轴)构建新的坐标系 。在极端的情况下,短轴变成了一个点,那么长轴就能代表这个点阵的趋势和特点 。这样,一个二维数据,就变成了一维 。
基础知识储备
内积与投影:
内积运算,将两个向量映射为一个实数 。其几何意义就是 向量 A ,在向量 B 的投影长度 。(下图是以二维向量为例,多维空间依然是如此 。)
上式中,B 为单位向量
基 :
同样以上图 B为例,B向量为(3,2)其表示的其实为在 X 轴的投影值为3 ,在Y轴的投影值 为 2。这其实加入了一个隐含信息,就是本坐标轴 分别是以 X Y轴为方向的单位向量 。这里的 X Y 轴其实就是我们所提到的 基 。只不过一般默认为 (1,0)和(0,1)
所以呢,要描述一组向量,首先是要确定一组基 。然后求这个向量在这组基中的投影即可 。对基的要求是线性无关,并不一定非要正交 。但是因为正交基有较好的性质,所以一般情况我们都是用正交基 。
基变换
上面我们了解了基的原理 。如果同样把(3,2)放到新基里面描述,那就是把向量和新基相乘即可 。
如果是在描述中,有多个基呢?那就是与基阵相乘 。
如何实现降维
上面的思路,我们都清楚了 。那么我们如何通过基变换来降维呢?这里我们来举个例子 。假设我们有一个矩阵如下 。
为了处理方面,我们现在把每个字段都减去字段平均值,那么就变成了如下所示
表示在坐标上如下图
那么,我们现在想用一维坐标来表示,而且要求尽可能的保留原来的信息,我们需要如何选择方向(基)呢?(二维降一维)
思路就是,希望投影后的值尽可能的分散,避免重合 。
协方差:
在概率论与统计学中,协方差用于衡量两个随机变量的联合变化程度 。而方差则是协方差的一种特殊情况,即变量与自身的协方差 。
期望:在概率论和统计学中,一个离散性随机变量的期望值(或数学期望,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和 。比如骰子的期望值为 1* 1/6 +2*1/6 + …+ 6*1/6 = 3.5
协方差公式为:
其中,E(X) = u E(Y) = v
协方差表示的是两个变量的总体的误差 ,这与只表示一个变量误差的方差不同 。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值 。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值 。如果X 与Y 是统计独立的,那么二者之间的协方差就是0
流程和步骤
第一步:标准化
把输入数据集变量的范围标准化,以使它们中的每一个均可以大致成比例的分析 。简单说,就是要把存在较大差异的数据转变为可比较的数据 。比如把 0-100 的变量转化为 0-1 的变量 。这一步一般可以通过减去平均值,再除以每个变量值的标准差来完成 。标准差公式如下
那么常用的标准化指标变量公式可为
第二步:协方差矩阵计算
这一步的目的是:了解输入数据集的变量是如何相对于平均值变化的 。或者换句话说,是为了查看它们之间是否存在任何关系 。因为有时候,变量间高度相关是因为它们包含大量的信息 。因此,为了识别这些相关性,我们进行协方差矩阵计算 。
协方差矩阵是p×p对称矩阵(其中p是维数),其所有可能的初始变量与相关联的协方差作为条目 。
好了,现在我们知道协方差矩阵只不过是一个表,汇总了所有可能配对的变量间相关性 。下面就是计算协方差矩阵的特征向量和特征值,以筛选主要成分 。
第三步:计算协方差矩阵的特征向量和特征值,用以识别主成分
特征向量和特征值都是线性代数概念,需要从协方差矩阵计算得出,以便确定数据的主成分 。开始解释这些概念之前,让我们首先理解主成分的含义

秒懂生活扩展阅读