主成分分析法简单例题 主成分分析法( 五 )


依据该原则确定的综合变量指标z1,z2,…,zp分别称为原始指标的第1、第2、…、第p个主成分,分析时可只挑选前几个方差最大的主成分 。
(二)主成分分析法的步骤
(1)将原始数据进行标准化处理,以消除原始数据在数量级或量纲上的差异 。
(2)计算标准化的相关数据矩阵:
灾害损毁土地复垦
(3)用雅克比法求相关系数矩阵R的特征值(λ1,λ2,…,λp)和与之相对应的特征向量 αi=(αi1,αi2,…,αip),i=1,2,…,p 。
(4)选择重要的主成分,并写出其表达式 。
主成分分析可以得到P个主成分,但是由于各个主成分的方差与其包含的信息量皆是递减的,所以在实际分析时,一般不选取P个主成分,而是根据各个主成分所累计的贡献率的大小来选取前K个主成分,这里的贡献率是指某个主成分的方差在全部方差中所占的比重,实际上也是某个特征值在全部特征值合计中所占的比重 。即:
灾害损毁土地复垦
这说明,主成分所包含的原始变量的信息越强,贡献率也就越大 。主成分的累计贡献率决定了主成分个数K的选取情况,为了保证综合变量能包括原始变量的绝大多数信息,一般要求累计贡献率达到85%以上 。
另外,在实际应用过程中,选择主成分之后,还要注意主成分实际含义的解释 。如何给主成分赋予新的含义,给出合理的解释是主成分分析中一个相当关键的问题 。一般来说,这个解释需要根据主成分表达式的系数而定,并与定性分析来进行有效结合 。主成分是原来变量的线性组合,在这个线性组合中各变量的系数有正有负、有大有小,有的又大小相当,因此不能简单地把这个主成分看作是某个原变量的属性作用 。线性组合中各变量系数的绝对值越大表明该主成分主要包含了该变量;如果有几个大小相当的变量系数时,则认为这一主成分是这几个变量的综合,而这几个变量综合在一起具有什么样的实际意义,就需要结合具体的问题和专业,给出合理的解释,进而才能达到准确分析的目的 。
(5)计算主成分得分 。根据标准化的原始数据,将各个样品分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分 。具体形式可如下:
灾害损毁土地复垦
(6)依据主成分得分的数据,则可以进行进一步的统计分析 。其中,常见的应用有主成分回归,变量子集合的选择,综合评价等 。
(三)主成分分析法的评价
通过主成分分析法来评价复垦产生的效益,可将多个指标转化成尽可能少的综合性指标,使综合指标间互不相干,既减少了原指标信息的重叠度,又不丢失原指标信息的总含量 。该方法不仅将多个指标转化成综合性指标,而且也能对每个主成分的影响因素进行分析,从而判别出影响整个评价体系的关键因素,并且主成分分析法在确定权重时可以科学地赋值,以避免主观因素的影响 。
需要注意的是,主成分分析法虽然可以对每个主成分的权重进行科学、定量的计算,避免人为因素及主观因素的影响,但是有时候赋权的结果可能与客观实际有一定误差 。因此,利用主成分分析法确定权重后,再结合不同专家给的权重,是最好的解决办法 。这样可以在定量的基础上作出定性的分析,通过一定的数理方法将两种数据结合起来考虑 。
主成分分析法原理主成分分析法原理如下:
主成分分析, 是一种统计方法 。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分 。
在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息 。
主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形 。信息的大小通常用离差平方和或方差来衡量 。
在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性 。人们自然希望变量个数较少而得到的信息较多 。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠 。
主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息 。

秒懂生活扩展阅读