原理
在用統(tǒng)計分析方法研究多變量的課題時,變量個數(shù)太多就會增加課題的復雜性。人們自然希望變量個數(shù)較少而得到的信息較多。在很多情形,變量之間是有一定的相關關系的,當兩個變量之間有一定相關關系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,將重復的變量(關系緊密的變量)刪去多余,建立盡可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。
設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據(jù)實際需要從中可以取出幾個較少的綜合變量盡可能多地反映原來變量的信息的統(tǒng)計方法叫做主成分分析或稱主分量分析,也是數(shù)學上用來降維的一種方法。1
應用學科主成分分析作為基礎的數(shù)學分析方法,其實際應用十分廣泛,比如人口統(tǒng)計學、數(shù)量地理學、分子動力學模擬、數(shù)學建模、數(shù)理分析等學科中均有應用,是一種常用的多變量分析方法。2
內容基本思想主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。
主成分分析,是考察多個變量間相關性一種多元統(tǒng)計方法,研究如何通過少數(shù)幾個主成分來揭示多個變量間的內部結構,即從原始變量中導出少數(shù)幾個主成分,使它們盡可能多地保留原始變量的信息,且彼此間互不相關.通常數(shù)學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。
最經(jīng)典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。2
步驟Fp = a1i*ZX1 + a2i*ZX2 + …… + api*ZXp
其中a1i, a2i, ……,api(i=1,……,m)為X的協(xié)方差陣Σ的特征值所對應的特征向量,ZX1, ZX2, ……, ZXp是原始變量經(jīng)過標準化處理的值,因為在實際應用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數(shù)據(jù)標準化,本文所采用的數(shù)據(jù)就存在量綱影響[注:本文指的數(shù)據(jù)標準化是指Z標準化]。
A = (aij)p×m = (a1,a2,…am),Rai = λiai,R為相關系數(shù)矩陣,λi、ai是相應的特征值和單位特征向量,λ1 ≥ λ2 ≥ …≥ λp ≥ 0 。
進行主成分分析主要步驟如下:
1. 指標數(shù)據(jù)標準化(SPSS軟件自動執(zhí)行);
2. 指標之間的相關性判定;
3. 確定主成分個數(shù)m;
4. 主成分Fi表達式;
5. 主成分Fi命名。2
主成分分析法的基本原理主成分分析法是一種降維的統(tǒng)計方法,它借助于一個正交變換,將其分量相關的原隨機向量轉化成其分量不相關的新隨機向量,這在代數(shù)上表現(xiàn)為將原隨機向量的協(xié)方差陣變換成對角形陣,在幾何上表現(xiàn)為將原坐標系變換成新的正交坐標系,使之指向樣本點散布最開的p 個正交方向,然后對多維變量系統(tǒng)進行降維處理,使之能以一個較高的精度轉換成低維變量系統(tǒng),再通過構造適當?shù)膬r值函數(shù),進一步把低維系統(tǒng)轉化成一維系統(tǒng)。
主成分分析的原理是設法將原來變量重新組合成一組新的相互無關的幾個綜合變量,同時根據(jù)實際需要從中可以取出幾個較少的總和變量盡可能多地反映原來變量的信息的統(tǒng)計方法叫做主成分分析或稱主分量分析,也是數(shù)學上處理降維的一種方法。主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數(shù)學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經(jīng)典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Va(rF1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F(xiàn)1已有的信息就不需要再出現(xiàn)再F2中,用數(shù)學語言表達就是要求Cov(F1,F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。2
主成分分析的主要作用概括起來說,主成分分析主要由以下幾個方面的作用。
1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(m