【文章及案例資料來源:微信公眾號“我看人看我”】
在上一篇文章
《如何使用SPSS進行線性迴歸分析?(一)》
,我們介紹了一元線性迴歸分析。本篇文章,我們將介紹如何做多重線性迴歸分析。
多重線性迴歸分析,目的是要探討兩個或多個自變數的變化對於同一個因變數的變化是否有獨立的、非隨機的的影響。
其最終目的是:
(1)靠近現實,構建最大限度描繪現實的模型;
(2)簡化現實,構建最簡單的模型。
在部分資料中,將多重線性迴歸與多元線性迴歸做了區分:多元線性迴歸是要探究自變數對兩個或兩個以上的因變數的影響,而多重線性迴歸只有一個因變數。這裡,我們將採用多重線性迴歸這個概念。
多重線性迴歸方程為:
Y=a+b ₁X ₁+b ₂X ₂+b ₃X ₃··· · · +e
b為多重線性迴歸方程的偏回歸係數
e為隨機誤差
構建多重線性迴歸方程的關鍵是求出各個偏回歸係數。與一元線性迴歸分析一樣,也是透過最小二乘法來估算偏回歸係數。
多重線性迴歸分析與一元線性迴歸分析過程差異不大,主要差異點在於:
(1)對於引入的多個自變數,需篩選出對因變數有顯著貢獻的自變數進行分析;
(2) 由於多個自變數間可能會存在較強的相關性,直接影響迴歸模型的準確度,因此需診斷自變數之間是否存在共線性問題,並從存在共線性問題的自變數中剔除不重要的自變數。
一、多重線性迴歸的步驟
(一)確定自變數和因變數
1. 篩選自變數
在進行多重線性迴歸分析時,由於我們引入的自變數比較多,但我們根據經驗是無法判斷具體哪幾個自變數可以真正的解釋因變數的變化,有些看起來可能與因變數有線性關係,但實際上它們可能對因變數是沒有貢獻的,因此我們需要透過一些方法將它們剔除。SPSS提供了針對自變數的多種篩選方法,常用的主要有:
(1)向前篩選法(forward)
該方法首先選擇與因變數具有最高相關關係的自變數進入迴歸模型,並進行迴歸係數檢驗;再從已進入模型中的自變數中尋找偏相關係數最高的變數進入迴歸模型,並進行迴歸係數檢驗。一般SPSS預設迴歸係數檢驗的機率值小於0。05時才被允許進入模型。反覆上述篩選過程,直到沒有可進入模型的變數為止。
(2)向後篩選法(backward)
該方法先將所有自變數引入迴歸方程,然後進行t檢驗,將t值最小的變數剔除,然後重新擬合方程並進行迴歸係數檢驗,預設剔除迴歸係數檢驗的機率值大於0。1的自變數。反覆上述過程,直到沒有變數可剔除。
(3)逐步篩選法(stepwise)
該方法結合了向前篩選法和向後篩選法,既考慮了在變數進入迴歸模型時進行檢驗以選擇符合條件的變數,又考慮了變數引入模型後可能存在變數之間的共線性問題,進入模型的變數還會再次進行檢驗以提出不符合條件的變數。
在這三種方法中,
顯然逐步篩選法考慮得更全面,因此在多重回歸分析中,我們一般採用逐步篩選法。
2. 多重共線性的診斷
當迴歸方程引入多個自變數時,可能會出現一個變數與其他變數之間存在較強的相關性,導致我們無法準確估計迴歸方程的各引數,這就是多元迴歸分析中常會遇到的多重共線性問題。因此,在進行多元迴歸分析時,需要進行多重共線性的診斷。常用的診斷方法如下兩種:
(1)容許度法(Tolerance)
該方法基本邏輯是,將每個自變數視為因變數,分別建立與其他自變數的線性迴歸模型,並計算各回歸模型的判斷係數R^2,R^2越大,說明其所對應的自變數與其他自變數存在較強的線性關係。而容許度Tolerance=1-R^2。由此我們可知,R^2越大,容許度就越小,說明該自變數與其他變數的共線性越強。
(2)方差膨脹因子VIF法((Variance inflation factor)
方差膨脹因子為容許度的倒數,即VIF=1/(1-R^2)。本質上,方差膨脹因子和容許度是等效的。一般來說,當VIF>=10,即容許度=<0。1時,自變數之間存在嚴重的多重共線性問題;而當VIF<10,即容許度>0。1時,說明迴歸方程的自變數不存在共線性。
若存在共線性問題,解決方法主要是:
A。 從存在共線性問題的自變數中剔除對因變數影響不大的自變數;
B。 增加樣本容量或者重新抽樣,但這樣的成本太高,一般不採用。
(二)透過最小二乘法估計迴歸模型引數
與簡單線性迴歸分析一樣,多重線性迴歸方程也是透過最小二乘法來估算偏回歸係數。
(三)對方程進行擬合優度檢驗
透過樣本得到的迴歸方程,其預測的準確度有多高?這就需要對方程進行擬合優度的檢驗,來評估迴歸方程的擬合效果。擬合優度檢驗主要透過判定係數R² 來檢驗, R² 告訴我們擬合得到的模型能解釋因變數變化的比例,值越大,對因變數的解釋力越強。例如,鑽石的重量和價格的相關係數R=0。777, R² 得到的結果是 0。604。對此我們可以做出如下解釋:60%的鑽石價格變化可以由涉及重量和價格的最佳擬合線來解釋;剩餘的40%,受其他因素的影響,包括深度、切面、顏色和淨度等。
在理解擬合優度檢驗時,我們一般看調整的 R²,可以更好地判斷出解釋力的增加是新變數帶來的還是其他方面帶來的。
(四)顯著性檢驗
由樣本得到的迴歸方程是否能代表總體資料,需要進行顯著性檢驗。
在一元線性迴歸中,迴歸係數顯著性的t檢驗與迴歸方程顯著性的F檢驗是等價的,但是在多重線性迴歸中,這兩種檢驗是不等價的。
在多重線性迴歸中,F檢驗顯著,只能說明y對各自變數整體的線性迴歸效果是顯著的,但並不意味著每個自變數對y都起作用,有可能只是其中的某些自變數起作用。但是反過來說,如果某個或者某幾個的自變數係數不顯著,該回歸方程的F檢驗仍有可能是顯著的。
因此,
在多重線性迴歸分析時,需要進行針對整體迴歸效果的F檢驗,以及對迴歸係數的T檢驗。
(五)利用迴歸模型進行預測
經過檢驗,如果迴歸方程的擬合效果很好,且F檢驗和T檢驗均具有顯著性,迴歸方程具有統計推論意義,那麼就可以透過迴歸方程進行預測了。預測分為點預測和區間預測:
1. 點預測
即給定一個自變數值,帶入迴歸方程中,即可得到因變數的點估計值。
2. 區間預測
即給定一個自變數值,來預測對應的因變數的均值的區間估計。
二、多重線性迴歸的SPSS操作
接下來,我們將以“超市銷售資料。sav”為例,來分析多個自變數如何對因變數“超市銷售額”產生影響,構建多重線性迴歸模型。
(一)操作路徑
【分析】-【迴歸】-【線性】
(二)確定自變數和因變數
從源變數視窗中將相應的變數新增到因變數和自變數視窗中。前文介紹到,當引入的自變數比較多時,我們無法透過經驗確切地判斷真正對因變數產生影響的自變數有哪些,因此需要透過一些篩選方法來選擇真正有意義的自變數。在SPSS提供的多種篩選方法中,逐步篩選法考慮得更全面,
多重回歸分析中,我們一般採用逐步篩選法。
(三)設定統計量
單擊【統計量】,選擇【估計】、【置信區間、】【模型擬合度】、【共線性診斷】、【Durbin-Watson】。
【估計】將輸出與迴歸係數相關的統計量,包括迴歸係數、迴歸係數標準誤差、標準化迴歸係數、迴歸係數顯著性t檢驗的統計量和機率p值;
【置信區間】輸出迴歸係數的置信區間;
【模型擬合】將輸出判定係數、調整後的判斷係數、迴歸方程的標準誤差和迴歸方程顯著性F檢驗的方差分析表;
【共線性診斷】主要是對自變數進行多重共線性分析,將輸出各個自變數的容許度和方差膨脹因子;
【Durbin-Watson】作用是檢驗隨機誤差是否具有獨立性,將輸出DW檢驗結果。
(四)儲存預測值
單擊【儲存】,選擇【預測值】中的【未標準化】和【預測區間】的【均值】及相應的置信區間。
【未標準化】即迴歸方程的點預測值,選擇該選項後,基於迴歸模型輸出的因變數預測值會在資料編輯視窗中儲存為變數(變數名預設為PRE_1),由此幫助我們快速計算預測我們想要的因變數結果;
選擇【預測區間】的【均值】選項,輸出的則是因變數預測值的均值的區間估計,預設變數名為LMCI_1和UMCI_1。
(五)設定常量
單擊【選項】,選擇【使用F的機率】和【在等式中包含常量】。
【使用F的機率】指定了篩選自變數的判定標準,即當F值的機率p=<0。05時,自變數進入方差中,當p>=0。1時,將自變數剔除;
【在等式中包含常量】指定輸出迴歸方程的截距。
返回主對話方塊,單擊【確定】,交由系統進行運算。
(六)分析結果解讀
由於圖有點多,這裡就不貼結果,感興趣的可移步公號【我看人看我】