在研究X對於Y的影響時,如果Y為定量資料,那麼使用多元線性迴歸分析(SPSSAU通用方法裡面的線性迴歸);如果Y為定類資料,那麼使用Logistic迴歸分析。

結合實際情況,可以將Logistic迴歸分析分為3類,分別是二元Logistic迴歸分析、多元有序Logistic迴歸分析和多元無序Logistic迴歸分析,如下圖。

一文理解二元logistic迴歸

SPSSAU Logistic迴歸分析分類

Logistic迴歸分析用於研究X對Y的影響,並且對X的資料型別沒有要求,X可以為定類資料,也可以為定量資料,但要求Y必須為定類資料,並且根據Y的選項數,使用相應的資料分析方法。

如果Y有兩個選項,如願意和不願意、是和否,那麼應該使用二元Logistic迴歸分析(SPSSAU進階方法->二元logit);

如果Y有多個選項,並且各個選項之間可以對比大小,例如,1代表“不願意”,2代表“無所謂”,3代表“願意”,這3個選項具有對比意義,數值越高,代表樣本的願意程度越高,那麼應該使用多元有序Logistic迴歸分析(SPSSAU進階方法->有序logit);

如果Y有多個選項,並且各個選項之間不具有對比意義,例如,1代表“淘寶”,2代表“天貓”,3代表“京東”,4代表“亞馬遜中國”,數值僅代表不同類別,數值大小不具有對比意義,那麼應該使用多元無序Logistic迴歸分析(SPSSAU進階方法->多分類logit)。

本次內容將針對二元logistic(logit)迴歸進行說明,後續兩篇文章將分別講解有序logistic(logit)和多分類logistic(logit)迴歸。

1、二元logistic分析思路說明

在進行二元Logistic迴歸分析時,通常會涉及3個步驟,分別是資料處理、卡方分析和影響關係研究,如下圖。

一文理解二元logistic迴歸

二元Logistic迴歸分析步驟

1.1 第一步為資料處理

例如,在研究相關因素對樣本將來是否願意購買理財產品的影響情況時,性別,專業等均為影響因素,而且明顯的,性別和專業屬於定類資料,因此需要進行虛擬啞變數設定,可使用【資料處理->生成變數】完成。

除此之外,二元logistic迴歸要求因變數只能為2項,而且數字一定是0和1,數字1表示YES,願意,購買,患病等,數字0表示no,不願意,不購買,不患病等。如果不是這樣,那麼就需要針對因變數Y進行資料編碼,使用【資料處理->資料編碼】即可完成。

1.2 第二步為卡方分析或方差分析

此步不是必需的步驟,透過此步可以試探性瞭解每個影響因素X與Y之間的影響關係情況,研究影響關係前,首先需要自變數X與Y之間有著差異關係,才可能進一步有著影響關係,也或者說差異關係是一種基礎性關係,影響關係是更進一步的深層次關係。所以在進行二元logistic迴歸分析前,可先對X做差異分析,篩選出與Y有著差異性的X。

如果X是定類資料,那麼就使用卡方分析去分析差異;如果說X是定量資料,那麼可使用方差分析去研究X和Y的差異性。

分析完成X與Y的差異關係之後,篩選出有差異的X,然後再放入模型中,進行二元logistic迴歸;這樣做的目的有兩個,一是簡化模型,越簡單的模型越容易擬合且效果越好;二是做到心裡有數,提前瞭解到資料之間的大致關係情況。

1.3 第三步為影響關係分析,即二元Logistic迴歸分析

在上一步確認了可能的影響因素之後,此步驟直接對題進行二元Logistic迴歸分析。二元Logistic迴歸分析時,首先需要看某個題是否呈現出顯著性(如果P值小於0。05,則說明呈現出0。05水平的顯著性;如果P值小於0。01,則說明呈現出0。01水平的顯著性),如果呈現出顯著性,那麼說明該題對Y有影響關係。具體是正向影響還是負向影響需要結合對應的迴歸係數值進行說明,如果迴歸係數值大於0,則說明是正向影響;反之則說明是負向影響。

除此之外,二元Logistic迴歸分析會涉及一個術語——

對數比(SPSSAU中稱其為OR值)

。對數比是一個倍數概念指標,該值等於迴歸係數的指數次方,也稱

exp(b)值

。例如,研究相關因素對樣本‘是否購買理財產品’的影響,性別因素呈現出顯著性,並且性別以女性為對照項,其對數比(OR值)為1。34,這說明男性樣本購買理財產品的可能性是女性樣本的1。34倍。

二元Logistic迴歸分析模型的擬合情況或模型效果的判斷會涉及3個指標,分別是Hosmer和Lemeshow檢驗、R2值和模型預測準確率表格。Hosmer和Lemeshow檢驗用於檢驗事實資料情況與模型擬合結果是否保持一致,如果在進行Hosmer和Lemeshow檢驗時P值大於0。05,那麼說明事實資料情況與模型擬合結果保持一致,即說明模型擬合情況良好。

R2用於表示模型擬合程度,此值與多元線性迴歸分析的R2值意義基本一致,此值的取值範圍為0~1,值越大意味著相關因素對Y的解釋力度越高。SPSSAU提供3個R方值指標,分別是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方。

除此之外,SPSSAU還會輸出模型預測準確率表格,用於分析模型的預測水平情況。比如有多大比例將本身為願意購買理財產品的樣本誤判斷為不願意購買理財產品的樣本。

2、如何使用SPSSAU進行二元logistic操作

在進行二元logistic迴歸分析時,共分為三個步驟,第1步是資料處理。第二步是進行卡方或者方差分析試控X對於Y的差異,找出有差異關係的X,用於進一步的二元logistic迴歸分析。

2.1 資料處理

如果X是定類資料,比如性別或專業。那麼就需要首先對它們做虛擬啞變數處理,使用SPSSAU【資料處理】——【生成變數】。操作如下圖:

一文理解二元logistic迴歸

因變數Y只能包括數字0和1,如果因變數的原始資料不是這樣,那麼就需要資料編碼,設定成0和1,使用SPSSAU資料處理->資料編碼功能,操作如下圖:

一文理解二元logistic迴歸

2.2 卡方分析或方差分析

本例子中想研究性別,專業,年齡,月生活費共4項對於‘是否願意理財’的影響。性別,專業這兩項為定類資料,所以可使用卡方分析它們分別與‘是否願意理財’的差異關係。而年齡和月生活費可看成定量資料,可使用方差分析(或非引數檢驗)分析它們分別與‘是否願意理財’的差異關係情況。

由於例子裡面僅4個X,本身就較少,因此模型本身並不複雜,因此直接忽略此步驟即可,直接進行二元logistic迴歸分析。

2.3 二元logistic迴歸分析

SPSSAU進行二元logistic迴歸分兩步,分別是在進階方法裡面找到二元logit,第二是拖拽分析項到右我們就是右側框後開始分析,如下所示:

一文理解二元logistic迴歸

一文理解二元logistic迴歸

性別和專業均為定類資料,所以進行了虛擬啞變數設定。

而且性別分為男和女,以女作為參照項,因此框中僅放入‘男’即可;

專業分為理工類,文科類,藝術類和,體育類;以體育類作為參照項,因此框中會少放體育類,放入另外3項即理工類,文科類和藝術類即可。

虛擬啞變數在進行影響關係研究時,一定需要有1個參照項,至於具體是哪一項,由研究者自行決定即可,無固定要求,一般是第1個或者最後1個,或者研究者希望設定作為參考項的。

完成後,SPSSAU會得到一系列的表格和智慧分析,包括模型基本彙總表格,模型似然比檢驗表格,模型引數擬合表格,模型預測準確率表格,Hosmer-Lemeshow擬合度檢驗等。如下:

一文理解二元logistic迴歸

二元logit迴歸分析基本彙總

一文理解二元logistic迴歸

二元logit迴歸模型似然比檢驗結果

一文理解二元logistic迴歸

二元logit迴歸結果分析

一文理解二元logistic迴歸

二元logit迴歸預測準確率表格

一文理解二元logistic迴歸

Hosmer-Lemeshow擬合度檢驗

3、二元logistic相關問題

在使用SPSSSAU進行二元logistic迴歸時,可能會出現一些問題,比如提示奇異矩陣,質量異常,Y值只能為0或1等,接下來一一說明。

一文理解二元logistic迴歸

第1點:出現奇異矩陣或質量異常

如果做二元logistic提示奇異矩陣,通常有兩個原因,一是虛擬啞變數設定後,本應該少放1項作為參考項但是並沒有,而是把所有的啞變數項都放入框中,這會導致絕對的共線性問題即會出現奇異矩陣矩陣。二是X之間有著太強的共線性(可使用通用方法的線性迴歸檢視下VIF值),此時也可能導致模型無法擬合等。先找出原因,然後把有問題的項移出模型中即可。

同時,如果自變數X的分佈極其不均勻,SPSSAU建議可先對類別進行組合,可使用資料處理裡面的資料編碼完成。

第2點:Y值只能為0或1

二元logistic迴歸研究X對Y的影響,Y為兩個類別,比如是否願意,是否喜歡,是否患病等,數字一定有且僅為2個,分別是0和1。如果不是這樣就會出現此類提示,可使用SPSSAU頻數分析進行檢查,並且使用資料處理->資料編碼功能進行處理成0和1。

第3點:OR值的意義

OR值=exp(b)值,即迴歸係數的指數次方,該值在醫學研究裡面使用較多,實際意義是X增加1個單位時,Y的增加幅度。如果僅僅是研究影響關係,該值意義較小。

第4點: wald值或z值

z 值=迴歸係數/標準誤,該值為中間過程值無意義,只需要看p 值即可。有的軟體會提供wald值(但不提供z 值,該值也無實際意義),wald值= z 值的平方。

第5點: McFadden R 方、Cox & Snell R 方和Nagelkerke R 方相關問題?

Logit迴歸時會提供此3個R 方值(分別是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方),此3個R 方均為偽R 方值,其值越大越好,但其無法非常有效的表達模型的擬合程度,意義相對交小,而且多數情況此3個指標值均會特別小,研究人員不用過分關注於此3個指標值。一般報告其中任意一個R方值指標即可。

以上就是本次分享的內容,登入SPSSAU官網瞭解更多。