資料統計的理解和應用（九）線性迴歸

迴歸分析是一類統計方法，包括本次介紹的線性迴歸以及後面將要介紹的 logistic 迴歸、Cox 迴歸等，該類方法內容十分豐富，在醫學應用中也極為廣泛。迴歸分析主要是透過建立迴歸方程來說明某一個事物隨另一個（或多個）事物的變化而變動的規律。相關分析研究的是兩個或多個變數相互依存變動的規律，見統計分析之相關，而回歸分析則是探索某變數（因變數）如何依賴於其他變數（自變數）的變化而變動的規律，是單方依存，而不是相互依存。

迴歸分析主要根據因變數的型別而劃分不同方法，線性迴歸其因變數必須是定量變數，後面介紹的 logistic 迴歸、Cox 迴歸等因變數則屬於其他型別。線性迴歸可以說是迴歸家族中最為經典的方法，同時也是相對簡單、容易理解的方法。本系列主要介紹線性迴歸的應用，具體內容包括：（1）線性迴歸的單因素分析；（2）線性迴歸的多因素分析；

一、線性迴歸簡介

線性迴歸是研究因變數（dependent variable）與自變數（independent variable）相依關係的技術。因變數又稱應變數（response variable），是隨機變數，具有一個隨機分佈，依賴於一個或多個自變數。自變數有時也被稱為解釋變數（explanatory variable）或預測變數（predictor variable），是非隨機的，不依賴於其他變數。

線性迴歸中的因變數必須是定量變數，自變數可以是定量變數，也可以是分類變數。例如研究體重對高血壓的影響，體重是自變數，高血壓受體重的影響，是因變數。

線性迴歸大致可分為三類：當因變數有一個，自變數也只有一個時，稱之為簡單線性迴歸（simple linear regression）；當因變數有一個，自變數有多個時，稱之為多重線性迴歸（multiple linear regression）；當因變數有多個，自變數有多個時，稱之為多元迴歸（multi-variate regression）。有時也將簡單迴歸和多重回歸稱為單因素迴歸和多因素迴歸。

*小提示：單因素迴歸和多因素迴歸中的“單”和“多”是針對自變數而言的，多元迴歸中的“多”是針對因變數的，即多個Y。

線性迴歸用途主要有三個方面：

1。探索某現象發生的原因，或者說尋找某現象發生的影響因素有哪些。如對某地區人群測量他們的血壓值並收集年齡、體重、飲食等資料，分析哪些因素可能會影響血壓值的變動。

2。確定不同自變數對因變數影響的相對重要性。如果體重、飲食均對人體血壓值變動有影響，可以進一步分析哪一因素的影響較大，哪一因素的影響相對較小，以便有針對性地採取防治措施。

3。利用迴歸模型進行預測。如建立了體重、飲食對血壓的方程後，可利用該方程，根據體重大小預測血壓值大小。

二、線性迴歸的應用條件

線性迴歸的應用有四個前提條件：線性（linear）、獨立（independent）、正態（normal）、等方差（equal variance）。

1。線性指因變數與自變數呈線性關係，即因變數與自變數在散點圖上應大致呈一直線趨勢。這一條件可透過繪製散點圖來觀察。如果這一條件不滿足，不應盲目套用線性迴歸，可選擇其他更為合適的模型，如非引數迴歸等。

2。獨立性指觀察值之間應相互獨立。這一條件通常可根據專業知識來判斷。

3。正態性指線性模型的殘差應符合正態分佈。這一條件可透過殘差的正態機率圖來看，還可對殘差進行正態性檢驗。這一條件如不滿足，可考慮對因變數進行資料變換，使其服從正態分佈後再擬合線性迴歸模型，也可採用非引數迴歸。

4。等方差性指在自變數取值範圍內，對於任意自變數取值，因變數都有相同的方差。線性迴歸中，等方差性實際上要比正態性重要。這一條件可透過繪製殘差與因變數預測值的散點圖來看。理論上，殘差的分佈與預測值應是不相關的，即殘差應在零水平線上下波動，不應有任何趨勢，否則可能提示方差不齊。如果這一條件不滿足，可對因變數進行變數變換，使其滿足方差齊性條件，或可採用加權迴歸分析，消除方差的影響。

三、線性迴歸模型的分析過程

設因變數為y，自變數為X1，X2…Xm，則多重線性迴歸模型可表示為：

y=a+b1X1+b2X2 +…+bmXm

如果自變數僅有一個，即簡單線性迴歸，則線性迴歸模型簡化為：

y=a+bX

這裡y為y的估計值或預測值（predicted value），表示給定自變數值時，因變數y的估計值。a為截距（intercept），也稱常數項（constant），表示自變數均為0時y的估計值。b稱偏回歸係數（partial regression coffcient），表示在其他自變數不變的條件下，Xi每變動一個單位，y估計值的變化量。

多重線性迴歸模型中，bi直接反映了因變數y與自變數xi的變動相依關係，若自變數單位不同，它便不能作為自變數作用大小的比較依據。要比較單位不同的自變數的作用大小，須採用標準化迴歸係數b‘i。b’i絕對值越大，其對應的自變數xi對因變數的作用也越大。

線性迴歸的主要目的是透過最小二乘法（least square estimation）等估計方法，求解出常數項和各偏回歸係數，建立迴歸方程並進行評價，必要的情況下還可利用方程進行預測。

分析過程主要包括以下幾個步驟：

1。驗證應用的條件：線性（linear）、獨立（independent）、正態（normal）、等方差（equal variance）。

2。模型引數估計和檢驗：總體檢驗和引數檢驗，整體模型是方差分析，而對每一自變數的迴歸係數的檢驗為t檢驗。

3。變數的選擇，遵循“少而精”的指導思想，用可獲得的X來預測難以獲取或未發生的Y。可選擇的方法有：向前（forward）、向後（backward）、逐步（stepwise）等。方法無對錯之分，能合理解釋即可。

4。模型評價與修正，引數估計出來後，便初步建立了一個迴歸模型。但如果此時直接用該模型進行預測和控制，顯然不夠慎重，因為我們並不清楚這一模型是否較好地揭示了自變數與因變數之間的關係，其結果是否符合實際情況。因此必須對模型進行評價。

模型的評價不僅是統計學問題，更重要的是要符合實際和專業知識。如果模型不合理，我們就需要考願是否是資料質量存在問題，或是資料存在異常點、多重共線性等問題。一個好的模型，往往需要經過多次反覆修正才能獲得。

5。模型應用。迴歸模型建立後，可以用其進行合理的分析、控制和預測。醫學領域中常用的功能是預測，即根據自變數的取值推斷因變數的變化情況。

關於線性迴歸，這期就講到這裡，歡迎點贊、關注、評論~

— THE END —

資料統計的理解和應用（九）線性迴歸

為什麼我的筆記本總是連不上印表機？

windows畫圖工具中怎麼使用

隨便看看

孔雀魚什麼時候甩籽？

宜賓有哪些大超市？

世界盃2串一獎金計算公式？

天國恩仇主題歌？

資料統計的理解和應用（九）線性迴歸

為什麼我的筆記本總是連不上印表機？

windows畫圖工具中怎麼使用

猜你喜歡

祭祀紙鞋的剪法？

如何用excel畫反比例函式？

請問，數學中“迴歸分析”的“迴歸”是什麼意思（從概念上講）？

隨便看看

孔雀魚什麼時候甩籽？

宜賓有哪些大超市？

世界盃2串一獎金計算公式？

天國恩仇主題歌？