你好!歡迎參加《小白愛上SPSS》課程。
知乎上有個《小白愛上SPSS》的專欄,可以讓你輕松掌握SPSS。
第二十一講內容:多元線性回歸分析怎么做?
今天我們來學習多元線性回歸分析,它用來評價一個因變量和多個自變量之間關系的統計方法。除了需要滿足一元線性回歸的條件之外,多元線性回歸還需要滿足【多個自變量不存在多重共線】的條件,多元線性回歸需要滿足如下條件。
(1)自變量和因變量在理論上有因果關系;
(2)因變量為連續型變量;
(3)各自變量與因變量之間存有線性關系;
(4)殘差要滿足正態性、獨立性、方差齊性。
(5)多個自變量不存在多重共線性
其中,線性()、正態性()、獨立性()、方差齊性(Equal ),俗稱LINE,是線性回歸分析的四大基本前提條件。
這里稍微解釋它們概念:
Q1 線性:解釋自變量X和因變量Y必須要有線性關系嗎?
---不是!只有當X是連續型數據或者等級數據(不設啞變量)時,才要求X與Y有線性的關系。當X是二分類或無需多分類,沒有線性條件的要求。
Q2獨立性:要求因變量Y各觀察值相互獨立嗎?
---不是,是要求殘差是獨立的。
Q3正態性:要求因變量Y各觀察值正態分布嗎?
---不是,是要求殘差正態分布。
Q4方差齊性:要求不同的解釋變量X時,因變量Y方差相等嗎?
---沒錯,但是對于多元線性回歸分析,更加合理的理解是在不同Y預測值情況下,殘差的方差變化不大。
Q5:一定要嚴格滿足LINK嗎?
---如果回歸分析只是建立自變量與因變量之間關系,無須根據自變量預測因變量的容許區間和可信度等,則方差齊性和正態性可以適當放寬。
何為殘差?
殘差在數理統計中是指實際觀察值與估計值(擬合值)之間的差。我們以一元線性回歸為例,它只有一個自變量,其模型可以表示為:
上述公式是基于樣本得到的結果,b0和b1均為統計量。
若該公式拓展到總體人群,則為:
值得注意的是,這里x是真實的變量值x,而y帶了一頂帽子,并非是y的真實值,而是成為y的預測值或者估計值。實際上,x和y沒有嚴格上一一對應的關系,通過x產生的預測值,是接近于y但不等于y。
y預測值與y真實值之間的差值我們稱之為殘差。
殘差反映了除了x和y之間的線性關系之外的隨機因素對y的影響,是不能由x和y之間的線性關系所解釋的變異性。
可以這么來理解?:我們對y的預測是不可能達到與真實值完全一樣的,因此必然會產生誤差,我們就用?來表示這個無法預測的誤差。我們通過引入了?可以讓模型達到完美狀態,也就是理論的回歸模型。
結合殘差,真實的y和x關系如下:
同樣的,多個自變量存在的情況下,多重線性回歸模型的表示如下:
其中,bk、βk:回歸系數,在多重線性回歸中,被稱之為偏回歸系數,表示每個自變量都對y部分的產生了影響。
意義與簡單線性回歸結果相似,反映的是x對y的影響力,是當x每改變一個觀測單位時所引起y的改變量。
這里e是樣本的預測值與測量值的差別,?是總體中預測值與真實值的差別。戴了帽子的y預測值的變異性是解釋變量x們能夠預測和解釋的。
一般情況下,成功的線性回歸模型實現:
(1)殘差?是一個期望為0的隨機變量,即E(?)=0
(2)對于預測值的所有值,?的方差σ^2都相同
(3)殘差?是一個服從正態分布的隨機變量,且相互獨立,即?~N(0,σ^2)
何為多重共線?
當2個或多個自變量高度相關時,就會出現多重共線。它不僅影響自變量對因變量變異的解釋能力,還影響整個多重線性回歸模型的擬合。
一、實戰案例
小白研究運動員訓練比賽滿意感與成就感降低、情緒體力耗竭、運動負評價、自尊等變量之間關系,試建立多元線性回歸方程(部分數據如下,完整數據請回復【小白數據】下載)。
該案例研究運動員訓練比賽滿意感與多個自變量(成就感降低、情緒體力耗竭、運動負評價、自尊)之間的關系。從專業知識上可認為成就感降低、情緒體力耗竭、運動負評價、自尊是可以預測訓練比賽滿意感的。
二、統計策略
統計分析策略口訣“目的引導設計,變量確定方法”(啥意思?請點擊此處復習一張腦圖搞定!統計方法選擇)
針對上述案例,捫心五問。
Q1:本案例研究目的是什么?
A:關聯研究分類變量 散點圖,探討多個自變量與因變量之間的因果關系。
Q2:分析的組數是多少呢?
A:五組數據。
Q3:本案例屬于什么研究設計?
A:調查研究
Q4:有幾個變量?
A:有五個變量。分別是成就感降低、情緒體力耗竭、運動負評價、訓練比賽滿意感、自尊。
(訓練比賽滿意感為因變量,成就感降低、情緒體力耗竭、運動負評價、自尊為自變量)
Q5:殘差是否具有獨立性、方差齊性和正態分布?
A:需要檢驗殘差是否滿足獨立性、方差齊性和正態性。
Q6:各自變量之間是否存在多重共線性?
A: 需要檢驗
概括而言,如果數據滿足以下條件,則采用多元線性回歸分析。
三、SPSS操作
(一)繪制散點圖
對于線性關系的條件,一般要求當x是連續型變量或者等級變量時,需繪制散點圖探討與y是否存在著線性趨勢的關系;如x為二分類或者無序多分類,無須繪制散點圖。
本例繪制成就感降低、情緒體力耗竭、運動負評價、自尊與訓練比賽滿意感之間關系的散點圖分析。具體操作如下。
Step1:圖形—圖形畫板模板選擇器
Step2:按Shift選擇左邊的對話框所有的變量,同時點擊【散點圖矩陣】,點擊【確定】。
輸出結果如下,重點關注最后一行,即各自變量(成就感降低、情緒體力耗竭、運動負評價、自尊)與因變量(訓練比賽滿意感)之間線性關系。從圖中可知,各自變量與因變量之間存有線性關系。
(二)線性回歸分析操作
Step1:依次點擊“分析——回歸——線性
Step2: 將“訓練比賽滿意感”納入“因變量”;將成就感降低、情緒體力耗竭、運動負評價、自尊放入“自變量”;方法選擇“輸入”
Step3: 點擊“統計” 默認選項“估算值”;“模型擬合”;另選擇“durin (德賓-沃森)和“描述”。設置完后,點擊“繼續”。
Step4 : 在彈出“線性回歸:圖”對話框中將 “*”(標準化殘差)放入Y軸中,將“*ZPRED”(標準化預測值)放入X軸中,勾選“直方圖”和“正態概率圖”,單擊“繼續”。點擊“確定”。
Step5: 點擊“保存”后勾選預測值的“未標準化”和“殘差的未標準化”。
四、結果解讀
第一,呈現的是R方結果和殘差獨立性檢驗(德賓沃森檢驗):
模型摘要是判斷兩者之間線性關系的重要指標,也反映了回歸的擬合程度。
①一般情況下,R2看的是“調整R2”,該值相對不受自變量個數的影響,結果更為可靠。本例包括多個自變量,建議報告調整R2=0.487。表明“所有自變量” 解釋“訓練比賽滿意感”的48.7%變異。
②德賓沃森檢驗若結果在0-4之間,基本可認為數據獨立性符合。本例的德賓沃森值為1.761,符合獨立性。
第二個結果為方差分析(ANOVA):
主要探討模型的是否成功建成。
本案例F=24.464,P
值得注意的是,本題“平方”和即變異程度(離均差平方和),R2=回歸變異平方和/總的平方和=1807.759/3562.760=0.507。因此方差分析和R2結果同出一源,方差分析側重于分析模型是否成功,R2側重于探討模型有多成功(相當于效應量)。
如果P
第三個結果,回歸分析的主要結果:
計算回歸系數、并對回歸系數進行假設檢驗,探討影響因素。
本研究結果顯示:
①成就感降低(b=-0.72,β=-0.353,P
②運動負評價不會影響訓練比賽滿意感(b=-0.106,β=-0.052,P=0.552)。
③共線性統計包括方差膨脹因子(VIF)和容差兩個指標,事實上,VIF=容差的倒數(1/容差)分類變量 散點圖,我們只需要判斷其中一個指標即可。如果容忍度小于0.1(或方差膨脹因子大于10),提示數據存在多重共線性。在本研究中,所有容忍度值都大于0.1(最小值為0.639),說明本研究自變量多重共線不嚴重。
第四個結果,由于本例選擇計算殘差和預測值,可以通過下表來看預測值和殘差結果
在數據庫中,可以發現增加了PRE_1(預測值)和RES_1(殘差) ,兩組相加,剛好是y“訓練比賽滿意感”
第五個結果,殘差直方圖和P-P圖。
可以看出,本例殘差直方圖服從正態分布,且均數接近于0,標準差接近于1(標準正態分布),這意味著線性回歸在正態性條件是達到的。P-P圖也表明滿足正態性條件。
第六個結果,殘差圖。
殘差圖的x、y軸分別是因變量預測值的標準化值和殘差的標準化值(一般x軸是預測值的標準化值)。本例從圖形來看,標準化殘差圖分布在0值周圍,基本是上下對稱分布,分布特征不隨預測值的增加而發生改變,意味著數據方差齊性、獨立性條件符合。
五、規范報告
規范報告有多種方式,本公眾號只提供一種方式供參考。
1、規范表格
2、規范文字
采用多元線性回歸分析結果顯示,回歸方程顯著,F=24.464,pβ=-0.353,Pβ=-0.209,p=0.009)顯著負向預測訓練比賽滿意感,自尊(β=-0.352,pp=0.552)。這些變量共解釋訓練比賽滿意感48.70%的變異。
六、劃重點
1、多元線性回歸分析本質上是探討變量之間相關關系,只有在理論上滿足多個自變量與因變量之間存在因果關系,才可開展回歸分析。此外,即使回歸分析顯著,在解釋因果關系也需謹慎。
2、多元線性回歸中的因變量需滿足連續型變量;自變量可以分類變量、次序變量和連續型變量。
3、如果自變量為連續型變量,則需要滿足自變量和因變量之間存在線性關系,如果不能滿足,則不能采用線性回歸分析,這可通過散點圖來判斷線性關系。
4、回歸分析還需滿足獨立性、方差齊性和正態性,各自變量之間不存在多重共線性。獨立性采用德賓-沃森(D-W)殘差相關性檢驗;方差齊性采用殘差散點圖來檢驗;正態性采用殘差正態分布圖和P-P圖來判斷。
5、如果回歸分析只是建立自變量與因變量之間關系,無須根據自變量預測因變量的容許區間和可信度等,則方差齊性和正態性可以適當放寬。
七、往期推薦
第一講 | 牛刀小試,構建SPSS數據如此簡單!
第二講|描述性統計,你學會了嗎?
第三講 | 正態分布怎么檢驗?看這篇文章就夠了
第四講 | 單樣本T檢驗怎么做?很單純很簡單!
第五講 | 兩獨立樣本均數T檢驗,你會了嗎?
第六講 | 配對樣本均數T檢驗如何做?
第七講 | 單因素方差分析怎么做?
第八講 | 單因素重復測量方差分析怎么做?
第九講 | 兩因素析因設計的方差分析(超詳細,有高度)
第十講 | 兩因素重復測量的方差分析(史上最全,做實驗的看過來)
第十一講 | 單樣本秩和檢驗如何做?很輕松!
第十二講 | 兩獨立樣本秩和檢驗如何做?
第十三講 | 配對樣本的秩和檢驗如何做?很簡單!
第十四講 | 多獨立樣本秩和檢驗如何做?
第十五講 | 兩組率卡方檢驗和確切法怎么做?
第十六講 | 多組率卡方檢驗和確切法
第十七講 | 配對設計卡方檢驗怎么做?
第十八講 | 線性相關分析怎么做?
第十九講 | 秩相關分析怎么做?
第二十講 | 一元線性回歸分析怎么做?
如果覺得文章不錯,還可以獲取以下學習資源: