回歸分析中的調整后r平方(回歸分析R平方)

回歸分析,是對兩個或兩個以上變量之間的因果關系進行定量研究的一種統計分析方法。回歸分析,也是我們進行需求預測常用的一種因果建模方法。
初高中學習是孩子處于青春期的階段,也是孩子學習當中最關鍵的六年,因為它涉及到了中考與高考,左養中學教育賴頌強再講孩子的學習方法和考試心里調節的直播課里,系統的講解到如何幫孩子提升學習效率,提升考試時候的心理素質,從而提升學習成績。
我們做回歸分析時,離不開一個字母“R”。本文向大家介紹R、R平方與調整后的R平方的概念、在回歸分析中作用以及計算方法。
一、R,相關系數。
顧名思義,相關系數,是衡量兩個變量之間相關程度的系數,是判定變量之間線性相關性的一個相對指標。相關系數用字母R表示,最早由英國統計學家卡爾·皮爾遜設計并提出。
相關系數R取值在±1之間,當R為0時,表示兩個變量絕對不相關;當R大于0時,兩個變量正相關,即你增加我也增加,你減少我也減少;當R小于0時,兩個變量負相關,即你增加我減少,你減少我增加;當R等于1或-1時,表示兩個變量絕對相關。
相關系數R越接近于±1,兩個變量之間相關性越強。一般認為:當R值為±0.7或更大時,兩個變量高度相關,即強相關;當R值在±0.5~±0.7之間時,兩個變量中度相關;當R值在±0.3~±0.5之間時,兩個變量弱相關;當R值低于±0.3時,說明兩個變量之間幾乎不存在相關關系。
相關系數R在回歸分析中的作用主要有兩點。
1、判斷自變量與因變量的關系,以確定該自變量有沒有納入回歸方程的必要(如果是一元回歸,就是有沒有做回歸分析的必要)。一般情況下,如果R低于±0.5,則這個自變量不需要納入回歸方程。
2、用回歸分析預測,對實際值與預測值進行相關分析,相關系數R代表著回歸方程的精度,也即回歸方程的擬合程度。
另外,說明一下,回歸分析是因果預測常用方法之一,但兩個變量之間有相關關系,并不一定有因果關系,因果關系是相關關系的一種。
相關系數計算公式如下圖。
二、R平方,判定系數。
判定系數,又叫決定系數,是指在線性回歸中,回歸可解釋離差平方和與總離差平方和之比值,其數值等于相關系數R的平方。
我們以下圖來解釋這個定義。如下圖所示,當沒有促銷時,銷售預測為平均線A,有促銷產生時,銷售預測為回歸直線L,P點為一定促銷費用時的實際銷售量,與回歸線L相交于y’點,與平均線A相交于O點。
如圖,P點到平均線A的距離PO為我們不做回歸分析的離均差,在這里稱為總離差。P點與回歸線L的垂直交點y’到平均線A的距離y’O,這是我們做了回歸分析后能夠預測到的部分,即回歸模型可解釋的部分,故稱為回歸可解釋離差。全部期間點的回歸可解釋離差平方和除以總離差平方和,即為判定系數R平方。不過,判定系數不用這么復雜計算,直接將相關系數R進行平方即可。
判定系數是一個解釋性系數,在回歸分析中,其主要作用是評估回歸模型對因變量y產生變化的解釋程度,也即判定系數R平方是評估回歸模型好壞的指標。R平方取值范圍也為0~1,通常以百分數表示。比如回歸模型的R平方等于0.7,那么表示,此回歸模型對預測結果的可解釋程度為70%。
一般認為,R平方大于0.75,表示模型擬合度很好,可解釋程度較高;R平方小于0.5,表示模型擬合有問題,不宜采用進行回歸分析。
三、調整后的R平方,修正自由度的判定系數。
多元回歸實際應用中,判定系數R平方有個最大的問題:增加自變量的個數時,判定系數就會增加,即隨著自變量的增多,R平方會越來越大,會顯得回歸模型精度很高,有較好的擬合效果。而實際上可能并非如此,有些自變量與因變量(即預測)完全不相關,增加這些自變量,并不會提升擬合水平和預測精度。為避免這種現象,調整后的R平方粉墨登場。
R平方的主要問題是未考慮自由度問題,為解決這個問題,為避免增加自變 量而高估R平方,需要對R平方進行調整。采用的方法是用樣本量n和自變量的個數k去調整 R平方。調整后的R平方計算公式如下圖。
從以上公式看出,調整后的R平方同時考慮了樣本量(n)和回歸中自變量的個數(k)的影響,這使得調整后的R平方永遠小于R平方,并且調整R平方的值不會由于回歸中自變量個數的增加而越來越接近1。
因調整后的R平方較R平方測算更準確,在回歸分析尤其是多元回歸中,我們通常使用調整后的R平方對回歸模型進行精度測算,以評估回歸模型的擬合度和效果。
一般認為,在回歸分析中,0.5為調整后的R平方的臨界值,如果調整后的R平方小于0.5,則要分析我們所采用和未采用的自變量。另,如果調整后的R平方與R平方存在明顯差異,則意味著所用的自變量不能很好的測算因變量的變化,或者是遺漏了一些可用的自變量。調整后的R平方與R平方間差距越大,模型的擬合越差。
以上介紹了與回歸分析相關的幾個系數:相關系數R、判定系數R平方、修正自由度的判定系數“調整后的R平方”。但回歸模型優劣的評定,不僅僅是這三個系數,還需要其它的評價辦法與指標,比如多重共線性、顯著性驗證、方差分析等。后續我將逐步介紹,敬請關注。