• 1. §2.8多重共线性 Multi-Collinearity一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、案例 六、分部回归与多重共线性
    • 2. 一、多重共线性的概念
    • 3. 1、多重共线性 对于模型 Yi=0+1X1i+2X2i++kXki+i i=1,2,…,n (2.6.1) 其基本假设之一是解释变量是互相独立的。 如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。
    • 4. 如果存在 c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n (2.6.2) 其中: ci不全为0,即某一个解释变量可以用其它解释变量的线性组合表示,则称为解释变量间存在完全共线性。 如果存在 c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n (2.6.3) 其中ci不全为0,为随机误差项,则称为一般共线性(近似共线性)或交互相关(intercorrelated)。
    • 5. 在矩阵表示的线性回归模型 Y=XB+N 中,完全共线性指:秩(X)
    • 6. 例如,X2=X1,这时X1与X2的相关系数为1,解释变量X2对因变量的作用完全可由X1代替。 注意: 完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。
    • 7. 2、实际经济问题中的多重共线性现象 经济变量的共同变化趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。
    • 8. 滞后变量的引入 在计量经济模型中,往往需要引入滞后经济变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。
    • 9. 一般经验 对于采用时间序列数据作样本、以简单线性形式建立的计量经济学模型,往往存在多重共线性。 以截面数据作样本时,问题不那么严重,但多重共线性仍然是存在的。
    • 10. 二、多重共线性的后果
    • 11. 1、完全共线性下参数估计量不存在如果存在完全共线性,则(X’X) -1不存在,无法得到参数的估计量。
    • 12. (本页无文本内容)
    • 13. (本页无文本内容)
    • 14. (本页无文本内容)
    • 15. 2、近似共线性下普通最小二乘法参数估计量非有效 在一般共线性(或称近似共线性)下,虽然可以得到OLS法参数估计量,但是由参数估计量方差的表达式为 可见,由于此时|X’X|0,引起(X’X) -1主对角线元素较大,从而使参数估计值的方差增大,OLS参数估计量非有效。
    • 16. (本页无文本内容)
    • 17. 即:多重共线性使参数估计值的方差增大,方差扩大因子(Variance Inflation Factor)为1/(1-r2),其增大趋势见下表:
    • 18. 3、参数估计量经济含义不合理 如果模型中两个解释变量具有线性相关性,例如X1和X2,那么它们中的一个变量可以由另一个变量表征。 这时,X1和X2前的参数并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。 所以各自的参数已经失去了应有的经济含义,于是经常表现出似乎反常的现象,例如本来应该是正的,结果恰是负的。
    • 19. 4、变量的显著性检验失去意义存在多重共线性时参数估计值的方差与标准差变大使t统计量的拒绝域变小(临界值增大)容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断可能将重要的解释变量排除在模型之外
    • 20. 5、模型的预测功能失效 变大的方差容易使区间预测的“区间”变大,使预测失去意义。 能否说:如果存在完全共线性,预测值的置信区间为(-∞,+∞)?
    • 21. 三、多重共线性的检验
    • 22. 由于多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法:如判定系数检验法、逐步回归检验法等。 多重共线性检验的任务是: (1)检验多重共线性是否存在; (2)估计多重共线性的范围,即判断哪些变量之间存在共线性。
    • 23. 1、检验多重共线性是否存在 (1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。 (2)对多个解释变量的模型,采用综合统计检验法 若 在OLS法下,模型的R2与F值较大,但各参数估计值的t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。
    • 24. 2、判明存在多重共线性的范围(1) 判定系数检验法 使模型中每一个解释变量分别以其余解释变量为解释变量进行回归计算,并计算相应的拟合优度,也称为判定系数。如果在某一种形式 Xji=1X1i+2X2i+LXLi 中判定系数较大,则说明在该形式中作为被解释变量的Xj可以用其他X的线性组合代替,即Xj与其他X之间存在共线性。
    • 25. 等价的检验是对上述回归方程作F检验 式中:Rj•2为第j个解释变量对其他解释变量的回归方程的决定系数, 若存在较强的共线性,则Rj•2较大且接近于1,这时(1- Rj•2 )较小,从而Fj的值较大。因此,可以在给定的显著性水平下,通过计算F值的方法进行检验。
    • 26. 另一等价的检验: 在模型中排除某一个解释变量Xj,估计模型,如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。
    • 27. (2) 逐步回归法 以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。 根据拟合优度的变化决定新引入的变量是否可以用其它变量的线性组合代替,而不作为独立的解释变量。 如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新引入的变量不是一个独立解释变量,它可以用其它变量的线性组合代替,也就是说它与其它变量之间存在共线性关系。
    • 28. 四、克服多重共线性的方法
    • 29. 1、第一类方法:排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除出去,是最为有效的克服多重共线性问题的方法。以逐步回归法得到最广泛的应用。 注意: 剩余解释变量参数的经济含义和数值都发生了变化。
    • 30. 2、第二类方法:差分法 对于以时间序列数据为样本、以直接线性关系为模型关系形式的计量经济学模型,将原模型变换为差分模型 Yi=1  X1i+2  X2i++k  Xki+  i 可以有效地消除存在于原模型中的多重共线性。 一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。
    • 31. 例如:在中国消费模型中的2个变量:
    • 32. 由表中的比值可以直观地看到,两变量增量的线性关系弱于总量之间的线性关系。 进一步分析: Y与C(-1)之间的判定系数为0.9845, △Y与△C(-1)之间的判定系数为0.7456。 一般认为:两个变量之间的判定系数大于0.8时,二者之间存在线性关系。 所以,原模型经检验地被认为具有多重共线性,而差分模型则可认为不具有多重共线性。
    • 33. 3、第三类方法:减小参数估计量的方差 多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。 例如,增加样本容量,可使参数估计量的方差减小。
    • 34. 再如:岭回归法(Ridge Regression) 70年代发展的岭回归法,以引入偏误为代价减小参数估计量的方差,受到人们的重视。 具体方法是:引入矩阵D,使参数估计量为 其中矩阵D一般选择为主对角阵,即 D=aI (2.6.6) a为大于0的常数。 显然,与未含D的参数B的估计量相比,(2.6.5)的估计量有较小的方差。
    • 35. 五、案例:服装市场需求函数
    • 36. 1、建立模型 根据理论和经验分析,影响居民服装类支出的主要因素有:可支配收入、居民流动资产拥有量、服装价格指数、物价总指数。 已知某地区的有关资料,根据散点图判断,建立线性服装消费支出模型: Y=0+1X+2K+3P1+4P0+
    • 37. 2、样本数据
    • 38. 由于R2较大且接近于1,而且 F=638.4,大于临界值:F 0.05(4,5)=15.19,故认为服装支出与上述解释变量间总体线性关系显著。 但由于参数K的估计值的t检验值较小(未能通过检验),故解释变量间存在多重共线性。3、估计模型
    • 39. (2)检验简单相关系数各解释变量间存在高度相关性,其中尤其以P1,P0间的相关系数为最高。
    • 40. (3)找出最简单的回归形式可见,应选①为初始的回归模型。
    • 41. (4)逐步回归 将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。
    • 42. 4、讨论: ①在初始模型中引入P1,模型拟合优度提高,且参数符号合理,但P1的t检验未通过; ②再引入K,拟合优度虽有提高,但K与P1的t检验未能通过,且X与P1的t检验值及F检验值有所下降,表明引入K并未对回归模型带来明显的“好处”,K可能是多余的; ③去掉K,加入P0,拟合优度有所提高,且各解释变量的t检验全部通过,F值也增大了。 ④将4个解释变量全部包括进模型,拟合优度未有明显改观,K的t检验未能通过,K显然是多余的。
    • 43. 5、结论回归方程以Y=f(X,P1,P0)为最优: Y=-12.45+0.10X-0.19P1+0.31P0
    • 44. 六、分部回归与多重共线性
    • 45. 1、分部回归法(Partitioned Regression)对于模型将解释变量分为两部分,对应的参数也分为两部分: 在满足解释变量与随机误差项不相关的情况下,可以写出关于参数估计量的方程组:
    • 46. 如果存在则有这就是仅以X1作为解释变量时的参数估计量。 同样有这就是仅以X2作为解释变量时的参数估计量。
    • 47. 2、由分部回归法导出如果一个多元线性模型的解释变量之间完全正交,可以将该多元模型分为多个一元模型、二元模型、…进行估计,参数估计结果不变; 实际模型由于存在或轻或重的共线性,如果将它们分为多个一元模型、二元模型、…进行估计,参数估计结果将发生变化;
    • 48. 当模型存在共线性,将某个共线性变量去掉,剩余变量的参数估计结果将发生变化,而且经济含义有发生变化; 严格地说,实际模型由于总存在一定程度的共线性,所以每个参数估计量并不 真正反映对应变量与被解释变量之间的结构关系。