• 1. 《计量经济模型与经济预测》 福州大学管理学院 林筱文教授编 联系电话:0591-3710642;7937642
    • 2. 一、线性回归模型 最小二方程原理和参数估计 Ŷ=a+bx y Q=∑(y- ŷ) →最小 =∑(y-a-bx)2 →最小 ŷ 对a和b求一阶微分 2Q/2A=2 ∑(y-a-bx)(-a)=0 2Q/2B= 2 ∑(y-a-bx)(-bx)=0 x 得: ∑y-na-b ∑x=0 → ∑y=na+b∑x=0 ∑xy-a∑x-b∑x2=0 ∑xy=a∑x+b∑x2=0 得: a= ∑y/n-b (∑y/n) b= [∑xy- (∑x) (∑y) /n]/ ∑x2-(∑x)2=Lxy/Lxx 回归系数b说明当x变动一个单位时,y平均变动一个b的值
    • 3. 回归误差估计和相关系数 估计标准误差: Sy= ∑(y- ŷ)2/(n-2) = (∑y2-a ∑y-b ∑xy)/n-2 相关系数: R=Lxy/ LxxLyy Lxy= ∑xy- (∑x ∑y)/n Lxx= ∑x2-(∑x)2/n Lyy= ∑y2- (∑y)2/n
    • 4. ●线性回归模型预测 当计算回归模型由大样本计算时(n>30),其预测区间的误差分布服从正态分布,则预测区间为: ŷ0=(a+bx0) ±(Z2/2)×Sy 当计算回归模型由小样本计算时(n<30),其预测区间的误差分布服从七分布,则预测区间为: ŷ0 =(a+ bx0) ±(Ta/2) × Sy ×1+1/n+[(X0-X)2/ ∑(X-X)2]
    • 5. 例: 建筑面积 (万m2)x建造成本 (万元)yx2y2xyŷy- ŷ (y- ŷ)2414.816219.0459.214.5820.2180.047524212.84163.8425.612.5860.2140.045796313.39176.8939.613.588-0.0840.047524515.425237.1677.015.580-0.1800.032400414.316204.4957.214.582-0.2820.079524515.925252.8179.515.580-0.3200.010240∑ 2386.5951254.23338.486.49_____0.181924
    • 6. 解: b=[338.4-1/6(23)(86.5)]/[95-1/6(23)2]=0.998 a=86.5/6-0.998×(23/6)=10.59 待线性回归方程: ŷ=10.59+0.998x 即建筑面程每增加一万m2,建造成本要平均增加0.998万元 Sy= ∑(y- ŷ)2/(n-2)= 0.0181924/(6-2)=0.2133 r=Lxy/ LxxLyy = (∑xy- ∑x ∑y/n)/ [∑x2-(∑x)2/n][∑y2-(∑y)2/n] =0.973 预测:假设x0=4.5时,y0=10.59+0.998×4.5=15.081(万元),当n=6<30时,查七分布表ta/2(n-2)=t(0.025)(4)2.78 ta/2(n-2) ×Sy × 1+1/n+(x0-x)2/ ∑ (x-x)2=0.6579 所以建造成本的区间预测在显著性水平为a=5%,即以95%的概率计算y0=15.081±0.6579,即在[14.4231—15.7389]万元之间
    • 7. 二、非线性回归模型—曲线回归模型在对客观现象选择回归模型时,应注意: 1、回归方程的形式应与经济学的基本理论相一致,应该在定性分析和定量分析的基础上选择适当的回归模型 2、回归方程与实际现象的变量值应要有较高的拟合程度,能较好地反映经济实际运行趋势 3、在对方程的模型一时无法判断时,可先画散点图,观察现象实际值的变动趋势,来选择相应的拟合回归模型。或者多选择几个回归模型,加以拟合,分别计算估计标准误差,选择估计标准误差最小的那个回归模型 4、回归模型的数学形式要尽可能简单,一般说来,数字型式越简单,则基回归模型的可操作性越强。过于复杂的回归模型的数学形式在实际经济分析和经济预测中,其实际应用价值不大
    • 8. 抛物线方程: ŷ=a+bx+cx2 根据最小二乘法原理,求该方程待定a、b、c参数的方程组如下: ∑y=na+b ∑x+c ∑x2 y ∑xy=a ∑x+b ∑x2+c ∑x3 ∑x2y=a ∑x2+b ∑x3+C ∑x4 x 判定某变量趋势是否符合抛物线议程时,可利用差分法: 1、当X以一个常数变化时,Y的一阶差分即△Y=Yt-Yt-1的绝对值也接近一个常数时,该变量的变化可用直线方程来拟合。 2、当X从一个常数变化时,Y的二阶差分即△Y2t= △Yt- △Yt-1的绝对值接近一个常数时,该变量的变化可用抛物线方程来拟合。●抛物线方程
    • 9. ●指数曲线方程该方程常用于拟合某变量值的环比,即Yt/Yt-1的绝对值近似于一个常数时,就可用指数曲线方程来拟合。 ŷ=abx 对方程两边求对数: lgy=lga+lgb×x 换元令lgy=Y lga=A lgb=B 得: Y=A+Bx,化成直线方程的形式,求出A、B的参数值,再分别求反对数,就可求出a、b的参数值, 指数曲线因a、b的取值不同而表现出不同的变化形式: x x x x y y y y
    • 10. ●对数函数曲线ŷ=a+blnx,令x’=lnx,把方程变成直线方程的形式,求出a、b的参数值。 对数函数的特点是随着x的增大,x的单位变动对Y的影响效果递减。
    • 11. ●S函数曲线(逻辑曲线)ŷ =1/a+be-x y 换元令y’=1/y, x’=e-x 得y’=a+bx’化成直线方程的形式 p 可求出a、b的参考值。该方程的 特点是某变量刚开始时,随着X x 的增加,y的增长速度逐渐增加, I II III IV 当y达到一定水平时,其增长速度又放慢,最后超近于 一条渐近线。该方程经常用来描述某消费品的生命周期的变化,可将其分为四个阶段,即缓慢增长→快速增长→增速放慢→相对饱和p为一拐点。
    • 12. 三、多元回归模型模型与参数估计 ŷ =a+bx1+cx2+dx3+…….. 多元回归就是分析在多个自变量(x)与因变量(y)相互关系的基础上,确定一个多元回归模型,然后根据各个自变量的变动来估计或预测因变量的变动程度。 根据最小二乘法原理,以二元回归方程为例,说明求其参数的方法: ŷ=a+ bx1+cx2 ∑y=na+b∑x1+c∑x2 ∑x1y= a∑x1 +b∑x12 +c∑ x1 x2 ∑x2y= a∑x2 +b∑ x1 x2 +c∑x22
    • 13. 例:根据下表计算二元回归方程利润额 y销售额 x1流通费用 x2X1yX2yX1x2X12X22 ŷ1245003506200043400175000250000122500124.1142480315681604473015120023040099225141.41325203606864047520187200270400129600133.51345153556901047570182825265225126025133.91475253517717551597184275275625123201148.21405323677448051384195244283024134698138.11495503748195055726205700302500139876148.8∑ 9683622247250141534192312814441877174875116968.0
    • 14. 将上述有关数字代入二元回归的方程组: 986=7a+3622b+2472c 501415=3622a+1877174b+1281444c 341923=2472a+1281444b875116c 得:a=-5.0657 b=1.0072 c=-1.0698 二元回归方程: ŷ=-5.0657+1.0072x1-1.0698x2
    • 15. ●多元回归方程的矩阵形式二元回归方程的矩阵形式表现为: Y=XB 其中: y1 1 x21 … … xk1 b1 y2 1 x22 … … xk2 b2 Y= … X= … … … … … B= … yn 1 x2n … … xkn bn 按矩阵计算原理: Y=XB→X’Y’=X’XB →(X’X)-1×X’Y=(X’X)-1(X’X)B →B=(X’X)-1X’Y
    • 16. 例:下表列出某商品销售量(Y)与居民人均收入(x1)和单价(x2)的有关资料。`年 份12345678910销售量 (y百件)10 10 15 13 14 20 18 24 19 23 居民人均收入(x1百元)5 7 8 9 9 10 10 12 13 15 单价(x1十元)2325434354
    • 17. 上表中有关数据的矩阵表示为: 1 5 2 10 b1 10 98 35 X= 1 7 3 Y= 10 B= b2 (x’x)= 98 1038 359 … … … … … 35 359 133 1 15 4 23 b3 166 1.6416 -0.0839 -0.2054 (x’y)= 1743 (x’x)-1 = -0.0839 0.0188 -0.0286 592 -0.2054 -0.0286 0.1389 1.6416 -0.0839 -0.2054 166 4.58751 B= (x’x)-1×x’y= -0.0839 0.0188 -0.0286 1743 = 1.86847 -0.2054 -0.0286 0.1389 592 -1.79957 由此得多元回归方程为: ŷ=4.58751+1.86847x1-1.79957x2
    • 18. ●回归方程的方差估计Sy2=∑(y- ŷ)2/(n-k)= ∑e2/(n-k) ∑e2=e’e=Y’Y-BX’Y=2980-4.58751×166-1.86847 ×1743+1.79957+1.79957 ×592=27.08 ∑e2 27.08 S= S2 = n-k = 10-3 = 3.8686 =1.97 S称为回归方程的估计标准误差,S越小 则表明样本回归方程的代表性越强
    • 19. ●多元回归方程的检验根据线性方程方差分析的原理: ∑(y-y)2= ∑(ŷ-y)2+ ∑(y-ŷ)2 (y- ŷ) ŷ (y-y) S总=S回+S残 (ŷ-y) y 1.回归方程拟合程度检验 在回归方程拟合程度检验中,应用可决系数指标来回加以检验,可决系数越大,说明回归方程对实际数值的拟合程度越好 R2= ∑(ŷ-y)2/ ∑(y-y)2= S回/ S总=1- S残/ S总 在考虑变量自由度的情况下,修正的可决系数: R2= [S回/(n-k)]/[ S总/(n-1)]=1- [S残/(n-k)]/ [S总/(n-1)] =1-[27.08/(10-3)]/244.4/(10-1)]=0.84
    • 20. 2.回归系数的显著性检验在这一检验的目的是为了检验各回归系数对应的自变量(x i)对因变量(y)的影响是否显著,以便对各个自变量的选择作出正确的判断。一般说来,当某个自变量(x i)的回归系数(b i)的显著性检验无法通过,则说明该自变量对因变量的影响在一定显著水平(一般 a=0.05)不够显著,则就可以将该自变量从回归模型中删除,这样才能以尽可能少的自变量去建立回归模型,达到到尽可能高的拟合度,同时也可减少计算工作量 多元回归模型中的回归系数检验采用t检验,公式如下: tbj=bj/sbj sbj= sy2×Ωjj=sy Ωjj 式中Ωjj为(x’x)-1矩阵中的第j个对角线的元素,上例中Sy=1.97; Ω11=1.6416; Ω22=0.0188; Ω33=0.1389 则tb1=4.5875/(1.97 × 1.6416 )=1.82 tb2=1.8685/(1.97 × 0.0188 )=6.92 tb3=-1.7996/(1.97 × 0.1398 )=-2.45
    • 21. 查t分布表(a=0.05),双侧临界值t(a/2)(n-k)=t(0.05/2)(10-3)=2.365,上述tb2=6.92>2.365,tb3= -2.45 >2.365,说明b1和b2均能通过检验,说明x1和x2对y的影响是显著的,而tb1=1.82<2.365,不能通过检验,说明在建立回归方程时,不必设常数项,由此再根据实际资料,建立拟合的多元回归方程。 3.回归方程的显著性检验 该检验应用下检验来进行: F=[S回/(k-1)][S残/(n-k)],上例中S总=224.4, S残=27.08 S回= S总- S残=224.4-27.08=197.32 则F=[197.32/(3-1)]/[27.08(10-3)]=25.50查F分布表,当a=0.01,自由度为(2.7)时,F2=9.55,当a=0.05,自由度为(2.7)时,Fa=4.74,可知F=25.50都大于Fa,说明该多元回归方程是比较显著的,可以用该方程进行经济预测。设x1=2200元,x2=50元/件时,对某商品需求量(y)的预测值为y=4.5875+1.8685×22+(-1.7996) ×5=36.70(百件)
    • 22. ●多元回归方程的多重共线性问题在多元回归模型中,要求模型中任何自变量之间不存在密切的线性相关关系存在,则说明自变量之间存在多重共线性。 1.多重共线性产生的经济背景和原因 当人们进行多元回归分析时,涉及的自变量较多,一时很难确定究竟要用哪个自变量来建立多元回归方程,也很难找到一组互不相关而都对因变量有显著影响的自变量,严格地讲,当某一经济现象的变量涉及多个自变量影响因素时,这些自变量的因素大都共有一定的线性相关关系,当其中的某些自变量两两相关关系较强时,就可认为该回归方程存在多重共线性。 当人们所研究的问题涉及到时间序列资料时,由于所涉及到的自变量往往随着时间变化(或共同的政策倾向)而表现出共同的变化趋势,从而产生共线性现象。例如人们在研究社会消费水平时,所涉及的影响因素有社会人均GDP水平,城镇居民收入水平,农民平均收入水平,银行储蓄存款余额,消费价格指数等指标,而这些指标之间都可能存在着很强的相关关系,如果从这些指标作为多元回归模型的自变量,该回归模型就存在着多重共线性。
    • 23. 对于利用横截面资料建立多元回归模型,也可能存在自变量之间高度相关的问题。例如应用横截面资料建立粮食产量模型,其自变量有农业投资;化肥投入,水利灌溉面积等。其实农业投资已在化肥投入和水利灌溉面积中体现出来了,它们之间存在较强的相关关系,而表现出共线性问题。 2.多重共线性带来的问题: 当回归模型从矩阵形式表示时y=XB,当存在自变量之间的完全多衙共线性时,存在 x’x =0,x’x -1也不存在,矩阵的行列式计算等于0,则B=(x’x)-1x’y也无法计算。 在实际生活中,经常见到的是自变量之间存在近似共线性情况,即 x’x ≈0,x’x –1的对角线元素较大,从而使得方程估计的精度下降,甚至出现 回归系数的经济意义无法解释的可能。 3.多重共线性的判断 多种共线有各种判断方法,这里举一个简单的判断方法: 设自变量有x1、x2、x3、 … …xp,其回归方程为: y=f(x1、x2、x3、 … xp),如果这多个自变量中两两自变量(xj)之间存在相关系数很大,则说明这个回归方程可能存在多重共线性问题,这时就要剔除其中的一个自变量或把这两个自变量相加,以求得计算过程的简化。
    • 24. 4.对多重共线性问题的消除方法 常用的消除多重共线方法有: (1)剔除一些不重要的解释变量,或对某些变量进行合并。 (2)增大样本容量。在实际经济问题的多元回归分析中,如果所搜集的样本数据太少,也容易产生多重共线性问题。 (3)改变变量的定义形式。对于某些样本变量数据是时间序列资料时,因各变量往往随着时间的变化向表现出共同的变化趋势,回归方程存在多种共线性,此时,对变量彩差分法重新定义,可能取得较好的效果。例如,建立的多元回归方程y=a+bx1+ cx2+dx3+ex4,其中当各自量之间可能出现两两变量高度相关出现多重共寿终正寝性问题,则令: △y=yi-yi-1 △x1=x1i-x1(i-1) △x2 = x2i-x2(i-1) △x3 = x3i-x3(i-1) △x4 = x4i-x4(i-1) △y = a+b △ x1+ c △ x2+ d △ x3+ e△ x4 ,然后去估计回归参数 (4)利用已知的信息,进行变量之间的替换。
    • 25. (1)准则 在解决了多重共线性问题之后,多元回归方程的自变量选择应当使所拟合的回归方程的①可决系数达到最大R2=∑( ŷ-y)2/ ∑( ŷ-y)2=S回/S总=1-S残/S总 ②残差平方程达到最小,Sy2= ∑( y-ŷ)2/n-p-1 ③对回归系数的检验,若该回归系数不能通过显著性检验,就剔除该自变量,然后重新建立一个新的回归方程,然后再进行显著性水平检验。 (2)逐步回归的方法 当建立一个多元回归方程时,由于人们事先不知道哪些变量来作为自变量,往往凭经验或定性分析多选择几个自变量建立多元回归模型,然后逐步对方程进行显著性检验,逐步剔除退出或变换增加某个自变量,如此反进行,最后使得整个方程的所有检验都可以通过为止。●多元回归方法自变量的选择和逐步回归的方法
    • 26. 四.多元回归模型的应用虚拟变量的应用 在回归模型分析中经常发生:因变量(y)不仅受诸如产量、价格、成本、身高、温度等可测量的数量变量的影响,而且也受到诸如:性别、文化程度、种族、宗教信仰、战争、地震、季节等及政府政策变化等品质变量的影响;因此,在建立回归方程时,不仅要引入数量变量,也要引入质量变量。当某种品质变量以是(1)非(0)表示时,就称其为虚拟变量。 常见的虚拟变量的回归模型有以下三种表现形式:
    • 27. 1.反映政府政策发生重大变化或其他因素发生重大变异的跳跃式,间断式的回归模型,其模型的形式为: ŷ=ß1+ ß2xi1+ ß3Di Di= 0 i
    • 28. 2.具有某种转折点的系统趋势的变化模型,其模型的形式为: ŷ= ß1+ ß2xi1+ ß3(xi1-xi0)Di Di= 0 i
    • 29. 3.含有多个虚拟变量的因归模型。根据品质变量的不同特征和回归模型的需要,可以引入多个虚拟变量来表示多次转折、跳跃和间断的情况。例如建立个人医疗保障年支出回归模型: ŷi= ß1+ ß2xi1+ ß3Di 1 + ß4Di 2 式中xi1为个人收入额 1 文化程度为大专及以上 Di 1 0 其它 1 机关及行政事业单位 Di 2 0 其它
    • 30. 例如:为研究美国住房面积的需求,选用3120户家庭为建模样本,回归模型为logQ=ß1+ ß2 P +ß3 logY 其中:Q —— 3120个样本家庭的年住房面积(平方英尺) P —— 家庭所在地的住房单位价格 Y —— 家庭收入 经计算:logy=4.17-0.247log P +0.96logy R2=0.371 (0.11) (0.017) (0.026) 上式中ß2=0.247的价格弹性系数, ß3=0.96的收入弹性系数,均符合经济学的常识,即价格上升,住房需求下降,收入上升,住房需求也上升。 但白人家庭与黑人家庭对住房的需求是不一样的,引进虚拟变量D: 1 黑人家庭 Di 1 0 白人家庭或其它家庭 logQ= ß1+ X1D+ß2 log P +a2D log P + ß3log Y+ a3D log Y
    • 31. 例:某省农业资料购买力和农民倾向收入数据如下:年份农资购买力(yi)农民倾向收入(xi)Di19751.34.7019761.35.4019771.45.5019781.56.9019791.89.0119802.110.0119812.311.3119822.613.4119832.715.2119843.019.3119853.227.81
    • 32. 解:①根据上述数据建立一元线性回归方程 ŷ=1.0161+0.09357x R2=0.8821 Sy=0.2531 F=67.3266 ②带虚拟变量的回归模型,因1979年中国农村政策发生重大变化,引入虚拟变量来反映农村政策的变化 0 i<1979年 Di= 1 i≧1979年 建立回归方程为: ŷ=0.9855+0.0692x+0.4945D (9.2409) (6.3997) (3.2853) R2=0.9498 Sy=0.1751 F=75.6895 虽然上述两个模型都可通过显著性水平检验,但可明显产生带虚拟变量的回归模型的可决系数更高,回归的估计误差( Sy )更小,说明模型的拟合程度更高,代表性更好。
    • 33. ●分段回归法的应用对有些经济现象的波动带有明显的阶段性,这时为提高回归方程的拟合效果,可彩分段回归的方法来建立回归方程。阶段性转折点的确定可以用散点图来观察确定 y x x0 x1 ß1+ ß2xt 0 x1
    • 34. 五.异方差与序列相关异方差 1.回归分析的假定性和异方差 回归分析的一个基本假定就是回归模型中随机误差项
    • 35. 单位:千万元商店销售收入(x)利润总额(y)因归估计值(ŷ)残差(e=y- ŷ)1160.012.810.22.62151.88.99.6-0.73108.14.16.7-2.44102.82.86.3-3.5589.38.45.43.0668.74.34.10.2766.84.03.90.1856.24.53.21.3955.73.13.2-0.11053.02.33.0-0.7
    • 36. 接上表 单位:千万元商店销售收入(x)利润总额(y)因归估计值(ŷ)残差(e=y- ŷ)1149.34.12.81.31243.02.02.4-0.41342.91.32.3-1.01437.61.82.0-0.21529.01.81.40.41627.41.41.30.11726.22.01.20.81822.40.91.0-0.11922.21.01.002020.70.50.9-0.4
    • 37. 根据最小二乘法计算出来的回归模型和回归估计值,然后再计算残差。从参数估计可看出该回归模型可决系数较高,一有关参数可能性通过检验,直观上认为该模型可作为预测所用。 但若从残差值(e=y- ŷ)做座标图分析,可看出:
    • 38. 从坐标图上看,残差的波动基本上呈一个喇叭型状态,销售收入小的单位,其残差一般较小,销售收入大的单位,其残差一般也较大,即残差随着商店规模扩大,销售额的增加而扩大。这表明,不同销信规模的商店,其利润总额的方差各不相同,由于回归模型中随机误差的方差不是一个常数,这里就存在着异方差的现象。这种现象经常出现在以横截面数拓建立的回归模型分析中,对时间序列数据有时也会出现异方差性,例如对某公司的C-D生产函数的估计,因不同时期的数据内涵标准不同,企业的投资水平,管理水平等不同,也会发生异方差性现象。 2.回归模型存在异方差的后果 ①参数的最小二乘法估计虽然是元偏的,但却是非有效的。 ②参数估计量的方差是有偏的,这将导致参数的假设检验也是非有效的。
    • 39. 3.异方差性的检验判断 (1)残差图分析法 e 一般情况下,对随机数据所做的回归分析,当回归模型满足所有的假定时,残差图上的点是随机分布的,无任何规律,如上图所示。如图回归模型存在异方差性,残差图上的点出现相应的有规律性的趋势,即随着y的增大,而出现e随之增大或减少的趋势,如下图:
    • 40. (2)等级相关系数法——斯皮而曼检验 这种检验既可以用大样本,也可以用小样本进行检验。其步骤如下: 第一步:作回归方程 ŷ=a+bx,并求e=y- ŷ 第二步:取e的绝对值,并与x按递增或递减顺序排成等级,然后计算相关系数。r e x=(1-6∑d2)/n(n2-1) 式中n为样本容量,d为相应的x与e的等级差数。 第三步:检验,设H0:r=0l; H1: r≠0 统计量为:t=r/ 1-r2 ~ta/2(n-2) 当t≤ ta/2 (n-2)时,接受H0,可认为异方差性不存在,否刚就接受H1, 认为x与 ei 之间存在系统关系,异方差性存在。 在多元线性回归模型中,对任一变量xj做等级相关检验,若不通过检验,则认为整个回归模型存在异方差性。
    • 41. (3)样本分段比较法检验——戈德菲尔德——匡特检验 该检验法的步骤是: 将样本按某个解释变量的大小顺序排列,并将其分为两段;然后分别用最小平方法拟合两个回归模型,并分别计算各段的残差平方和S残1和S残2,计算高段的样本单位n1和低段的样本单位n2;计算各段模型随机误差的残差平方和,â1=S残1(n1-k-1), â2=S残1(n2-k-1);由此构造F统计量F= â1 / a2,该统计量服从第一自由度(n2-k-1)的F分布,在给定的显著性水平(a)下,进行Fa检验,若F>Fa ,刚认为该组数据存在异方差 例如用前述某城市20家商店的销售额,分为5亿元以上的10家商店和5亿元以下的10家商店,分别用最小二乘法拟保两段的回归方程得: ŷ1=-0.75190+0.06875x, R2=0.6354 (1.1845) (0.0184) â1=4.7037 ŷ2=-0.63129+0.07207x, R2=0.5623 (0.7535) (0.6225) â2=0.4801 F= â12/ â22=4.7037/0.4801=9.7973 查第一自由度和第二自由度均为8,d=0.01时Fa=F(0.01)=6.03,即F>Fa,即认为存在异方差。
    • 42. 存在异方差情况下的参数估计 由于异方差存在时用普通最小二乘法对参数旱进行估计的非有效性,这时回归模型的参数估计就不宜直接采用普通紧小二乘法进行参数估计,这时通常采用加权最小二乘法进行参数估计。对一元回归方程一种解的做法是用 xi 去除模型的两边各项。 y/ x =(a/ x +bx/ x=a/ x +b x 还有一种方法是先用普通最小二乘法求出回归模型参数a和b,得回归方程ŷ=a+bx),然后用(a+bx)去除模型的两边各项,计算y/(a+bx)对1/(a+bx)和x/(x+bx)的无常数项的回归方程,这种方法称为二阶段加权最小二乘法
    • 43. ●序列相关1.序号相关的概念 对时间序列资料,往往由于经济经济发展,某一时间的变量值对未来某一时间的变量值的影响就产生了序列相关。 例如以前所提到的一元回归方程ŷ=a+bx,x为自烃量,y为因变量。而在离列相关时,所建立的回归方程为ŷt=a+byt-i,这时同是一个变量y,但yt-i为自变量。例如美国的轿车一般折旧期为3年,则前三年的轿车销售量往往会对后三年的轿车销售量发生影响,这时建立的序列相关回归模型为: ŷt=a+byt-3。当然在ŷ=a+bx的方程中,也会存在序列相关的问题。 在有的统计学课本中,所序列相关回归称为自相关,因回归,即自身的变量对滞后时期的本变量发生影响。
    • 44. ●某城市历年的GDP和消费表 单位:亿元年份GDP Xt总消费 yt回归值 ŷt残差 Et= yt- ŷt1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990108.84 120.11 139.07 139.15 154.94 183.13 216.61 257.12 284.86 326.82 410.22 455.96 500.7240.98 49.34 57.44 63.72 71.22 81.31 96.14 112.30 125.16 147.87 178.49 197.67 230.9656.07 60.14 66.99 67.01 72.72 82.89 94.98 109.61 119.63 134.78 164.89 181.41 197.57-15.09 -10.80 -9.55 -3.29 -1.50 -1.58 1.16 2.69 5.53 13.09 13.60 16.26 33.36
    • 45. 接上表 单位:亿元年份GDP Xt总消费 yt回归值 ŷt残差 Et= yt- ŷt1991 1992 1993 1994 1995 1996598.79 709.00 863.23 1084.33 1395.12 1616.03225.47 262.97 310.28 396.29 506.58 617.85232.98 272.78 328.47 408.30 520.52 600.29-7.51 9.81 -18.19 -12.01 -13.94 17.56
    • 46. 根据上述数据建立的回归方程为: ŷ=16.769+0.361x R2=0.99285 ∑et2=3354.2986 (4.9374) (0.0074) DW= / =3217.2167/3354.2986=0.9617<1.18=dL 查DW临界表,在5%的显著性水平下,n=19,k=1时,d2=1.18,du=1.40,即该变量数据存在一阶正的自相关。 ●应用DW检验时应注意的问题 (1)DW检验只适用于检验一阶自回归形式的序列相关,而并不适用于检验高阶回归形式的序列相关。 (2)DW检验要求解释变量中不含有滞后因变量,否则DW检验会失效。断 (3)DW检验中存在不能判定的区域,叵DW值落入该区域,可通过增加样本容量以缩小该区域,但有时DW检验仍不能做出结论。要求n>15,否则很难做出正确判断
    • 47. 序列相关情形下的参数估计 当模型存在一阶序列相关时,对参数估计采用的有一阶差方法和方义差分法及选代法等几种。这里年份简单的一阶差分法。 令:△yt= yt –yt-1 △xt=xt- xt-1,则一阶差分回归模型△ŷ=a+b △x,然后用普通最小二乘法估计其参数。例如对上述某城市资料无截距(常数)项的一元回归模型,得: △yt=0.3756 △xt,R2=0.8495.S残=3166.3395 (0.0269) 在什么情况可能产生序列自相关现象 (1)遗漏某些关键变量时可能产生序列自相关。例如,研究居民消费水平时,漏掉居民可支配收入的有关数据变量,则用居民消费水平数据建立的回归模型可能产生正自相关。 (2)经济变量的滞后性会带来序列自相关。例如前述美国轿车一般三年更新的例子。 (3)采用错误的回归方式也可能引起。 (4)经济上的蛛网现象可能引起。 (5)对数据的错误加工可能导致误差项的自相关,例如,在季节性时间序列资料建立模型中,我们要常常消除季节性影响,对数据进行修匀处理后,可能会导致序列自相关。
    • 48. ●时间序列模型与预测(一)简单外推模型。 1、简单外推模型。 (1)对一元回归时间序列线性模型。 y=a+bt ,按模型趋势发展时,令时间增长到t0,则 y0=a+bt0 Sy= 对大样本数据(n>30),区间 预测为y0=(a+bt0) 土Z ·Sy,区间为一平行线外推。对小样本数据(n<30),区间预测为y0=(a+bt0)土t · Sy · ,这时区间为一双曲线。 (2)抛物线模型
    • 49. (2)抛物线模型一阶:y=a+bt+ct2 二阶:y=a+bt+ct2+dt3 y y t t 一阶抛物线 二阶抛物线
    • 50. (3)修正指数曲线模型y=k+abt 对修正指数曲线模型的参数估计:三和法 第一段:把序列(y)分为三段,每段都包括相等的几个数据,然后对各段求和,得各数: y
    • 51. 第二段: =nk+abn· 第三段: =nk+ab2n · 令(2)-(1)得 令(3)-(2)得
    • 52. 令(5) (4)得:bn= b= (4)得:a= (1)得:k=
    • 53. 某城市某产品修正指数曲线模型计算表 单位:万台 t销售量(yt)一阶差分一阶差分 环比(%)yt1 2 34.60 4.90 5.14 0.30 0.24 80.0014.644.6031 4.8997 5.13734 5 65.33 5.48 5.600.19 0.15 0.1279.17 78.94 80.0016.415.3277 5.4801 5.60237 8 95.70 5.78 5.840.10 0.08 0.0683.33 80.00 75.0017.325.7002 5.7786 5.8418
    • 54. 上述时间序列数据的一阶差分得环比大致为一常数,故拟合修正指数曲线模型。 b= =0.8011 a=(16.41-14.64)· =-1.4912 K=1/3[14.64-(-1.4912)*[(0.08113-1)/(0.8011-1)]=6.0913 k=修正指数曲线模型:ŷ=6.0913+(-1.4912) (0.8011)t 第9年 t=9时的预测 y9=6.0913+(-1.4912)· (0.8011)=5.8917(万台) 第10年 t=10时的预测 y10=6.0913+(-1.4912)· (0.8011)=5.9320(万台)
    • 55. (4)S曲线模型——成长曲线模型 A.龚析兹曲线模型 ŷ= 对该模型两边对对数得 lg ŷ=lgk+(lga)*bt (1) 令y=lgy k=lgk A=lga 代入方程(1)得: Y=K+A*bt,该模型为修正指数曲线模型,仿上例可求出有关参数后再求反对数可求出参数k,a,b的值 b.逻辑斯特曲线模型 ŷ= 对该方程求倒数 =k+abt,这时方程表现为修正 龚柏兹曲线与逻辑斯特曲线的图形区别: S曲线的特征可分为三个阶段,经常用来对某个产品的生命周期或人口的增长状况进行描述和预测。它的第一阶段为萌芽期,第二阶段为增长期,在拐点的左边为边际递增,拐点的右边为边际递减,第三阶段为饱和期,曲线对拐点而言是旋转的对称。
    • 56. ●移动平均模型预测移动平均法是根据时间序列资料,逐项推移,依次计算移动平均,来反映现象的变动趋势时,运用移动平均法,消除这些因素的影响,进行动态数据的修匀,以利于旱灾行长期趋势的分析和预测。 (1)简单移动平均
    • 57. 某产品月份销售量移动平均预测表 单位:只tyt三项移动平均五项移动平均1 2 3 4 5 6 7 8 9 10 11 12423 358 434 445 527 429 426 502 480 384 427 446 405 412 469 467 461 452 469 456 430 437 439 452 466 473 444 44413419452
    • 58. 对三项移动平均: M4=(y3+y2+y1)/3=(434+358+423)/3=405 M5=(y4+y3+y2)/3= (445+434+358)/3=412 以下类推 对五项加权平均: M6=(y5+y4+y3 + y2 + y1)/5= (527+445+434+358+423)/5=437 M6=(y6 + y5+y4+y3 + y2 )/5=(429+527+445+434+358 )/5=439 以下类推 对移动时间长度的选择,上述分别取三项移动平均和五项移动平均,得出t=13时的预测值分别为419只和452只。但究竟应该取几项移动平均呢?有效的办法是多取几个N,计算其移动平均值,然后分别求其均方误差。 MSE=[∑( ŷ-y)2]/n,然后选取MSE较小的那个N,作为预测时的移动平均的时间长度。从上例中可看出: 当N=3时,MSE=(1/9)* [∑( ŷ-y)2]=28893/9=3210.33 当N=5时,MSE=(1/7)* [∑( ŷ-y)2]=11143/7=1591.86 由此可见,当N=5时,MSE较小,选择N=5,t=13时预测M13=452只。如果时间序列数字变化较大,用简单移动平均法就会产生较大的偏差。
    • 59. (2)加权移动平均法——近大远小原则的应用 在简单移动平均公式中,第一个数据在计算中的作用是相同的。加权移动平均则对近期的数据认为更重要而给予更多的权数。如下列:tyt三项加权移动平均( ŷ)相对误差(%)1 2 3 4 5 6 7 8 9 106.35 6.20 6.22 6.66 7.15 7.89 8.72 8.94 9.28 9.80 6.24 6.44 6.83 7.44 8.18 8.69 9.07 6.31 9.93 14.43 14.68 8.50 6.36 7.45
    • 60. 对表中所列出的(yt)作出预测: ŷ4=M4=(6.22*3+6.20*2+6.35*1)/(3+2+1)=6.24 ŷ5=M5=(6.60*3+6.22*2+6.20*1)/(3+2+1)=6.44 . . . ŷ10=M10=(9.28*3+8.94*2+8.72*1)/(3+2+1)=9.07 ŷ11=M11=(9.80*3+9.28*2+8.94*1)/(3+2+1)=9.48 相对误差=(6.66-6.24)/6.66=6.31%,以此类推 上表中,总的相对误差为: [1-(∑ ŷt / ∑yt)]*100%=[1-(52.89/58.44)]*100%=9.50% 则经过相对误差后的ŷu =9.48*[1/(1-9.5%)]=10.48(万吨)
    • 61. (3)趋势移动平均法 当现象出现线性增加或减少的趋势时,用简单移动平均或加权移动平均法来预测,就会出现滞后偏差,对此作出的修正的方法是二次移动平均,利用移动平均滞后偏差的规律建立线性方程,作出预测 趋势移动平均的线性模型:ŷt+T=at+btT 式中: at =2 Mt(1) - Mt(2) bt =[2/(N-1)]( Mt(1) - Mt(2)) 对下表取N=6,分别计算Mt(1)和Mt(2)列于下表 M21(1) =(4107+3770+3514+3277+3093+3006)/6=3461.2 M21(2) =(3461.2+3246.7+3046.0+2832.7+2625.0+2435.8)/6=2941.2 由公式得: a21 = 2 Mt(1) - Mt(2) =2*3461.2-2941.2=3981.2 b21 =[2/(6-1)]( Mt(1) - Mt(2))=(2/5)(3461.2-2941.2)=208 得直线趋势模型 ŷt+T =3981.2+208T 当t+T=22时,T=1 得:ŷ22 =3981.2+208*1=4189.2(亿度) ŷ23 =3981.2+208*2=4397.2 (亿度)
    • 62. 某时闪电某地区发电量一次二次移动平均计算 单位:亿度tyt一次性移动平均 Mt(1) N=6二次移动平均 Mt(2) N=61 2 . . . 8 9 10 11 12 13 14 15 16 17 18 19 20 21676 825 . . . 1524 1668 1688 1958 2031 2234 2566 2820 3006 3093 3277 3514 3770 4107 2216.2 2435.8 2625.0 2832.7 3046.0 3246.7 3461.2 2733.6 2941.2
    • 63. ●指数平滑预测模型——近大远小原则的应用(1)一次指数平滑预测模型 ŷt+1=ayt+(1-a) ŷt 式中a为平滑系数 St(1)= ayt+(1-a) St-1(1) 式中ŷt+1 = St(1) (2)平滑系数的选择 当时间序列数字波动不大,发展比较平稳时,a可取小一点,例如(0.1-0.3);当时间序列数字有明显的迅速的变动倾向,则a可取大一点,例如(0.6-0.8),在实际应用中,可多取几个a值,然后计算均方误差(MSE),看哪一个MSE较小,就选用哪个a作为平滑系数。 (3)初始值的确定 一般初始值以最初几期的实际值简单平均即可。
    • 64. 某地区某产品销售额的一次指数平滑预测计算 单位:万元tytŷt(a=0.2)ŷt(a=0.5)ŷt(a=0.8)1 2 3 4 5 6 7 8 9 10 11 1247 52 47 51 49 48 51 40 48 52 51 5951.0 50.8 51.04 50.23 50.38 50.10 49.68 49.94 47.95 47.96 48.77 49.2251.0 50.5 51.25 49.13 50.07 49.54 48.77 49.89 44.95 46.48 49.24 50.1251.0 50.2 51.64 47.93 50.39 49.28 48.26 50.45 42.09 46.82 50.96 50.99
    • 65. 上表列出a=0.2,a=0.5,a=0.8时,初始值(ŷ1)=(y1+y2)/2=(50+52)/2=51时各年平滑值计算。例如:当a=0.2时, ŷ2=ay1+(1-a) ŷ1 =0.2*50+(1-0.2)*51=50.8 ŷ3= ay2+(1-a) ŷ2 =0.2*52+(1-0.2)*50.8=51.04 以下类推。从上表可看出,当a分别为0.2、0.5、0.8时各年平滑值各不相同;通过计算均方误差(SME)来比较: 当a=0.2时,MSE=∑(y- ŷ)2/12=243.14/12=20.26 a=0.5时,MSE=252.82/12=21.07 a=0.8时,MSE=281.4/12=23.45 可见,当a=0.2时,MSE较小,故选择a=0.2做预测 ŷ13= ay12+(1-a) ŷ12 =0.2*59+(1-0.2)*49.22=51.176(万元)
    • 66. (4)二次指数平滑预测模型 当时间序列数据出现线性变动趋势时,用一次指数平滑法来进行预测,仍会出现滞后偏差,这时可应用二次指数平滑法加以修正。其计算公式: St(1)=ayt+(1-a)St-1(1) St(2)= St(1) + (1-a)St-1(2) 试中St(1)为一次指数平滑值, St(2)为二次指数平滑值。当时间序列数值具有线性趋势时,直线趋势模型: ŷt+T=at+btT at=2 St(1) + St(2) bt=[a/(1-a)](St(1) - St(2))
    • 67. 例:某地发是量一次、二次指数平滑计算表tYtSt(1)St(2)ŷt+11 2 . . . . . 15 16 17 18 19 20 21676 825 . . . . . 2820 3006 3093 3277 3514 3770 4107676 720.7 . . . . . 2305.4 2515.6 2688.8 2865.3 3059.9 3272.9 3523.1676 689.4 . . . . . 1897.0 2082.6 2264.5 2244.7 2629.3 2822.4 3032.6 676 . . . . . 2603.4 2888.8 3134.2 3294.9 3466.2 3675.0 3916.5
    • 68. 解:上表中:令S0(1)=S0(2)=676,a=0.3得:S21(1)=3523.1, S21(2)=3032.6 a21=2*S21(1)- S21(2)=2*3523.1-3032.6=4013.6 b21= [a/(1-a)](S21(1) – S21(2))=[0.3/(1-0.3)](3523.1-3032.6)=210.21 则 ŷ21+T=4013.6+210.21T 得: ŷ22= ŷ21+1 =4013.6+210.21*1=4223.81(亿度) ŷ23= ŷ21+2 =4013.6+210.21*2=4434.02 (亿度)
    • 69. ●季节指数模型1.时间序列数据的影响分布 长期超势因素(T)——Trend 季节变动因素(S) ——Season 循环变动因素(C)——Cycle 不规则变动因素(I)——Irregular 时间序列的四个因素表示为乘法关系: ŷt= T×S × C × I 2.季节变动指数测定 季节变动是指经济现象在一年内随着季节的变换而引起的比较有规律的变化,例如,某些生活消费品因季节的变化而表现出旺季或淡季有规律周期性的变动。通过对季节变动的分析和研究,可以判断现象的季节变化规律,以作为当前经营活动的依据。同时在长期的时间序列数据分析中,可以消除季节变动的影响,而观察长期趋势的变化及其它因素变化对数据的影响。
    • 70. (1)按季(月)平均法计算季节指数 其步骤:1、列出各年各季(月)的有关数据(一般不少于5年) 2、计算各年各季(月)的同季(月)平均数(yj) 3、计算全部总的平均数( yj) 4、计算季节指数(S)= yj/ yj 该方法适用于时间序列各年数据的变动不大,较平稳变化。
    • 71. 例:某地几年各季度农业生产资料销售额季节指数计算表年份销售额1季度2季度3季度4季度全年合计1978 1979 1980 1981 1982 198362.6 71.5 74.8 75.9 85.2 86.588.0 95.3 106.3 106.0 117.6 131.179.1 88.5 96.4 95.7 107.3 115.464.0 68.7 68.5 69.9 78.4 90.3293.7 324.0 346.0 347.5 388.5 423.3合计456.5644.3582.4439.82123.0同季平均76.08107.3897.0773.3088.46季节指数 (%)86.01121.39109.7382.86100.00
    • 72. 上表数据中:第一季度的各年同季平均yj=465.5/6=76.08,其余类推。 各年各季的总平均yj=(76.08+107.38+97.07+73.30)/4=8846 季节指数:第一季度S1=(76.08/88.46)*100%=86.01% 第二季度S2=(107.38/88.46 )*100%=121.39% 第三季度S3=(97.07/88.46 )*100%=109.73% 第四季度S4=(73.30/88.46 )*100%=82.86% 人、从计算可看出,第二季度是春耕春忙季节,是农业生产资料的销售旺季。该方法计算简明易理解,但有一个假定,即各年各季数据没有明显的长期趋势。但在实际的经济现象数据分析时,往往有长期趋势的变化,因此该方法计算的季节指数不够准确而应该用趋势除法来计算季节指数。
    • 73. 对上例资料: 单位:亿元季度tyt四项移动平均趋势值(t)y/t (%)季节指数S(%)季节调整后收入(y/s)回归趋势值(ŷt)1978.1 2 3 41 2 3 462.6 88.0 79.1 64.0 74.54 76.56 106.12 83.5988.39 122.33 109.01 80.2670.82 71.93 72.56 79.7471.38 72.88 74.37 75.861979.1 2 3 41 2 3 471.5 95.3 88.5 68.778.65 80.41 81.41 83.2090.91 118.51 108.71 82.5788.39 122.33 109.01 80.2680.89 77.90 81.18 85.5977.36 78.85 80.34 81.831980.1 2 3 41 2 3 474.8 106.3 96.4 68.585.56 86.53 86.64 86.7487.42 122.85 111.27 78.9788.39 122.33 109.01 80.2684.62 86.89 88.43 85.3583.33 84.82 86.31 87.81
    • 74. 接上表 单位:亿元季度tyt四项移动平均趋势值(t)y/t (%)季节指数S(%)季节调整后收入(y/s)回归趋势值(ŷt)1981.1 2 3 41 2 3 475.9 106.0 95.7 69.986.61 86.70 88.04 90.6587.63 122.26 108.70 77.1188.39 122.33 109.01 80.2685.87 86.65 87.79 87.0989.30 90.79 92.39 93.781982.1 2 3 41 2 3 485.2 117.6 107.3 78.493.55 96.06 97.29 99.1491.07 122.42 110.29 79.0888.39 122.33 109.01 80.2696.39 96.13 98.43 97.6895.27 96.76 98.26 99.751983.1 2 3 41 2 3 486.5 131.1 115.4 90.3101.84 104.3484.94 125.6588.39 122.33 109.01 80.2697.86 107.17 105.86 112.51101.24 102.74 104.23 105.72
    • 75. 年份第一 季度第二 季度第三 季度第四 季度合计1978 1979 1980 1981 1982 1983 90.91 87.42 87.63 91.07 84.94 118.51 122.85 122.26 122.42 125.65106.12 108.71 111.27 108.70 110.29 83.59 82.57 78.97 77.11 79.08 合计441.98611.70545.09401.332000.10平均88.40122.34109.0280.27100.005季节指数88.39122.33109.0180.26100.00
    • 76. 从上表可看出,剔除长期趋势变支后,农业生产资料的销售旺季仍为第二季度。 (三)季节变动的调整及预测 对时间数据剔除变动后的调整,可以在设有季节因素影响的情况下,时间序列数据变化的趋势。对调整后的序列拟合线性回归方程ŷt=69.89+1.493t,对计算出来的趋势值ŷt数据可看出呈现现增长趋势。也可以用这个回归方程进行预测。 对1984年各季度的农业生产资料销售额进行预测, ŷt=(69.89+1.493t)*季节指数 则1984年第一季度 ŷ25=(69.89+1.493*25)*88.39=94.77(亿元) 第二季度 ŷ26=(69.89+1.493*26)*122.33=132.98(亿元) 第三季度 ŷ27=(69.89+1.493*27)*109.01=120.13(亿元) 第四季度 ŷ28=(69.89+1.493*28)*80.26=89.65(亿元)