相关回分析
第节 简单线性相关分析
相关关系概念种类
()相关关系概念
然界类社会中普遍着存现象间相互赖相互制约关系现象数量发展变化常伴着现象数量发展变化现象间数量关系分两种基类型:①函数关系指现象间存严格存确定果关系种现象数量变化必然决定着种现象数量变化种关系通精确数学表达式反映圆面积半径关系sπr2落体落距离时间关系hgt2等等②相关关系指现象间确实存着数量关系种关系严格确定种现象数量发生变化时种现象数量定范围发生变化出现数值单位产品成产量间关系般说工厂规模扩产品产量增加时单位产品成会降种变化趋势体现规模济效应具客观性普遍性影响产品成素众次必然偶然机非机观察观察等等产量水会出现种样单位成者某确定单位成应着产量两者关系唯确定粮食收获量施肥量间商品价格需求量间身高体重间等具类似特征种关系相关关系
函数关系相关关系区联系观察实验中误差函数关系通相关关系表现出现象间联系规律性解更加清楚时候相关关系转化函数关系社会济领域里般说函数关系反映现象间关系理想化状态相关关系反映现象间关系现实化状态量观察时均意义描述
综述相关关系现象间确实存关系数值固定相互存关系相关分析研究变量变量组变量间相关密切程度相关方种统计分析方法
(二)相关关系种类
现象间相关关系复杂角度相关关系种类
1固定相关机相关变量性质(否机变量)相关关系分固定相关机相关固定相关指机变量组非机变量间相关关系例农作物施肥量控制变量农作物收获量确定变量两变量间关系表现机变量非机变量间固定相关机相关指机变量组机变量间相关关系例学生身高体重间关系两机变量间机相关关系果观察某身高组学生时体重相会形成分布果观察某体重组学生时身高相形成分布两变量均机变量
2简单相关元相关变量少相关关系分简单相关元相关简单相关称单相关指机变量机变量非机变量间相关关系元相关称复相关指机变量组机变量非机变量间相关关系
变量间相关方简单相关分正相关负相关变量值增加变量值相应增加变量值减少变量值减少时样相关关系正相关反变量值增加时变量值减少变量值减少时变量值反增加具种特点相关关系负相关
元相关进步分解简单相关偏相关偏相关指测定机变量某某机变量非机变量间相互关系该机变量某新增加机量非变量间相关关系称净相关
3线性相关非线性相关变量间相关形式相关关系分线性相关非线性相关机变量组机变量非机变量间相关关系表现线性组合时称间相关关系线性相关反机变量组机变量非机变量间相关关系表现线性组合表现非线性组合时称间相关关系非线性相关
4完全相关完全相关相关变量间相关程度相关关系分完全相关完全相关相关变量值完全组变量值决定称变量间种相关关系完全相关函数关系变量值组变量值关中受机素影响称变量间种相关关系完全相关变量值完全受组变量值影响称变量间相关量社会济现象间相关关系属完全相关完全相关相关分析基容完全相关相关视相关关系中特例
二简单线性相关图表
判定两变量间相关程度相关方简单线性相关分析重容简单直观方法列相关表绘制相关图
简单线性相关关系固定简单线性相关机简单线性相关分简单线性相关图表直观表明两类简单线性相关变量间相关程度相关方
()固定简单线性相关图表
已知两变量设y机变量x非机变量应x定取值y取值次试验中y取中值x非机变量实验中取值控制重复进行n次试验中x取n相值相应ny值应样资料(x
y)数x取值次应排列构成固定简单线性相关表称维相关表
例91 某区居民均收入水(x)食品支出占生活费支出重(y)间具相关关系编制相关表(见表91):
表91 维相关表
均收入水(元)x
280
320
390
530
650
670
790
880
910
1050
食品支出占生活费支出重()y
683
675
662
649
567
602
544
490
505
436
表91粗略出着居民均收入水提高食品支出占生活费支出重降趋势
应(xy)描点坐标系构成散点图称相关图相关图横轴表示非机变量(x)轴表示机变量(y)通观察变量值坐标点分布状况致判断变量间相关形态方密切程度
利表91资料绘制相关图(见图91):
图91 居民均收入水食品支出关系图
图91出着居民均收入水提高食品支出占生活费支出重明显降低致呈线性降趋势负线性相关
常见相关分布状态述图表示(见图92):
较显著线性正相关 较显著线性负相关
显著线性负相关 相关
图92 种常见相关散点图
(二)机简单线性相关图表
设x y两机变量观测值(xy)分组序排列x排列y排列形成棋盘式衡表称二维相关表
例92 某区研究降雨量农作物均亩收获量关系40降雨量试验田中获40数x表示降雨量y表示均亩收获量编出二维相关表(见表92)
该表中中间格列出xy联合频数表明xy时取某值次数列格行联合频数表明y取某值次数行格列联合频数表明x取某值次数
表92 二维相关表
降雨量(毫米)xi
频数fij
8
10
12
14
16
18
行
(fj)
收获量(公斤)yj
260
1
2
1
4
240
2
2
2
6
220
2
3
5
1
11
200
1
3
6
3
13
180
1
2
3
160
1
1
1
3
列(fi)
3
6
14
11
5
1
40
表92粗略出降雨量收获量间致呈线性正相关关系
利表92资料绘制相关图(见图93):
图93 降雨量收获量间相关图
三简单相关系数
()简单相关系数意义
简单线性相关图表然直观精确描述现象间相关关系测量两变量间线性相关程度相关方指标称简单相关系数
总体相关系数般R表示定义式
(式91)
式中表示变量XY标准差限总体言计算公式
(式92)
(式93)
表示两变量XY间协方差计算公式
(式94)
里变量XY 总体变量N总体单位数分变量XY总体均数计算式
(式95)
(式96)
理解相关系数R意义首先明确协方差标准差反映变量间相关关系中作
协方差反映变量XY变性显示两变量相关方相关关系密切程度出现种情况:
第相关点均正相关> 0说明两变量间正线性相关
第二相关点均负相关< 0说明两变量间负线性相关
第三全部相关点中正相关负相关零相关计算协方差时会出现正负抵销抵销结果正数正相关负数负相关数值表示相关程度强数值表示相关关系弱正负全部低销掉结果零表示相关
第三种情况实际济生活中常见情况外两种极端情况:相关点零相关时抵销结果零表示两变量完全没相关关系相关点全部落直线时表示两变量完全线性相关存函数关系
进步相关系数界+11间数1≤R≤1R1说明两变量间存完全正线性相关R1说明两变量间存完全负线性相关0 < R < 1说明两变量间存定程度正线性相关1 < R < 0说明两变量间存定程度负线性相关R0说明两变量间没线性相关关系
(二)简单相关系数计算
实际工作中总体相关系数R般未知需样资料推断总体相关情况需计算样相关系数
1固定简单线性相关系数计算
设xy 样变量中y机变量x非机变量 n样容量
分变量xy样均数分表示变量xy样标准差间样协方差计算
(式97)
(式98)
(式99)
(式910)
(式911)
总体相关系数计算形式相样相关系数(记r)公式
(式912)
简单推导式变化面易计算形式
(式913)
根表91资料计算相关系数表93示
表93 固定简单线性相关系数计算表
序号
均收入水(元)
x
食品支出占生活费支出重()y
x2
y2
xy
1
280
683
78400
466489
19124
2
320
675
102400
455625
21600
3
390
662
152100
438244
25818
4
530
649
280900
421201
34397
5
650
567
422500
321489
36855
6
670
602
448900
362404
40334
7
790
544
624100
295936
42976
8
880
490
774400
240100
43120
9
910
505
828100
255025
45955
10
1050
436
1102500
190096
45780
合计
6470
5813
4814300
3446609
355959
表93数字代入述相关系数计算公式:
098
2机简单线性相关系数计算
果xy均机变量计算样相关系数基式
存联合频数(fij)具体计算略变化复杂类推式
(式914)
根表92资料计算相关系数计算程表94表95表96示:
表94 降雨量(x)数计算表
降雨量(毫米)xi
fi
xi2
xifi
xi2fi
8
3
64
24
192
10
6
100
60
600
12
14
144
168
2016
14
11
196
154
2156
16
5
256
80
1280
18
1
324
18
324
合计
40
—
504
6568
表95 均亩收获量(y)数计算表
均亩收获量(公斤)yj
fj
yj2
yjfj
yj2fj
160
3
25600
480
76800
180
3
32400
540
97200
200
13
40000
2600
520000
220
11
48400
2420
532400
240
6
57600
1440
345600
260
4
67600
1040
270400
合计
40
—
8520
1842400
表96 均亩收获量(y)数计算表
降雨量(毫米)xi
均亩收获量(公斤)yj
fij
xiyjfij
8
160
1
1280
8
180
1
1440
8
200
1
1600
10
160
1
1600
10
200
3
6000
10
220
2
4400
12
160
1
1920
12
180
2
4320
12
200
6
14400
12
220
3
7920
12
240
2
5760
14
200
3
8400
14
220
5
15400
14
240
2
6720
14
260
1
3640
16
220
1
3520
16
240
2
7680
16
260
2
8320
16
260
1
4680
合计
—
40
109000
根表资料:
067
四相关系数统计推断
总体相关系数R般未知够计算出样相关系数rr然够提供关总体相关程度方某种信息r愈定程度说明总体相关程度愈高犯错误需根样资料总体相关系数R进行检验估计
()关总体相关系数R检验
相关系数r分布复杂直接利进行统计推断果设
ZR (式915)
zr (式916)
证明样(xy)抽正态分布总体时zr似服均值ZR方差
正态分布
z(zrZR) (式917)
似服标准正态分布检验H0:RR0(R0¹0)
利例91资料计算样相关系数r098否认总体相关系数R090统计假设
H0:R090
H1:R¹090
时
ZR1472
zr2298
检验统计量
z(zrZR)
(2298+1472)
2185
显著水α5时查正态分布表否定H0接受H1认总体相关系数R090
理总体相关系数进行单边检验
(二)关总体相关系数R区间估计
首先求出ZR估计区间估计保证程度应概率度ZZR估计区间
zrZR zr+
例91ZR95置信估计区间
2298ZR2298+
3039ZR1557
根ZR置信区间换算出R置信区间:
ZR3039时R099
ZR1557时R092
计算结果说明居民均收入水食品支出占生活费支出重间总体相关系数R95置信区间099092
理类似例92进行分析请读者思考
第二节 简单线性回分析
回分析概念种类
历史回概念提出早相关生物统计学家高尔顿研究豌豆体身高遗传规律时首先提出回思想1887年第次回复(Reversion)作统计概念改回(Regression)词1888年引入相关(Correlation)概念原研究类身高遗传时发现祖先身高高低成年代身高总般口均身高回倾通俗讲高子父母子女般象样高矮子父母子女般象样矮子女身高仅受父母影响(程度强)受两代四双亲影响(程度相弱)三代八双亲影响(程度更加弱)等等 子女身高受2n(n趋穷)祖先整体(总体)影响遗传变异统结果
回相关已成统计学中基概念分析方法已标准常统计工具狭义相关分析务评判现象间相关程度高低相关方回分析相关分析基础进步数学方程种显著存相关关系表示出种揭示出关系具体化运实践中常广义角度理解相关回时回分析包含着相关分析
回分析基分类元回元回前者指两变量间回分析收入意愿支出间关系者指三三变量间关系消费支出收入商品价格间关系等
进步元回细分线性回非线性回两种前者指两相关变量间关系通数学中线性组合描述者没种特征两相关变量间关系通数学中线性组合描述表现某种曲线模型
二简单线性回方程
总体简单线性回模型表示
YA+BX+e (式918)
式中X称变量Y称变量e称机误差值
里出相关分析回分析显著区前述相关分析中通常变量XY视作某种等素里回分析中等变量解释变量预测变量假定控制测量误差非机变量相反变量解释变量预测变量机变量相YX造成者相X引起Y表现正机误差项e机误差值e观察值Y变量X解释剩值称残差值机变量
AB未知估总体参数称回系数见实际观测值Y分割两部分:解释肯定项A+BX二解释机项e
相关分析类似总体回模型YA+BX+e未知根样资料估计成回分析基务假设样回方程:
(式919)
式中分YAB估计值
果变量XY联合进行n次观察获样(xy)求出值
求方法种般采方法求观察值y估计值离差方达值
值
满足求述标准方程求出
Σyn+Σx
ΣxyΣx+Σx2
解方程:
(式920)
(式921)
例93 研究某类企业生产量单位成间关系现机抽取10企业数(见表97):
根该资料计算表98:
表97 10企业生产量单位成情况
编号
1
2
3
4
5
6
7
8
9
10
产量(万件)
2
3
4
4
5
6
6
7
8
9
单位成(元件)
52
54
52
48
48
46
45
44
40
38
表98 元线性回计算表
编号
产量
(万件)
x
单位成
(元件)
y
x2
y2
xy
y
1
2
52
4
2704
104
5435
235
2
3
54
9
2916
162
5210
190
3
4
52
16
2704
208
4985
215
4
4
48
16
2304
192
4785
185
5
5
48
25
2304
240
4760
040
6
6
46
36
2116
276
4535
065
7
6
45
36
2025
270
4535
035
8
7
44
49
1936
308
4310
090
9
8
40
64
1600
320
4085
085
10
9
38
81
1444
342
3860
060
合计
54
467
336
22053
2422
467
0
表资料:
225
5885
样生产量(x)单位成(y)间样回方程
5885225x
简单线性回方程中截距 斜率者表示变量x变化单位时均变化单位取正值时表明xy变化方相取负值时表明xy变化方相反例中225表明产量增加1万件时单位成均降225元
根样资料获回方程称验方程果计算出观察值y估计值进步求出残差y观察回方程总体方程拟合优良程度某特定变量x言观察值y估计值定差产量5万件时实际单位成48元估计值4760元两者相差04元全部残差项等零(见表98)说明估计值均说偏事实方估计量满足式
Σ(y)0
里表示估计值均值
理讲方法具优良特性参数AB 方估计量优线性偏估计量性质通常称高斯—马尔科夫定理方法获广泛应原
外果记机误差项e方差σ2未知总体参数偏估计量
(式922)
式中称剩余离差方残差方n2度
三离差分析
某观察值离差通观察值全部观察值均值差表示出进步分解两部分
()+()
证明变量XY间线性相关时进步存述等式关系
S()2S()2+S()2
通常记
TS()2
RS()2
分称TR总离差方回离差方剩余离差方总离差方反映样中全部数总波动程度回离差方反映回估计值身离散程度回方程变量x取值造成解释差剩余离差方回拟合剩部分解释变差称残差方
显然T中R重愈者重愈说明线性回拟合愈反拟合愈差建立述指标
r2 (式923)
称r2样相关程度判定系数r样相关系数直观出r2r特性:
(1)r211r+1
(2)|r|愈接1相关程度愈强|r|愈接0相关程度愈弱
(3)r取正值时表明正相关r取负值时表明负相关
(4)r表明总体否存线性相关|r|甚接0时说明总体存线性相关否存非线性相关需进步判定
计算角度述种离差表示
TS()2
RS()2b2S()2b2[]
TR
例93
T22053×(467)224410
R b2[](225)2×[336×(54)2]22478
TR2441224781932
计算结果说明:单位成总离差方24410中产量变化造成22478占9209产量外素造成1955占801计算相关系数
r096
四统计推断
样数验回方程否够较拟合总体实际情况必须通统计检验加判断
证明:变量Y服正态分布时中机抽取样(xy)回系数AB方估计值服正态分布均值分
A (式924)
B (式925)
方差分
(式926)
(式927)
建立两标准正态统计量
(式928)
(式929)
计算式中般未知偏估计量
AB进行统计假设检验步骤(例93资料):
(1)检验A
第步:建立统计假设
H0A0
H1A¹0
第二步:计算z统计量
2415
1828
1352
检验统计量
43528
第三步:确定显著水做出判断
设5查表196
理回系数B进行检验统计假设
H0B0
H1B¹0
时
0054
0233
检验统计量9657
196<|z|9657拒绝零假设认回系数B显著等零说明单位成产量间存显著线性相关关系
前面讨类似AB进行单边检验AB否显著某确定值相相检验通常进行A0B0检验A0检验考察回直线否通坐标原点B表示X变化单位时Y影响程度B0检验实际考察种程度否零否存线性相关关系
外通方法获AB点估计量基础进步出区间估计
置信度1—α时AB置信区间分
£ A £+ (式930)
£ A £+ (式931)
里
(式932)
(式933)
例93置信概率95时
196×1352265
196×0233046
AB置信区间分
5885265£ A £5885+265
5620£ A £6150
255046£ B £255+046
301£ B £209
五回预测
拟合回方程参数通检验常应预测显然定xx0时Y点预测量
(式934)
Y置信度1区间预测量
£ Y £+ (式935)
里
(式936)
(式937)
接面例子产量10万件时单位成点预测值
5885225´103635(元)
3807
1951
产量10万件置信度95时
196×1951382
单位成预测区间
£ Y £+
3635382£ Y £3635+382
3253元£ Y £4017元
必须指出定x0果样(x1x2…xn)值值间取值预测程称插预测否称外推预测进行外推预测时误差般较两方面原引起:x0远离二回方程通检验然代表总体线性相关关系种关系样范围成立外出错误着情况变化原样反映总体现状样预测效果甚失败
第三节 元线性回相关分析
元线性回分析
简单线性回相关分析客观现象间关系进行高度简化结果实际问题中影响变量素产品成仅取决该产品生产量原材料价格技术水理水等素关影响农作物收获量素施肥量外种子气候条件耕作技术等素元线性回相关研究三三变量间数量关系问题
总体元线性回方程
YA+B1X1+B2X2+…+BkXk+e (式938)
总体回方程般未知需通样估计设估计方程
+b1x1+b2x2+…+bkxk (式939)
式中b1b2…bk称回系数中bi(i12…k)称偏回系数表示变量均零时xi变化单位变量影响数值
设样(x1x2…xky)利方法估计出回方程中参数求
Σ(y)2Σ[y –(+b1x1+b2x2+…+bkxk)]2值
列联立标准方程
Σyn+b1Σx1+b2Σx2+…+bkΣxk
Σx1y Σx1+b1Σx12+b2Σx1x2+…+bkΣx1xk
Σx2y Σx2+b1Σx1x2+b2Σx22+…+bkΣx2xk
M
Σxky Σxk+b1Σx1xk+b2Σx2xk+…+bkΣxk2
k2时标准方程变
Σyn+b1Σx1+b2Σx2
Σx1y Σx1+b1Σx12+b2Σx1x2
Σx2y Σx2+b1Σx1x2+b2Σx22
解方程
(式940)
(式941)
(式942)
计算方便述子项表示
Σ()2Σx12 (Σx1)2 (式943)
Σ()2Σx22 (Σx2)2 (式944)
Σ()()Σx1x2 Σx1Σx2 (式945)
Σ()2Σy2 (Σy)2 (式946)
Σ()()Σx1y Σx1Σy (式947)
Σ()()Σx2y Σx2Σy (式948)
证明方估计量b1b2…bk总体参数AB1B2…Bk优线性偏估计量
例94 研究某商品需求量价格消费者收入三者间关系调查表99示资料:
表99 某商品需求量价格消费者收入资料
编号
需求量(件)
收入(百元)
价格(元)
1
10
15
3
2
8
10
5
3
8
18
4
4
7
10
3
5
4
8
6
6
6
10
5
7
10
19
3
8
11
16
2
9
10
18
1
10
5
9
7
根表资料表910回计算表:
表中数果设需求量(y)收入(x1)价格(x2)间回方程:
+b1x1+b2x2
通方法求出b1b2计算:
Σ()2Σx12 (Σx1)21935´13321661
Σ()2Σx22 (Σx2)2183´392309
表910 回数计算表
编
号
需
求
量(件)y
收
入
(百
元)
x1
价
格(元)
x2
y2
x12
x22
x1x2
x1y
x2y
1
10
15
3
100
225
9
45
150
30
2
8
10
5
64
100
25
50
80
40
3
8
18
4
64
324
16
72
144
32
4
7
10
3
49
100
9
30
70
21
5
4
8
6
16
64
36
48
32
24
6
6
10
5
36
100
25
50
60
30
7
10
19
3
100
361
9
57
190
30
8
11
16
2
121
256
4
32
176
22
9
10
18
1
100
324
1
18
180
10
10
5
9
7
25
81
49
63
45
35
合计
79
133
39
675
1935
183
465
1127
274
Σ()()Σx1x2 Σx1Σx2456´133´39537
Σ()2Σy2 (Σy)2675´792509
Σ()()Σx1y Σx1Σy1127´133´79763
Σ()()Σx2y Σx2Σy274´39´79341
0234
0697
0234´(0697)´7506
验方程
+b1x1+b2x27506+0234x10697x2
回方程表明:价格变情况消费者收入增加1百元时该商品需求均升0234件消费者收入变情况价格涨1元时该商品需求均降0697件
数学角度回方程7506+0234x10697x2坐标轴x1x2横坐标轴回面
外回方程YA+B1X1+B2X2+…+BkXk+e中机误差项e方差σ2未知偏估计量
式中nk1度里出样容量n必须等k+2n≥K+2否法估计σ2事实实践中进行回分析时样观察值数目k+2
二元线性相关分析
元线性回方程言总离差方T样分解回离差方R残差方两部分
TR+
定义出样复判定系数
r2 (式949)
r2反映验方程总体线性相关关系拟合优度值愈说明回方程拟合优度愈高反拟合优度愈低显然0≤r2≤1r称复相关系数测定变量yk变量x1x2…xk间线性相关程度r称复相关系数
r (式950)
例94
TS()2675×(79)2509
6757506´790234´1127(0697)´274
9286
RT509928641614
r2082
r090
复相关系数r总取正值变量情况偏回系数两法说明ykx变量线性关系方
简单线性回相关分析般说进行元线性回分析时着变量数增加总离差方T发生变化回离差方R增残差方缩
例94进行需求量(y)收入(x1)间回分析设回方程
+b1x1
时b1取值分
0459
1795
回方程
1795 + 0459x1
时
TS()2675×(79)2509
RS()2 b12[]
(0459)2×[1935×(133)2]3499
TR50934991591
出价格素(x2)未加入前R3499价格素(x2)加入R41614两者相差4161434996624表示原方程+b1x1基础价格素(x2)纳入净增加回离差方称价格(x2)效应表示
k2时果未加入x2前R分记作纳入x2R分记作列关系
+
例94
+3499+662441614
159192866624
面讨知道复判定系数r2复相关系数r变量数k关k愈r2值愈时某变量变量间没什明显关系纳入方程增加r2值样造成r2r高估变量间相关程度应r2值加修正般修正式
1(1r2) (式951)
式中n样容量k变量数r2原复判定系数修正复判定系数
n较k较时r2间差较修正作微弱反n较k较时远远r2时修正作明显
例94修正
1(1082)077
元线性相关分析中复相关系数度量yk变量x1x2…xk间相关程度简单相关系数度量y中某变量xi(i12…k)间相关程度较变量变量影响中更显著变量回相关分析中许问题复杂起意两变量存相关关系时简单相关关系中少掺杂着变量影响简单相关系数反映两变量间相关程度具定虚假性粗略度量事实元线性回相关分析时常需假定变量间存完全线性相关
准确反映两变量间相关程度需消变量影响计算相关系数称偏相关(净相关)系数
二元回相关分析言yx2间偏相关系数定义
(式952)
反映变量x2纳入方程原方程残差方减少程度越说明yx2偏相关程度越高反越低理定义出前者反映剔变量x2影响yx1间偏相关程度者反映剔变量y影响x1x2间偏相关程度
外偏相关系数通简单相关系数表示出
(式953)
(式954)
(式955)
式中分表示yx1yx2x1x2间简单相关系数
利例94资料种简单相关系数
样进步偏相关系数
055
064
013
见偏相关系数计算结果简单相关系数反映问题较准确通偏相关系数判断变量变量影响选取中影响显著者作方程中变量影响较变量舍简化方程运算
简单回相关分析样利样数求回方程回系数相关系数等否够较反映总体情况需进行统计检验估计利结分析判断预测
外章讨时基局限线性回相关非线性回相关较深入问题限篇幅赘述
文档香网(httpswwwxiangdangnet)户传
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档