摘:成分分析子分析元统计中较关键常两种方法二者皆变量方差协方差结构着手保存原始变量信息基础少量新变量解释原始变量统计分析方法篇文成分分析子分析进行研究讨研究基理应两方面原理方面成分方法进行相关证明推倒子分析估算方法进行深入研究方面较两方法相点点方面包括概念基思想数学模型计算方法程等
关键词:成分分析子分析应分析
Comparative of Principal Component Analysis Method and Factor Analysis Method
YE KeYing
(Fujian Agriculture and Forestry University Oriental College of Economics and Statistics 2018)
AbstractPrincipal component analysis and factor analysis are two key and common methods in multivariate statistics Both of them are based on the variancecovariance structure of variables and preserve as much raw variable information as possible On this basis a small number of new variables are used to explain the statistical analysis methods of those original variables This article studies the principal component analysis and factor analysis from two aspects of theory and application The principle of component analysis is connect to mathematical induction and certification of properties The factor loading matrix and factor variance estimation methods in factor analysis are further studied The similarities and differences of the two methods are compared from the aspects of concepts basic theory statistical view mathematical matrix and calculation course
Key words Principal component analysis Factor analysis Application analysis
引言
现社会开始关注信息全面性更效利信息应该事物进行客观全方面综合性评价研究中方便分析找出规律需反映事物指标(指标统称变量)进行量观察测试样变量会研究带丰富信息变量彼具关联观察出信息出现重复问题更加复杂带便结果科学性带利影响成分分析方法指标化少量综合指标统计方法种分析方法原始变量里筛选出分量量保存原始信息信息间相关分析方法数压缩解释目子分析探究数变量间系数矩阵相互存筛选出综合机变量测量机变量统称子种分析方法目淘汰部分变量留变量代全部变量解决问题成分分析法子分析法关联者前者进步发展两种方法类似者常应时两种方法混淆统计软件时结果出现偏差正确恰认识两者相点点够佳运
1成分分析原理数学模型
11基概念意义
成分分析探究样指标转化少量综合性指标统计方法该分析法问题高维空间转换成低维空间解决问题变更加直观简便少量综合指标彼相互关联表达出原始变量部分信息
成分分析仅够降低指标数维度够简化变量系统统计特征该分析方法够提供量重系统信息外时变量数系统简化成佳状态:数变异方群点散布范围等
成分分析元统计中较关键常方法领域起着重作数压缩综合评价模式识等方面普遍应
12基原理
121统计思想
成分分析基思想 :通正交变换原始变量(分量相关机变量)变换成新变量分量间相关代数角度原始变量协方差矩阵转化角矩阵角度原始变量系统变成新正交系统系统指正交方样点散布开方该维变量系统实施降维措施
122数学模型
般做出数学措施前p指标线性组合新指标第选择第线性组合(综合指标)标 通常期第线性指标包含更原信息越说明包含信息越全部线性组合中选择第成分方差方差第1成分线性组合里第1成分方差表达信息典型方法第成分够完全体现出p指标信息进选择第二线性组合(成分)该原推出第三第四第p成分成分间方差递减间相互关联
设n样样p指标描述出原始数矩阵:
(121)
中
数矩阵XP量作线性组合
(122)
中组合系数满足
(123)
(212)中系数列原确定
相关
组合中方差次
(124)
新综合指标总方差保持变
(125)
综合指标序原始指标第1成分第2成分第P成分公式(124)(125)出前面部分成分够体现出原始指标包含绝数信息量利成分相互关联原理分析问题
原指标成分步骤求根式子(122)知道组合系数设 协 方 差 矩 阵 A特 征 根 序通证明原指标第i成分组合系数正A第i特征根应标准化正交特征量具
前k成分方差贡献
(126)
2子分析原理数学模型
21基概念意义
子分析首次提出Charles Spearman 1904年提出Charles Spearman花整半生研究发展该理该理成现代统计学重理成分分析法子分析法关联者前者进步研究发展
子分析探究数变量间系数矩阵相互存筛选出综合机变量测量机变量统称子种分析方法目淘汰部分变量留变量代全部变量解决问题变量相关程度进行分类组类相关程度较高组类相关程度低
22基原理
221统计思想
子分析基础思想原变量间关联程度初变量关联程度分组间变量相关程度较组原变量相关程度较分组代表结构结构统称公子观测综合变量表示结构例学生成绩综合评价体现变量定量描述需提取够反映学生成绩科成绩科目成绩变量具定联系赖通变量学生综合素质
子分析仅够运变量够运样品第子表达式第二子表达式代入相应数算出子分第三子分标出样品点者变量点分组措施更加直观种方法研究间相关关系时仅变量间够样品称前者 R 型子分析者Q 型子分析
222数学模型
设n样样p已标准化指标描述指标样均值等0方差等1正交子模型
(221)
中相互独立公子标准化观测评价指标分解出含义需具体情况啦解释观测指标指标特子含义指标中公子解释部分公子相互独立称特殊子第 i 指标第 j 公子系数称子载荷
3成分分析子分析较
31相处
(1)基思想致相
成分分析子分析够解原变量间定性联系两方法造出新综合指标仅够降原变量维度时够简略结构
(2)解决问题步骤相似
两种方法通相关系数阵协方差矩阵特征根特征量 间相关特性原始变量相关性综合成新综合指标相关性两者步骤相者前者子旋转分两步骤
(3)确定权数角度(信息量角度)相
成分分析方差越权数越信息量越反然子分析成分分析样两者方差体现信息量
(4)分析结果形式相似
两种分析方法重点放变量方差较忽略方差较出现吃现象
32处
(1) 概念
成分分析数量指标转化成少量互相关综合指标种统计方法
子分析关系复杂变量(样品)综合转化少量子体现原变量子间关系子变量进行分类
者前者基础更加深入研究
(2)思想方面
成分分析原定程度相关性指标组成新互相关综合指标代原指标
子分析根研究变量相关系数矩阵框架寻找观测机变量机子仅够控制全部变量刻画然相关程度变量进行分组组变量相关程度高者组样品相似程度高组相关程度者相似程度低
(3)数学模型
①成分分析实际种变量转化变量变换重点放变差较成分放弃成分变差较然子分析重点注意力放少量观测公子放弃特殊子
②成分分析成分表示原观测变量线性组合
i1…p
实际原始数结构发生改变空间坐标变化
子分析数学模型刻画原始指标X协方差阵结构原始观测变量分解成两部分部分公子部分特殊子
j1…p
原始变量数p公子数m相等时mp考虑ε子分析种变量变换应然实际公子数少原变量数济角度公子数越少越
③成分系数正交唯确定成分原变量相关程度系数表示系数矩阵够进行旋转子模型系数矩阵表示公子原变量相关程度系数矩阵唯
(4)计算程
①成分分析中根观测原变量X求出具逆性成分F代表X协方差矩阵应特征值特征量子分析中载荷矩阵逆根观测原变量估算出观测公子反映第i变量第j公子负荷相重性表示第i变量第j公子相关系数代表第j原始观测变量特殊子时
均值等零方差等1
②估算公子分子分系数矩阵 × 标准化原观测变量矩阵
③成分分析排名通常根第1成分分果原始变量够完全第1成分代接着次选择第2成分第3等等成分表达式中代入标准化原始变量值计算出成分分子分函数中代入标准化原始变量值计算出子分
4 成分分析子分析应
41应SPSS进行成分分析
应SPSS软件利成分综合评价全国重点企业济效益数见表:
表41 企业济指标表
编号
厂家
固定资产利税率
资金利税率
销售收入利税率
资金利润率
固定资产产值率
流动资金周转天数
万元产值耗
全员劳动生产率
1
琉璃河
1668
2675
3274
194
5326
55
2782
175
2
连
1654
2982
3248
2055
5051
69
3758
131
3
邯郸
198
2855
3294
182
5983
55
3392
287
4
湘乡
3295
4278
4797
3387
6645
50
3267
26
5
哈尔滨
728
897
213
478
3437
62
3928
163
6
合肥
2926
5649
4073
4368
7533
67
2668
213
7
永登
2113
352
3916
2652
5247
62
3508
173
8
柳州
2548
3785
3666
2753
6818
63
3578
243
9
耀县
1983
2878
3341
2007
5925
71
3912
183
10
工源
1675
2872
2962
1923
5576
59
3008
162
11
温州
2224
5459
3105
37
6795
63
3233
157
12
抚
1583
2813
264
1753
6128
61
3277
15
13
峨嵋
1505
1938
2732
1421
612
76
3585
15
14
152
224
3399
1623
4678
65
4168
152
15
绍兴
2225
5458
3105
37
6793
63
3233
158
资料源:中国统计年鉴2004年
(1) 标准化数表
表2
x1
x2
x3
x4
x5
x6
x7
x8
0376748276
0357945867
0113558994
036669374
0038793699
1193347326
1426820816
0277121544
0399839631
0122233135
001643617
0145447246
0209518035
087278621
0703609613
1271144472
008815766
0293876298
0050802708
0287322801
0356156614
1193347326
0289034777
2253118637
2124815122
0909998795
2298075436
1168141801
0755314921
2211655997
0301234564
1643150022
1822267065
1764312434
168844294
1719968257
1172547565
0043643988
1009541818
0548218706
1589095699
1994435557
1216276596
2141427945
1287926758
087278621
2164809586
0603944234
0308295239
0310434195
0980193424
0438921295
0085682777
0043643988
0204793667
0322304404
0964089705
0517671563
0621586074
0542103516
085871135
009974305
0354100205
1259095709
0106630743
0197376455
0121029981
0191085537
0321891518
1101432778
098377554
0096390102
0365972311
0202122348
0445270792
028434638
011209295
0666635945
1046255417
0796724437
0479171262
1844148916
023160058
1478680601
0844885083
009974305
0435396746
0683767287
0507599285
0256700129
0926402321
0462931004
0438513072
019173224
0330666037
0615992996
0627674328
0932199032
0805372341
0782399035
2871374938
1620400318
0347911443
0277121544
0604582974
0622924943
0056779497
0580995275
0427732592
0373281398
1398099436
0774133008
0955571561
0826998383
1117659575
0948085871
0169842661
0503833793
099238622
0096390102
(2)表2数导入SPSS软件分析结果
表3 相关矩阵
x1
x2
x3
x4
x5
x6
x7
x8
Correlation
x1
1000
849
923
902
651
312
489
598
x2
849
1000
690
988
723
107
595
265
x3
923
690
1000
774
544
366
342
531
x4
902
988
774
1000
688
121
596
329
x5
651
723
544
688
1000
399
442
359
x6
312
107
366
121
399
1000
343
480
x7
489
595
342
596
442
343
1000
226
x8
598
265
531
329
359
480
226
1000
表4 总方差解释
Component
Initial Eigenvalues
Extraction Sums of Squared Loadings
Total
of Variance
Cumulative
Total
of Variance
Cumulative
1
4858
60761
60759
4858
60761
60759
2
1259
15871
76631
1259
15871
76631
3
841
10459
87061
4
526
6325
93657
5
386
4638
98356
6
116
1433
99728
7
021
256
99838
8
001
024
100000
表出前三成分解释方差87061说明成分代表87061原始数信息确认前三成足够资格代表原8指标评价企业济效益三成分分表示
(2) 子载荷矩阵相关矩阵前3特征根特征量输出结果表5示:
表5
Component
1
2
3
x1
959
018
238
x2
898
395
038
x3
863
081
042
x4
931
349
041
x5
790
000
179
x6
426
769
351
x7
653
068
642
x8
572
615
312
表53第n列元素分第n特征根方根成分分析第n成分系数结果表6
表6
成分1
成分2
成分3
x1
0434 067
0016 487
0261 167
x2
0407 766
0351 163
0040 662
x3
0390 811
0072 2408
0369 59
x4
0420 727
0311 087
0041 32
x5
0356 834
0000 2314
0198 903
x6
0191 631
0686 453
0377 486
x7
0290 517
0069 151
0701 934
x8
0258 789
0546 3096
0341 87
表3成分线性组合:
成分济意义线性组合中权数较指标综合意义确定固定资产利税率资金利税率销售收入利税率资金利润率4指标综合反映综合子60759握评价企业济效益出综合子代表济效益盈利方面表达企业盈利力确定四指标反映企业济效益指标流动资金周转天数全员劳动生产率综合反映代表企业资金力资源利程度反映万元产值耗3综合子三方面影响刻画着企业济效益考核企业济效益具87061性
(4)第成分分企业济效益做综合评价标准化原始数代入线性表达式计算出样品第成分分排名表7示
表7
名次
琉璃河
0049 448
7
连
1066 52
11
邯郸
0840 47
5
湘乡
3889 461
2
哈尔滨
0752 11
10
合肥
3957 057
1
永登
0663 081
6
柳州
1611 051
4
耀县
0474 25
9
工源
0269 52
8
温州
1723 423
3
抚
3739 37
15
峨嵋
2804 58
14
1569 43
12
绍兴
2058 21
13
表出合肥排第综合效益湘乡综合效益第二名抚综合效益差公司成分分运营情况进行较分析算合理准确需进行深入研究
42应SPSS进行子分析
(1)样图51数企业济效益指标体系八项指标建立子分析模型SPSS输出结果表8示:
表8 总方差解释
Component
Initial Eigenvalues
Extraction Sums of Squared Loadings
Total
of Variance
Cumulative
Total
of Variance
Cumulative
1
4858
60761
60759
4858
60761
60759
2
1259
15871
76631
1259
15871
76631
3
841
10459
87061
841
10459
87061
4
526
6325
93657
5
386
4638
98356
6
116
1433
99728
7
021
256
99838
8
001
024
100000
表出前3特征根较余5特征根较前3公子样方差贡献87061选取前3公子建立子载荷阵
(2)子载荷阵进行方差化正交旋转结果表9示:
表9 旋转分量矩阵
Component
1
2
3
x1
914
332
187
x2
881
053
421
x3
839
397
029
x4
921
000
372
x5
593
268
483
x6
047
851
421
x7
309
115
848
x8
398
795
116
表出企业济效益指标体系子分析模型:
述模型知固定资产利税率资金利税率销售收入利税率资金利润率等四项指标决定第子四项指标载荷超百分85表达企业济活动获利润力说明四项指标企业提高济效益起着重作
流动资金周转天数全员劳动生产率决定第二子代表企业营效率指标提高济效益途径包括企业提高理水改善理方法
第三子反映企业产值耗两指标两指标表示投入产出关系说明企业提高济效益够忽视成
结束语
成分分析法子分析法广泛应种科学研究中两种分析方法特受学术界学者喜爱较优势处理变量数量样量较统计问题实际成分分析子分析间关联致学者运两方法时出现混淆情况造成难解释统计软件输出结果降低科学性信度通情况应该明白应时完全赖输出结果反映出信息分析时需结合研究问题考虑确定两种方法间存联系区恰两种方法进行学术研究中非常关键两种方法原保留全部信息会缺失部分信息够客观合理缺少信息进行估计值进步研究
参考文献
[1] 刘影.元统计分析高校教学中应[A]东北师范学硕士学位文2006:3132
[2] 岳育英杜光斌刘兴祥.元函数条件极值计算种方法[J].延安学学报20113745
[3] 滕达浅谈成分分析子分析方法联系区[J]中国新技术新产品2011251
[4] 周全种元统计分析方法生活中应[A]长江学硕士学位文20122333
[5] 解素雯基成分分析子分析数学模型应研究[A]理工学硕士学位文2016:0137
[6] 郭晓霞种元统计分析方法研究简单应[A]杭州电子科技学硕士学位文2014:0628
[7] 郑兰英延边州高中教育水现状元统计分析[A]延边学硕士学位文20140510
[8] 马胜春中国旅游业市公司绩效评价基子分析财会研宄[J]2011(01)0820
[9] 魏艳华王丙参田玉柱成分分析子分析较研究[J]天水师范学院学报200929 (2)1315
[10] 景慧丽成分分析子分析较[J]商业文化2008(8)254255
[11] 马娟杨益民成分分析子分析较实证分析[J]市场研究 2007(3)3034
文档香网(httpswwwxiangdangnet)户传
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档