第十章 分类分析
第节 KMeans Cluster程
1011 功
1012 实例操作
第二节 Hierarchical Cluster程
1021 功
1022 实例操作
第三节 Discriminant程
1031 功
1032 实例操作
认识事物时先认识象进行分类便寻找中特征分类学认识世界基础科学医学实践中常需做分类工作根病系列症状体征生化检查结果判断病患疾病类型系列检查方法结果划分成某种方法适合甲类病检查种方法适合乙类病检查等等统计学中常分类统计方法聚类分析判分析
聚类分析直接较事物间性质性质相类性质差较入类判分析先根已知类事物性质利某种技术建立函数式然未知类新事物进行判断入已知类中聚类分析判分析聚类分析事先知道象类面貌甚连类确定判分析事先已知象类类数正样情形总结出分类方法新象分类
第节 KMeans Cluster程
1011 功
调程完成户指定类数样资料逐步聚类分析谓逐步聚类分析先聚象进行初始分类然逐步调整终分类
返回目录 返回全书目录
1012 实例操作
[例101]研究童生长发育分期调查1253名1月7岁童身高(cm)体重(kg)胸围(cm)坐高(cm)资料资料作整理:先1月7岁划成19月份段分月份算出指标均值第1月指标均值出生时指标均值较求出月均增长率()然第2月起月份指标均值均前月较求出月均增长率()结果见表欲童生长发育分四期指定聚类类数4请通聚类分析确定四童生长发育期起止区间
月份
月均增长率()
身高
体重
胸围
坐高
1
2
3
4
6
8
10
12
15
18
24
30
36
42
48
54
60
66
72
1103
547
358
201
213
206
163
117
103
069
077
059
065
051
073
053
036
052
034
5030
1930
985
417
565
174
204
160
234
133
141
125
119
093
113
082
052
103
049
1181
520
314
147
104
017
104
089
053
048
052
030
049
016
035
016
019
030
018
1127
718
211
158
211
157
146
076
089
058
042
014
038
025
055
034
021
055
016
10121 数准备
激活数理窗口定义变量名:然月份分组作分析变量更直观解聚类结果输入数库变量名month身高体重胸围坐高变量名分x1x2x3x4输入原始数额
10122 统计分析
激活Statistics菜单选Classify中KMeans Cluster项弹出KMeans Cluster Analysis话框(图101示)话框左侧变量列表中选x1x2x3x4点击Ø钮进入Variables框Number of Clusters(聚类分析类数)处输入需聚合组数例
4聚类方法两种:Iterate and classify指先定初始类中心点Kmeans算法作叠代分类Classify only指仅初始类中心点分类例选前方法
图101 逐步聚类分析话框
原始数库中逐显示分类结果点击Save钮弹出KMeans ClusterSave New Variables话框选择Cluster membership项点击Continue钮返回KMeans Cluster Analysis话框
例求聚类结果进行方差分析点击Options钮弹出KMeans ClusterOptions话框Statistics栏中选择ANOVA table项点击Continue钮返回KMeans Cluster Analysis话框点击OK钮完成分析
10123 结果解释
结果输出窗口中统计数:
首先系统根户指定4类聚合确定初始聚类变量中心点未Kmeans算法叠代类间距离非优叠代运算类间变量中心值修正
Initial Cluster Centers
Cluster X1 X2 X3 X4
1 110300 503000 118100 112700
2 54700 193000 52000 71800
3 35800 98500 31400 21100
4 3400 4900 1800 1600
Convergence achieved due to no or small distance change
The maximum distance by which any center has changed is 0000
Current iteration is 2
Minimum distance between initial centers is 105200
Iteration Change in Cluster Centers
1 2 3 4
1 0000 0000 246E+00 127E+00
2 0000 0000 0000 0000
Case listing of Cluster membership
Case ID Cluster Distance
1 1 000
2 2 000
3 3 2457
4 4 3219
5 3 2457
6 4 1530
7 4 1346
8 4 515
9 4 915
10 4 266
11 4 281
12 4 668
13 4 467
14 4 844
15 4 415
16 4 873
17 4 1215
18 4 619
19 4 1269
Final Cluster Centers
Cluster X1 X2 X3 X4
1 110300 503000 118100 112700
2 54700 193000 52000 71800
3 28550 77500 20900 21100
4 9060 14660 4820 6560
聚类结果类间距离进行方差分析方差分析表明类间距离差异概率值均<0001聚类效果样原19类(原19月份分组)聚合成4类第类含原1类第二类含原1类第三类含原2类第四类含原15类具体结果系统变量名QCL_1存原始数库中
Distances between Final Cluster Centers
Cluster 1 2 3 4
1 0000
2 324397 0000
3 453400 132521 0000
4 522325 200924 69273 0000
Analysis of Variance
Variable Cluster MS DF Error MS DF F Prob
X1 375806 3 369 150 1017853 000
X2 8171164 3 1354 150 6032588 000
X3 454089 3 281 150 1611145 000
X4 460994 3 235 150 1954933 000
Number of Cases in each Cluster
Cluster unweighted cases weighted cases
1 10 10
2 10 10
3 20 20
4 150 150
Missing 0
Valid cases 190 190
Variable Saved into Working File
QCL_1 (Cluster Number)
原始数库(图102)中清楚聚类结果参专业知识童生长发育分期定:
第期出生满月增长率高
第二期第2月起第3月增长率次
第三期第3月起第8月增长率减缓
第四期第8月增长率显著减缓
图102 逐步聚类分析分类结果
返回目录 返回全书目录
第二节 Hierarchical Cluster程
1021 功
调程完成系统聚类分析系统聚类分析中户事先法确定类数系统例数均调入存执行聚类算法系统聚类分析两种形式研究象身进行分类称Q型举类研究象观察指标进行分类称R型聚类
返回目录 返回全书目录
1022 实例操作
[例102]29名童血红蛋白(g100ml)微量元素(μg100ml)测定结果表微量元素测定成高耗时长希通聚类分析(R型指标聚类)筛选代表性指标便更济快捷评价童营养状态
编号
N0
钙
X1
镁
X2
铁
X3
锰
X4
铜
X5
血红蛋白
X6
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
5489
7249
5381
6474
5880
4367
5489
8612
6035
5404
6123
6017
6969
7228
5513
7008
6305
4875
5228
5221
4971
6102
5368
5022
6534
5639
6612
7389
4731
3086
4261
5286
3918
3767
2618
3086
4379
3820
3423
3735
3367
4001
4012
3302
3681
3507
3053
2714
3618
2543
2927
2879
2917
2999
2929
3193
3294
2855
44870
46730
42561
46980
45655
39578
44870
44013
39440
40560
44600
38320
41670
43080
44580
40980
38410
34290
32629
38854
33110
25894
29280
29260
31280
28300
34420
31250
29470
0012
0008
0004
0005
0012
0001
0012
0017
0001
0008
0022
0001
0012
0000
0012
0012
0000
0018
0004
0024
1010
1640
1220
1220
1010
0594
1010
1770
1140
1300
1380
0914
1350
1200
0918
1190
0853
0924
0817
1020
0897
1190
1320
1040
1030
1350
0689
1150
0838
1350
1300
1375
1400
1425
1275
1250
1225
1200
1175
1150
1125
1100
1075
1050
1025
1000
975
950
925
900
875
850
825
800
780
750
725
700
0012
0016
0048
0006
0006
0016
0000
0064
0005
10221 数准备
激活数理窗口定义变量名:钙镁铁锰铜血红蛋白变量名分x1x2x3x4x5x6输入原始数
10222 统计分析
激活Statistics菜单选Classify中Hierarchical Cluster项弹出Hierarchical Cluster Analysis话框(图103)话框左侧变量列表中选x1x2x3x4x5x6点击Ø钮进入Variable(s)框Cluster处选择聚类类型中Cases表示观察象聚类Variables表示变量聚类例选择Variables
图103 系统聚类分析话框
点击Statistics钮弹出Hierarchical Cluster Analysis Statistics话框选择Distance matrix求显示距离矩阵点击Continue钮返回Hierarchical Cluster Analysis话框(图104)
图104 系统聚类方法选择话框
例求系统输出聚类结果树状关系图点击Plots钮弹出Hierarchical Cluster AnalysisPlots话框选择Dendrogram项点击Continue钮返回Hierarchical Cluster Analysis话框
点击Method钮弹出Hierarchical Cluster AnalysisMethod话框系统提供7种聚类方法供户选择:
Betweengroups linkage:类间均链锁法
Withingroups linkage:类均链锁法
Nearest neighbor:邻居法
Furthest neighbor:远邻居法
Centroid clustering:重心法应欧氏距离方法起
Median clustering:中间距离法应欧氏距离方法起
Ward's method:离差方法应欧氏距离方法起
例选择类间均链锁法(系统默认方法)选择距离测量技术系统提供8种形式供户选择:
Euclidean distance:Euclidean距离两观察单位间距离值差方方根该技术Q型聚类
Squared Euclidean distance:Euclidean距离方两观察单位间距离值差方该技术Q型聚类
Cosine:变量矢量余弦模型相似性度量
Pearson correlation:相关系数距离适R型聚类
Chebychev:Chebychev距离两观察单位间距离意变量绝差值该技术Q型聚类
Block:CityBlockManhattan距离两观察单位间距离值差绝值适Q型聚类
Minkowski:距离绝幂度量变量绝值第p次幂方根p户指定
Customized:距离绝幂度量变量绝值第p次幂第r次根pr户指定
例选Pearson correlation点击Continue钮返回Hierarchical Cluster Analysis话框点击OK钮完成分析
10223 结果解释
结果输出窗口中统计数:
29例样进入聚类分析采相关系数测量技术先显示变量间相关系数面选择典型变量十分然显示类间均链锁法合进程第步X3X6合间相关系数0863431第二步X1X5合间相关系数0624839第三步X2第步合项合间相关系数0602099第四步第二步合项合间相关系数0338335第五步变量X4合相关系数0054485
Data Information
29 unweighted cases accepted
0 cases rejected because of missing value
Correlation measure used
Correlation Similarity Coefficient Matrix
Variable X1 X2 X3 X4 X5
X2 5379
X3 2995 6349
X4 1480 1212 2706
X5 6248 5820 2653 2939
X6 0972 5693 8634 3226 2481
Agglomeration Schedule using Average Linkage (Between Groups)
Clusters Combined Stage Cluster 1st Appears Next
Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage
1 3 6 863431 0 0 3
2 1 5 624839 0 0 4
3 2 3 602099 0 1 4
4 1 2 338335 2 3 5
5 1 4 054485 4 0 0
类间均链锁法变量合程冰柱图先X3X6合接着X1X5合然X3X6X2合接着X1X5合加X4六变量全部合
Vertical Icicle Plot using Average Linkage (Between Groups)
(Down) Number of Clusters (Across) Case Label and number
面更直观聚类树状关系图表示X1X2X3X5X6先聚合X4聚合表明评价童营养状态时微量元素钙镁铁铜血红蛋白5指标中选择加微量元素锰效果六指标基等价更济更迅速
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
微量元素钙镁铁铜血红蛋白聚合成类5指标中选择典型指标呢?先式计算类中变量余变量相关指数(相关系数方)均值该值变量作典型指标
(式中m类中变量数)
例相关指数均值次:
01947
03388
03272
02164
02851
选择镁(变量X2)典型指标
返回目录 返回全书目录
第三节 Discriminant程
1031 功
调程完成判分析判分析目前医学中广泛应仅建立判式床辅助诊断判分析分析出种素特定结果作力病学疾病预推测
返回目录 返回全书目录
1032 实例操作
[例103]研究舒张期血压血浆胆固醇冠心病作某医师测定5059岁冠心病15例正常16例舒张压胆固醇指标结果试作判分析建立判函数便床中筛选冠心病
编号
冠心病组
编号
正常组
舒张压kPa
x1
胆固醇mmolL
x2
舒张压kPa
x1
胆固醇mmolL
x2
1
2
3
4
5
6
7
986
1333
1466
933
1280
1066
1066
518
373
389
710
549
409
445
1
2
3
4
5
6
7
1066
1253
1333
933
1066
1066
933
207
445
306
394
445
492
368
8
9
10
11
12
13
14
15
1333
1333
1333
1200
1466
1333
1280
1333
363
596
570
619
401
401
363
596
8
9
10
11
12
13
14
15
16
1066
1066
1066
1040
933
1066
1066
1120
933
277
321
502
394
492
269
243
342
363
10321 数准备
激活数理窗口舒张压胆固醇变量名分x1x2表示冠心病资料正常资料合输入定义变量名result区分冠心病资料正常资料冠心病资料result值均1正常资料result值均2
10322 统计分析
激活Statistics菜单选Classify中Discriminant项弹出Discriminant Analysis话框(图105)话框左侧变量列表中选result点击Ø钮进入Grouping Variable框点击Define Range钮弹出Discriminant AnalysisDefine Range话框中定义判原始数类区间例两类Minimum处输入1Maximum处输入2点击Continue钮返回Discriminant Analysis话框话框左侧变量列表中选x1x2点击Ø钮进入Independents框作判分析基础数变量
图105 判分析话框
系统提供两类判方式供选择Enter Independent together判原始变量全部进入判方程Use stepwise method采逐步方法选择变量进入方程者系统5种逐步选择方式:
Wilks' lambda:统计量Wilks λ值选择变量
Unexplained variance:组方差值选择变量
Mahalanobis' distance:相邻两组Mahalanobis距离选择变量
Smallest F ratio:组间F值值选择变量
Rao's V:统计量Rao V值选择变量
例变量数仅2倾两变量均进入方程选Enter Independent together判方式
点击Statistics钮弹出Discriminant Analysis Statistics话框Descriptive栏中选Means项求组变量作均数标准差描述Function Coefficients栏中选Unstandardized项求显示判方程非标准化系数点击Continue钮返回Discriminant Analysis话框
点击Classify钮弹出Discriminant Analysis Classification话框Plot栏选Combined groups项求作合判结果分布图Display栏选Results for each case项求原始资料根建立判方程作逐回代重判时选Summary table项求种回代判结果进行总结评价点击
Continue钮返回Discriminant Analysis话框
点击Save钮弹出Discriminant Analysis Save New Variables话框选Predicted group membership项求回代判结果存入原始数库中点击Continue钮返回Discriminant Analysis话框点击OK钮完成分析
10323 结果解释
结果输出窗口中统计数:
首先系统提示判回代结果变量名DIS_1存原始数库中
接着系统显示数变量RESULT分组31样作判基础数进入分析中第组15例第二组16例时分组出变量均数(means)标准差(standard deviations)
Following variables will be created upon successful completion of the procedure
Name Label
DIS_1 Predicted group for analysis 1
On groups defined by RESULT
31 (Unweighted) cases were processed
0 of these were excluded from the analysis
31 (Unweighted) cases will be used in the analysis
Number of cases by group
Number of cases
RESULT Unweighted Weighted Label
1 15 150
2 16 160
Total 31 310
Group means
RESULT X1 X2
1 1249400 486800
2 1062875 366250
Total 1153129 424581
Group standard deviations
RESULT X1 X2
1 164064 112948
2 109681 92467
Total 165996 118231
On groups defined by RESULT
Analysis number 1
Direct method all variables passing the tolerance test are entered
Minimum tolerance level 00100
Canonical Discriminant Functions
Maximum number of functions 1
Minimum cumulative percent of variance 10000
Maximum significance of Wilks' Lambda 10000
Prior probability for each group is 50000
面典型判方程方差分析结果特征值(Eigenvalue)组间方组方12392典型相关系数(Canonical Corr)07439Wilks λ值0446597χ2检验χ222571P<00001
户通判方程标准化系数确定变量结果作例舒张压(X1)标准化系数(088431)胆固醇(X2)标准化系数(082306)舒张压冠心病影响作胆固醇考察变量作途径变量函数间相关系数例显示X1变量函数间相关系数062454X2054396样表明舒张压冠心病影响作胆固醇
根系统显示非标准化判方程系数判方程:
D 06379195X1 + 08001452X2 107532968
方程病组中心分点111198正常组中心分点104248例二类判二类判0分界点某舒张压胆固醇值代入判方程求出判分>0冠心病判分<0正常
Canonical Discriminant Functions
Pct of Cum Canonical After Wilks'
Fcn Eigenvalue Variance Pct Corr Fcn Lambda Chisquare df Sig
0 446597 22571 2 0000
1* 12392 10000 10000 7439
* Marks the 1 canonical discriminant functions remaining in the analysis
Standardized canonical discriminant function coefficients
Func 1
X1 88431
X2 82306
Structure matrix
Pooled withingroups correlations between discriminating variables
and canonical discriminant functions
(Variables ordered by size of correlation within function)
Func 1
X1 62454
X2 54396
Unstandardized canonical discriminant function coefficients
Func 1
X1 6379195
X2 8001452
(Constant) 107532968
Canonical discriminant functions evaluated at group means (group centroids)
Group Func 1
1 111198
2 104248
面原始数逐回代判结果显示中病组3错判(编号167**者)正常组3错判(编号171825**者)接着分布图形式显示判结果图中1代表病2代表正常四12代表图中见三病跨0界进入负值区错判正常三正常跨0界进入正值区错判病系统回代判情况作评价病组判正确率800正常组813总判正确率8065
Case Mis Actual Highest Probability 2nd Highest Discrim
Number Val Sel Group Group P(DG) P(GD) Group P(GD) Scores
1 1 ** 2 4692 6817 1 3183 3187
2 1 1 7060 8188 2 1812 7347
3 1 1 5490 9737 2 0263 17112
4 1 1 8162 8606 2 1394 8795
5 1 1 4884 9784 2 0216 18049
6 1 ** 2 7174 8236 1 1764 6805
7 1 ** 2 5157 7151 1 2849 3924
8 1 1 6475 7918 2 2082 6547
9 1 1 1594 9953 2 0047 25190
10 1 1 2305 9926 2 0074 23110
11 1 1 4577 9806 2 0194 18546
12 1 1 4869 9785 2 0215 18072
13 1 1 8782 8798 2 1202 9588
14 1 1 4264 6473 2 3527 3166
15 1 1 1594 9953 2 0047 25190
16 2 2 2097 9935 1 0065 22968
17 2 ** 1 7554 8389 2 1611 8005
18 2 ** 1 3611 5874 2 4126 1986
19 2 2 5442 9741 1 0259 16489
20 2 2 5157 7151 1 2849 3924
21 2 2 3048 5275 1 4725 0164
22 2 2 4154 9833 1 0167 18570
23 2 2 4876 9785 1 0215 17367
24 2 2 7323 9551 1 0449 13846
25 2 ** 1 2945 5156 2 4844 0637
26 2 2 9393 8963 1 1037 9664
27 2 2 8590 8741 1 1259 8648
28 2 2 4483 9812 1 0188 18007
29 2 2 3339 9879 1 0121 20087
30 2 2 8647 8759 1 1241 8721
31 2 2 3928 9847 1 0153 18970
Symbols used in plots
Symbol Group Label
1 1
2 2
Allgroups Stacked Histogram
Classification results
No of Predicted Group Membership
Actual Group Cases 1 2
Group 1 15 12 3
800 200
Group 2 16 3 13
188 813
Percent of grouped cases correctly classified 8065
Classification processing summary
31 (Unweighted) cases were processed
0 cases were excluded for missing or outofrange group codes
0 cases had at least one missing discriminating variable
31 (Unweighted) cases were used for printed output
31 cases were written into the working file
系统判回代结果dis_1变量名存入原始数库中图示户通翻动原始数库详细查阅
图106 原始数判结果
文档香网(httpswwwxiangdangnet)户传
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档