1聚类分析介绍
11基概念
聚类种寻找数间种结构技术聚类全体数实例组织成相似组相似组称作聚类处相聚类中数实例彼相处聚类中实例彼聚类技术通常称监督学监督学聚类中表示数类分类者分组信息没
通述表述聚类定义数集中某方面具相似性数成员进行分类组织程聚类数实例集合集合中元素彼相似聚类中元素聚类相关文献中数实例时称象现实世界中象数实例描述时时称作数点(Data Point) 维空间点表示数实例中 表示数属性数图显示二维数集聚类程该图中清楚数聚类程然通目测十分清晰发现隐藏二维者三维数集中聚类着数集维数断增加难通目测观察甚
12算法概述
目前存量聚类算法算法选择取决数类型聚类目具体应体聚类算法分类
聚类算法目数象动入相应意义聚类中追求较高类相似度较低类间相似度聚类算法指导原聚类算法优劣方面衡量:
(1)伸缩性:聚类算法处理包含百万象数集
(2)处理类型属性力:许算法针基区间数值属性设计应需针数类型(符号类型二值类型等)进行处理
(3)发现意形状聚类:聚类意形状聚类算法局限规形状聚类
(4)输入参数化:求户输入重参数仅加重户负担聚类质量难控制
(5)输入序敏感:数提交序聚类结果
(6)高维性:数集包含干维属性聚类算法仅局限处理二维三维数需高维空间中发现意义聚类
(7)基约束聚类:实际应中考虑约束条件设计够满足特定约束条件具较聚类质量算法项重务
(8)解释性:聚类结果应该理解解释
13聚类应
商业聚类分析发现客户群通购买模式刻画客户群特征聚类分析细分市场效工具时研究消费者行寻找新潜市场选择实验市场作元分析预处理生物聚类分析动植物分类基进行分类获取种群固结构认识理聚类够帮助球中观察数库商趋相似性保险行业聚类分析通高均消费鉴定汽车保险单持者分组时根住宅类型价值理位置鉴定城市房产分组特网应聚类分析网进行文档类修复信息电子商务聚类分析电子商务中网站建设数挖掘中重方面通分组聚类出具相似浏览行客户分析客户特征更帮助电子商务户解客户客户提供更合适服务
2kmeans算法
21基思想
划分聚类算法根定 象者元组数集构建 划分聚类方法划分聚簇 该方法数划分 组组少象象必须属属组[1]该方法划分采定 划分求先出初始划分然迭代重定位技术通象划分间移动改进划分
达划分全局优划分聚类会穷举划分实际操作中采较流行kmeans算法者kmedian算法
22算法步骤
kmeans算法简单实现较容易簇象均值表示
步骤:象机分配 非空簇中
步骤二:计算簇均值该均值代表相应值
步骤三:根象簇中心距离分配簇
步骤四:转步骤二重新计算簇均值程断重复直满足某准函数者终止条件终止(收敛)条件:没(者数目)数点重新分配聚类没(者数目)聚类中心发生变化误差方(SSE)局部
SAS kmeans实现通proc fastclus程实现示例:
proc import datafileE\SAS\carstxt outcars dbmsdlm replace
delimiter'09'x
getnamesyes
run
proc print datacars
run
proc standard datacars outstdcars mean0 std1
var Mpg Weight Drive_Ratio Horsepower Displacement
run
proc fastclus datastdcars summary maxc5 maxiter99
outseedclusterseed outclusterresult clustercluster least2
id Car
var Mpg Weight Drive_Ratio Horsepower Displacement
run
23算法分析
kmeans算法型数库相高效般情况结束局部优解kmeans算法必须均值意义情况分类变量适事先定生成聚类数目异常数数噪声较敏感非凸面形状数进行处理外kmeans算法聚类程中聚类中心没分配数某聚类变空聚类通常称空聚类解决空聚类问题选择数点作代聚类中心例某含量数聚类聚簇中心远数点果算法终止条件取决误差方具误差方聚类寻找外聚类中心
3层次聚类算法
31基思想
层次聚类两种类型:合层次聚类分裂层次聚类前者种底层次聚类算法底层开始次通合相似聚类形成层次中聚类整全部数点合聚类时候停止者达某终止条件结束部分层次聚类采种方法处理者采顶方法包含全部数点聚类开始然根节点分裂子聚类子聚类递继续分裂直出现包含数点单节点聚类出现聚类中仅包含数点
层次聚类技术种监督学技术没确定致正确答案正原聚类特定应基础设计出较少较数量簇定义聚类层次选择希数量簇极端情况象成簇样情形聚类象间非常相似聚类然种聚类技术失实际意义聚类目寻找数集中意义模式方便户理解聚类数目数象样聚类算法帮助户更理解数挖掘数隐藏真实含义样关聚类重点应该原先数数目更少簇底形成少聚类数目根实际业务理解解释实际项目事情层次聚类算法处户簇中选择感兴趣簇样更具灵活性
层次聚类通常做成棵树中簇合起创建较高层次簇层次簇合起创建层次簇通样程生成系列聚类树完成聚类单点聚类处树底层树底层根节点聚类根节点聚类覆盖全部数节点兄弟节点聚类划分父节点中数点图15采统计分析软件SASCars数集进行层次聚类层次聚类结果图通该层次聚类树户选择查树层次聚类情况图示
层次聚类结果图
基层次聚类算法方法较简单缺乏伸缩性旦合者分裂执行撤销改进层次聚类效果层次聚类算法聚类算法结合形成阶段聚类算法
32算法步骤
层次聚类(hierarchical clustering)算法递象进行合者分裂直满足某终止条件止层次聚类分两种底层次分解称聚合层次聚类反称分解层次聚类层次聚类算法计算复杂度O(n2)适合型数集分类
CUREROCKBIRCHCHAMELEON聚合层次聚类中具代表性方法CURE(Clustering Using REpresentatives)算法采抽样分区技术选择数空间中固定数目具代表性点代表相应类样识具复杂形状聚类滤孤立点ROCK(RObust Clustering using linKs)算法CURE算法改进具CURE算法优良特性外适类属性数BIRCH(Balanced Iterative Reducing and Clustering using Hierarchy)算法首次提出通局部聚类数库进行预处理思想CHAMELEONKarypis等1999年提出聚合聚类程中利动态建模技术
SAS实例
options nocenter nodate pageno1 linesize132
title h 1 j l 'File clustermammalsteethsas'
title2 h 1 j l 'Cluster Analysis of Mammals'' teeth data'
data teeth
input mammal 116
@21 (v1v8) (1)
label v1'Top incisors'
v2'Bottom incisors'
v3'Top canines'
v4'Bottom canines'
v5'Top premolars'
v6'Bottom premolars'
v7'Top molars'
v8'Bottom molars'
cards
BROWN BAT 23113333
MOLE 32103333
SILVER HAIR BAT 23112333
PIGMY BAT 23112233
HOUSE BAT 23111233
RED BAT 13112233
PIKA 21002233
RABBIT 21003233
BEAVER 11002133
GROUNDHOG 11002133
GRAY SQUIRREL 11001133
HOUSE MOUSE 11000033
PORCUPINE 11001133
WOLF 33114423
BEAR 33114423
RACCOON 33114432
MARTEN 33114412
WEASEL 33113312
WOLVERINE 33114412
BADGER 33113312
RIVER OTTER 33114312
SEA OTTER 32113312
JAGUAR 33113211
COUGAR 33113211
FUR SEAL 32114411
SEA LION 32114411
GREY SEAL 32113322
ELEPHANT SEAL 21114411
REINDEER 04103333
ELK 04103333
DEER 04003333
MOOSE 04003333
proc princomp datateeth outteeth2
var v1v8
run
proc cluster datateeth2 methodaverage outtreettree
ccc pseudo rsquare
var v1v8
id mammal
run
proc tree datattree outttree2 nclusters4
id mammal
run
proc sort datateeth2
by mammal
run
proc sort datattree2
by mammal
run
data teeth3
merge teeth2 ttree2
by mammal
run
symbol1 cblack f v'1'
symbol2 cblack f v'2'
symbol3 cblack f v'3'
symbol4 cblack f v'4'
proc gplot
plot prin2*prin1cluster
run
proc sort
by cluster
run
proc print
by cluster
var mammal prin1 prin2
run
数源Statlibhttplibstatcmuedudatasetscarsdata
4SAS聚类分析案例
1问题背景
考虑面案例棒球理员希根队员兴趣相似性进行分组显然该例子中没响应变量理者希够方便识出队员分组情况时希解组间队员间差异性
该案例数集SAMPSIO库中DMABASE数集面数集中变量描述信息:
案例中设置TEAMPOSITIONLEAGUEDIVISIONSALARY变量模型角色rejected设置SALARY变量模型角色rejected信息已存储LOGSALAR中聚类分析组织映射图中需目标变量果需目标变量识分组考虑预测建模技术者定义分类目标
2聚类方法概述
聚类分析常监督分类相混淆监督分类定义分类响应变量预测分组者类关系聚类分析方面考虑种监督分类技术够输入变量基础识出数集中分组类信息组簇赋予数字然聚类数目评价类间似关系组织映射图尝试创建聚类图图形化方式绘制出聚类信息处没考虑
1) 建立初始数流
2) 设置输入数源结点
开输入数源结点
SAMPSIO库中选择DMABASE数集
设置NAME变量模型角色idTEAMPOSIOTIONLEAGUEDIVISIONSALARY变量模型角色rejected
探索变量分布描述性统计信息
选择区间变量选项卡观察LOGSALARSALARY变量缺失值选择类变量选项卡观察没缺失值例中没涉类变量
关闭输入数源结点保存信息
3) 设置代结点
然总处理缺失值时候缺失值数量会影响聚类结点产生聚类解决方案产生初始聚类聚类结点需完整观测值缺失值太时候需代结点处理然必须例中
4) 设置聚类结点
开聚类结点激活变量选项卡Kmeans聚类输入数敏感般情况考虑数集进行标准化处理
变量选项卡选择标准偏差单选框
选择聚类选项卡
观察默认选择聚类数目方法动
关闭聚类结点
5) 聚类结果
聚类结点处运行流程图查聚类结果
6) 限定聚类数目
开聚类结点
选择聚类选项卡
聚类数目选择部分点击选择标准钮
输入聚类数目10
点击ok关闭聚类结点
7)结果解释
定义类信息结合背景识类型特征选择箭头钮
选择三维聚类图某类
工具栏选择刷新输入均值图图标
点击该图标查该类规范化均值图
理根该方法类进行解释
8)运Insight结点
Insight结点较属性间异常开insight结点选择整数集关闭结点
insight结点处运行
变量_SEGMNT_标识类distance标识观测值类中心距离运insight窗口analyze工具评估较聚类结果
首先_SEGMNT_度量方式interval转换成nominal
选择
点击ok
文档香网(httpswwwxiangdangnet)户传
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档