sas与聚类分析


    sas聚类分析
    1聚类分析介绍
    11基概念
    聚类种寻找数间种结构技术聚类全体数实例组织成相似组相似组称作聚类处相聚类中数实例彼相处聚类中实例彼聚类技术通常称监督学监督学聚类中表示数类分类者分组信息没
    通述表述聚类定义数集中某方面具相似性数成员进行分类组织程聚类数实例集合集合中元素彼相似聚类中元素聚类相关文献中数实例时称象现实世界中象数实例描述时时称作数点(Data Point) 维空间点表示数实例中 表示数属性数图显示二维数集聚类程该图中清楚数聚类程然通目测十分清晰发现隐藏二维者三维数集中聚类着数集维数断增加难通目测观察甚
     
     
    12算法概述
    目前存量聚类算法算法选择取决数类型聚类目具体应体聚类算法分类

     
    聚类算法目数象动入相应意义聚类中追求较高类相似度较低类间相似度聚类算法指导原聚类算法优劣方面衡量:
    (1)伸缩性:聚类算法处理包含百万象数集
    (2)处理类型属性力:许算法针基区间数值属性设计应需针数类型(符号类型二值类型等)进行处理
    (3)发现意形状聚类:聚类意形状聚类算法局限规形状聚类
    (4)输入参数化:求户输入重参数仅加重户负担聚类质量难控制
    (5)输入序敏感:数提交序聚类结果
    (6)高维性:数集包含干维属性聚类算法仅局限处理二维三维数需高维空间中发现意义聚类
    (7)基约束聚类:实际应中考虑约束条件设计够满足特定约束条件具较聚类质量算法项重务
    (8)解释性:聚类结果应该理解解释
    13聚类应
    商业聚类分析发现客户群通购买模式刻画客户群特征聚类分析细分市场效工具时研究消费者行寻找新潜市场选择实验市场作元分析预处理生物聚类分析动植物分类基进行分类获取种群固结构认识理聚类够帮助球中观察数库商趋相似性保险行业聚类分析通高均消费鉴定汽车保险单持者分组时根住宅类型价值理位置鉴定城市房产分组特网应聚类分析网进行文档类修复信息电子商务聚类分析电子商务中网站建设数挖掘中重方面通分组聚类出具相似浏览行客户分析客户特征更帮助电子商务户解客户客户提供更合适服务
    2kmeans算法
    21基思想
    划分聚类算法根定 象者元组数集构建 划分聚类方法划分聚簇 该方法数划分 组组少象象必须属属组[1]该方法划分采定 划分求先出初始划分然迭代重定位技术通象划分间移动改进划分
    达划分全局优划分聚类会穷举划分实际操作中采较流行kmeans算法者kmedian算法
    22算法步骤
    kmeans算法简单实现较容易簇象均值表示
    步骤:象机分配 非空簇中
    步骤二:计算簇均值该均值代表相应值
    步骤三:根象簇中心距离分配簇
    步骤四:转步骤二重新计算簇均值程断重复直满足某准函数者终止条件终止(收敛)条件:没(者数目)数点重新分配聚类没(者数目)聚类中心发生变化误差方(SSE)局部
      
    SAS kmeans实现通proc fastclus程实现示例:
     
    proc import datafileE\SAS\carstxt outcars dbmsdlm replace
           delimiter'09'x
           getnamesyes
    run
     
    proc print datacars
    run
     
    proc standard datacars outstdcars mean0 std1
    var Mpg Weight Drive_Ratio Horsepower Displacement
    run
     
    proc fastclus datastdcars summary maxc5 maxiter99
    outseedclusterseed outclusterresult clustercluster least2
    id Car
    var Mpg Weight Drive_Ratio Horsepower Displacement
    run
    23算法分析
    kmeans算法型数库相高效般情况结束局部优解kmeans算法必须均值意义情况分类变量适事先定生成聚类数目异常数数噪声较敏感非凸面形状数进行处理外kmeans算法聚类程中聚类中心没分配数某聚类变空聚类通常称空聚类解决空聚类问题选择数点作代聚类中心例某含量数聚类聚簇中心远数点果算法终止条件取决误差方具误差方聚类寻找外聚类中心
     
    3层次聚类算法
    31基思想
    层次聚类两种类型:合层次聚类分裂层次聚类前者种底层次聚类算法底层开始次通合相似聚类形成层次中聚类整全部数点合聚类时候停止者达某终止条件结束部分层次聚类采种方法处理者采顶方法包含全部数点聚类开始然根节点分裂子聚类子聚类递继续分裂直出现包含数点单节点聚类出现聚类中仅包含数点
    层次聚类技术种监督学技术没确定致正确答案正原聚类特定应基础设计出较少较数量簇定义聚类层次选择希数量簇极端情况象成簇样情形聚类象间非常相似聚类然种聚类技术失实际意义聚类目寻找数集中意义模式方便户理解聚类数目数象样聚类算法帮助户更理解数挖掘数隐藏真实含义样关聚类重点应该原先数数目更少簇底形成少聚类数目根实际业务理解解释实际项目事情层次聚类算法处户簇中选择感兴趣簇样更具灵活性
    层次聚类通常做成棵树中簇合起创建较高层次簇层次簇合起创建层次簇通样程生成系列聚类树完成聚类单点聚类处树底层树底层根节点聚类根节点聚类覆盖全部数节点兄弟节点聚类划分父节点中数点图15采统计分析软件SASCars数集进行层次聚类层次聚类结果图通该层次聚类树户选择查树层次聚类情况图示

     
    层次聚类结果图
    基层次聚类算法方法较简单缺乏伸缩性旦合者分裂执行撤销改进层次聚类效果层次聚类算法聚类算法结合形成阶段聚类算法
     32算法步骤
    层次聚类(hierarchical clustering)算法递象进行合者分裂直满足某终止条件止层次聚类分两种底层次分解称聚合层次聚类反称分解层次聚类层次聚类算法计算复杂度O(n2)适合型数集分类
    CUREROCKBIRCHCHAMELEON聚合层次聚类中具代表性方法CURE(Clustering Using REpresentatives)算法采抽样分区技术选择数空间中固定数目具代表性点代表相应类样识具复杂形状聚类滤孤立点ROCK(RObust Clustering using linKs)算法CURE算法改进具CURE算法优良特性外适类属性数BIRCH(Balanced Iterative Reducing and Clustering using Hierarchy)算法首次提出通局部聚类数库进行预处理思想CHAMELEONKarypis等1999年提出聚合聚类程中利动态建模技术
    SAS实例
    options nocenter nodate pageno1 linesize132
    title  h 1 j l 'File clustermammalsteethsas'
    title2 h 1 j l 'Cluster Analysis of Mammals'' teeth data'
    data teeth
     input mammal 116
             @21 (v1v8) (1)
     label v1'Top incisors'
             v2'Bottom incisors'
             v3'Top canines'
             v4'Bottom canines'
             v5'Top premolars'
             v6'Bottom premolars'
             v7'Top molars'
             v8'Bottom molars'
       cards
    BROWN BAT           23113333
    MOLE                32103333
    SILVER HAIR BAT     23112333
    PIGMY BAT           23112233
    HOUSE BAT           23111233
    RED BAT             13112233
    PIKA                21002233
    RABBIT              21003233
    BEAVER              11002133
    GROUNDHOG           11002133
    GRAY SQUIRREL       11001133
    HOUSE MOUSE         11000033
    PORCUPINE           11001133
    WOLF                33114423
    BEAR                33114423
    RACCOON             33114432
    MARTEN              33114412
    WEASEL              33113312
    WOLVERINE           33114412
    BADGER              33113312
    RIVER OTTER         33114312
    SEA OTTER           32113312
    JAGUAR              33113211
    COUGAR              33113211
    FUR SEAL            32114411
    SEA LION            32114411
    GREY SEAL           32113322
    ELEPHANT SEAL       21114411
    REINDEER            04103333
    ELK                 04103333
    DEER                04003333
    MOOSE               04003333

     
    proc princomp datateeth outteeth2
       var v1v8
    run
     
    proc cluster datateeth2 methodaverage outtreettree
       ccc pseudo rsquare
       var v1v8
       id mammal
    run
     
    proc tree datattree outttree2 nclusters4
      id mammal
    run
     
    proc sort datateeth2
      by mammal
    run
    proc sort datattree2
      by mammal
    run
    data teeth3
      merge teeth2 ttree2
      by mammal
    run
     
    symbol1 cblack f v'1'
    symbol2 cblack f v'2'
    symbol3 cblack f v'3'
    symbol4 cblack f v'4'
    proc gplot
      plot prin2*prin1cluster
    run
    proc sort
      by cluster
    run
    proc print
      by cluster
      var mammal prin1 prin2
    run



     
    数源Statlibhttplibstatcmuedudatasetscarsdata
    4SAS聚类分析案例
    1问题背景
    考虑面案例棒球理员希根队员兴趣相似性进行分组显然该例子中没响应变量理者希够方便识出队员分组情况时希解组间队员间差异性
    该案例数集SAMPSIO库中DMABASE数集面数集中变量描述信息:
     
    案例中设置TEAMPOSITIONLEAGUEDIVISIONSALARY变量模型角色rejected设置SALARY变量模型角色rejected信息已存储LOGSALAR中聚类分析组织映射图中需目标变量果需目标变量识分组考虑预测建模技术者定义分类目标
    2聚类方法概述
    聚类分析常监督分类相混淆监督分类定义分类响应变量预测分组者类关系聚类分析方面考虑种监督分类技术够输入变量基础识出数集中分组类信息组簇赋予数字然聚类数目评价类间似关系组织映射图尝试创建聚类图图形化方式绘制出聚类信息处没考虑
    1) 建立初始数流


     
    2) 设置输入数源结点
    开输入数源结点

    SAMPSIO库中选择DMABASE数集
    设置NAME变量模型角色idTEAMPOSIOTIONLEAGUEDIVISIONSALARY变量模型角色rejected
    探索变量分布描述性统计信息
    选择区间变量选项卡观察LOGSALARSALARY变量缺失值选择类变量选项卡观察没缺失值例中没涉类变量
    关闭输入数源结点保存信息
    3) 设置代结点

    然总处理缺失值时候缺失值数量会影响聚类结点产生聚类解决方案产生初始聚类聚类结点需完整观测值缺失值太时候需代结点处理然必须例中
    4) 设置聚类结点

    开聚类结点激活变量选项卡Kmeans聚类输入数敏感般情况考虑数集进行标准化处理

    变量选项卡选择标准偏差单选框

    选择聚类选项卡
    观察默认选择聚类数目方法动
    关闭聚类结点
     
    5) 聚类结果

    聚类结点处运行流程图查聚类结果

     
    6) 限定聚类数目
    开聚类结点

    选择聚类选项卡

    聚类数目选择部分点击选择标准钮
    输入聚类数目10

    点击ok关闭聚类结点
     
    7)结果解释
    定义类信息结合背景识类型特征选择箭头钮
     
    选择三维聚类图某类
     
    工具栏选择刷新输入均值图图标
     
    点击该图标查该类规范化均值图
     
    理根该方法类进行解释
     
    8)运Insight结点
    Insight结点较属性间异常开insight结点选择整数集关闭结点
     
    insight结点处运行
     
     
    变量_SEGMNT_标识类distance标识观测值类中心距离运insight窗口analyze工具评估较聚类结果
    首先_SEGMNT_度量方式interval转换成nominal
    选择
     
     
     
     
    点击ok
     
     
     


     

    文档香网(httpswwwxiangdangnet)户传

    《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
    该内容是文档的文本内容,更好的格式请下载文档

    下载文档到电脑,查找使用更方便

    文档的实际排版效果,会与网站的显示效果略有不同!!

    需要 2 香币 [ 分享文档获得香币 ]

    下载文档

    相关文档

    聚类分析在证券市场分析中的应用

    山东交通学院2013届毕业生毕业论文(设计)题目:聚类分析在证券市场分析中的应用院(系)别 理学院 专 业 信息与计算科学 班 级 ...

    3年前   
    475    0

    SAS采用Forefront Security解决方案-系统安全解决方案

    SAS采用Forefront Security解决方案-系统安全解决方案  全球性的技术领先企业 SAS 希望能基于Microsoftreg; SharePointreg; 产品和技术,扩展其...

    11年前   
    457    0

    SPSS16.0和SAS实验准备材料与方法

    窗体顶端准备材料与实验方法1.1载体与菌株(1)载体:pMD18-T载体购于TaKaRa公司。pcDNA3.1+载体购于Invitrogen公司。其中pcDNA3.1+的载体结构如图所示 (2...

    4年前   
    631    0

    聚类分析算法对高校学生成绩分析的应用研究

    数据挖掘就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过...

    5年前   
    1613    0

    SAS企业数据仓库策略上海宝钢成功应用-商业智能解决方案

    SAS企业数据仓库策略上海宝钢成功应用-商业智能解决方案  作为中国最大的钢铁生产企业,上海宝钢每年的产品超过1000万吨,雇佣的员工超过17,000人。伴随着这么大规模的运营出现的是海量的数...

    12年前   
    505    0

    前进保险应用SAS数据仓库整合资源案例-数据仓库解决方案

    前进保险应用SAS数据仓库整合资源案例-数据仓库解决方案  “Progressive保险公司有一段积极进取的成长历史。”Progessive企业资源管理组的容量分配与性能管理部门经理菲利普 ?...

    11年前   
    456    0

    韩国教保寿险选SAS方案减少防范欺诈-保险解决方案

    韩国教保寿险选SAS方案减少防范欺诈-保险解决方案  韩国最大的寿险公司之一教保(Kyobo)寿险公司选择SAS 支持并增强其现有的风险和欺诈管理系统。来自商业分析 软件与服务领袖SAS的这一...

    10年前   
    441    0

    第1章全等三角形—全等三角形的判定条件-“SAS”“ASA”“AAS”同步教案八年级数学苏科版上册

    1.掌握基本事实“边角边(SAS)”、“角边角(ASA)”、“角角边AAS”的内容2.会应用“边角边(SAS)”、“角边角(ASA)”、“角角边AAS”来判定两个三角形全等。3.进一步掌握证明的...

    2年前   
    320    0

    数据挖掘工程师岗位的具体职责

    数据挖掘工程师岗位的具体职责职责:1. 参与市场营销分析、策划、规划和数据分析工作;2. 根据分析、诊断结果,建立分析模型并优化,为运营决策、产品方向、销售策略等提供数据支持;3. 利用专业数...

    2年前   
    317    0

    数据分析师岗位的主要职责

    数据分析师岗位的主要职责职责:1、配合产品、运营的需求,对用户行为数据进行数据挖掘、深度分析以及形成分析报告;2、通过数据的挖掘,针对性的进行用户细分、关联推荐、精准营销等分析,提升营销效率和...

    2年前   
    495    0

    数据分析经理的岗位职责说明

    数据分析经理的岗位职责说明职责:1.定价规划:根据公司的产品定位、行业趋势、竞争分析、成本利润等方面,设计相关定价策略、模型与方法论;在公司定价流程框架下,对全球相关方(含渠道、直销以及公司各...

    2年前   
    333    0

    高级数据分析师的基本职责

    高级数据分析师的基本职责职责:1、构建分析体系、报表体系和指标体系,并根据业务发展和需求分析情况进行维护和优化;2、构建辅助分析用的数据产品、分析模型,不断提升分析效能和分析模版的复用性;3、...

    2年前   
    474    0

    数据分析师岗位的职责

    数据分析师岗位的职责职责:1.每日统计退货商品明细,周报退货分析至上级,后期跟进采购部处理进程以及结果;2.每日统计产品未发货信息,在途信息,到货信息,并核算各销售渠道的出货数量,建立单品的出...

    2年前   
    509    0

    大数据分析在移动通信网络优化中的应用研究

    论文(设计)题目:大数据分析在移动通信网络优化中的应用研究大数据分析在移动通信网络优化中的应用研究摘要:随着新的移动通信技术的应用及移动互联网的发展,我国的移动通信用户已经达到了10亿级规模。...

    2年前   
    454    0

    客户关系管理实验四_1

    实 验〔实训〕报 告项 目 名 称神经网络、logistics回归与聚类分析所属课程名称 客户关系管理 项 目 类 型 操作型 ...

    5个月前   
    194    0

    粤教版 信息技术必修1 第五章 数据处理和可视化表达 练习(含部分答案)

    第五章 数据处理和可视化表达 练习1、从互联网产生大数据的角度来看,大数据具有的特征是( )A.“4V”特征:大量、多样、低价值密度、高速B.样本渐趋于总体,精确让位于模糊,相关性重于因果C...

    9个月前   
    238    0

    第十章 分类分析

      第十章 分类分析 第一节 K-Means Cluster过程 10.1.1 主要功能 10.1.2 实例操作 第二节 Hierarchical Cluster过程 10.2.1...

    13年前   
    11903    0

    学生成绩评价及预测模型

    学生学业成绩的分析和评价, 是教学工作的重要环节, 也是学校常规管理的重要内容。科学地分析评价学生的学业成绩, 不仅可以使教师准确掌握学生的学习状况, 还可以使学生了解到自己的学习情况, 也能为...

    4年前   
    1294    0

    “大数据”时代计算机信息处理技术探索

    “大数据”时代计算机信息处理技术探索  现代社会中无论是计算机的硬件设施还是软件的技术水平的提升不断更新换代,大量数据应运而生,数据机构和数据的储存不断的发生着巨大的改变。创新的数据的不断升级...

    2年前   
    531    0

    医学心理学论文心理护理改善眼碱烧伤患者身心状况和护理满意度的应用价值分析

    医学心理学论文】心理护理改善眼碱烧伤患者身心状况和护理满意度的应用价值分析 [摘要] 目的: 探讨心理护理改善眼碱烧伤患者身心状况和护理满意度的应用价值。方法: 选取2011年9月-2...

    5年前   
    1054    0

    文档贡献者

    文***品

    贡献于2022-04-17

    下载需要 2 香币 [香币充值 ]
    亲,您也可以通过 分享原创文档 来获得香币奖励!
    下载文档

    该用户的其他文档