*** 15级信4班 222015602063077
摘:数挖掘量完全模糊机数中提取隐含中事先知道潜信息知识程聚类分析指物理抽象象集合分组类似象组成类分析程聚类分析目标相似基础收集数分类聚类应源领域包括数学计算机科学统计学生物学济学应领域聚类技术发展技术方法作描述数衡量数源间相似性数源分类簇中
聚类分析常算法原理:KmeansDBSCAN层次聚类聚类分析非监督学重领域谓非监督学数没类标记算法原始数探索中提取出定规律
关键词数挖掘 聚类分析 学生成绩分析
1概述
11研究意义
数挖掘方法种聚类分析法目前应前景方法聚类分析法作独立工具获数分布情况观察簇特点集中特定某簇进行特定分析文旨研究聚类算法应学生成绩分析中学生成绩进行评价分析量学生成绩中提取出更信息传统方法基绝分数评价种方法存定缺陷充分反映学生原始成绩中蕴涵信息学生原始成绩进行登记评定教学理中重环节传统评定方法基分数绝评价种方法存定缺陷学生成绩分析典型层次角度指标综合评估分析问题利数挖掘中聚类分析算法获取学生成绩中隐含规律挖掘科成绩背表达出学生性力差异文应聚类分析思想学生成绩进行划分评价弥补传统方法缺陷评价结果教学员提供利
12背景
现分类类认识世界方式理世界效手段分类科学研究中非常重许科学研究分类工作出发没分类没效率没分类世界没秩序初分类定性分类着科学发展产生数值分类学数值分类学等研究中抽象出专门定量聚类方法包括基统计学种聚类分析基模糊数学聚类技巧等元统计学中聚类分析点群分析研究样品指标分类问题种元统计方法谓类(cluster)通俗讲相似元素集合聚类分析常算法原理:KmeansDBSCAN层次聚类聚类分析非监督学重领域谓非监督学数没类标记算法原始数探索中提取出定规律聚类分析试图数集中样划分干相交子集子集称簇
高校教学科研重基培养重场教学理工作中学生成绩分析高校理工作重组成部分衡量高校理水目前高校着招生规模扩信息量幅度增加学校运行着类理系统存着类数库成绩理学籍理等系统积累量数程度提高工作效率现教学理系统中理员教师学生进行数操作局限量数信息充分应
13发展现状
聚类分析领域产生巨作具体表现方面:(1)商业领域:聚类分析发现客户群通购买模式刻画客户群特征聚类分析细分市场效工具时研究消费者行寻找新潜市场选择实验市场作元分析预处理(2)生物领域:聚类分析动植物分类基进行分类获取种群固结构认识(3)理领域:聚类够帮助球中观察数库商趋相似性(4)保险行业领域:聚类分析通高均消费鉴定汽车保险单持者分组时根住宅类型价值理位置鉴定城市房产分组(5)特网领域:聚类分析网进行文档类修复信息(6)电子商务领域:聚类分析电子商务中网站建设数挖掘中重方面通分组聚类出具相似浏览行客户分析客户特征更帮助电子商务户解客户客户提供更合适服务
2数挖掘理
21数挖掘
数挖掘(Data Mining)通分析数量数中寻找规律技术数准备规律寻找规律表示3步骤数挖掘务关联分析聚类分析分类分析异常分析特异群组分析演变分析等工智领域惯称数库中知识发现(Knowledge Discovery in Database KDD) 数挖掘视数库中知识发现程基步骤知识发现程三阶段组成:(1)数准备(2)数挖掘(3)结果表达解释数挖掘户知识库交互
22聚类分析
聚类分析指物理抽象象集合分组类似象组成类分析程种重类行
聚类分析目标相似基础收集数分类聚类源领域包括数学计算机科学统计学生物学济学应领域聚类技术发展技术方法作描述数衡量数源间相似性数源分类簇中聚类方法:(1)层次聚类(Hierarchical Clustering):合法分解法树状图(2) 非层次聚类:划分聚类谱聚类
23三种聚类分析常算法
231 KMeans聚类算法
属非层次聚类法种
KMeans算法定数k够数集分成k簇C{C1C2⋯Ck}种分类否合理者否意义算法需化方误差:
KMeans基算法流程
输入:样数集D 聚类簇数k
(1) 样中机选取k样点作初始均值量{μ1 μ2 ⋯μk }
(2)循环步直达停止条件:
(21)令Ci ∅(1≤i≤k)
(22)样点计算k均值量间距离取中距离短距离应均值量标记作该点簇标记然该点加入相应簇Ci
(23)簇计算新均值量果相前量变化更新作新均值量果没变化变
出KMeans基算法容易理解算法身挺简单运行较快KMeans非常型数集
232密度聚类(DBSCAN)
密度聚类思想KMeans更符合类思维基思想通否紧密相连判断样点否属簇代表性算法DBSCAN基组邻域参数(ϵMinPts)表征某处样否紧密介绍算法前先介绍概念
ϵ 邻域:样点xi距离ϵ属样集D中点集合N ϵ(xj){si∈D|dist(xixj)≤ϵ}
233层次聚类
层次聚类类算法总称通断合簇者断分离簇形成嵌套簇种层次类通树状图表示AgglomerativeClustering算法种层次聚类算法算法原理简单开始时候数点身作簇然找出距离两簇合断重复步骤直达预设簇数关键方判断簇间距离判断准做链接准
3.目标需求分析
31 课题意义
学生成绩教学效果测量学质量记录学生成绩数蕴藏量信息分析挖掘评价教学效果促进教学改革完善质量监控具代作应该成教学理重环节
国高等教育规模发展转涵提升天完善教学质量理体系建设已成高校涵建设首务国高校理者应充分认识学生成绩信息涵丰富性成绩分析教学工作反馈作学生成绩理应仅仅数登录查询应该成教学质量理监控必环节构建维度视角层次学生成绩分析方法体系时效反馈机制形成培养参者关注学生成绩深度分析挖掘动查找原积极改进提升意识氛围必国高等教育质量提升起重推动作
32课题研究原
国高校学生成绩分析现状存着问题:(1)高校学生成绩分析研究成果计算机理系统设计容表明高校教学音理者学生成绩理丰富涵认识够成绩分析重视足存提交成绩意味教学工作结束错误认识导致学生成绩分析尚未纳教学质监控体系成绩信息统计分析反馈机制尚未建立培养指导作尚未发挥属学生成绩信息资源浪费(2)方法研究够维分析缺失目前高校开展课程考试相关分析仅限课教师(命题)完成单广]课程试卷分析种分析方法存问题命题分析教学分析少强调学风反思白身少分析指标单结果全面反映教学整体情况法诊断教学中存问题强化学生成绩整体性历史性较性分析分析原教学决策教学改革提供科学应该成教学理重环节(3)信息利够反馈机制缺失目前国高校学生成绩理流程般教学程考试阅卷成绩登录 学生成绩仅课程学分学籍资格毕业资格学位资格等审查属开环理模式尚未形成效学生成绩信息分析反馈机制导致理者解整体教学情况理决策缺乏针性科学性教学单位解教师教学状况教学改革缺乏时性效性学生学效果缺乏整体握学方法改进学目标调整缺乏
4KMeans应
41 KMeans特点
总体KMeans聚类算法簇数分布凸情况效果
(1)初始值敏感KMeans初始值选导致终结果优化实化方误差难优化采种贪心算法种算法掉进局部优坑里面量选初始值计算次(2)特殊分布数集够出合理结果
图希结果应该左图KMeans出右图出想结果
42 聚类分析工具软件(WEKASQL Server 2012)
WEKA怀卡托智分析环境( Waikato Environment for KnowledgeAnalysis)款免费非商业化基JAVA环境开源机器学(Machine Leaning) 数挖掘( DataMining)软件WEKA作公开数挖掘工作台集合量承担数挖掘务机器学算法包括数进行预处理分类回聚类关联规新交互式界面视化开发者Java 语言利WEKA架构开发出更数挖掘算法WEKA中集成算法甚鉴方法实现视化工具件困难事情聚类分类关联分窗口提供数应应类数挖掘算法界面尤成绩理系统中数值数选WEKA工具高校学生成绩分析够效结果
Microsoft SQL Server 2012微软发布新代数台产品全面支持云技术台够快速构建相应解决方案实现私云公云间数扩展应迁移
5.实验程
51 数挖掘程
数挖掘复杂阶段程图示分阶段:
(1)确定挖掘象
(2)数准备
①数选择
②数预处理
③数转换
(3)数挖掘
(4)结果分析
(5)知识表达解释
52 聚类分析程
文数挖掘程中工具WEKA WEKA 支持数格式两种:ARFF 文件CSV 文件原始数EXCEL 文件转换ARFF CSV 文件转换方法:EXCEL 中开MARKxls 选择菜单—>存弹出话框中文件名输入Mark 保存类型选择CSV ( 逗号分隔)保存便Markcsv 文件结果图示:
开WEKA 软件Exporler 菜单点击Open file 钮开刚Markcsv 文件点击Save 钮弹出话框中文件名输入Mark 文件类型选择Arff date files (*arff)样数文件Markarff
开WEKA 软件中Exporler 点击刚Markarff
切换Cluster点Choose钮选择SimpleKmeansWEKA中实现K 均值算法点击旁边文框numClusters设置3实例分成三簇K3结果默认值
右击左方Result list列出结果点Visualize cluster assignments显示弹出窗口出实例散点图
Cluster0簇里实例占总实例32中男生相较类学生分专业时选择硬件方计算机专业学生分方时计算机硬件结构系统定解具较强动手力创新意识学选择硬件方
Cluster1簇里实例占总实例41中男生样相较根该簇里面实例成绩出分析数实例中类学生分专业时选择网络方计算机专业学生分方时计算机常命令强识力学选择网络方
Cluster2簇里实例占总实例27中女生相较女生符合思维周密求耐心创新意识根文分析数类学生分专业时选择软件方
6.总结
学生成绩分析工作中利标准偏移量度量标准Kmeans聚类分析算法够效进行学生成绩分析达具相关特征学生聚集类目实现预设数聚类分析结果标准偏移量Kmeans聚类分析算法适合学生成绩数进行聚类分析操作利标准偏移量K means聚类分忻算法进行学生成绩分析程中利学科值方法进行初始聚类中心选取外探索途径初始聚类中心选取方法学生聚集类代表相关信息分析工作需加强研究探讨方
参考文献
[1] 谭庆 基kmeans聚类算法试卷成绩分析研究河南学学报(然科学版)Journal of Henan University (Natural Science)Vol39 No 4Jul2009
[2]飞翔蓝鲸 聚类分析常算法原理2018年01月01日 105232
[3] 陈蕾 高校学生成绩信息分析挖掘文章编号 10070079 (2013) 32 021702
[4] 孙菲张健沛董野福栋涛郭春 基标准偏移量学生成绩
Kmeans聚类分析算法研究齐齐哈尔学学报Joumal of Qiqihar University VoL31 No2March2015
[5]容4 利Kmeans聚类分析技术分析学生成绩20181030
文档香网(httpswwwxiangdangnet)户传
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档