1基概率统计贝叶斯分类
2ID3 决策树分类
3基粗糙集理Rough Set确定型知识挖掘
4基kmeans聚类
5限细分模糊聚类Fuzzy Clustering
6SOM神元网络聚类
7基Meaning文相似度计算
8文模糊聚类计算
9文kmeans聚类
10文分类
11关联模式发现
12序列模式发现
13PCA成分分析
1基概率统计贝叶斯分类
算法概述:贝叶斯公式英国数学家( Thomas Bayes 17021763 )创造描述两条件概率间关系 P(A|B) B事件发生时A事件发生概率法法:
P(A∩B)P(A)*P(B|A)P(B)*P(A|B)导出
贝叶斯公式:P(A|B)P(B|A)*P(A)P(B)
贝叶斯分类基思想:设决策变量DD1D2Di…Dkn条记录组成样空间S划分n条记录划分成k记录集合果P(Di)表示事件Di发生概率P(Di) > 0 ( i12…k)事件xP(x)>0:
贝叶斯分类基原理利贝叶斯条件概率公式事件X视条件属性Cj种取值组合x事件发生时决策属性Di发生条件概率贝叶斯分类种概率型分类知识挖掘方法百分百确定X事件发生时Di定发生
解决问题:预测属分类概率通已知n条样集记录计算种条件属性组发生概率出贝叶斯分类规定未知标签记录选择概率属分类
2ID3 决策树分类
算法概述:ID3算法J Ross Quinlan1975提出分类算法时没数挖掘概念该算法信息基础信息熵信息增益度确定分枝生成决策树DTreeID3算法决策树DTree构建分类知识模型DTree中面节点根节点Root分支新决策节点者树叶子决策节点代表问题决策叶子节点代表种分类结果决策树节点会遇测试节点问题取值导致分支会达叶子节点确定属分类
解决问题:预测属分类通已知样集记录生成颗分类知识树 定未知标签记录通分类知识树确定属分类
3基粗糙集理Rough Set确定型知识挖掘
算法概述:1982年波兰学者Z Paw lak 提出粗糙集理Rough Sets Theory种刻划完整性确定性数学工具效分析精确致(Inconsistent)完整(Incomplete) 等种完备信息利数进行分析推理中发现隐含知识揭示潜规律粗糙集理继概率模糊集证理处理确定性事物数学工具粗糙集理建立分类机制基础分类理解特定空间等价关系等价关系构成该空间划分粗糙集理知识理解数划分划分集合称概念思想利已知知识库精确确定知识已知知识库中知识(似) 刻画
解决问题:预测属分类粗糙集分类样空间S划分似集(Upper approximation)似集(Lower approximation)边界集(Boundary region)挖掘条件属性C决策属性D集合包含分记录(细分该集合中记录属某决策属性Di取值)记录形成辨识关系(Indiscernibility relation)确定分类规:
IF <条件属性C成立> THEN <决策属性Di发生>
果满条件C属分类DiIF中条件C单条件组合and()组合条件
BIC出分类规谓分类规少条件组合例属高富帅条件:身高财富工资性收入财产性收入产业收入脸型眼睛鼻梁形状英俊等条件判通粗糙集分类计算出分类规
IF 财富>XXX1 and 身高>185cm and 相貌英俊
条件忽略计分类规
粗糙集分类规百分百确定型分类规样集统计结果果出现非样集中出现条件变量属性法出粗糙集转概率型贝叶斯分类进行计算
4基kmeans聚类
算法概述:定包括n条记录条记录m属性 样集出分类数k求样集中记录记录间相似性(距离远)相似性(距离)记录划分k类中相分类中记录间距离分类间距离
BIC改进常规kmeans聚类算法聚类程中时计算分类质量(类均差 类间均距 )求解优聚类max{ }
解决问题:n条记录聚成k分类n样集记录指定分类数kk分类指定初始迭代记录k分类中心通计算记录k分类中心距离断变换分类变换类中心收敛分类变化时计算结束n样集记录分配k分类中k分类中心指标
5限细分模糊聚类Fuzzy Clustering
算法概述:实际解决聚类问题时数事物模糊特征属性A法确进行量化:相貌间关系性格购买商品意愿等需模糊数学进行相似性计算模糊数学伴着世纪五六十年代兴起控制信息系统(俗称老三)形成种决策方法美国加利福尼亚学伯克利分校Lotfi Zadeh教授1965年创立
模糊聚类基计算步骤:
(1)样集中n条记录变换成n x n模糊相似矩阵
(2)通传递包卷积计算模糊相似矩阵变换成等价相似矩阵
(3)通λ截矩阵n条记录分成1n分类
Kmeans聚类需事先确定聚类数k模糊聚类Fuzzy Clustering需事先确定聚类数kk1(学集中n条记录1分类)kn(学集中n条记录1分类)
解决问题:n条记录聚成1n分类模糊聚类Fuzzy Clustering算法完全基数然状况进行聚类产生聚类解集合 (k12n)解集合中求解优聚类max{ }观察分析样集数性态非常供观察情况聚类状况
6SOM神元网络聚类
算法概述:类事物认知断积累程通事物观察断认识修正果关系逐渐稳定认知规医学证明眼视网膜脊髓海马中存种侧抑制现象神细胞兴奋会周围神细胞产生抑制作种侧抑制神细胞间呈现出竞争开始时细胞时兴奋兴奋程度强神细胞周围神细胞抑制作强结果周围神细胞兴奋程度减弱该神细胞次竞争胜者神细胞竞争中失败
1981年芬兰学者kohonen提出称组织特征映射(Self Organization Feature MapSOMSOFM)网络前述脑神细胞兴奋规律等该网络中反应竞争层神元间连线模拟生物神网络层神元相互抑制现象权值类抑制性权值满足定分布关系距离抑制强距离远抑制弱
通述知SOM聚类算法设计核心思想体现神元认知程中3特性:
(1)根样较逐步积累断修正渐稳定特性?
(2)神元间侧抑远逐步衰弱制特性?
(3)神元兴奋区域认知次数逐步缩范围特性?
BIC采欧氏距离作输入模式Xi输出神元Wj间相似度选择具距离神元兴奋神元采(1titm)作学衰减函数中ti 前学次数(第次样训练)tm 总学数体现述特性1 采(1tiT)CWij作神元侧抑制函数中C设定常数Wij选中神元神元远距离体现述特性23
解决问题:n条记录m输出神元聚成m分类模仿类学方法事物认识浅入深逐步学修正程种素组态认识逐步稳定认知领域进行聚类
7基Meaning文相似度计算
算法概述:出组n文档D{ }BIC文档计算出组具代表性词组时计算出相互间容接度接序列
BICMeaning挖掘动搜索现BaiduGoogle工输入关键词搜索方式现搜索引擎考虑语义语境考虑词W文档D包含关系 词文档频数TF关键词搜索文档容关
例:姚明中国篮球骄傲姚明投身公益事业果搜索引擎中输入姚明见搜索文档容包含篮球相关容包括公益包含姚明文档见关键词搜索具确定性果搜索引擎输入组词 {姚明分篮板}搜出文档篮球赛容概率更显然 形成交集缩搜索范围组词 {姚明分篮板}思考出
BIC通计算出文档代表词组相工输入 {姚明分篮板}时计算词 句子中语序关系发生概率马尔科夫链够更确定搜索词语义语境通文档间相关性(接度)进行聚类计算Meaning接度进行动搜索需工干预文档容变化动踪Meaning变化搜索更加准确更加动化搜索户心动
BIC基Meaning计算搜索舆情分析特定情报分析垂直搜索相似容推荐等文挖掘
解决问题:计算两文相似度
8文模糊聚类计算
算法概述:基模糊聚类算法BIC首先计算n文组成相似矩阵 (第i文文档第j文文档相似度)然相似矩阵 变成模糊相似矩阵 通求模糊相似矩阵 等价矩阵截矩阵n文文档分成1n分类时相分类中文具接容相似度Min{ }文分类间具差异Max{ }求解文容进行优分类方案
解决问题:确定文划分成类情况n文聚成1n分类观察聚类效果
9文kmeans聚类
算法概述:基kmeans聚类BIC台户传输入n文确定希分类数量kk分类样BICk样作初始迭代点进行kmeans聚类计算n文分成k分类
解决问题:已确定k分类情况文划分k分类中
10文分类
算法概述:通文模糊聚类文kmeans聚类BIC仅n文容相似度进行分类时挖掘出分类分类代表词组户意出文BIC根分类代表词组相似度选择相似分类MaxSim{i}该分类文档分配MaxSim{i}类
解决问题:已完成文聚类情况确定文划分分类中
11关联模式发现
算法概述:关联分析目挖掘隐藏关联(Association) 模型著名关联模式应挖掘购物篮问题发现购买行中发现商品间关联关系
定组交易记录:
笔交易ID包含m商品{}n条记录组成二维表构成 矩阵BIC计算出意两商品 组合Confidence(A>B)P(A | B)置信度支持度Support(A>B)P(A U B)分析商品间关联性购物篮问题
BIC关联模式发现快速交互式Apriore计算程:发现基2Item关联高频项集开始计算支持度Support(A>B)P(A U B)置信度Confidence(A>B)P(A | B)逐步计算发现234
…Item关联频繁项集
:
(1)求解高频关联事务T中项数Item必然等2果1Item存关联
(2)交易记录T中少Item组合果存2Item高频组合必然存2关联高频真子集
:交易记录T1{Item1Item2}交易记录T2{Item1Item3Item4Item2}T1T2非空真子集T1⊆T2
果存3关联高频Item组合必然存2关联高频组合果存4关联Item高频组合必然存3关联高频组合…BIC通基2关联高频项集发现开始逐步缩记录集合逐步发现意数量Item组合高频项集BIC关联计算快速交互式计算Apriore算法
解决问题:样集中发现较强置信度关联规
12序列模式发现
算法概述:算法原理关联分析统计点事物(商品购买)发生先序列
商品购买行预测:汽车改装爱者购买某种品牌增压器购买活塞环购买某品牌机油…通序列分析发现购买序列预测步购买行
疾病诊断:患某种疾病先出现A症状出现B症状出现C症状…通出现症状序列分析发现疾病发生发展序列模式疾病进行诊断
Web访问行模式发现:IP访问网站Web会话SessionSession系列URL序列组成通Session计统计高频URL序列预测户访问行
限述例子包括生物进化序列模式DNA序列震火灾战争突爆发序列模式预测等序列规律量存足够统计数通BIC发现率进行预测
序列模式发现关联模式发现算法相似序列模式强调Item先序关联模式发现关心序否事物T中2Item()否时出现
BIC序列模式发现快速交互式Apriore计算程:发现2Item序列高频序列开始计置信度Confidence(A>B)P(A | B)逐步计算发现234…Item序列频繁序列
:
(1)求解高频序列事务T中项数Item必然等2果1Item存关联
(2)事务记录T中少Item序列组合果存2Item高频序列组合必然存2序列高频序列真子集
:事务序列记录T1{Item1Item2}事务序列记录T2{Item1Item3Item4Item2}T1T2非空真子集T1⊆T2
果存3Item序列高频Item组合必然存2序列高频序列组合果存4Item高频序列组合必然存3高频序列组合…BIC通基2序列高频序列发现开始逐步缩记录集合逐步发现意数量Item组合高频序列组合BIC序列计算*快速交互式计算Apriore算法
解决问题:序列模式发现目挖掘事务发生发展序列 (Sequencing)模式样集发现较强置信度序列规
13PCA成分分析
算法概述:假设事物种素构成设n样样m属性(指标构成素)构成n×m阶成分数矩阵
PCA算法目:
(1)降低维度
矩阵X维数m较时m维空间中考察问题较麻烦需降低维度影响事物评价基础选择较少指标P(p < m)代原较变量指标m
(2)消变量间相关性
(3)分析指标体系中指标事物区分性衡量事物坏指标决定指标事物区分性强弱分通PCA计算分析指标更区分性指标区分性较弱
PCA解决算法原理:
PCA算法核心非实称矩阵X变成实称矩阵A求矩阵A特征值特征量特征值P指标特征量P指标原m指标荷载参数BIC采Jacobi(雅)方法求特征值特征量
Jacobi方法基理实称矩阵A必正交矩阵U 证明果 矩阵D矩阵A相似矩阵相似矩阵具相特征值特征量Jacobi方法通系列面旋转变换求 变换程中非角线元素逐步变角线元素逐渐变矩阵D中非角线元素变成0(趋0)角线元素 li 矩阵 A 特征值 正交阵 U 第 j 列 A 属 li 特征量求解矩阵A特征值特征量
解决问题:
PCA广泛事物素(指标)分析事物指标组成包括商业行医学诊断药理分析生产质量控制生产工艺设计济分析甚军事外交事物等需掌握构成事物素(指标)事物结果什关系?指标?次指标?指标指标间存什关系?PCA通组样集计算分析精确回答问题
文档香网(httpswwwxiangdangnet)户传
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档