文本挖掘算法总结


    文数挖掘算法应结

    1基概率统计贝叶斯分类 
     2ID3 决策树分类 
    3基粗糙集理Rough Set确定型知识挖掘 
    4基kmeans聚类 
    5限细分模糊聚类Fuzzy Clustering 
     6SOM神元网络聚类 
    7基Meaning文相似度计算 
    8文模糊聚类计算 
    9文kmeans聚类 
    10文分类 
    11关联模式发现 
    12序列模式发现 
    13PCA成分分析
    1基概率统计贝叶斯分类
    算法概述:贝叶斯公式英国数学家( Thomas Bayes 17021763 )创造描述两条件概率间关系 P(A|B) B事件发生时A事件发生概率法法:
    P(A∩B)P(A)*P(B|A)P(B)*P(A|B)导出
    贝叶斯公式:P(A|B)P(B|A)*P(A)P(B)
    贝叶斯分类基思想:设决策变量DD1D2Di…Dkn条记录组成样空间S划分n条记录划分成k记录集合果P(Di)表示事件Di发生概率P(Di) > 0 ( i12…k)事件xP(x)>0:

    贝叶斯分类基原理利贝叶斯条件概率公式事件X视条件属性Cj种取值组合x事件发生时决策属性Di发生条件概率贝叶斯分类种概率型分类知识挖掘方法百分百确定X事件发生时Di定发生
    解决问题:预测属分类概率通已知n条样集记录计算种条件属性组发生概率出贝叶斯分类规定未知标签记录选择概率属分类
    2ID3 决策树分类
    算法概述:ID3算法J Ross Quinlan1975提出分类算法时没数挖掘概念该算法信息基础信息熵信息增益度确定分枝生成决策树DTreeID3算法决策树DTree构建分类知识模型DTree中面节点根节点Root分支新决策节点者树叶子决策节点代表问题决策叶子节点代表种分类结果决策树节点会遇测试节点问题取值导致分支会达叶子节点确定属分类

    解决问题:预测属分类通已知样集记录生成颗分类知识树 定未知标签记录通分类知识树确定属分类
    3基粗糙集理Rough Set确定型知识挖掘
    算法概述:1982年波兰学者Z Paw lak 提出粗糙集理Rough Sets Theory种刻划完整性确定性数学工具效分析精确致(Inconsistent)完整(Incomplete) 等种完备信息利数进行分析推理中发现隐含知识揭示潜规律粗糙集理继概率模糊集证理处理确定性事物数学工具粗糙集理建立分类机制基础分类理解特定空间等价关系等价关系构成该空间划分粗糙集理知识理解数划分划分集合称概念思想利已知知识库精确确定知识已知知识库中知识(似) 刻画
    解决问题:预测属分类粗糙集分类样空间S划分似集(Upper approximation)似集(Lower approximation)边界集(Boundary region)挖掘条件属性C决策属性D集合包含分记录(细分该集合中记录属某决策属性Di取值)记录形成辨识关系(Indiscernibility relation)确定分类规:
    IF <条件属性C成立> THEN <决策属性Di发生>
    果满条件C属分类DiIF中条件C单条件组合and()组合条件
    BIC出分类规谓分类规少条件组合例属高富帅条件:身高财富工资性收入财产性收入产业收入脸型眼睛鼻梁形状英俊等条件判通粗糙集分类计算出分类规
    IF 财富>XXX1 and 身高>185cm and 相貌英俊
    条件忽略计分类规
    粗糙集分类规百分百确定型分类规样集统计结果果出现非样集中出现条件变量属性法出粗糙集转概率型贝叶斯分类进行计算
    4基kmeans聚类
    算法概述:定包括n条记录条记录m属性 样集出分类数k求样集中记录记录间相似性(距离远)相似性(距离)记录划分k类中相分类中记录间距离分类间距离
    BIC改进常规kmeans聚类算法聚类程中时计算分类质量(类均差 类间均距  )求解优聚类max{ }
    解决问题:n条记录聚成k分类n样集记录指定分类数kk分类指定初始迭代记录k分类中心通计算记录k分类中心距离断变换分类变换类中心收敛分类变化时计算结束n样集记录分配k分类中k分类中心指标
    5限细分模糊聚类Fuzzy Clustering
    算法概述:实际解决聚类问题时数事物模糊特征属性A法确进行量化:相貌间关系性格购买商品意愿等需模糊数学进行相似性计算模糊数学伴着世纪五六十年代兴起控制信息系统(俗称老三)形成种决策方法美国加利福尼亚学伯克利分校Lotfi Zadeh教授1965年创立
    模糊聚类基计算步骤:
    (1)样集中n条记录变换成n x n模糊相似矩阵
    (2)通传递包卷积计算模糊相似矩阵变换成等价相似矩阵
    (3)通λ截矩阵n条记录分成1n分类
    Kmeans聚类需事先确定聚类数k模糊聚类Fuzzy Clustering需事先确定聚类数kk1(学集中n条记录1分类)kn(学集中n条记录1分类)
    解决问题:n条记录聚成1n分类模糊聚类Fuzzy Clustering算法完全基数然状况进行聚类产生聚类解集合  (k12n)解集合中求解优聚类max{  }观察分析样集数性态非常供观察情况聚类状况
    6SOM神元网络聚类
    算法概述:类事物认知断积累程通事物观察断认识修正果关系逐渐稳定认知规医学证明眼视网膜脊髓海马中存种侧抑制现象神细胞兴奋会周围神细胞产生抑制作种侧抑制神细胞间呈现出竞争开始时细胞时兴奋兴奋程度强神细胞周围神细胞抑制作强结果周围神细胞兴奋程度减弱该神细胞次竞争胜者神细胞竞争中失败
    1981年芬兰学者kohonen提出称组织特征映射(Self Organization Feature MapSOMSOFM)网络前述脑神细胞兴奋规律等该网络中反应竞争层神元间连线模拟生物神网络层神元相互抑制现象权值类抑制性权值满足定分布关系距离抑制强距离远抑制弱

    通述知SOM聚类算法设计核心思想体现神元认知程中3特性:
    (1)根样较逐步积累断修正渐稳定特性?
    (2)神元间侧抑远逐步衰弱制特性?
    (3)神元兴奋区域认知次数逐步缩范围特性?
    BIC采欧氏距离作输入模式Xi输出神元Wj间相似度选择具距离神元兴奋神元采(1titm)作学衰减函数中ti 前学次数(第次样训练)tm 总学数体现述特性1 采(1tiT)CWij作神元侧抑制函数中C设定常数Wij选中神元神元远距离体现述特性23
    解决问题:n条记录m输出神元聚成m分类模仿类学方法事物认识浅入深逐步学修正程种素组态认识逐步稳定认知领域进行聚类
    7基Meaning文相似度计算
    算法概述:出组n文档D{ }BIC文档计算出组具代表性词组时计算出相互间容接度接序列
    BICMeaning挖掘动搜索现BaiduGoogle工输入关键词搜索方式现搜索引擎考虑语义语境考虑词W文档D包含关系 词文档频数TF关键词搜索文档容关
    例:姚明中国篮球骄傲姚明投身公益事业果搜索引擎中输入姚明见搜索文档容包含篮球相关容包括公益包含姚明文档见关键词搜索具确定性果搜索引擎输入组词 {姚明分篮板}搜出文档篮球赛容概率更显然  形成交集缩搜索范围组词 {姚明分篮板}思考出
    BIC通计算出文档代表词组相工输入 {姚明分篮板}时计算词 句子中语序关系发生概率马尔科夫链够更确定搜索词语义语境通文档间相关性(接度)进行聚类计算Meaning接度进行动搜索需工干预文档容变化动踪Meaning变化搜索更加准确更加动化搜索户心动
    BIC基Meaning计算搜索舆情分析特定情报分析垂直搜索相似容推荐等文挖掘
    解决问题:计算两文相似度
    8文模糊聚类计算
    算法概述:基模糊聚类算法BIC首先计算n文组成相似矩阵 (第i文文档第j文文档相似度)然相似矩阵 变成模糊相似矩阵 通求模糊相似矩阵 等价矩阵截矩阵n文文档分成1n分类时相分类中文具接容相似度Min{ }文分类间具差异Max{ }求解文容进行优分类方案
    解决问题:确定文划分成类情况n文聚成1n分类观察聚类效果
    9文kmeans聚类
    算法概述:基kmeans聚类BIC台户传输入n文确定希分类数量kk分类样BICk样作初始迭代点进行kmeans聚类计算n文分成k分类
    解决问题:已确定k分类情况文划分k分类中
    10文分类
    算法概述:通文模糊聚类文kmeans聚类BIC仅n文容相似度进行分类时挖掘出分类分类代表词组户意出文BIC根分类代表词组相似度选择相似分类MaxSim{i}该分类文档分配MaxSim{i}类
    解决问题:已完成文聚类情况确定文划分分类中
    11关联模式发现
    算法概述:关联分析目挖掘隐藏关联(Association) 模型著名关联模式应挖掘购物篮问题发现购买行中发现商品间关联关系
    定组交易记录:

    笔交易ID包含m商品{}n条记录组成二维表构成 矩阵BIC计算出意两商品 组合Confidence(A>B)P(A | B)置信度支持度Support(A>B)P(A U B)分析商品间关联性购物篮问题
    BIC关联模式发现快速交互式Apriore计算程:发现基2Item关联高频项集开始计算支持度Support(A>B)P(A U B)置信度Confidence(A>B)P(A | B)逐步计算发现234
    …Item关联频繁项集

    (1)求解高频关联事务T中项数Item必然等2果1Item存关联
    (2)交易记录T中少Item组合果存2Item高频组合必然存2关联高频真子集
    :交易记录T1{Item1Item2}交易记录T2{Item1Item3Item4Item2}T1T2非空真子集T1⊆T2
    果存3关联高频Item组合必然存2关联高频组合果存4关联Item高频组合必然存3关联高频组合…BIC通基2关联高频项集发现开始逐步缩记录集合逐步发现意数量Item组合高频项集BIC关联计算快速交互式计算Apriore算法
    解决问题:样集中发现较强置信度关联规
    12序列模式发现
    算法概述:算法原理关联分析统计点事物(商品购买)发生先序列
    商品购买行预测:汽车改装爱者购买某种品牌增压器购买活塞环购买某品牌机油…通序列分析发现购买序列预测步购买行
    疾病诊断:患某种疾病先出现A症状出现B症状出现C症状…通出现症状序列分析发现疾病发生发展序列模式疾病进行诊断
    Web访问行模式发现:IP访问网站Web会话SessionSession系列URL序列组成通Session计统计高频URL序列预测户访问行
    限述例子包括生物进化序列模式DNA序列震火灾战争突爆发序列模式预测等序列规律量存足够统计数通BIC发现率进行预测
    序列模式发现关联模式发现算法相似序列模式强调Item先序关联模式发现关心序否事物T中2Item()否时出现
    BIC序列模式发现快速交互式Apriore计算程:发现2Item序列高频序列开始计置信度Confidence(A>B)P(A | B)逐步计算发现234…Item序列频繁序列

    (1)求解高频序列事务T中项数Item必然等2果1Item存关联
    (2)事务记录T中少Item序列组合果存2Item高频序列组合必然存2序列高频序列真子集
    :事务序列记录T1{Item1Item2}事务序列记录T2{Item1Item3Item4Item2}T1T2非空真子集T1⊆T2
    果存3Item序列高频Item组合必然存2序列高频序列组合果存4Item高频序列组合必然存3高频序列组合…BIC通基2序列高频序列发现开始逐步缩记录集合逐步发现意数量Item组合高频序列组合BIC序列计算*快速交互式计算Apriore算法
    解决问题:序列模式发现目挖掘事务发生发展序列 (Sequencing)模式样集发现较强置信度序列规
    13PCA成分分析
    算法概述:假设事物种素构成设n样样m属性(指标构成素)构成n×m阶成分数矩阵

    PCA算法目:
    (1)降低维度
    矩阵X维数m较时m维空间中考察问题较麻烦需降低维度影响事物评价基础选择较少指标P(p < m)代原较变量指标m
    (2)消变量间相关性
    (3)分析指标体系中指标事物区分性衡量事物坏指标决定指标事物区分性强弱分通PCA计算分析指标更区分性指标区分性较弱
    PCA解决算法原理:
    PCA算法核心非实称矩阵X变成实称矩阵A求矩阵A特征值特征量特征值P指标特征量P指标原m指标荷载参数BIC采Jacobi(雅)方法求特征值特征量
    Jacobi方法基理实称矩阵A必正交矩阵U  证明果 矩阵D矩阵A相似矩阵相似矩阵具相特征值特征量Jacobi方法通系列面旋转变换求 变换程中非角线元素逐步变角线元素逐渐变矩阵D中非角线元素变成0(趋0)角线元素 li 矩阵 A 特征值 正交阵 U 第 j 列 A 属 li 特征量求解矩阵A特征值特征量
    解决问题:
    PCA广泛事物素(指标)分析事物指标组成包括商业行医学诊断药理分析生产质量控制生产工艺设计济分析甚军事外交事物等需掌握构成事物素(指标)事物结果什关系?指标?次指标?指标指标间存什关系?PCA通组样集计算分析精确回答问题

    文档香网(httpswwwxiangdangnet)户传

    《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
    该内容是文档的文本内容,更好的格式请下载文档

    下载文档到电脑,查找使用更方便

    文档的实际排版效果,会与网站的显示效果略有不同!!

    需要 14 香币 [ 分享文档获得香币 ]

    下载文档

    相关文档

    关联规则挖掘算法研究与应用

    关联规则挖掘算法研究   [人口·资源与环境学院 地理信息系统0501 任雄伟 200501440108]   摘要:本文介绍了数据挖掘的概念、发展现状以及研究方向,重点介绍了数据仓库...

    5年前   
    1397    0

    图像算法工程师的基本职责文本

    图像算法工程师的基本职责文本职责:1、负责图像处理、图像识别算法的设计、验证;2、与软件工程师合作完成产品的开发与调试;3、参与系统的需求调研和需求分析,撰写相关技术文档;4、图像处理算法、图...

    2年前   
    295    0

    数据挖掘工程师的具体职责文本

    数据挖掘工程师的具体职责文本职责:1、负责公司数据挖掘平台产品开发工作;2、完成产品/项目划分的研发任务,按需求规范进行研发;3、具备良好的需求分析能力、业务建模能力,参与产品和项目相关模块的...

    2年前   
    314    0

    算法工程师岗位的主要职责文本

    算法工程师岗位的主要职责文本职责:1. 移动路径规划算法设计,管制算法建模,时间窗算法设计,路径规划,自主避障;2. 任务调配分配算法设计,优化移动机器人运行效率;3. 验证算法的可行性和有效...

    2年前   
    388    0

    视觉算法工程师岗位的工作职责文本

    视觉算法工程师岗位的工作职责文本职责:1、研究深度学习(包括各种神经网络结构与应用)或计算机视觉各个领域(目标检测识别、三维重建等)中核心算法;2、将上述核心算法应用到各种复杂现实场景中;3、...

    2年前   
    340    0

    首次适应算法最佳适应算法

    姓名:学号:实验名称:进程调度模拟实验 实验目的:了解动态分区存储管理方式中的数据结构和分配算法,加深对动态分区存储管理方式及其实现技术的理解。实验内容:#include<iostream.h...

    3年前   
    1624    0

    粒子群算法(优化算法)毕业设计论文

     毕 业 论 文 题 目 粒子群算法及其参数设置 专 业 信息与计算科学 班 级 ...

    5年前   
    1465    0

    概率统计、算法

    1. 统计1. 如图是样本容量为200的频率分布直方图.根据此样本的频率分布直方图估计,样本数据落在[6,10)内的频数为_____ 642. 甲、乙两名同学在五次考试中数学成绩统计用茎叶图表...

    10年前   
    806    0

    最新NOIP初赛复习14基本算法思想总结

    一个程序往往要包含两个方面的描述:一是对数据组织的描述,就是数据的类型和数据的组织形式(例如数组),称作数据结构;一是对程序操作流程的描述,就是程序的操作步骤,也就是所谓算法。正如著名的计算机科...

    3年前   
    456    0

    挖掘机转让合同

    挖掘机转让合同 设备转让方: (以下简称甲方) 身份证号码: 设备接受方:(以下简称乙方) 身份证号码: 经甲乙双方共同协商达成如下协议: ...

    9年前   
    6338    0

    挖掘机转让合同

    挖掘机转让合同  甲方(卖方):  住址:  身份证号:  联系电话:  乙方(买方):  住址:  身份证号:  联系电话:  经平等友好协商,甲乙双方就甲方所有的挖掘机/工程机械转让给乙方...

    11年前   
    624    0

    客户挖掘的TRAIG方法

     信息分析客户挖掘的借用数据挖掘现代信息技术实现潜在客户的层次划分TRAIG方法 西南师范大学 周剑发现潜在客户 (西南师大计科院2000研究生 王艳 400715) ...

    13年前   
    4044    0

    挖掘机转让合同

    挖掘机转让合同 出卖人(下称甲方): 签订地点: 买受人(下称乙方): ...

    15年前   
    11797    0

    第1课生活与算法

    课题第一课 生活与算法日期课时安排1课时课型新授课教学目标1、 通过探讨、解决具体生活问题的方法与步骤,了解算法的概念2、 通过体验、观摩形象直观的生活实例,学会建立数学模型,了解变量的概念...

    2年前   
    617    0

    3D图形算法

    3D简介   我们首先从坐标系统开始。你也许知道在2D里我们经常使用Ren?笛卡儿坐标系统在平面上来识别点。我们使用二维(X,Y):X表示水平轴坐标,Y表示纵轴坐标。在3维坐标系,我们增加了...

    10年前   
    8778    0

    2021年护士年终总结(文本)

     2021年护士年终总结(文本)撰写人:___________日 期:___________2021年护士年终总结(文本)护士年终总结怎么写?护士年终总结怎么才能找到?针对这一问题整理了护士...

    2年前   
    429    0

    其他典型算法之文本处理-专项训练浙江2022届选考专用(教师版)

    其他典型算法之文本处理【例1】 编写VB程序,实现如下功能:在文本框Text1中输入包含数字、字母的字符串,单击“统计”按钮Commandl,统计该字符串中数字字符的个数,并在标签Label1...

    2年前   
    373    0

    其他典型算法之文本处理-专项训练浙江2022届选考专用(学生版)

    其他典型算法之文本处理【例1】 编写VB程序,实现如下功能:在文本框Text1中输入包含数字、字母的字符串,单击“统计”按钮Commandl,统计该字符串中数字字符的个数,并在标签Label1...

    2年前   
    535    0

    高级算法工程师的职责内容

    高级算法工程师的职责内容职责:1、负责计算机图形算法的前沿技术研究,为3D打印前处理软件提供解决方案;2、负责计算几何及相关算法的预研、算法设计、算法优化、编码和实现,以及文档的书写等整套流程...

    2年前   
    628    0

    算法设计与分析试卷及答案

    湖南科技学院二○ 年 学期期末考试 信息与计算科学专业 年级《算法设计与分析》 试题题 号一二三四五总分统分人得 分阅卷人复查人考试类型:开卷 试卷类型:C卷 考...

    1年前   
    423    0

    文档贡献者

    l***i

    贡献于2020-10-25

    下载需要 14 香币 [香币充值 ]
    亲,您也可以通过 分享原创文档 来获得香币奖励!
    下载文档