关联规则挖掘算法研究与应用


    关联规挖掘算法研究
     
    [口·资源环境学院 理信息系统0501 雄伟 200501440108]
     
    摘:文介绍数挖掘概念发展现状研究方重点介绍数仓库核心技术关联规挖掘基概念般步骤常算法算法中介绍典Apriori算法种改进方法数挖掘发展方提出法
    关键词数挖掘关联规挖掘Apriori算法
    0前言
    着计算机网络技术代表信息技术发展越越企业政府组织教育机构科研单位实现信息数字化处理数仓库已广泛应企业理产品销售科学计算信息服务等领域引起数量快速增长数库存储理分析提出更高求方面面庞飞速增长数量需新处理工具便动化搜集数转化价值信息知识方面剧增数中隐藏着许重信息希够已占信息进行更高层次分析便更利数目前数库系统然较实现数录入查询统计等功尚支持海量数背重信息挖掘导致数丰富知识贫乏现象数挖掘(DataMining简称DM)技术正述应求产生
    1 数挖掘概述
    11数挖掘定义
    1技术角度:量完全模糊噪声机实际应数中提取隐含中事先知道潜信息知识程
    2商业角度:企业定业务目标量企业数进行探索分析揭示隐藏未知验证已知规律性进步模型化先进效方法
    12数挖掘研究现状发展方
    国外已召开次国际性研讨会仅1999年例20国际会议列数挖掘知识发现专题创办电子刊物KnowledgeDiscoveryNugge外国外知名数挖掘系统SAS公司文SimonFraser学DBMinerSPSS公司ClementineSYBASE公司rehousestudiRuleQuestReseareh公司SeesIBM公司Almaden研究中心QUEST等等
    国起步较晚没形成整体力量1993年国家然科学基金首次支持该领域研究项目目前国许科研单位高等院校竞相开展知识发现基础理应研究单位包括清华学中科院计算技术研究空军第三研究海军装备证中心等中北京系统工程研究模糊方法知识发现中应进行较深入研究北京学开展数立方体代数研究华中理工学复旦学浙江学中国科技学中科院数学研究**学等单位开展关联规开采算法优化改造**学四川联合学海交通学等单位探讨研究非结构化数知识发现Web数挖掘
    目前国外数挖掘发展趋势研究方面知识发现方法研究进步发展年注重Bayes(贝叶斯)方法Boosting方法研究提高传统统计学回法KDD中应KDD数库紧密结合应方面包括KDD商业软件工具断产生完善注重建立解决问题整体系统孤立程软件户集中型银行保险公司电信公司销售业数挖掘技术研究成熟应存局限性数挖掘技术需解决问题发展方
    1数输入形式样性
    2数挖掘算法效性测性伸缩性
    3技术集成扩展性
    4数挖掘系统交互性
    5数挖掘中隐私保护信息安全
    6复杂数类型挖掘新方法
    7知识表示解释
    13关联规概述
        关联分析称关联规挖掘市场营销事务分析等领域成功应成数挖掘中重活跃研究容数挖掘核心技术
    关联规挖掘务事务数库D中找出满足户定支持度minsup信度minconf户感兴趣关联规挖掘关联规时解决面两问题
    1算法复杂性目前挖掘关联规算法针问题提出
    2必须产生规集中选择户感兴趣规信度支持度确保挖掘出关联规户感兴趣中包含许冗余意义规支持度信度较高关联规常识性知识称信息制定关联规兴趣度计算标准挖掘出关联规更满足户需求
    通关联规研究发现数库项目间定联系效提高应系统决策支持力市场策略商业营目标设计仓储规划等现实意义
    文介绍关联规挖掘研究应
    2 关联规挖掘
       关联规数挖掘(简称关联规挖掘)量数中挖掘出价值描述数项间相互联系关知识
    21关联规描述
    211基概念
    项目(Item)交易数库中属性字段字段定取值范围超级市场讲项目般指次交易中物品
    交易(Transaction)某客户次交易中发生项目集合
    项目集(Itemset)包含干项目集合
    项目集维数项目集包含项目数称项目集维数项目集长度长度k项目集称作k维项目集
    支持度(SuPPort)假定X项目集D交易集合交易数库称D中包含X交易数D中总交易数XD中支持度X支持度记作suP(X)关联规X→Y支持度记作suP(xUY)
    信度(Confidence)形X→Y关联规中XY项目集定义规信度交易集合D中包含X包含Y交易数D中仅包含X包含Y交易数者说项目集XUY支持度x支持度suP(XUY)sup(X)规X→Y信度记作conf(X→Y)
    支持度(MinimumSuPPort)户定义衡量支持度阂值表示项目集统计意义低重性记作minsuP
    信度(MinimumConfidence)户定义衡量信度阂值表示规低性记作minconf
    频繁项目集(FrequentItemset)项目集x果X支持度户定义支持度阂值sup(X)>minsuP称X频繁项目集项集(LargeItemset)频繁k项集集合记Lk
    非频繁项目集(NotFrequentItemset)项目集x果X支持度户定义支持度闭值suP(X)212关联规分类
    1基规中处理变量类
    分布尔型关联规量化型关联规
    2基规中数抽象层次
    分单层关联规挖掘层关联规挖掘
    3基规中涉数维度
       分单维关联规挖掘维关联规挖掘
    213关联规挖掘程
    关联规挖掘事务数库D中找出满足户定支持度minsup信度minconf求关联规整挖掘程分解两步
    1找出事务数库D中支持度等户指定支持度项目集支持度支持度项目集称频繁项目集某频繁项目集超集支持度支持度阂值称该项目集频繁项目集
    2利频繁项目集生成需关联规频繁项目集A找A非空子集a果率support(A)support(a)>mineonf生成关联规a→(Aa)support(A) support(a)规a→(Aa)信度
    22关联规Apriori算法
    221Apriori算法基思想
    Apriori算法种影响力挖掘单维布尔关联规频繁项集算法逐层搜索迭代算法利频繁(K1)项集生成频繁K项集首先通扫描数集基预先定支持度生成频繁1项集集合L1然基L1数集中数生成频繁2项集集合L2样方法直生成频繁n项集集合Ln(已生成满足支持度(n+1)项集)频繁项集导出关联规
    222关联规算法描述
    输入事务数库D支持度阂值min_suP
    输出D中频繁项集L
    算法描述:
    (1)L1find_frequentes_litemset(D)
    (2)for(k2Lk1Φk++)
    (3) {
    (4)   Ckariorigen(Lk1min_sup)
    (5)   for each transaetions t € D
    (6)   {
    (7)     Ctsubset(Ckt)
    (8)        for each candidate c € Ck
    (9)             ccount++
    (10)   }
    (11)  Lk{c€Ck|ceount>min_suP}
    (12) }
    (13) return LUk Lk
    (14)Procedure apriori_gen(Lk1min_sup)
    (15){
    (16)For each itemset l1 € Lk1
    (17)For eachitemset  l2 € Lk1
    (18)if(l1[1]12[l])and(11[2]12[2])and…(l1[k2]l2[k2])and(l1[k1}<12[k1])
    (19){
    (20)     cl1&l2
    (21)     if has_infrenquen_subset(cLk1)
    (22)       delete c
    (23)     else
    (24)       add c to Cr
    (25) }
    (26)Return Cr
    (27)Proceduce has_infrenquent_subset(cLk1)
    (28) {
    (29)  For each (k1)_subsets of c
    (30)     If s € Lk1
    (31)       Return TURE
    (32)     else
    (33)       Return FALSE
    (34) }
    (35)}
    根面算法描述出APriori算法中两关键步骤候选项目集生成二候选项目集计数
    223例题分析
    例设数库D表2l示D中包含9条事务|D|9支持数mincount2支持度minsuP290222挖掘频繁项目集具体程述
    表21 数库D
    Tid
    itemset
    T100
    abe
    T200
    bd
    T300
    bc
    T400
    abd
    T500
    ac
    T600
    bc
    T700
    ac
    T800
    abce
    T900
    abc
    第步算法第次迭代事务数库进行次扫描计算出包含项目出现次数生成候选1项集集合C1
    第二步设定支持数求C1中确定出频繁1项集L1时项目满足mincount求L1C1相
    第三步产生频繁2项目集执行Apriorigen中第七步生成候选2项目集集合C2然扫描事务数库C2中项目集进行计数
    第四步根mincountC2中确定L2C1中满足mincount求候选项目集放入L2中
    第五步产生频繁3项目集执行Apriorigen中第七步生成候选3项目集集合
    C3{{abc}{abe}{bcd}{bce}{bde}}{bcd}{bce}
    {bde}子集中包含非频繁2项目集根Apriorigen剪枝步骤(第89步)剪掉然扫描事务数库C3中进行计数
    第六步根mincountC3中确定L3C3中满足mincount候选项目集放入L3中
    第七步产生频繁4项目集执行L3&L3生成候选4项目集集合C4{{abce}}{abce}子集中包含非频繁3项目集{bce}剪掉时c4ΦAPriori算法整执行程结束
    找事务数库中频繁项集利频繁项集产生关联规产生关联规步骤
    (1)频繁项目集l产生l非空子集
    (2)L非空子集m果support(l) support(m)>minconf输出规m→(lm)
    例例中产生频繁项目集l{abe}l非空子集{ab}{ae}{be}{a}{b}{e}运述产生关联规方法关联规
    a∧b→e confidenee(29)(49)05
    a∧e→b confidence(29)(29)l
    b∧e→a confidenee(29)(29)1
    a∧b→e confidenee(29)(69)033
    b∧a→e confidence(29)(79)029
    e∧a→b onfidenee(29)(29)l
    分析出许情况APriori算法侯选产生检查方法幅度压缩侯选项集导致性该算法存足处
    1阶段Ck特CZ
    2扫描事务数库次数
    3频繁项长度变情况运算时间显著增加
    4直接关系数库关联规挖掘
    5适海量数环境关联规挖掘
    23基Apriori算法改进方法
    减APriori算法中存问题带影响提高APriori算法执行性许学者基础进行量研究提出改进算法通常APriori基础改进算法称类APriori算法面分种典型改进方法进行介绍:
    1基Hash优化方法
    该算法利散列表(hashtable)产生候选集APriori算法直接改进遍历次数库候选k项目集支持数频繁k项目集DHP算法事务(k+1)项目集通hash规形成散列表散列表栏包括通散列规映射该栏中项目集数目根结果散列表生成位量散列表中应该栏中数字者等支持数时应位置1否O该量滤掉次生成候选时必项目集某候选量中应位值0舍弃候选2项目集产生尤效第二趟减候选集规模
    2基划分优化方法
    该算法先数库逻辑分成互相交块次单独考虑分块生成频繁集然产生频繁项目集合生成频繁项目集计算项目集支持度里分块选择分块放入存阶段需扫描次算法正确性频繁项目集少某分块中频繁项目集保证面讨算法高度行分块分分配某处理器生成频繁项目集产生频繁项目集循环结束处理器间进行通信产生全局候选k项目集
    3基采样优化方法
    4基事务压缩优化方法
    3 结束语
    然数挖掘技术提出目前止十年时间吸引众领域科研员企业理者高度关注作数挖掘重容—关联规更研究热点成数挖掘技术中先成功应企业企业带巨利润技术数挖掘样关联规挖掘目海量数中发现知识提高挖掘效率便研究方
    面目前数挖掘关联规挖掘技术火爆研究热潮广阔市场应前景文做工作沧海粟许问题进步研究例目前研究偏重算法角度进行研究型数库系统高效结合实现实应系统等工作需完善空间数进行高效精确空间关联规挖掘挖掘结果视化表达等等进步研究方
     
    参考文献:
    [1]吴际黄传河基数挖掘入侵检测系统研究计算机工程应2003(4)166168
    [2]邹力鹃王丽珍空间数挖掘发展研究计算机工程应2003(n)186188
    [3]胡军涛武德峰李国辉媒体数挖掘体系结构方法计算机工程
    [4]郭学军等粗集方法数挖掘中应**学学步陡(然科学版)19998276279
    [5]周欣沙锋朱扬勇等兴趣度关联规阂值计算机研究发展2000(05)
    [6]侯兵关联规挖掘算法研究[硕士文]西南交通学20066
    [7]张瑞雪数挖掘中关联规算法研究应[硕士文]**工程学20066
    [8]贾俊杰基关联规数挖掘算法研究[硕士文]西北师范学20056
    [9]李长源关联规挖掘算法研究[硕士文]**工程学20056
    [10]饶天贵杨燕关联规中Apiori算法改进彭丹2006年全国理计算机科学学术年会文集[C]2006
    [注]:摘董春玲老师课讲义具体出处明没标出
    4
     

    文档香网(httpswwwxiangdangnet)户传

    《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
    该内容是文档的文本内容,更好的格式请下载文档

    下载文档到电脑,查找使用更方便

    文档的实际排版效果,会与网站的显示效果略有不同!!

    需要 4 香币 [ 分享文档获得香币 ]

    下载文档

    相关文档

    基于关联规则的数据挖掘毕业设计论文

    XX大学本科生毕业毕业论文题 目:基于关联规则的数据挖掘学生姓名: 学 号:专 业:数学与应用数学班 级:级班指导教师:副教授基于关联规则的数据挖掘摘 要数据挖掘利用...

    2年前   
    1134    0

    文本挖掘算法总结

    文本数据挖掘算法应用小结1、基于概率统计的贝叶斯分类  2、ID3 决策树分类 3、基于粗糙集理论Rough Set的确定型知识挖掘 4、基于k-means聚类 5、无限细分的模糊聚类Fuzz...

    3年前   
    670    0

    实验6FFT算法的应用

    实验6 FFT算法的应用实验目的:加深对离散信号的DFT的理解及其FFT算法的运用。实验原理:N点序列的DFT和IDFT变换定义式如下: , 利用旋转因子具有周期性,可以得到快速算法(FF...

    1年前   
    376    0

    遗传算法在试题组卷中的应用

    遗传算法在试题组卷中的应用遗传算法在试题组卷中的应用 燕山大学研究生部 刘彬 金涛 李阳明 卢纪生摘要: 本文运用遗传算法的全局寻优对考试中的自动化组卷进行了研究,并得到了一个解决适合考方要求...

    11年前   
    594    0

    聚类分析算法对高校学生成绩分析的应用研究

    数据挖掘就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过...

    5年前   
    1609    0

    基于视觉的车道线识别算法研究毕业论文

    毕业设计基于视觉的车道线识别算法研究Research on Algorithms of Vision-basedLane Recognition 2009 届 电气与电子工程 分...

    4年前   
    992    0

    关于无刷电机FOC驱动算法的研究

    近些年来,高新技术产业得到了迅速发展,很多技术产品也随着成产,但是,人们对产品性能的要求也愈加高。无刷直流电机是很多技术产品的核心部分,遍及于交通工具和工业设备等各个高新技术领域,相对于传统的控...

    3年前   
    1417    0

    Bezier和B-样条曲线的算法研究

     毕业论文 题 目: Bezier和B-样条曲线的算法研究 系 别: 数学与计算机科学系 班 级: ...

    5年前   
    1093    0

    大数据处理算法研究与实现

    因为要适应不同的人的上网要求,提供一些企业的一些网络地址,是网上比较重要的一部分、成套动力设备中起主要作用的机器、寄件系统、系统控制在内的完整的网络平台服务。我们有一个自己的平台,现如今数据发展...

    4年前   
    860    0

    色谱技术在关联炼厂原油和油品性能方面的应用

    色谱技术在关联炼厂原油和油品性能方面的应用 李添魁 (玉门油田分公司炼油化工总厂) 摘  要 本文综述了色谱快速检测技术在关联原油、油品性能方面的应用。 主题词  色谱  原油  油品...

    10年前   
    8280    0

    关于外贸企业新版退税管理系统中关联号的录入规则

    关于外贸企业新版退税管理系统中 关联号的录入规则 根据市局的统一部署,本市外贸企业自2004年1月起出口货物的退税申报和审核,将使用总局新版退税管理系统(《外贸企业退税申报系统6.0版...

    12年前   
    5655    0

    广告定量研究与SPSS应用

     广告定量研究与SPSS应用 摘 要: 完整的市场研究分析一般要经过定性——定量——定性三个流程;定性分析可以把握方向,而降低成本和提升效益需要精确的数据分析和挖掘;在竞争日趋激烈的广告市...

    13年前   
    15582    0

    首次适应算法最佳适应算法

    姓名:学号:实验名称:进程调度模拟实验 实验目的:了解动态分区存储管理方式中的数据结构和分配算法,加深对动态分区存储管理方式及其实现技术的理解。实验内容:#include<iostream.h...

    3年前   
    1625    0

    改进的多目标遗传算法在结构优化设计中的应用

    改进的多目标遗传算法在结构优化设计中的应用 关志华 作者简介:关志华(1971-),男,天津大学管理学院99秋季博士,主要研究方向为多目标进化算法及其应用。 (天津大学管理学...

    14年前   
    5684    0

    2PSE在中国石化的研究与应用

    2PSE在中国石化的研究与应用 2PSE在中国石化的研究与应用由我整理,希望给你工作、学习、生活带来方便。 2PSE在中国石化的研究与应用.txt25爱是一盏灯,黑暗中照亮前行的...

    9个月前   
    174    0

    网络学习空间应用研究

    一堂课中,有几个调皮捣蛋的同学不认真听讲、窃窃私语或偷偷玩手机,老师只好先停下来整顿纪律再继续讲课。过一会有同学有个知识点没听懂,举手发言了, 经过老师一番讲解你明白了。有些同学也没听懂,但是在...

    3年前   
    1132    0

    无功自动补偿的应用研究

    科技发展计划课题可行性研究报告 项目名称 无功自动补偿的应用于研究              负责单位 **中能源邯矿集团亨健矿业有限公司   起止年限 2013年1月-2013...

    11年前   
    10274    0

    冷压焊工艺研究及应用

    冷压焊工艺研究及应用   刘星琦 摘要:总结国内外冷压焊技术的发展现状,分析国内外的专利产品和冷压焊接的优点,提出冷压焊在现代焊接成型技术中的应用优势。根据冷压焊接的缺点,改进焊接参数,...

    6年前   
    2714    0

    WBS在项目管理中的应用研究

    WBS在项目管理中的应用研究  摘要:本文主要介绍了项目管理及WBS的概念,并说明了WBS在项目管理中的应用,并且举例进行分析,并结合Project软件得出的分析结果。  关键词:项目管理 W...

    10年前   
    804    0

    砾石骨料应用研究

    砾石骨料应用研究 所谓沥青路面的水损害,是指沥青路面在存在水的条件下,经受交通荷载和温度胀缩的反复作用,水逐步浸入到沥青与集料的界面上,同时由于水的动力作用,沥青膜渐渐地从集料表面剥落,并导...

    9年前   
    7203    0

    文档贡献者

    g***n

    贡献于2019-05-15

    下载需要 4 香币 [香币充值 ]
    亲,您也可以通过 分享原创文档 来获得香币奖励!
    下载文档