基于关联规则的数据挖掘毕业设计论文

XX学
科生毕业毕业文

题目：基关联规数挖掘
学生姓名：
学号：
专业：数学应数学
班级：级班
指导教师：副教授

基关联规数挖掘

摘

数挖掘利统计学抽样估计假设检验工智模式识机器学搜索算法建模技术学理等领域思想数挖掘种具固定形式数集完成知识提炼合适知识模式进步分析决策工作
数挖掘发现知识模型中关联规模式非常重种活跃分支关联规表示数库中组象间某种关联关系规
文通Apriori算法收集历年全国区城镇居民食品消费情况进行数挖掘通数挖掘找频繁项集关联规关联规进行相关分析出分析结果应实际中

关键字：数挖掘关联规Apriori算法食品消费分析

Data mining based on association rules

Abstract

Using the statistical data mining the sampling estimation and hypothesis testing and artificial intelligence pattern recognition and machine learning search algorithm modeling technology and learning theory and other areas of thought Data mining in this has fixed forms of datasets finally complete knowledge refining in the proper knowledge model for further analysis and decision work
In the knowledge models that data mining has found association rules mode is a very important kind it is also a branch of the most activities Association rules is the relationship between some of the rules in a group of objects in the database
Through Apriori algorithm in this paper will collect of calendar year the national regions to urban residents food consumption data mining By data mining to find frequent Itemset and get association rules Correlation analysis by association rules and will the results of analysis in the practical application

Key words：Data Mining Association rules Apriori algorithmFood consumption analysis朗读
显示应拉丁字符拼音

字典
1 名词
1 summary
2 abstract

目录
摘 I
ABSTRACT II
目录 II
第章引言 1
11 研究背景 1
111 数挖掘传统分析方法区 3
12 数挖掘问题 3
121数挖掘技术户界面问题 3
122 挖掘类型知识问题 3
123 抽象层交互知识挖掘问题 3
124 数挖掘结果表示显示问题 3
125处理噪音完全数 3
126 模式评估——兴趣度问题 4
127 性问题 4
128 数挖掘算法效性规模性 4
129 行分布增量挖掘算法 4
13 数挖掘研究方 4
14拟解决问题 5
15 章结 6
第二章数挖掘概念技术 7
21数挖掘务 7
211 数挖掘职 7
22 数挖掘象 8
23 数挖掘知识模型 9
24 数挖掘技术 9
241 数挖掘方法 9
242 数挖掘步骤 11
第三章关联规 13
31 购物篮分析关联规 13
32 关联规相关概念 13
321 关联规概念 13
322 支持度置信度 14
33 关联规挖掘程分类 15
331 关联规挖掘程 15
332 关联规分类 15
34 关联规相关算法 16
341 Apriori算法 16
342 基划分算法 16
343 FP树频集算法 17
第四章 APRIORI算法 18
41 Apriori算法定义思想 18
411 Apriori算法基思想 18
42 Apriori算法性质 18
43 Apriori 算法步骤 18
44 Apriori算法特点局限性 19
45 Apriori算法评价 20
第五章应APRIORI算法实例分析 21
51 研究说明 21
52 研究方法 21
521 数采集 21
522 数处理 21
523 应算法进行数挖掘 23
524 结果分析 26
参考文献 27
附录 28
致谢 32

第章引言
数挖掘（Data MiningDM）称数库中知识发现（Knowledge Discover in DatabaseKDD）目前工智数库领域研究热点问题谓数挖掘指数库量数中揭示出隐含先前未知潜价值信息非程
数挖掘种决策支持程基工智机器学模式识统计学数库视化技术等高度动化分析企业数做出纳性推理中挖掘出潜模式帮助决策者调整市场策略减少风险做出正确决策
11 研究背景
2000年数挖掘引起信息产业界极关注原存量数广泛迫切需数转换成信息知识获取信息知识广泛种应包括商务理生产控制市场分析工程设计科学探索等
数挖掘利统计学抽样估计假设检验工智模式识机器学搜索算法建模技术学理等领域思想数挖掘吸纳领域思想包括优化进化计算信息信号处理视化信息检索中领域数挖掘中起重支撑作特需数库系统提供效存储索引查询处理支持
广义说数库中挖掘信息程做数挖掘点数挖掘BI（商业智）技术术语说数挖掘(Data Mining)特指：源数清洗转换等成适合挖掘数集数挖掘种具固定形式数集完成知识提炼合适知识模式进步分析决策工作种狭义观点定义：数挖掘特定形式数集中提炼知识程数挖掘针特定数特定问题选择种者种挖掘算法找数面隐藏规律规律预测支持决策
60 年代数库信息技术已系统原始文件处理进化复杂功强数库系统70年代数库系统研究开发已层次网状数库发展开发关系数库系统数建模工具索引数组织技术
80 年代中期数库技术特点广泛接受关系技术研究开发新功强数库系统先进数模型扩充关系面象象关系演绎模型

图11 数库技术进化

111 数挖掘传统分析方法区
数挖掘传统数分析（查询报表联机应分析）质区数挖掘没明确假设前提挖掘信息发现知识数挖掘信息应具先未知效实三特征
先前未知信息指该信息预先未预料数挖掘发现直觉发现信息知识甚违背直觉信息知识挖掘出信息越出意料越价值商业应中典型例子家连锁超市通数挖掘发现孩尿布啤酒间联系[1]
12 数挖掘问题
强调数挖掘问题考虑挖掘技术户界面性种数类型问题介绍：
121数挖掘技术户界面问题
反映挖掘知识类型粒度挖掘知识力领域知识特定挖掘知识显示
122 挖掘类型知识问题
户类型知识感兴趣数挖掘系统应覆盖广谱数分析知识发现务包括数特征区分关联聚类趋势偏差分析类似性分析务方式相数库需开发量数挖掘技术
123 抽象层交互知识挖掘问题
难准确知道够数库中发现什数挖掘程应交互
124 数挖掘结果表示显示问题
发现知识应高级语言视化表示形式表示形式表示知识易理解够直接果数挖掘系统交互点尤重求系统采表达力知识表示技术树表图图表交叉表矩阵曲线
125处理噪音完全数
存放数库中数反映噪音例外情况完全数象象搞乱分析程导致数构造知识模型分适应结果发现模式精确性差
126 模式评估——兴趣度问题
数挖掘系统发现数千计模式定户许模式趣表示知识缺乏新颖性
127 性问题
包括数挖掘算法效性规模性行处理
128 数挖掘算法效性规模性
效数库中量数提取信息数挖掘算法必须效规模化
129 行分布增量挖掘算法
许数库容量数广泛分布数挖掘算法计算复杂性促开发行分布式数挖掘算法素算法数划分成部分部分行处理然合部分结果
13 数挖掘研究方
1) 数输入形式样性
应中常需半结构化非结构化数形式文图形数学公式图WWW 资源进行挖掘操作目前数挖掘工具般提供数值型结构化数处理数中存缺损噪声情况没效方法
2) 数挖掘算法效性测性
数挖掘象更型数库更高维数属性间更复杂关系方发展更记录属性意味着更更高维搜索空间导致组合爆炸属性间关系变更复杂表现层次结构会提高知识搜索代价1型数库中抽取知识算法必须高效测量数挖掘算法运行时间必须预测接受指数项式算法等复杂性算法具实价值目前研究发展行处理抽样方法处理规模数获较高计算效率根问题定义领域知识选择出需属性降低维数效处理属性间复杂关系等
3) 户参领域知识
效决策程需次交互次反复数挖掘结果准确描述数挖掘求易表达实现抽象层次交互挖掘知识目前许知识发现系统工具缺乏户交互难效利领域知识
4) 证实技术局限
数挖掘特定分析方法逻辑形式发现知识纳方法系统法交互证实发现知识正确正确程度发现知识没普遍性成知识
5) 知识表达解释机制
许应中重户够理解发现知识求知识表达仅限数字符号更易理解方式图形然语言视化技术等时数挖掘系统提供更解释机制户更效评价知识区分出真正知识常识性知识异常情况
6) 知识维护更新
新知识发现导致前发现知识失效知识需动态维护时更新目前研究采增量更新方法数快时间戳等方法维护已知识
7) 私性安全性
数挖掘角度抽象层次观察数影响数挖掘私性安全性通研究数挖掘导致数非法侵入改进数库安全方法避免信息泄露
8) 支持局限系统集成
目前数挖掘系统尚支持种台产品基PC 面型机系统面客户机ö服务器环境外方法功单发现系统适应范围限制充分发挥系统作应该数库知识库专家系统决策支持系统视化工具网络技术等进行机集成[56]
14拟解决问题
通调查9类食品历年20002009年（2004年外）区均食物消费情况清楚知道区民饮食惯数进行数挖掘相应关联规关联规建立相应食品供机制提供合理饮食建议日常饮食中吃更健康
文通采集数进行数挖掘运apriori算法进行相关挖掘关联规应实际
15 章结
章介绍数挖掘技术研究意义技术背景数挖掘问题文选题数挖掘研究方做文容等社会正处信息爆炸年代样众序纷乱复杂信息中信息需定信息处理力数挖掘样环境中完善发展数挖掘技术融合许学科新研究成果技术形成具特色研究分支进行数挖掘项目极丰富进行数挖掘方法种文全国区历年9类食品消费情况进行数挖掘出相应分析

第二章数挖掘概念技术
数挖掘(Data Mining)：存放数库数仓库信息库中量数中获取效新颖潜终理解模式非程
数挖掘涉学科技术集成包括数库技术统计机器学高性计算模式识神网络数视化信息提取图信号处理空间数分析
简单说数挖掘量数中提取挖掘知识该术语实际点词注意矿石砂子挖掘黄金称作黄金挖掘砂石挖掘样数挖掘应更正确命名数中挖掘知识知识挖掘短术语强调量数中挖掘毕竟挖掘生动术语抓住量未加工材料中发现少量金块程特点（图 21）
通数挖掘数库提取趣知识规律高层信息角度观察浏览发现知识决策程控制信息理查询处理等等数挖掘信息产业界认数库系统重前信息产业前途交叉学科
21数挖掘务
通常数挖掘务分预测描述两类
预测务根知属性值推断特定未知属性值预测属性般称目标变量做预测属性称说明变量预测分针离散目标变量分类务针连续目标变量回务
描述务刻画数库中数般特性目标简洁概方式导出概括数中潜联系模式描述务发现模式：概念描述(特征化较)关联规聚类异常等
211 数挖掘职
数挖掘做七种事情（分析方法）
分类（Classification）
估值（Estimation）
预言（Prediction）
相关性分组关联规（Affinity grouping or association rules）
　　聚集（Clustering）
　　描述视化（Description and Visualization）
　　复杂数类型挖掘(Text Web 图形图视频音频等)
七种数挖掘分析方法分两类：直接数挖掘间接数挖掘
1）直接数挖掘
目标利数建立模型模型剩余数特定变量（理解成数库中表属性列）进行描述
2）间接数挖掘
目标中没选出某具体变量模型进行描述变量中建立起某种关系
分类估值预言属直接数挖掘三种属间接数挖掘
数挖掘范围非常广泛社会科学济学商业数科学处理产生数卫星观测数数结构相层次网状关系面象数
22 数挖掘象
数挖掘数库工智数理统计视化四支柱技术基础学科交叉渗透融合形成新交叉学科研究容十分广泛目前存数挖掘方法算法必方法进行分门类描述说明算法涉三部分：输入输出处理程数挖掘算法输入数库算法输出发现知识模式算法处理程涉具体搜索方法算法输入输出处理程三角度确定样种分类标准：挖掘象挖掘方法挖掘务
根挖掘象分干种数库数源关系数库面象数库空间数库时态数库文数库媒体数库异质数库历史数库万维网(Web)
根挖掘方法分粗分统计方法机器学方法神网络方法数库方法统计方法细分回分析判分析聚类分析探索性分析等机器学细分纳学方法基范例学遗传算法等神网络方法细分前神网络组织神网络等数库方法维数分析OLAP方法外面属性纳方法
23 数挖掘知识模型
根挖掘务分数挖掘发现五类知识
1广义型知识根数微观特性发现表征带普遍性较高层次概念中观宏观知识
2分类型知识反映类事物性质特征型知识事物间差异性特征知识反映数汇聚模式根象属性区分属类
3关联型知识反映事件事件间赖关联知识称赖关系类知识数库中化查询优化等
4预测型知识通时间序列型数历史前数预测未情况实际种时间关键属性关联知识
5偏差型知识通分析标准类外特例数聚类外离群值实际观测值系统预测值间显著差差异极端特例进行描述
24 数挖掘技术
241 数挖掘方法
角度数挖掘技术种分类方法根发现知识种类分类根挖掘数库类型分类根挖掘方法分类根挖掘途径分类根采技术分类等等目前常数挖掘技术容包括
1) 决策树方法
利信息中互信息(信息增益) 寻找数库中具信息量字段建立决策树结点根字段取值建立树分支分支子集中重复建立树层结点分支程建立决策树国际影响早决策树算法Quiulan 研制ID3 方法数库越效果越发展种决策树方法 IBL E 方法识率提高10
2) 神网络方法
模拟脑神元结构 MP模型Hebb 学规基础神网络连接权值表示知识学体现神网络权值逐步计算目前3 类种神网络模型①前馈式网络感知机反传播模型函数型网络代表预测模式识等方面②反馈式网络Hopf ield 离散模型连续模型代表分联想记忆优化计算③组织网络ART模型Koholon模型代表聚类
3) 覆盖正例排斥反例方法
利覆盖正例排斥反例思想寻找规首先正例集合中选种子反例集合中逐较字段取值构成选择子相容舍相反保留思想循环正例种子正例规(选择子合取式)较典型算法M ichalsk i AQ 11 方法洪家荣改进AQ 15 方法A E5 方法
4) 粗集(Rough Set) 方法
数库中行元素成象列元素成属性(分条件属性决策属性)等价关系R 定义象某() 属性取值相满足等价关系象组成集合称该等价关系R 等价类条件属性等价类E 决策属性等价类Y 间3 种情况似 Y 包含E 似 Y E 交非空关 Y E 交空似建立确定性规似建立确定性规(含信度) 关情况存规
5) 概念树方法
数库中记录属性字段类方式进行抽象建立起层次结构称概念树利概念树提升方法浓缩数库中记录属性字段概念树进行提升高度概括知识基表然转换成规
6) 遗传算法
模拟生物进化程算法 3 基算子组成 ①繁殖(选择)1旧种群(父代) 选出生命力强体产生新种群(代) 程②交叉(重组)选择2 体(染色体) 部分(基) 进行交换形成新体③变异(突变)某体某基进行变异(1 变0 0 变1)种遗传算法起产生优良代作代需满足适应度值干代遗传满足求代(问题解)遗传算法已优化计算分类机器学方面显示明显优势
7) 公式发现
工程科学数库(实验数组成) 中干数项(变量) 进行定数学运算求相应数学公式较典型BACON 发现系统完成物理学中量定律重新发现
基思想数项进行初等数学运算(加减等) 形成组合数项值常数项组合数项等常数公式
8) 统计分析方法
数库字段项间存两种关系函数关系(函数公式表示确定性关系) 相关关系(函数公式表示相关确定关系)分析采方法回分析相关分析成分分析
9) 模糊集方法
利模糊集理实际问题进行模糊评判模糊决策模糊模式识模糊聚类分析模糊性客观存系统复杂性越高精确化力越低模糊性越强Zadeh 总结出互克性原理
10) 视化技术
视化数分析技术拓宽传统图表功户数剖析更清楚例数库中维数变成种图形揭示数状况质规律性起作
242 数挖掘步骤
数挖掘视数库中知识发现程基步骤知识发现程步骤组成：
1数清理（消噪音致数）
2数集成（种数源组合起）
3数选择（数库中提取分析务相关数）
4数变换（数变换统成适合挖掘形式通汇总聚集操作）
5数挖掘（基步骤智方法提取数模式）
6模式评估（根某种兴趣度度量识提供知识真正趣模式）
7知识表示（视化知识表示技术户提供挖掘知识）
数挖掘步骤户知识库交互趣模式提供户作新知识存放知识库中注意根种观点数挖掘整程中步重步发现隐藏模式

第三章关联规
31 购物篮分析关联规
作超市名销售理应该想知道消费者购物心里消费者购物时想买物品买件商品时会商品会买种商品种商品会消费者频繁购买？例家超市中发现特趣现象：尿布啤酒两种风马牛相商品居然摆起奇怪举措居然尿布啤酒销量幅增加笑话直商家津津乐道发生美国沃尔玛连锁超市真实案例
原美国妇女通常家顾孩子常会嘱咐丈夫班回家路孩子买尿布丈夫买尿布时会手购买爱喝啤酒发砚商家带量利润浩烟海杂乱章数中发现啤酒尿布销售间联系呢？什样启示呢？[3]
啤酒尿布两没联系两种商品放起获丰厚利润种现象卖场中商品直接关联性研究啤酒尿布关联方法购物篮分析
32 关联规相关概念
数挖掘发现知识模型中关联规模式非常重种活跃分支关联规表示数库中组象间某种关联关系规
关联规挖掘指发现量数中项集间趣关联相关联系关联规问题RAgrawal等1993年提出引起广泛关注许研究者关联规挖掘问题进行深入研究初关联规挖掘算法进行改进扩展时关联规挖掘应许领域数库取良挖掘效果
321 关联规概念
设I{… }项集合设务相关数D数库事务集合中事务T项集合TI事务标识符称作TID设A项集事务T包含A仅A I关联规形A B蕴涵式中A IB IA∩Bφ
322 支持度置信度
规支持度置信度两规兴趣度量值分表示发现规性确定性规AB事务集D中出现具支持度s中sD中事务包含A∪B(AB二者)百分概率P(A∪B)规A B事务集D中具置信度c果D中包含A事务时包含B百分c条件概率P(B|A)：
support(AB)P(A∪B) （31）
：关联模式支持度模式真务相关元组（事务）占百分关联规 AB（中AB项目集合）支持度定义：

confidence(AB)P(B|A) （32）
：发现模式应表示效性值信赖性确定性度量关联规AB（中AB项目集合）确定性度量置信度定义：

时满足支持度阈值（min_sup）置信度阈值（min_conf）规称作强规0100间值01间值表示支持度置信度
挖掘效关联规必须定支持度(min_sup)置信度(min_conf)关联规挖掘问题D中求解支持度置信度均分超min_supmin_conf关联规求解满足support(AB)>min_supconfidence(AB)>min_conf规AB时满足支持度阈值(min_sup)置信度阈值(min_conf)规称强规[7]
项集合称项集包含k项项集称k项集

33 关联规挖掘程分类
331 关联规挖掘程
关联规挖掘两步程：
1）找出频繁项集：根定义项集出现频繁性少预定义支持度计数样
2）频繁项集产生强关联规：根定义规必须满足支持度置信度
关联规第阶段必须原始资料集合中找出高频项目组（Large Itemsets）第二阶段产生关联规（Association Rules）高频项目组产生关联规利前步骤频繁k项集产生规置信度（Minimum Confidence）条件规求置信度满足置信度称规关联规[4]
332 关联规分类
情况关联规进行分类：
1基规中处理变量类关联规分布尔型数值型
布尔型关联规处理值离散种类化显示变量间关系数值型关联规维关联层关联规结合起数值型字段进行处理进行动态分割者直接原始数进行处理然数值型关联规中包含种类变量
2基规中数抽象层次分单层关联规层关联规
单层关联规中变量没考虑现实数具层次层关联规中数层性已进行充分考虑
3基规中涉数维数关联规分单维维
单维关联规中涉数维户购买物品维关联规中处理数会涉维换成句话单维关联规处理单属性中关系维关联规处理属性间某关系例：啤酒>尿布条规涉户购买物品性女>职业秘书条规涉两字段信息两维条关联规
34 关联规相关算法
341 Apriori算法
Apriori算法：候选项集找频繁项集
Apriori算法种影响挖掘布尔关联规频繁项集算法核心基两阶段频集思想递推算法该关联规分类属单维单层布尔关联规
里支持度支持度项集称频繁项集简称频集
Apriori算法基思想：
1找出频集项集出现频繁性少预定义支持度样
2频繁项集产生强关联规规必须满足支持度信度
3第步找频集产生期规产生包含集合项规中条规右部项里采中规定义旦规生成户定信度规留生成频集递推方法
产生量候选集需重复扫描数库Apriori算法两缺点
342 基划分算法
基划分算法Savasere等设计算法先数库逻辑分成互相交块次单独考虑分块生成频集然产生频集合生成频集计算项集支持度里分块选择分块放入存阶段需扫描次该算法高度行分块分分配某处理器生成频集算法正确性频集少某分块中保证频繁项集产生频集循环结束处理器间进行通信产生全局候选k项集通常里通信程算法执行时间瓶颈方面独立处理器生成频集时间瓶颈
343 FP树频集算法
针Apriori算法固缺陷J Han等提出产生候选挖掘频繁项集方法：FP树频集算法采分治策略第遍扫描数库中频集压缩进棵频繁模式树（FPtree）时然保留中关联信息FPtree分化成条件库库长度1频集相关然条件库分进行挖掘原始数量时候结合划分方法FPtree放入存中实验表明FPtree长度规适应性时效率较Apriori算法巨提高
文应Apriori算法文中实例进行分析研究

第四章 Apriori算法
41 Apriori算法定义思想
Apriori 算法种影响挖掘布尔关联规频繁项集算法算法名字基样事实：算法频繁项集性质先验知识正Apriori 种称作逐层搜索迭代方法k项集探索(k+1)项集
411 Apriori算法基思想
(1) 首先通扫描数集产生候选数项集计算候选数项发生次数然基预先定支持度生成频繁1项集集合该集合记作L1
(2) 然基L1 数集中数产生频繁2项集L2
(3) 样方法直生成频繁n项集Ln 中已生成满足支持度( N + 1)项集
(4) 数项集中导出规
提高频繁项集逐层产生效率种称作 Apriori 性质重性质压缩搜索空间
42 Apriori算法性质
提高层搜索产生相应频繁项集处理效率Apriori 算法利重性质帮助效缩频繁项集搜索空间
Apriori 性质：频繁项集中子集应频繁项集
Apriori 性质根观察出结根定义：项集 I 满足支持度阈值s该项集 I 频繁项集P(I)< s增加项A 项集 I 中获新项集 I∪A整交易数库出现次数原项集 I 出现次数 I∪A 频繁P( I∪A) < s
根逆反公理：集合通测试该集合超集通样测试容易确定Apriori 算法正确
43 Apriori 算法步骤
第步初始化数库根条件初始化数库扫描事务数库中找出项集长度k 1项集支持度s形成频繁1项集Lk
第二步根频繁k项集产生候选(k十1)项候选项集Ck+1果Ck+1≠进入步否循环结束
第三步扫描数库确定候选项集支持度
第四步删候选项中支持度s候选项形成(k+1)频繁项集Lk+1
第五步k k+1转入第二步
Apriori算法第步发现频繁1项集L1 第二第五步利Lk1产生Ck便获Lk程产生相应候选项集然利Apriori算法性质删子集非频繁项集候选项集旦产生候选扫描数库求出候选项集支持度(算法中第三步)终满足支持度候选项集组成频繁项集Lk+1样利该程帮助获频繁项集中生成关联规
Apriori程完成两操作连接二剪枝操作正面介绍连接程中LkLk连接产生潜候选项集(算法中第二步)剪枝程中(算法中第四步)利Apriori性质删候选项集中子集非频繁项集项集
44 Apriori算法特点局限性
Apriori 算法利候选项集频繁项集相互作全部频集通候选项集进行剪枝减少候选项集尺寸获令满意结果然面挖掘象具繁频繁模式者户定支持度较低时Apriori 算法然两方面巨开销面困境：
(1) 处理候选项集方面果算法量频繁1项集产生候选项集时会遇量候选项集难处理情况量候选项集产生情况Apriori 算法基法运行
(2)Apriori 算法采模式匹配方式检测量候选项集特挖掘长模式时数库重复扫描非常量时间消耗存数库中数交换[8]

45 Apriori算法评价
许情况Apriori算法候选产生检查方法幅度压缩候选项集导致性然两种开销非微足道[9]
(1) 产生量候选项集例果104频繁1项集需产107 频繁2 项集累计检查频繁性发现长度100频繁模式{ a1 a2 … a100}需产生达约1030候选
(2) 需重复扫描数库通模式匹配检查候选集合提高Apriori 算法效率已提出许Apriori 算法变形
(3) 法稀信息进行分析频繁集参数min_sup法min_sup事件进行分析果min_sup设成低值算法效率成难处理问题

第五章应Apriori算法实例分析
居民饮食方面合理设置生活质量起重作合理饮食惯身体健康生活质量定提高
51 研究说明
通20002009年（2004年外）全国区城镇居民淀粉薯类豆制品油脂类肉禽制品水产品类菜类干鲜瓜果类奶奶制品9类食品消费情况区城镇居民历年均收入均消费性支出进行统计进行系列处理进行相关数挖掘关联规分析
中国国家统计局组织实施全国省治区直辖市国民济核算制度全国投入产出调查建立信息数库通统计数解相应信息类型数结合起获意义会更文采收集9类食品相关数进行数挖掘关联规
食品消费相关性分析更加明确居民食品购物方面联系政府商家提供相关销售意见
52 研究方法
首先采集相关数信息次数进行处理布尔数库第三应Apriori算法布尔数库进行数挖掘关联规结果进行相关分析
521 数采集
中国国家统计局公布20002009年统计年鉴中筛选出：淀粉薯类豆制品油脂类肉禽制品水产品类菜类干鲜瓜果类奶奶制品9类食品消费情况区城镇居民历年均收入均消费性支出中包括20002009年（2004年外）9年间31省市治区情况31省市治区9年间9类食品279*9数
522 数处理
首先九种食品消费支出全年消费性支出值全年消费性支出均收入值数值[01]间数
次面数值进行分区9类食品消费性支出值等分3区间全年消费性支出均收入值等分4区间应Excel处理值落应区间1外区间0新数库
开数文件Excel表格右边空白出N2中输入c2d2

N2中消费性支出工资例鼠标放时N2黑色框右角鼠标十字形时拖拽C列D列行值E列E列C列值结果重新存储新表格中例数：

开例数表格样右边空白处（N2）输入IF(AND(C2<033)10)

样方法拖拽符合033数值输出：1符合输出：0新列中输入IF(AND(C2>033C2<048)10)表示落[033048]区间数值输出：1区间数值：0结果存储新数表格：

523 应算法进行数挖掘
应MATLAB软件进行数挖掘
通FileImport Data生成布尔数库导入MATLAB中

导入MATLAB中Data文件重命名X

MATLAB中新建4M文件：association_rulesmsubsetmsetsubminm中association_rulesm程序
command window窗口中分输入：

频繁2项集：

频繁3项集：

频繁4项集：

频繁5项集：

524 结果分析
通应Apriori算法历年区城镇居民9种食品消费进行数挖掘高频繁项：
9 12 24 27 30
频繁项：9豆制品例[0003300066]范围
12油脂类例[00090018]范围
24菜类例[00340047]范围
27干鲜瓜果类例[00250034]范围
30奶奶制品例[001002]范围
结果知道豆制品油脂类菜类干鲜瓜果类奶奶制品城镇居民日常消费食品
5类食品中出购买食物程中会考虑食物搭配问题例：油脂类油脂类点心煎炸馅饼油炸食品油炸食品等高热量高脂肪油腻食品干鲜瓜果类包括：山楂西瓜苹果香蕉等干鲜水果油脂类购买范围[00090018]间日常消费重中占例相较低干鲜瓜果类[00250034]日常消费重中占例5类食品中高说明：着生活质量提高餐桌变丰富食品方面消费观改变开始注重营养均衡饮食样性
参考文献
1杨会志数挖掘技术商业定义研究象[J]河北科技学学报2000年第21卷第3期总第54期
2MM 盖伯科学数挖掘知识发现（原基础）[J]国外科技新书评介2010年第6期（总第278期）
3高勇著啤酒尿布神奇购物篮分析[M] 清华学出版社2008
4刘辉胡治数挖掘技术研究应[J]华东理工学学报(然科学版)2008年4月34(2)：290295
5Park J S Ashok Savasere An Effective Hashbased Algorithm for Mining Association Ules [A] In Heraklion·Proceedings of the ACM SIGMOD [C] Greece Ctete Press 1995175186
6Han J Mining Knowledge at Multiple Concept Levels [A] In Proceedings of the 4th International Conference on Information and Knowledge Management (CIKM ’95) [C] Maryland Baltimore Press 19951924
7 潘东静基关联规数挖掘研究[J] 枣庄师专学报200110（5）
8王雪岩关联规挖掘算法研究[D] 哈尔滨工程学硕士文2006
9陆丽娜陈亚萍魏恒义等挖掘关联规中Apriori算法研究[J] 型微型计算机系统 2000 21 (9) ：940943

附录
附录A：MATLAB程序：association_rulesm

子程序1：subsetm

子程序2：setsubm

子程序3：inm

致谢
四年读书生活季节划句号生逗号面次征程开始四年求学生涯师长亲友力支持走辛苦收获满囊文付梓际思绪万千心情久久静伟名崇拜更急切敬意赞美献位导师王培吉老师您出色学生您尊敬老师您治学严谨学识渊博思想深邃视野雄阔营造种良精神氛围授鱼授渔置身间耳濡目染潜移默化仅接受全新思想观念树立宏伟学术目标领会基思考方式文题目选定文写作指导您悉心点拨思考领悟常常山重水复疑路柳暗花明村
感谢爸爸妈妈焉谖草言树背养育恩回报永远健康快乐心愿文完成际心情法静开始进入课题文利完成少敬师长学朋友言帮助里请接受诚挚谢意
时感谢学院提供良做毕业文环境
次感谢毕业文中帮助良师益友学文中引参考著作者
文档香网(httpswwwxiangdangnet)户传

《香当网》用户分享的内容，不代表《香当网》观点或立场，请自行判断内容的真实性和可靠性！
该内容是文档的文本内容，更好的格式请下载文档

基于关联规则的数据挖掘毕业设计论文

相关文档

关联规则挖掘算法研究与应用

2018年基于USB的实时数据采集系统设计-毕业设计开题报告

毕业设计（论文）基于PLC的停车场车位控制系统设计

基于FPGA的电梯控制系统设计毕业设计论文

基于PLC控制全自动洗衣机毕业设计论文

基于单片机的鱼缸控制器设计毕业设计论文

毕业设计论文基于PLC的停车场车位控制系统设计

数据挖掘工程师的工作职责

数据挖掘工程师的职责内容

基于Action的数据分析大数据平台

创建OLAP实例（数据仓库与数据挖掘）

通信工程基于FPGA的图像数据处理FIFO核设计论文

毕业设计论文：

基于LabVIEW的数据采集系统设计

基于51单片机的俄罗斯方块游戏毕业设计论文

基于ARM的超声波测距模块开发毕业设计（论文）

基于Android的中国象棋毕业设计

基于安卓系统的点餐系统毕业设计

基于单片机智能小车毕业设计

《大数据的分析》论文

文档贡献者

该用户的其他文档

相关PPT

相关PDF