1异常值指什请列举1种识连续型变量异常值方法
异常值(Outlier) 指样中值数值明显偏离属样余观测值数理统计里般指组观测值中均值偏差超两倍标准差测定值
常见异常值检验方法:
l 基统计方法
l 基距离方法
l 基密度方法
l 基聚类方法
l 基偏差方法
l 基深度方法
t检验:t分布实际误差分布范围判异常值首先剔疑值然t分布检验剔值否异常值
狄克逊检验法:假设组数序x1
格拉布斯检验法:狄克逊检验法思想样检验公式:
指数分布检验:
SPSSR语言中通绘制箱图找异常值分布箱边框外部
2什聚类分析聚类算法种请选择种详细描述计算原理步骤
聚类分析(cluster analysis)组研究象分相质群组(clusters)统计分析技术聚类分析分类分析(classification analysis)数值分类(numerical taxonomy)聚类分类聚类求划分类未知
聚类分析计算方法:层次方法(hierarchical method)划分方法(partitioning method)基密度方法(densitybased method)基网格方法(gridbased method)基模型方法(modelbased method)等中前两种算法利统计学定义距离进行度量 常见聚类方法:Kpototypes算法KMeans算法CLARANS算法(划分方法)BIRCH算法(层次方法)CURE算法(层次方法)DBSCAN算法(基密度方法)CLIQUE算法(综合基密度基网格算法)
kmeans 算法工作程说明:首先n数象意选择 k 象作初始聚类中心剩象根聚类中心相似度(距离)分分配相似(聚类中心代表)聚类然计算获新聚类聚类中心(该聚类中象均值)断重复程直标准测度函数开始收敛止般采均方差作标准测度函数 k聚类具特点:聚类身紧凑聚类间分开
流程:
(1) n数象意选择 k 象作初始聚类中心
(2)根聚类象均值(中心象)计算象中心象距离根距离重新相应象进行划分
(3)重新计算(变化)聚类均值(中心象)
(4)循环(2)(3)直聚类发生变化止(标准测量函数收敛)
优点:算法确定K 划分达方误差聚类密集类类间区明显时效果较处理数集算法相伸缩高效计算复杂度 O(NKt)中N数象数目K聚类中心t迭代次数
缺点:1 K 事先定非常难选定2 初始聚类中心选择聚类结果较影响
3数标准化技术
数例缩放落入特定区间数单位限制转化量纲纯数值便单位量级指标够进行较加权常方法:
(1)总标准化分求出素应数总素数该素数总
4缺失值处理方法
1) 直接丢弃含缺失数记录
:案剔法种方法局限性减少样量换取信息完备会造成资源量浪费丢弃量隐藏象中信息缺失数占例较特缺数非机分布时种方法导致数发生偏离出错误结
2)补缺
A 均值代缺失数:均值换法均值换法种简便快速缺失数处理方法均值换法插补缺失数该变量均值估计会产生影响种方法建立完全机缺失(MCAR)假设会造成变量方差标准差变
B K 距离邻居法:先根欧式距离相关分析确定距离具缺失数样K样K值加权均估计该样缺失数
C预测模型预测缺失数:该方法限度利已知相关数较流行缺失数处理技术:回换法该方法诸弊端第容易忽视机误差低估标准差未知性质测量值问题会着缺失信息增变更加严重第二研究者必须假设存缺失值变量变量存线性关系时候种关系存
5Apriori算法信息熵
信息熵数学中抽象概念表示信息源确定度里妨信息熵理解成某种特定信息出现概率种信息出现概率更高时候表明传播更广泛者说引程度更高认信息传播角度信息熵表示信息价值
支持度:Support(A>B)P(A U B)支持度揭示AB时出现概率果AB时出现概率说明AB关系果AB时出现非常频繁说明AB总相关
置信度(Confidence)公式式:Confidence(A>B)P(A | B)置信度揭示A出现时B否会出现概率出现果置信度度100AB捆绑销售果置信度太低说明A出现B否出现关系
H(x) E[I(xi)] E[ log(21p(xi)) ] ∑p(xi)log(2p(xi)) (i12n)单位bit
中x表示机变量相应输出集合定义符号集机变量输出x表示P(x)表示输出概率函数变量确定性越熵越搞清楚需信息量越
频繁项集{I1I2I3}例产生强关联规置信度40
(1) 频繁项集{I1I2I3}非空子集{I1I2}{I1I3}{I2I3}{I1}{I2}{I3}
(2) 产生强关联规
{I1I2}>I3 confidencesupport({I1I2I3})support({I1I2})2405
{I1I3}>I2 confidencesupport(I1I2I3)support(I1I3)2405
{I2I3}>I1 confidencesupport(I1I2I3)support(I2I3)2405
I1>{I2I3} confidencesupport(I1I2I3)support(I1)26033
I2>{I1I3} confidencesupport(I1I2I3)support(I2)27029
I3>{I1I2} confidencesupport(I1I2I3)support(I3)26033
强关联规:{I1I2}>I3{I1I3}{I2I3}>I1
3根求写出SQL (没学学中需补)
表A结构:
Member_ID (户ID字符型)
Log_time (户访问页面时间日期型(天数))
URL (访问页面址字符型)
求:提取出户访问第URL(时间早)形成新表(新表名B表结构表A致)
参考答案:
create table B as select Member_ID min(Log_time) URL from A group by Member_ID
5户调研
某公司针ABC三类客户提出种统改进计划提升客户周消费次数需制定事前试验方案支持决策请思考列问题:
a) 试验需决策提供什样信息
c) 述目请写出数抽样方法需采集数指标项选择统计方法
a) 试验证明该改进计划显著提升ABC三类客户周消费次数
b) 根三类客户数量采分层例抽样
需采集数指标项:客户类改进计划前周消费次数改进计划周消费次数
选统计方法:分针ABC三类客户进行改进前周消费次数两独立样T检验
6常见抽样方法?
常六种类型:
简单抽样(Simple sampling)
简单机抽样指保证n样相抽中概率例:抽签法机表法抽取访问象单位名目录中抽取象
优点:
机度高特质较均总体中具高总体代表度简单抽样技术标准简单统计公式
缺点:
未抽样框辅助信息抽取样导致统计效率低抽差样抽出样分布代表总体
系统抽样(Systematic random sampling)
总体中单元先定序排列编号然定规抽样
中常采等距离抽样根总体单位数样单位计算出抽样距离(相间隔)然相距离间隔抽选样单位例:1000电话号码中抽取10访问号码间距100确定起点(起点<间距)100号码抽访问号码
优点:
兼具操作简便性统计推断功目前广泛运种抽样方法
果起点机确定总体中单元排列机等距抽样效果似简单抽样简单抽样相定条件样分布较
缺点:
抽样间隔遇总体中某种未知周期性导致差样未抽样框辅助信息抽取样导致统计效率低
分层抽样(Stratified random sampling)
调查总体分质互交叉层(类型)然层(类型)中独立抽取样例:调查零售店时规模库存额分层然层中简单机方法抽取型零售店干中型干型干调查城市时城市总口工业生产额分出超型城市中型城市型城市等抽出具体类型城市干
优点:
适层间较异质性层体具质性总体提高总体估计精确度样量相情况精度高简单抽样系统抽样保证层代表性避免抽差样时层情况采抽样框抽样方法
缺点:
求高质量分层辅助信息需辅助信息抽样框创建需更费更复杂抽样误差估计简单抽样系统抽样更复杂
整群抽样(Cluster sampling)(层层深入抽样断缩抽样范围)
先调查总体分群然中抽取群抽中群全部单元进行调查例:入户调查块居委会抽样块居委会等域边界群体第抽样单位选出块居委会实施逐户抽样市场调查中级抽样时居委会中抽取干户然调查抽中户家中18岁成年
优点:
适群间差异群体差异外观域差异划分群体
缺点:
群单位趋性精度简单抽样低
前面谈抽样方法基分类特点需注意实际运中调查方案 常常局限某种抽样方式根研究时段采种抽样方法组鸽实现研究目时甚时段综合运种抽样方法
例设计全国城市入户项目抽样分步骤包括:
1)项目正式开始前采判断抽样法选出某城市先作试点问卷设计初期采意抽样法选出部分群进行问卷试访
2)采分层机抽样法确定全国分少超型市少中型
市少型市实施(先分出城市层次研究需层PPS法选取具体城市)
3)采简单抽样法PPS抽样法确定抽出城市中应抽块居委会
4)采整群抽样法确定抽出块居委会应访问家庭户
5)项目期采判断抽样法选取某城市进行深入研究
8置信度置信区间
P(x1
置信度越置信区间越窄
9ROC曲线含义
ROC曲线指受试者工作特征曲线(receiver operating characteristic curve) 反映敏感性特异性连续变量综合指标构图法揭示敏感性特异性相互关系通连续变量设定出界值计算出系列敏感性特异性敏感性坐标(1特异性)横坐标绘制成曲线曲线面积越诊断准确性越高ROC曲线坐标图左方点敏感性特异性均较高界值
10数挖掘步骤
① 理解数数源(understanding)
② 获取相关知识技术(acquisition)
③ 整合检查数(integration and checking)
④ 错误致数(data cleaning)
⑤ 建立模型假设(model and hypothesis development)
⑥ 实际数挖掘工作(data mining)
⑦ 测试验证挖掘结果(testing and verfication)
⑧ 解释应(interpretation and use)
11评估促销活动?
11 Bayes公式(全概率公式)
探索已知结果情况种原引起概率
12 逻辑回(分类问题)
逻辑回适合求解问题:逻辑回质解决分类问题Logistic回途:
· 寻找危险素:寻找某疾病危险素等
· 预测:根模型预测变量情况发生某病某种情况概率
· 判:实际预测类似根模型判断某属某病属某种情况概率性属某病
11 线性回
线性回(元元)中误差假设假定服均值0方差定值正态分布拟合系数求解方法二法梯度降法等关残差假设:零均值方差正态性相关样机
回分析变量连续性变量方差分析变量离散型分类变量
广义线性回线性回区机误差分布定正态分布非线性模型区非线性回明确机误差分布假定
12 拟合现象避免方法
谓拟合问题:拟合反映学训练中模型训练样达非常高逼精度 够样完全正确分类构造精细复杂规严格样数稍文档全认属类测试数显示出差效果
产生拟合:
1样数存隐单元表示唯产生分类决策面唯
2权值学迭代次数足够(Overtraining)拟合训练数中噪声训练样例中没代表性特征
度拟合解决方法:
1权值衰减
次迭代程中某子降低权值 方法动机保持权值较避免weight decay学程着复杂决策面反方偏
2 减少特征数量工选择者采模型选择算法
3验证数
成功方法训练数外算法提供套验证数应该验证集合产生误差迭代次数总明显确定验证集合时达误差
4Crossvalidation with some patterns
交叉验证方法获额外数提供验证集合时工作训练集合度拟合问题更严重
kfold交叉方法
训练样例分成k份然进行k次交叉验证程次份作验证集合余k1份合作训练集合样例会次实验中作验证样例k1次实验中作训练样例
5正化方法
正化结构风险化策略实现验风险加正化项惩罚项正化项般模型复杂度单调递增函数模型越复杂正化项越正化方法作:保留特征减参数取值
13 监督学非监督学
监督学:具概念标记(分类)训练样进行学训练样集外数进行标记(分类)预测里标记(分类)已知训练样岐义性低分类回算法监督算法常见算法:SVMKNN决策树算法朴素Bayes算法神网络方拟合熵等
监督学:没概念标记(分类)训练样进行学发现训练样集中结构性知识里标记(分类)未知训练样岐义性高聚类典型监督学常见监督学算法:聚类PCA关联规算法ApriorFPGrowth等
14分位数3原
3原:区间概率密度曲线面积占总面积997标准正态分布
15常见分布密度函数均值方差
16 常见区间估计假设检验表
均值检验方差已知般采U检验(标准正太分布)方差未知采T检验(t分布)
关方差检验般采卡方检验两正太总体采F检验
17假设检验
P值(P value)概率原假设真时样观察结果更极端结果出现率果P值说明原假设发生概率理拒绝原假设P值越拒绝原假设理越充分总P值越表明结果越显著般P < 005 显著 P<001 非常显著
Sig值显著性指标般005拒绝原假设否接受原假设般005表示差异显著005表示差异显著001表示差异极显著
a第类错误原假设真时拒绝原假设(弃真)
b第二类错误原假设错误时接受原假设(取误)
c1b检验功效原假设错误拒绝原假设
第类错误第二类错误互相矛盾检验功效越越犯第二类错误概率竟
18数分析基流程
文档香网(httpswwwxiangdangnet)户传
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档