数据分析岗位笔试题目总结


    阿里巴巴
    1异常值指什请列举1种识连续型变量异常值方法
    异常值(Outlier) 指样中值数值明显偏离属样余观测值数理统计里般指组观测值中均值偏差超两倍标准差测定值
    常见异常值检验方法:
    l 基统计方法
    l 基距离方法
    l 基密度方法
    l 基聚类方法
    l 基偏差方法
    l 基深度方法
    t检验:t分布实际误差分布范围判异常值首先剔疑值然t分布检验剔值否异常值
    狄克逊检验法:假设组数序x1
    格拉布斯检验法:狄克逊检验法思想样检验公式:

    指数分布检验:
    SPSSR语言中通绘制箱图找异常值分布箱边框外部
    2什聚类分析聚类算法种请选择种详细描述计算原理步骤
      聚类分析(cluster analysis)组研究象分相质群组(clusters)统计分析技术聚类分析分类分析(classification analysis)数值分类(numerical taxonomy)聚类分类聚类求划分类未知
       聚类分析计算方法:层次方法(hierarchical method)划分方法(partitioning method)基密度方法(densitybased method)基网格方法(gridbased method)基模型方法(modelbased method)等中前两种算法利统计学定义距离进行度量 常见聚类方法:Kpototypes算法KMeans算法CLARANS算法(划分方法)BIRCH算法(层次方法)CURE算法(层次方法)DBSCAN算法(基密度方法)CLIQUE算法(综合基密度基网格算法)
      kmeans 算法工作程说明:首先n数象意选择 k 象作初始聚类中心剩象根聚类中心相似度(距离)分分配相似(聚类中心代表)聚类然计算获新聚类聚类中心(该聚类中象均值)断重复程直标准测度函数开始收敛止般采均方差作标准测度函数 k聚类具特点:聚类身紧凑聚类间分开
      流程:
      (1) n数象意选择 k 象作初始聚类中心
      (2)根聚类象均值(中心象)计算象中心象距离根距离重新相应象进行划分
      (3)重新计算(变化)聚类均值(中心象)
      (4)循环(2)(3)直聚类发生变化止(标准测量函数收敛)
      优点:算法确定K 划分达方误差聚类密集类类间区明显时效果较处理数集算法相伸缩高效计算复杂度 O(NKt)中N数象数目K聚类中心t迭代次数
    缺点:1 K 事先定非常难选定2 初始聚类中心选择聚类结果较影响
    3数标准化技术
    数例缩放落入特定区间数单位限制转化量纲纯数值便单位量级指标够进行较加权常方法:
    (1)总标准化分求出素应数总素数该素数总



    4缺失值处理方法
    1) 直接丢弃含缺失数记录
    :案剔法种方法局限性减少样量换取信息完备会造成资源量浪费丢弃量隐藏象中信息缺失数占例较特缺数非机分布时种方法导致数发生偏离出错误结
    2)补缺
    A 均值代缺失数:均值换法均值换法种简便快速缺失数处理方法均值换法插补缺失数该变量均值估计会产生影响种方法建立完全机缺失(MCAR)假设会造成变量方差标准差变
    B K 距离邻居法:先根欧式距离相关分析确定距离具缺失数样K样K值加权均估计该样缺失数
    C预测模型预测缺失数:该方法限度利已知相关数较流行缺失数处理技术:回换法该方法诸弊端第容易忽视机误差低估标准差未知性质测量值问题会着缺失信息增变更加严重第二研究者必须假设存缺失值变量变量存线性关系时候种关系存
    5Apriori算法信息熵
    信息熵数学中抽象概念表示信息源确定度里妨信息熵理解成某种特定信息出现概率种信息出现概率更高时候表明传播更广泛者说引程度更高认信息传播角度信息熵表示信息价值
    支持度:Support(A>B)P(A U B)支持度揭示AB时出现概率果AB时出现概率说明AB关系果AB时出现非常频繁说明AB总相关
    置信度(Confidence)公式式:Confidence(A>B)P(A | B)置信度揭示A出现时B否会出现概率出现果置信度度100AB捆绑销售果置信度太低说明A出现B否出现关系
    H(x) E[I(xi)] E[ log(21p(xi)) ] ∑p(xi)log(2p(xi)) (i12n)单位bit
    中x表示机变量相应输出集合定义符号集机变量输出x表示P(x)表示输出概率函数变量确定性越熵越搞清楚需信息量越


    频繁项集{I1I2I3}例产生强关联规置信度40

    (1) 频繁项集{I1I2I3}非空子集{I1I2}{I1I3}{I2I3}{I1}{I2}{I3}
    (2) 产生强关联规
    {I1I2}>I3 confidencesupport({I1I2I3})support({I1I2})2405
    {I1I3}>I2 confidencesupport(I1I2I3)support(I1I3)2405
    {I2I3}>I1 confidencesupport(I1I2I3)support(I2I3)2405
    I1>{I2I3} confidencesupport(I1I2I3)support(I1)26033
    I2>{I1I3} confidencesupport(I1I2I3)support(I2)27029
    I3>{I1I2} confidencesupport(I1I2I3)support(I3)26033
    强关联规:{I1I2}>I3{I1I3}{I2I3}>I1
    3根求写出SQL (没学学中需补)
      表A结构:
      Member_ID (户ID字符型)
      Log_time (户访问页面时间日期型(天数))
      URL (访问页面址字符型)
      求:提取出户访问第URL(时间早)形成新表(新表名B表结构表A致)
    参考答案:
      create table B as select Member_ID min(Log_time) URL from A group by Member_ID
    5户调研
      某公司针ABC三类客户提出种统改进计划提升客户周消费次数需制定事前试验方案支持决策请思考列问题:
      a) 试验需决策提供什样信息
      c) 述目请写出数抽样方法需采集数指标项选择统计方法
      a) 试验证明该改进计划显著提升ABC三类客户周消费次数
      b) 根三类客户数量采分层例抽样
      需采集数指标项:客户类改进计划前周消费次数改进计划周消费次数
      选统计方法:分针ABC三类客户进行改进前周消费次数两独立样T检验
    6常见抽样方法?
    常六种类型:
      简单抽样(Simple sampling)
      简单机抽样指保证n样相抽中概率例:抽签法机表法抽取访问象单位名目录中抽取象
      优点:
      机度高特质较均总体中具高总体代表度简单抽样技术标准简单统计公式
      缺点:
      未抽样框辅助信息抽取样导致统计效率低抽差样抽出样分布代表总体
      系统抽样(Systematic random sampling)
      总体中单元先定序排列编号然定规抽样
    中常采等距离抽样根总体单位数样单位计算出抽样距离(相间隔)然相距离间隔抽选样单位例:1000电话号码中抽取10访问号码间距100确定起点(起点<间距)100号码抽访问号码
      优点:
      兼具操作简便性统计推断功目前广泛运种抽样方法
      果起点机确定总体中单元排列机等距抽样效果似简单抽样简单抽样相定条件样分布较
      缺点:
      抽样间隔遇总体中某种未知周期性导致差样未抽样框辅助信息抽取样导致统计效率低
      分层抽样(Stratified random sampling)
      调查总体分质互交叉层(类型)然层(类型)中独立抽取样例:调查零售店时规模库存额分层然层中简单机方法抽取型零售店干中型干型干调查城市时城市总口工业生产额分出超型城市中型城市型城市等抽出具体类型城市干
      优点:
      适层间较异质性层体具质性总体提高总体估计精确度样量相情况精度高简单抽样系统抽样保证层代表性避免抽差样时层情况采抽样框抽样方法
      缺点:
      求高质量分层辅助信息需辅助信息抽样框创建需更费更复杂抽样误差估计简单抽样系统抽样更复杂
      整群抽样(Cluster sampling)(层层深入抽样断缩抽样范围)
      先调查总体分群然中抽取群抽中群全部单元进行调查例:入户调查块居委会抽样块居委会等域边界群体第抽样单位选出块居委会实施逐户抽样市场调查中级抽样时居委会中抽取干户然调查抽中户家中18岁成年
      优点:
      适群间差异群体差异外观域差异划分群体
      缺点:
      群单位趋性精度简单抽样低
      前面谈抽样方法基分类特点需注意实际运中调查方案  常常局限某种抽样方式根研究时段采种抽样方法组鸽实现研究目时甚时段综合运种抽样方法
      例设计全国城市入户项目抽样分步骤包括:
      1)项目正式开始前采判断抽样法选出某城市先作试点问卷设计初期采意抽样法选出部分群进行问卷试访
      2)采分层机抽样法确定全国分少超型市少中型
    市少型市实施(先分出城市层次研究需层PPS法选取具体城市)
      3)采简单抽样法PPS抽样法确定抽出城市中应抽块居委会
      4)采整群抽样法确定抽出块居委会应访问家庭户
    5)项目期采判断抽样法选取某城市进行深入研究

    8置信度置信区间
    P(x1置信度越置信区间越宽置信区间越宽置信度越
    置信度越置信区间越窄
    9ROC曲线含义
    ROC曲线指受试者工作特征曲线(receiver operating characteristic curve) 反映敏感性特异性连续变量综合指标构图法揭示敏感性特异性相互关系通连续变量设定出界值计算出系列敏感性特异性敏感性坐标(1特异性)横坐标绘制成曲线曲线面积越诊断准确性越高ROC曲线坐标图左方点敏感性特异性均较高界值
    10数挖掘步骤
    ① 理解数数源(understanding)
    ② 获取相关知识技术(acquisition)
    ③ 整合检查数(integration and checking)
    ④ 错误致数(data cleaning)
    ⑤ 建立模型假设(model and hypothesis development)
    ⑥ 实际数挖掘工作(data mining)
    ⑦ 测试验证挖掘结果(testing and verfication)
    ⑧ 解释应(interpretation and use)
    11评估促销活动?






    11 Bayes公式(全概率公式)
    探索已知结果情况种原引起概率



    12 逻辑回(分类问题)



    逻辑回适合求解问题:逻辑回质解决分类问题Logistic回途:
    · 寻找危险素:寻找某疾病危险素等
    · 预测:根模型预测变量情况发生某病某种情况概率
    · 判:实际预测类似根模型判断某属某病属某种情况概率性属某病
    11 线性回
    线性回(元元)中误差假设假定服均值0方差定值正态分布拟合系数求解方法二法梯度降法等关残差假设:零均值方差正态性相关样机
    回分析变量连续性变量方差分析变量离散型分类变量
    广义线性回线性回区机误差分布定正态分布非线性模型区非线性回明确机误差分布假定
    12 拟合现象避免方法
    谓拟合问题:拟合反映学训练中模型训练样达非常高逼精度 够样完全正确分类构造精细复杂规严格样数稍文档全认属类测试数显示出差效果
    产生拟合:
    1样数存隐单元表示唯产生分类决策面唯
    2权值学迭代次数足够(Overtraining)拟合训练数中噪声训练样例中没代表性特征
    度拟合解决方法:
    1权值衰减 
    次迭代程中某子降低权值 方法动机保持权值较避免weight decay学程着复杂决策面反方偏

    2 减少特征数量工选择者采模型选择算法

    3验证数
          成功方法训练数外算法提供套验证数应该验证集合产生误差迭代次数总明显确定验证集合时达误差

    4Crossvalidation with some patterns
          交叉验证方法获额外数提供验证集合时工作训练集合度拟合问题更严重
       kfold交叉方法
      训练样例分成k份然进行k次交叉验证程次份作验证集合余k1份合作训练集合样例会次实验中作验证样例k1次实验中作训练样例
    5正化方法
    正化结构风险化策略实现验风险加正化项惩罚项正化项般模型复杂度单调递增函数模型越复杂正化项越正化方法作:保留特征减参数取值
    13 监督学非监督学
    监督学:具概念标记(分类)训练样进行学训练样集外数进行标记(分类)预测里标记(分类)已知训练样岐义性低分类回算法监督算法常见算法:SVMKNN决策树算法朴素Bayes算法神网络方拟合熵等

    监督学:没概念标记(分类)训练样进行学发现训练样集中结构性知识里标记(分类)未知训练样岐义性高聚类典型监督学常见监督学算法:聚类PCA关联规算法ApriorFPGrowth等
    14分位数3原

    3原:区间概率密度曲线面积占总面积997标准正态分布
    15常见分布密度函数均值方差


    16 常见区间估计假设检验表
    均值检验方差已知般采U检验(标准正太分布)方差未知采T检验(t分布)
    关方差检验般采卡方检验两正太总体采F检验










    17假设检验
    P值(P value)概率原假设真时样观察结果更极端结果出现率果P值说明原假设发生概率理拒绝原假设P值越拒绝原假设理越充分总P值越表明结果越显著般P < 005 显著 P<001 非常显著
    Sig值显著性指标般005拒绝原假设否接受原假设般005表示差异显著005表示差异显著001表示差异极显著
    a第类错误原假设真时拒绝原假设(弃真)
    b第二类错误原假设错误时接受原假设(取误)
    c1b检验功效原假设错误拒绝原假设
    第类错误第二类错误互相矛盾检验功效越越犯第二类错误概率竟
    18数分析基流程




    文档香网(httpswwwxiangdangnet)户传

    《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
    该内容是文档的文本内容,更好的格式请下载文档

    下载文档到电脑,查找使用更方便

    文档的实际排版效果,会与网站的显示效果略有不同!!

    需要 10 香币 [ 分享文档获得香币 ]

    下载文档

    相关文档

    数据分析经理岗位的工作职责

    数据分析经理岗位的工作职责职责:1、负责公司运营数据统计和分析,并形成日、周、月、季、年数据分析报告;2、优化运营数据模型,对运营各个环节提出建设性的改进方案;3、收集和分析异常运营数据,为运...

    2年前   
    315    0

    数据分析助理的岗位职责

    数据分析助理的岗位职责职责:1、负责制作、发送、维护日常运营报表;2、负责各类运营数据的验证与修正,保证数据质量;3、对接并处理业务部门临时数据需求;4、参与报表项目需求并提供支持; 其他上级...

    2年前   
    379    0

    数据分析主管岗位的职责

    数据分析主管岗位的职责职责:1、负责业务部相关数据报表的建立,根据经营需求整理、规范、优化业务分析报告;2、研究数据分析方法,做到报表制作简单、方便、实用,以方便属地业务部理解与使用;3、撰写...

    2年前   
    371    0

    数据分析师岗位的职责

    数据分析师岗位的职责职责:1.每日统计退货商品明细,周报退货分析至上级,后期跟进采购部处理进程以及结果;2.每日统计产品未发货信息,在途信息,到货信息,并核算各销售渠道的出货数量,建立单品的出...

    2年前   
    509    0

    数据结构和算法课程设计题目

    XX大学课程设计课程名称: 数 据 结 构 与 算 法院(部)名 称: 信息与计算科学学院组长姓名学号 同组人员姓名指导教师姓名: 设 计 时 间: 2010.6.7-...

    11个月前   
    378    0

    分析数据的采集

    二、专利分析 (一)分析数据的采集 此次分析的数据来源于国家知识产权局专利局的“中国专利文献数据库”,检索于2004年1月8-9日进行。因此本分析是基于该数据库中2004年1月7日前收录的...

    11年前   
    6664    0

    数据分析

    表四: 数据分析部及KASP信息管理职数表 编制 部门 职 能 岗 位 工作描述 数据分析部(共7人) 1、建立公司数据信息管理平台 2、规划各部门数据分析报表 ...

    15年前   
    13008    0

    百度2014校园招聘笔试试题-数据挖掘笔试题

    百度2014校园招聘数据挖掘笔试题一、简答题30分  1、静态数据库和动态数据库的优缺点?10分  2、轮询任务调度和抢占式任务调度?10分  3、n折交叉验证的思想?10分  二、算法与程序...

    9年前   
    653    0

    《大数据的分析》论文

         计算机系统结构(论文)题目   大数据的分析   院系 信息工程系 专业 计算机科学与技术   年级 ...

    2年前   
    567    0

    基于Action的数据分析大数据平台

     基于Action的用户行为分析大数据平台Action-based user behavior analytics big data platform内容摘要电商平台作为当前最受欢迎,热度最...

    10个月前   
    243    0

    2014华为校园招聘笔试题目java类

    一 单项选择题  1.Java是从( )语言改进重新设计。  A.Ada  B.C++  C.Pasacal  D.BASIC  答案:B  2.下列语句哪一个正确( )  A. Java程序...

    10年前   
    489    0

    华能集团笔试题目整理回忆版

    华能集团笔试题目整理回忆版1、 通过元素分析方法得出的煤的主要组成成分,称元素分析成分。它包括碳(C)、氢(H)、氧(O)、氮(N)、硫(S)、灰分(A)、水分(M)。其中碳、氢、硫是可燃成分...

    6个月前   
    340    0

    2015年百度校招产品经理笔试题目汇总

    2015年百度产品经理笔试题目汇总百度的产品经理笔试今年全部为开放式回答,1个小时,1张白纸,回答两个大题。题目基本上一题为产品分析题,一题为产品设计题。个人认为这些问题对产品经理的阅读能力、...

    8年前   
    505    0

    数据分析主管岗位职责标准模板

    数据分析主管岗位职责标准模板1.指导团队成员对现代渠道销售链数据进行收集、处理、审核稽核,统计及分析工作;2.指导团队成员对销售人员业绩数据进行核定工作;3.负责公司销售数据系统报表的设计与优...

    2年前   
    461    0

    高级数据分析师岗位的职责描述

    高级数据分析师岗位的职责描述职责:1.搭建和完善数据中心的数据指标体系与监控预测体系,并推动系统化实现;2.负责对市场、行业、竞争对手、产品、客户、业务运营等方面数据的收集、分析,完成整理出分...

    2年前   
    603    0

    数据分析师岗位的工作职责

    数据分析师岗位的工作职责职责:___对运营数据进行监控分析,根据数据情况快速有效的定位问题并提出解决方案;___对所运营的内容进行深入思考和分析,相关数据的收集、整理,形成专业分析报告和实施建...

    2年前   
    417    0

    数据分析经理的岗位职责说明

    数据分析经理的岗位职责说明职责:1.定价规划:根据公司的产品定位、行业趋势、竞争分析、成本利润等方面,设计相关定价策略、模型与方法论;在公司定价流程框架下,对全球相关方(含渠道、直销以及公司各...

    2年前   
    332    0

    数据分析师岗位的主要职责

    数据分析师岗位的主要职责职责:1、配合产品、运营的需求,对用户行为数据进行数据挖掘、深度分析以及形成分析报告;2、通过数据的挖掘,针对性的进行用户细分、关联推荐、精准营销等分析,提升营销效率和...

    2年前   
    495    0

    数据分析助理岗位的工作职责文本

    数据分析助理岗位的工作职责文本职责:1、负责为公司处理客户的相关工作,并协助经理的工作事务2、负责为客户提供外汇理财咨询、建议服务, 制定相应的投资组合和策略3、负责保持与客户沟通联系,为客户...

    2年前   
    338    0

    数据分析主管岗位的主要职责

    数据分析主管岗位的主要职责职责:1、 负责搭建数据模型,分析业务变化趋势,用数据驱动产品改进、业务发展,有互联网产品GrowthHacker相关运营经验,有研发或数据分析背景优先;2、 专题性...

    2年前   
    294    0

    文档贡献者

    l***i

    贡献于2020-10-26

    下载需要 10 香币 [香币充值 ]
    亲,您也可以通过 分享原创文档 来获得香币奖励!
    下载文档