大数据技术之大数据概论


    数技术数概
    数概念
    数(big data)指法定时间范围常规软件工具进行捕捉理处理数集合需新处理模式具更强决策力洞察发现力流程优化力海量高增长率样化信息资产
    基单位bit序出单位:bitByteKBMBGBTBPBEBZBYBBBNBDB
    1Byte 8bit 1K 1024bit 1MB 1024K 1G 1024M
    1T 1024G 1P 1024T 1E 1024P 1Z 1024E
    1Y 1024Z 1B 1024Y 1N 1024B 1D 1024N
    二 数特点
    1)Volume(量):
    截目前类生产印刷材料数量200PB历史全类总说话数量约5EB前典型计算机硬盘容量TB量级企业数量已接EB量级

    2)Velocity(高速):
    数区分传统数挖掘显著特征根IDC数字宇宙报告预计2020年全球数量达352ZB海量数面前处理数效率企业生命
    天猫双十:2016年6分58秒天猫交易额超100亿

    3)Variety(样):
    种类型样性数分结构化数非结构化数相便存储数库文结构化数非结构化数越越包括网络日志音频视频图片理位置信息等类型数数处理力提出更高求
    订单数:

    网络数:

    4)Value(低价值密度):
    价值密度高低数总量成反天监控视频中关心宋宋老师晚床健身分钟快速价值数提纯成目前数背景解决难题

    三 数干啥?
    1)O2O:百度数+台通先进线线通技术客流分析力助力商家精细化运营提升销量

    2)零售:探索户价值提供性化服务解决方案贯穿网络实体零售携手创造极致体验典案例子尿布+啤酒

    3)旅游:深度结合百度独数力旅游行业需求建旅游产业智慧理智慧服务智慧营销未

    4)商品广告推荐:户推荐访问商品广告类型

    5) 房产:数全面助力房产行业造精准投策营销选出更合适建造更合适楼卖更合适
    6)保险:海量数挖掘风险预测助力保险行业精准营销提升精细化定价力
    7)金融:维度体现户特征帮助金融机构推荐优质客户防范欺诈风险

    8)移动联通:移动联通:根户年龄职业消费情况分析统计种套餐适合类群市场群精准定制

    9)工智



    四 数发展前景
    1)十八届五中全会提出实施国家数战略国务院印发促进数发展行动纲数技术应处创新突破期国市场需求处爆发期国数产业面重发展机遇
    2)国际数公司IDC预测2020年企业基数计算分析台支出突破5000亿美元目前国数46万未35年缺口达150万

    缺口计算
    150w40w110w
    110W5年 22w年
    22w12月183w月
    古变真理:先入行者吃肉入行者喝汤买单
    3)2017年北京学中国民学北京邮电学等25高校成功申请开设数课程
    4)数属高新技术牛少升职竞争
    5)北京数开发工程师均薪水已17800元(数统计职友集)目前保持强劲发展势头


    智联BOSS直聘
    五 企业数部业务流程分析

    六 企业数部般组织结构
    企业数部般组织结构适中型企业

    七 Hadoop框架讨数生态
    11 Hadoop什
    1)HadoopApache基金会开发分布式系统基础架构
    2)解决海量数存储海量数分析计算问题
    3)广义说HADOOP通常指更广泛概念——HADOOP生态圈

    12 Hadoop发展历史
    1)LuceneDoug Cutting开创开源软件java书写代码实现Google类似全文搜索功提供全文检索引擎架构包括完整查询引擎索引引擎
    2)2001年年底成apache基金会子项目
    3)数量场景Lucene面Google样困难
    4)学模仿Google解决问题办法 :微型版Nutch
    5)说Googlehadoop思想源(Google数方面三篇文)
    GFS >HDFS
    MapReduce >MR
    BigTable >Hbase
    6)20032004年Google公开部分GFSMapreduce思想细节基础Doug Cutting等2年业余时间实现DFSMapreduce机制Nutch性飙升
    7)2005 年Hadoop 作 Lucene子项目 Nutch部分正式引入Apache基金会2006 年 3 月份MapReduceNutch Distributed File System (NDFS) 分纳入称 Hadoop 项目中
    8)名字源Doug Cutting子玩具象

    9)Hadoop诞生迅速发展标志云计算时代
    13 Hadoop三发行版
    Hadoop 三发行版 ApacheClouderaHortonworks
    Apache版原始(基础)版入门学
    Cloudera型互联网企业中较
    Hortonworks文档较
    1)Cloudera Hadoop
    (1)2008年成立Cloudera早Hadoop商公司合作伙伴提供Hadoop商解决方案包括支持咨询服务培训
    (2)2009年Hadoop创始Doug Cutting加盟Cloudera公司Cloudera产品CDHCloudera ManagerCloudera Support
    (3)CDHClouderaHadoop发行版完全开源Apache Hadoop兼容性安全性稳定性增强
    (4)Cloudera Manager集群软件分发理监控台时部署Hadoop集群集群节点服务进行实时监控Cloudera SupportHadoop技术支持
    (5)Cloudera标价年节点4000美元Cloudera开发贡献实时处理数Impala项目
    2)Hortonworks Hadoop
    (1)2011年成立Hortonworks雅虎硅谷风投公司Benchmark Capital合资组建
    (2)公司成立初吸纳约25名30名专门研究Hadoop雅虎工程师述工程师均2005年开始协助雅虎开发Hadoop贡献Hadoop80代码
    (3)雅虎工程副总裁雅虎Hadoop开发团队负责Eric Baldeschwieler出Hortonworks首席执行官
    (4)Hortonworks产品Hortonworks Data Platform(HDP)样100开源产品HDP常见项目外包括Ambari款开源安装理系统
    (5)HCatalog元数理系统HCatalog现已集成Facebook开源Hive中HortonworksStinger开创性极优化Hive项目Hortonworks入门提供非常易沙盒
    (6)Hortonworks开发增强特性提交核心干Apache Hadoop够包括Window ServerWindows Azuremicrosoft Windows台运行定价集群基础10节点年12500美元
    14 Hadoop优势
    1)高性:Hadoop假设计算元素存储会出现障维护工作数副出现障时失败节点重新分布处理
    2)高扩展性:集群间分配务数方便扩展数千计节点
    3) 高效性:MapReduce思想Hadoop行工作加快务处理速度
    4)高容错性:动保存份副数够动失败务重新分配
    15 Hadoop组成
    1)Hadoop HDFS:高高吞吐量分布式文件系统
    2)Hadoop MapReduce:分布式离线行计算框架
    3)Hadoop YARN:作业调度集群资源理框架
    4)Hadoop Common:支持模块工具模块

    151 HDFS架构概述

    152 YARN架构概述
    1)ResourceManager(rm):处理客户端请求启动监控ApplicationMaster监控NodeManager资源分配调度
    2)NodeManager(nm):单节点资源理处理ResourceManager命令处理ApplicationMaster命令
    3)ApplicationMaster:数切分应程序申请资源分配部务务监控容错
    4)Container:务运行环境抽象封装CPU存等维资源环境变量启动命令等务运行相关信息
    153 MapReduce架构概述
    MapReduce计算程分两阶段:MapReduce
    1)Map阶段行处理输入数
    2)Reduce阶段Map结果进行汇总

    图简单阐明mapreduce两程者作然够严谨足提供概认知map程蔬菜制成食物前准备工作reduce准备材料合进制作出食物程
    16 数技术生态体系

    图中涉技术名词解释:
    1)Sqoop:sqoop款开源工具Hadoop(Hive)传统数库(mysql)间进行数传递关系型数库(例 : MySQL Oracle 等)中数导进HadoopHDFS中HDFS数导进关系型数库中
    2)Flume:FlumeCloudera提供高高分布式海量日志采集聚合传输系统Flume支持日志系统中定制类数发送方收集数时Flume提供数进行简单处理写种数接受方(定制)力
    3)Kafka:Kafka种高吞吐量分布式发布订阅消息系统特性:
    (1)通O(1)磁盘数结构提供消息持久化种结构数TB消息存储够保持长时间稳定性
    (2)高吞吐量:非常普通硬件Kafka支持秒数百万消息
    (3)支持通Kafka服务器消费机集群分区消息
    (4)支持Hadoop行数加载
    4)Storm:Storm分布式实时计算提供组通原语流处理中实时处理消息更新数库理队列工作者集群种方式 Storm连续计算(continuous computation)数流做连续查询计算时结果流形式输出户
    5)Spark:Spark前流行开源数存计算框架基Hadoop存储数进行计算
    6)Oozie:Oozie理Hdoop作业(job)工作流程调度理系统Oozie协调作业通时间(频率)效数触发前Oozie工作流程
    7)Hbase:HBase分布式面列开源数库HBase般关系数库适合非结构化数存储数库
    8)Hive:hive基Hadoop数仓库工具结构化数文件映射张数库表提供简单sql查询功sql语句转换MapReduce务进行运行 优点学成低通类SQL语句快速实现简单MapReduce统计必开发专门MapReduce应十分适合数仓库统计分析
    10)R语言:R统计分析绘图语言操作环境R属GNU系统免费源代码开放软件统计计算统计制图优秀工具
    11)Mahout
    Apache Mahout扩展机器学数挖掘库前Mahout支持4例:
    推荐挖掘:搜集户动作户推荐喜欢事物
    聚集:收集文件进行相关文件分组
    分类:现分类文档中学寻找文档中相似特征标签文档进行正确类
    频繁项集挖掘:组项分组识项会常起出现
    12)ZooKeeper:ZookeeperGoogleChubby开源实现针型分布式系统协调系统提供功包括:配置维护名字服务 分布式步组服务等ZooKeeper目标封装复杂易出错关键服务简单易接口性高效功稳定系统提供户

    文档香网(httpswwwxiangdangnet)户传

    《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
    该内容是文档的文本内容,更好的格式请下载文档

    下载文档到电脑,查找使用更方便

    文档的实际排版效果,会与网站的显示效果略有不同!!

    需要 4 香币 [ 分享文档获得香币 ]

    下载文档

    相关文档

    数据加密技术

    数据加密技术数据加密技术 发布时间: 2003-11-3 作者:秩名 我们经常需要一种措施来保护我们的数据,防止被一些怀有不良用心的人所看到或者破坏。        在信息时代,信息可以帮助团...

    8年前   
    519    0

    大数据技术之Flink

    Flink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere...

    3年前   
    519    0

    感受数据管理技术的应用

    本节课是《数据管理技术》课的开篇,是在《信息技术基础》课的基础上对数据管理知识的进一步认识、拓展与加深。共有两方面的主要内容,一是体验数据管理技术,二是数据管理技术的应用。这节课既要让学生了解认...

    5年前   
    1049    0

    数据库 数据查询

    第四章 数据的查询例题解析1、 将表A的记录添加到表B中,要求保持表B中原有的记录,可以使用的查询是( C )。A、选择查询 B、生成表查询 C、追加查询 D、更新查询2...

    3年前   
    1731    0

    数据的引用

    数据的引用    前言:本来想今天介绍用EXCEL表格编制“现金流量表”(不仅仅是用来糊弄领导的东东哦),但经aegis提醒,在介绍表数据的计算时应先讲述数据的引用,包括数组的定义,数组命名,...

    12年前   
    872    0

    《数据库应用技术》大作业

    《数据库应用技术》大作业题 目: 数 据 库 应 用 技 术 专 业: 网 络 工 程 学 ...

    3年前   
    652    0

    《数据库技术及应用》知识点总结

    《数据库技术与应用》知识点总结第一章 数据库基础1. 基本概念: 数据:数据泛指对客观事物的数量、属性、位置及其相互关系的抽象表示,以适合于用人工或自然的方式进行保存、传递和处理。...

    3年前   
    918    0

    《VMware 虚拟化数据中心技术方案》

    VMware虚拟化数据中心解决方案 目 录一、VMWARE公司简介及解决方案综述 11.1. VMware公司简介 11.2. 虚拟化架构的优势 11.3. VM...

    2年前   
    394    0

    Server数据完整性约束的实现技术

    基于Client/Server数据完整性约束的实现技术  摘 要:本论文主要讨论基于Client/Server数据完整性约束及其如何实施企业业务规则,并以SQLServer和PowerBuil...

    9年前   
    398    0

    大数据技术在广电领域的应用探索

    大数据又称为海量数据、巨量数据,其中所包含的数据量规模巨大到无法通过人工在一定的时间内达到管理、截取、处理并整理为人类能够解读的信息。

    6年前   
    2085    0

    **大酒店数据接入技术方案d座

    根据**大酒店的相关需求,并结合到**大酒店d座建筑物平面布置及预埋线路,现将**酒店数据网络建设所需的设备设施、施工费用及宽带接入费用预算如下:

    3年前   
    376    0

    技术合同:数据保密协议

    技术合同:数据保密协议  甲方:_________________  乙方:_________________  双方经平等协商同意,自愿签订本协议,共同遵守本协议所列条款。  1.保密的内容...

    9年前   
    420    0

    课程数据信息表(XX工程技术大学)

    课程数据信息表课程平台单位(公章):基本信息课程名称 学校名称 课程负责人 单期课程开设周数 课程上线平台名称:课程开设情况开设学期起止时间选课人数课程链接1   2     …   第( )...

    2年前   
    527    0

    数据录入及数据保密工程合同书

    数据录入及数据保密工程合同书  根据《中华人民共和国合同法》,委托方和承揽方双方经平等协商同意,自愿签订本合同,共同遵守本合同所列条款。  委托方:  承揽方:  承揽方的义务:  1. 承揽...

    9年前   
    516    0

    基于Action的数据分析大数据平台

     基于Action的用户行为分析大数据平台Action-based user behavior analytics big data platform内容摘要电商平台作为当前最受欢迎,热度最...

    10个月前   
    243    0

    数据库元数据管理系统设计与实现

    本科毕业设计(论文) 题  目:  数据库元数据管理系统设计与实现 院  系:       专业年级:  2009级    学生姓名...

    2年前   
    393    0

    实验数据淀粉

    一.相关分析1.温室种植表.生物产量、经济产量与淀粉含量的关系生物产量经济产量淀粉含量生物产量10.941**0.121.0.0000.541经济产量0.941**10.1390.000.0....

    2年前   
    356    0

    数据管理

    数据管理 数据管理包括数据的存储、检索和操纵。为了能够在系统开发和开展业务工作期间有效地与信息服务人员进行联系,用户管理人员应具备本章中所提到的有关概念、方法和术语方面的业务知识。   ...

    11年前   
    23095    0

    2018**春运预测数据

    2018年春节假期,高速公路免费通行时间自2月15日零时至2月21日24时止,为做好今年春节期间高速公路的保畅工作,方便人民群众安全便捷出行,节前我省根据以往经验、春节出行特点及群众需求,对高速...

    6年前   
    1195    0

    施工数据

    施工数据 12墙一个平方需要64块标准砖 18墙一个平方需要96块标准砖 24墙一个平方需要128块标准砖 37墙一个平方需为192块标准砖 49墙一个平方需为256块标准砖 ...

    10年前   
    8608    0