数概念
数(big data)指法定时间范围常规软件工具进行捕捉理处理数集合需新处理模式具更强决策力洞察发现力流程优化力海量高增长率样化信息资产
基单位bit序出单位:bitByteKBMBGBTBPBEBZBYBBBNBDB
1Byte 8bit 1K 1024bit 1MB 1024K 1G 1024M
1T 1024G 1P 1024T 1E 1024P 1Z 1024E
1Y 1024Z 1B 1024Y 1N 1024B 1D 1024N
二 数特点
1)Volume(量):
截目前类生产印刷材料数量200PB历史全类总说话数量约5EB前典型计算机硬盘容量TB量级企业数量已接EB量级
2)Velocity(高速):
数区分传统数挖掘显著特征根IDC数字宇宙报告预计2020年全球数量达352ZB海量数面前处理数效率企业生命
天猫双十:2016年6分58秒天猫交易额超100亿
3)Variety(样):
种类型样性数分结构化数非结构化数相便存储数库文结构化数非结构化数越越包括网络日志音频视频图片理位置信息等类型数数处理力提出更高求
订单数:
网络数:
4)Value(低价值密度):
价值密度高低数总量成反天监控视频中关心宋宋老师晚床健身分钟快速价值数提纯成目前数背景解决难题
三 数干啥?
1)O2O:百度数+台通先进线线通技术客流分析力助力商家精细化运营提升销量
2)零售:探索户价值提供性化服务解决方案贯穿网络实体零售携手创造极致体验典案例子尿布+啤酒
3)旅游:深度结合百度独数力旅游行业需求建旅游产业智慧理智慧服务智慧营销未
4)商品广告推荐:户推荐访问商品广告类型
5) 房产:数全面助力房产行业造精准投策营销选出更合适建造更合适楼卖更合适
6)保险:海量数挖掘风险预测助力保险行业精准营销提升精细化定价力
7)金融:维度体现户特征帮助金融机构推荐优质客户防范欺诈风险
8)移动联通:移动联通:根户年龄职业消费情况分析统计种套餐适合类群市场群精准定制
9)工智
四 数发展前景
1)十八届五中全会提出实施国家数战略国务院印发促进数发展行动纲数技术应处创新突破期国市场需求处爆发期国数产业面重发展机遇
2)国际数公司IDC预测2020年企业基数计算分析台支出突破5000亿美元目前国数46万未35年缺口达150万
缺口计算
150w40w110w
110W5年 22w年
22w12月183w月
古变真理:先入行者吃肉入行者喝汤买单
3)2017年北京学中国民学北京邮电学等25高校成功申请开设数课程
4)数属高新技术牛少升职竞争
5)北京数开发工程师均薪水已17800元(数统计职友集)目前保持强劲发展势头
智联BOSS直聘
五 企业数部业务流程分析
六 企业数部般组织结构
企业数部般组织结构适中型企业
七 Hadoop框架讨数生态
11 Hadoop什
1)HadoopApache基金会开发分布式系统基础架构
2)解决海量数存储海量数分析计算问题
3)广义说HADOOP通常指更广泛概念——HADOOP生态圈
12 Hadoop发展历史
1)LuceneDoug Cutting开创开源软件java书写代码实现Google类似全文搜索功提供全文检索引擎架构包括完整查询引擎索引引擎
2)2001年年底成apache基金会子项目
3)数量场景Lucene面Google样困难
4)学模仿Google解决问题办法 :微型版Nutch
5)说Googlehadoop思想源(Google数方面三篇文)
GFS >HDFS
MapReduce >MR
BigTable >Hbase
6)20032004年Google公开部分GFSMapreduce思想细节基础Doug Cutting等2年业余时间实现DFSMapreduce机制Nutch性飙升
7)2005 年Hadoop 作 Lucene子项目 Nutch部分正式引入Apache基金会2006 年 3 月份MapReduceNutch Distributed File System (NDFS) 分纳入称 Hadoop 项目中
8)名字源Doug Cutting子玩具象
9)Hadoop诞生迅速发展标志云计算时代
13 Hadoop三发行版
Hadoop 三发行版 ApacheClouderaHortonworks
Apache版原始(基础)版入门学
Cloudera型互联网企业中较
Hortonworks文档较
1)Cloudera Hadoop
(1)2008年成立Cloudera早Hadoop商公司合作伙伴提供Hadoop商解决方案包括支持咨询服务培训
(2)2009年Hadoop创始Doug Cutting加盟Cloudera公司Cloudera产品CDHCloudera ManagerCloudera Support
(3)CDHClouderaHadoop发行版完全开源Apache Hadoop兼容性安全性稳定性增强
(4)Cloudera Manager集群软件分发理监控台时部署Hadoop集群集群节点服务进行实时监控Cloudera SupportHadoop技术支持
(5)Cloudera标价年节点4000美元Cloudera开发贡献实时处理数Impala项目
2)Hortonworks Hadoop
(1)2011年成立Hortonworks雅虎硅谷风投公司Benchmark Capital合资组建
(2)公司成立初吸纳约25名30名专门研究Hadoop雅虎工程师述工程师均2005年开始协助雅虎开发Hadoop贡献Hadoop80代码
(3)雅虎工程副总裁雅虎Hadoop开发团队负责Eric Baldeschwieler出Hortonworks首席执行官
(4)Hortonworks产品Hortonworks Data Platform(HDP)样100开源产品HDP常见项目外包括Ambari款开源安装理系统
(5)HCatalog元数理系统HCatalog现已集成Facebook开源Hive中HortonworksStinger开创性极优化Hive项目Hortonworks入门提供非常易沙盒
(6)Hortonworks开发增强特性提交核心干Apache Hadoop够包括Window ServerWindows Azuremicrosoft Windows台运行定价集群基础10节点年12500美元
14 Hadoop优势
1)高性:Hadoop假设计算元素存储会出现障维护工作数副出现障时失败节点重新分布处理
2)高扩展性:集群间分配务数方便扩展数千计节点
3) 高效性:MapReduce思想Hadoop行工作加快务处理速度
4)高容错性:动保存份副数够动失败务重新分配
15 Hadoop组成
1)Hadoop HDFS:高高吞吐量分布式文件系统
2)Hadoop MapReduce:分布式离线行计算框架
3)Hadoop YARN:作业调度集群资源理框架
4)Hadoop Common:支持模块工具模块
151 HDFS架构概述
152 YARN架构概述
1)ResourceManager(rm):处理客户端请求启动监控ApplicationMaster监控NodeManager资源分配调度
2)NodeManager(nm):单节点资源理处理ResourceManager命令处理ApplicationMaster命令
3)ApplicationMaster:数切分应程序申请资源分配部务务监控容错
4)Container:务运行环境抽象封装CPU存等维资源环境变量启动命令等务运行相关信息
153 MapReduce架构概述
MapReduce计算程分两阶段:MapReduce
1)Map阶段行处理输入数
2)Reduce阶段Map结果进行汇总
图简单阐明mapreduce两程者作然够严谨足提供概认知map程蔬菜制成食物前准备工作reduce准备材料合进制作出食物程
16 数技术生态体系
图中涉技术名词解释:
1)Sqoop:sqoop款开源工具Hadoop(Hive)传统数库(mysql)间进行数传递关系型数库(例 : MySQL Oracle 等)中数导进HadoopHDFS中HDFS数导进关系型数库中
2)Flume:FlumeCloudera提供高高分布式海量日志采集聚合传输系统Flume支持日志系统中定制类数发送方收集数时Flume提供数进行简单处理写种数接受方(定制)力
3)Kafka:Kafka种高吞吐量分布式发布订阅消息系统特性:
(1)通O(1)磁盘数结构提供消息持久化种结构数TB消息存储够保持长时间稳定性
(2)高吞吐量:非常普通硬件Kafka支持秒数百万消息
(3)支持通Kafka服务器消费机集群分区消息
(4)支持Hadoop行数加载
4)Storm:Storm分布式实时计算提供组通原语流处理中实时处理消息更新数库理队列工作者集群种方式 Storm连续计算(continuous computation)数流做连续查询计算时结果流形式输出户
5)Spark:Spark前流行开源数存计算框架基Hadoop存储数进行计算
6)Oozie:Oozie理Hdoop作业(job)工作流程调度理系统Oozie协调作业通时间(频率)效数触发前Oozie工作流程
7)Hbase:HBase分布式面列开源数库HBase般关系数库适合非结构化数存储数库
8)Hive:hive基Hadoop数仓库工具结构化数文件映射张数库表提供简单sql查询功sql语句转换MapReduce务进行运行 优点学成低通类SQL语句快速实现简单MapReduce统计必开发专门MapReduce应十分适合数仓库统计分析
10)R语言:R统计分析绘图语言操作环境R属GNU系统免费源代码开放软件统计计算统计制图优秀工具
11)Mahout
Apache Mahout扩展机器学数挖掘库前Mahout支持4例:
推荐挖掘:搜集户动作户推荐喜欢事物
聚集:收集文件进行相关文件分组
分类:现分类文档中学寻找文档中相似特征标签文档进行正确类
频繁项集挖掘:组项分组识项会常起出现
12)ZooKeeper:ZookeeperGoogleChubby开源实现针型分布式系统协调系统提供功包括:配置维护名字服务 分布式步组服务等ZooKeeper目标封装复杂易出错关键服务简单易接口性高效功稳定系统提供户
文档香网(httpswwwxiangdangnet)户传
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档