第1章 Hadoop台研究
31 Hadoop思想源:Google
Google服务非常包括Google搜索引擎Gmail安卓AppspotGoogleMapsGoogle earth Google学术Google翻译Google+等产品体系中重Google引擎Google核心历史悠久服务Hadoop思想Google搜索引擎中技术
Google爬虫全世界数服务器爬会抓回网页网页天说百万千万级少亿网页级传统企业想法买存储里面成千万硬盘网页全部放存储里面购买存储成较高特性非常卓越存储价格性曲线指数级升Google说会考虑种昂贵设备般说会网页分散PC服务器里面进行存储实际Google服务器没硬盘网页资讯全部存存里面加快检索速度Google思想面Hadoop带影响Google核心算法pageRank网页价值评分Google垃圾中找黄金关键算法算法成天Google根链接关系判断页面价值果页面指更该页面较重页面网站价值样果pageRank较高网站指pagerank较低网站指价值样Hadoop中MapReduce思想计算pageRank算法
32 hadoop源起
HadoopDoug Cutting开创种开源软件hadoop早源头Lucene软件开源java书写代码实现Google类似全文搜索功提供全文检索引擎结构包括完整查询引擎索引引擎Lucene软件早发Doug Cutting网站SourceForge开源网站里面2001年年底成apache软件基金会jakarta子项目
Lucene目软件开发员提供简单易工具包便目标系统中实现全文检索功者基础建立完整全文检索引擎
Lucene身种搜索引擎数量时候Google样会面样困难说量网页需样存放搜索效率更高样网页价值进行计算样做倒排索引等等问题问题迫Doug Cutting学模范Google解决问题办法
20032004
年时候Google公开部分GFSMapReduce思想细节基础Doug Cutting等2年业余时间实现DFSMapReduce机制Nutch性飙升Hadoop2005年秋天作Lucene子项目Nutch部分正式引入Apache基金会2006年3月份MapReduceNutch Distributed File System(NDFS)分纳入成Hadoop项目中Hadoop名字源Doug Cutting子玩具象
33 hadoop目前达高度
发展天haddop7年时间hadoop已长远发展逐渐走成熟目前hadoop底达什样高度呢?
(1) 实现云计算事实标准开源软件做云存储做MapReduce计算时候云计算实现般首选hadoop基没竞争手厂商争着hadoop方争先恐形容方面会hadoop开源代码做改善作产品推出EMChadoopOraclehadoop解决方案方面厂商会产品hadoop连接工具说Oracle数连接器部件部件Oraclehadoop里面数文件作外部表
(2) 包含数十具强生命力子项目
Hadoop目前止已项目家族里面十子项目子项目强生命力说hadoop发展前景非常光明
(3) Hadoop构造型集群集群节点达数千节点处理数量排序时间断破世界纪录达PB级
33 hadoop子项目家族
面层hadoop核心代码核心代码实现两项关键功hadoopMapReducehadoop分布式文件系统HDFS两功hadoop两支柱两支柱子项目Pig般hadoop写MapReduce程序流方法java假设hadoop户java程序员需东西方便户基目Pig诞生Pig种轻量级语言类似show命令方式输入数处理者数分析命令系统会动命令转变成MapReduce程序进行MapReduce工作结果返回户Pig作相户MapReduce中间转换器
子项目Hive相sql语言MapReduce间映射器传统数库工程师娴熟sql语言果sql语言进行数查询者数分析困难Hive面数库工程师需命令提示符输入sqlHive会动sql转变成MapReduce然转变成分布式务节点中运行运行结果返回户某种意义说
Hive理解成关系型数库Hive功相简单支持sql语句复杂连接者子查询支持起较困难
子项目Hbase非关系型数库列式数库列式存储Hbase面数分析数行存放样做处:提高响应速度减少IO量Hbase身做成分布式集群
ZooKeeper负责服务器节点进程间通信通讯协调工具Chukwa相数集成工具说数源数源生产线服务器产生日志信息Chukwa安排数源定时java取hadoop中进行数分析
整hadoop项目中子项目动物做Logo说hadoop象Hive蜜蜂Chukwa乌龟通讯协调软件ZooKeeper动物园理员
34 hadoop架构
该图机房机柜样子画长方形代表台物理服务器(节点)物理节点通网线连接交换机交换机连接中心交换机通出口机房外面户客户端通互联网访问图片JobTrackerNamenodeTaskTrackeerDataNodehadoop台进程Oracle台进程样
进程中重Namenode(名称节点)NamenodeHDFS守护程序作总控分布式文件系统会纪录文件分割成数块数块存储节点会存IO进行集中理户整hadoop集群连接时首先会访问Namenode获文件分布信息查出找文件节点然访问数节点取出文件hadoop直Namenode作单点旦发生障集群崩溃
Secondary Namenode(辅助名称节点)监控HDFS状态辅助台程序NameNode中元数信息重新保存份副Namenode会动Secondary Namenode进行通讯定期保存HDFS元数快Namenode障作备Namenode DataNode(数节点)运行子节点中负责HDFS数块读写文件系统
JobTracker(作业踪器)运行节点MapReduce体系进行总调度处理户提交作业决定文件参处理然切割task分配数节点中Hadoop原运行程序数节点中外JobTracker会监控task果发现崩溃task会task重启然释放占资源集群唯JobTracker
TaskTracker(务踪器)位slave节点理节点task节点tasktrackertasktracker启动JVM行执行mapreduce务
文香网httpwwwxiangdangnet
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档