Hadoop大数据平台安全问题和解决方案的综述


     
     
     
    Hadoop数台安全问题解决方案综述①
    陈 丽1  黄 晋2  王 锐3
    1(广东交通职业技术学院 信息学院 广州 510650)
    2(华南师范学 计算机学院 广州 510631)
    3(中国移动通信集团广东限公司 广州 510623)
    摘  数时代 更强计算机更成熟数台工具企业海量数中挖掘数价值成
     尤基Hadoop数台 甚利廉价商业硬件处理TBPB级数 初Hadoop数
    台落建设程中 功先行 忽略安全控策略 直2009年Yahoo团队提出基Kerberos
    身份验证方案 带动Hadoop数台安全控工作全面开展 文介绍Hadoop数台基
    历程 描述2009年前Hadoop数台存传统安全问题 尝试着目前行业Hadoop生态系统组件
    安全性组件安全解决方案做次系统梳理 希构建Hadoop数台控方案时提供参考意
    见 便合理利先进安全控方案保护企业户隐私数
    关键词 数 Hadoop 身份验证 授权 数安全 审计
    引格式  陈丽黄晋王锐Hadoop数台安全问题解决方案综述计算机系统应201827(1)1–9 httpwwwcsaorgcn1003
    32546169html
    Overview on Security Issues and Solutions of Hadoop Big Data Platform
    CHEN Li1 HUANG Jin2 WANG Rui3
    1(School of Information Guangdong Communication Polytechnic Guangzhou 510650 China)
    2(School of Computer South China Normal University Guangzhou 510631 China)
    3(China Mobile Group Guangdong Co Ltd Guangzhou 510623 China)
    Abstract With the arrival of the big data era more powerful computers and more mature big data platform tools for
    enterprises from the massive data mining data value has become possible especially based on Hadoop Big Data Platform
    which can even handle TB PB level of data with cheap commercial hardware In the initial construction process of
    Hadoop Big Data Platform the first step often starts with the building function ignoring the security control strategy The
    Yahoo team proposed Kerberosbased authentication scheme in 2009 which led to the Hadoop Big Data Platform security
    control work in full swing This article introduces the history of the Hadoop Big Data Platform Then it describes the
    traditional security issues existing in Hadoop Big Data Platform before 2009 Finally it tries to present the security of the
    Hadoop ecosystem components in the industry and the security solution for each component We hope to provide
    reference for the construction of Hadoop Big Data Platform security so people can reasonably use advanced security
    control program to protect the enterprise’s and user’s privacy data
    Key words big data Hadoop authentication authorization data security audit
     
    谓数 狭义定义难现
    般技术理量数集合 数难理原
     3V描述Volume(容量)Variety(样
    性)Velocity(产生频率更新频率)[1] 图1示
    计算机系统应 ISSN 10033254 CODEN CSAOBN Email csa@iscasaccn
    Computer Systems & Applications201827(1)1−9 [doi 1015888jcnkicsa006169] httpwwwcsaorgcn
    ©中国科学院软件研究版权 Tel +861062661041
    ① 基金项目 广东省然科学基金(2016A030313437) 广东省重科技专项(2016B030305004)
    收稿时间 20170408 修改时间 20170504 采时间 20170516 csa线出版时间 20171114
    Special Issue 专·综述 1Big
    Data
    㔃ᶴॆ઼
    䶎㔃ᶴॆ ᢩ䟿ᮠᦞ
    ⍱ᮠᦞ
    TBZB
    㔃ᶴॆ
    Variety
    V
    elocity
    Volume
     
    图1    数3V描述
     
    广义说 数定义包括具备
    3V特征难进行理数 数进行存
    储处理分析技术 够通分析数
    获实意义观点组织综合性概念[2]
    量数进行分析 中获观点种
    做法 已存部分研究机构企业中
    现数相 3点区[3] 第 
    着社交媒体传感器网络等发展 身边正产
    生出量样数 第二 着硬件软件技术
    发展 数存储处理成幅降 第三 着云
    计算兴起 数存储处理环境已没必
    行搭建
    数处理技术起源Google Google提出
    整套基分布式行集群方式基础架构技术 利
    软件力处理集群中常发生节点失效问题
    Google数台包括五相互独立紧
    密结合起系统 分布式资源理系统Borg[4]
    Google文件系统(GFS)[5] 针Google应程序特
    点提出MapReduce编程模式[6] 分布式锁机制
    Chubby[7]规模分布式数库BigTable[8] 
    先进数处理技术Doug Cutting牵头开发
    Hadoop开源软件 支持廉价商业硬件构建型
    集群运行应程序 数技术应
    飞速发展关键推动力
    早期Hadoop 包括Hadoop v1更早前
    版 两核心组件构成 HDFSMapReduce
    中HDFSGoogle GFS开源版 MapReduce计
    算框架实现Google工程师提出MapReduce编
    程模型 围绕Hadoop周围开源项目 
    完善数处理全生命周期提供必配套补
    充 软件常ZooKeeperHivePig
    HBaseStormKafkaFlumeSqoopOozie
    Mahout等 2012年5月 Hadoop v2alpha版发布
    中重变化Hadoop核心组件中增加
    YARN (Yet Another Resource Negotiator)[9] YARN
    出现计算框架资源理彻底分离开 解决
    Hadoop v1带扩展性差单点障
    时支持种计算框架问题
    Hadoop目前流行数处理台
    围绕Hadoop台安全已存量研究工作 研
    究方具体Hadoop台安全隐患研究
    具体Hadoop组件安全方案优化实现 缺少
    Hadoop台总体安全问题组件解决方案
    题综述型文章 文致力填补研究方
    空白 文首先介绍Hadoop台传统安全问
    题 然身份验证访问授权数加密操作审
    计四安全控方说明Hadoop台述传
    统安全问题解决方法 细化具体组件 包括
    HDFSYARNHBaseHivePigOozieZookeeper
    Hue 次工业界视角 阐述目前投入实际生产
    环境中数台安全技术方案 全文进行
    总结提出进步研究方
    1   Hadoop台传统安全问题
    初Hadoop开发时考虑功优先 
    没考虑安全问题 没安全控方案 没
    户服务身份认证 没数隐私考虑 集群
    中意户均集群提交作业务[10] 着业
    务发展需求 Hadoop增加审计授权机制(
    HDFS文件访问权限ACL) 旧缺乏
    身份验证机制 早期安全方案容易恶意
    户身份伪装方式轻易绕 数台安全
    直令顾虑 相庞Hadoop集群 传统安
    全控方案愈发显足 存问题[11]
    (1) 善意户偶尔会犯错( 误操作导致
    量数删)
    (2) 意户程序均通Hadoop客户端
    编程方式访问Hadoop集群全部数 
    HDFS中户身份意申明检查机制[12]
    (3) 意户均集群提交务[13]查
    务状态修改务优先级甚强行杀死
    计算机系统应 httpwwwcsaorgcn 2018 年 第 27 卷 第 1 期
    2 专·综述 Special Issue正运行程序 MapReduce务没身份验证
    授权概念[14]
     
     
    图2    HDFS中户身份意申明
     
    数台Hadoop已仅仅HDFS
    加MapReduce 包括生态圈中众组件 行业
    Hadoop数台般仅包括Hadoop核心
    组件 Hadoop CommonHDFSYARN 般包括
    核心组件配套流组件 ZookeeperHBase
    HivePigOozieHue等 组件介绍
    (1) Hadoop Common Hadoop框架基础类库 包含
    文件系统RPC协议数串行化库等 提供基础支
    撑性功
    (2) HDFS 分布式文件系统 具高度容错性特
    点 提供高吞吐量数访问 适合超数集
    应程序
    (3) YARN 集群资源调度器 提供集群计算资源
    (CPU存)资源集中控调度 提供务进度
    集中控 支持种分布式计算框架 含Spark
    MapReduceTez等 效提升集群机器资料利

    (4) Zookeeper 利Paxos算法解决消息传递致
    性分布式服务框架 解决分布式应中
    常遇数理问题  统命名服务状
    态步服务集群理分布式应配置项理等
    分布式协调服务难正确误实现 容易
    竞争条件死锁犯错误 Zookeeper出现述场
    景提供优秀解决方案
    (5) HBase 分布式面列开源数库 适合
    结构化非结构化数存储 托HDFS 具备高
    性高性伸缩 量数中进行实时
    查询
    (6) Hive 面数实时性求低海量数查询
    基SQL 结合定义复杂组合查询函数实现目标
    业务搜索 托HDFS 数安全 支持删
    更新中间插入
    (7) Pig 专属分析语言(Pig Latin)数分
    析工具 支持行化处理 适合数准备阶段量快
    速达数进行ETL处理 规模数集进
    行迭代处理
    (8) Oozie 分布式务调度系统 DAG(
    环图Direct Acyclic Graph)定义工作流程
    环节具体操作动作
    (9) Hue 快速开发调试Hadoop生态系统种
    应基浏览器图形化户接口 支持
    HDFS文件浏览HBase数查修改Hive元数
    查Spark务开发调试MapReduce务进度
    追踪Zookeeper浏览编辑Oozie务开发监
    控等众功
    着Hadoop数台应广泛性重性
    日渐提高 安全问题众组织机构提议程 然
    Hadoop数台安全确实相复杂问题 
    涉组件非常技术非常复杂 数
    量计算规模非常 Hadoop数台需
    满足众组件横扩展安全控方案
    终2009年 YahooHadoop安全控提
    出系统全面解决思路 作出实质性贡献
    2013年 Intel牵头启动开源项目Project Rhino 致
    力Hadoop生态组件安全数安全提供增强
    力保证 通Hadoop社区众贡献者努力
    目前已提供套解决述问题基解决方
    案 通引入Kerberos 配置防火墙基础
    HDFS权限ACLs实现 Kerberos实建设
    Hadoop集群必备 更贴操作系统层面套身
    份验证系统 搭建Hadoop服务整合配置
    工作非常复杂 易性方面直没
    够获较效果 该Hadoop安全控
    方案行业实践旧少
    缺少效身份验证安全解决方案(Kerberos)
    剩防火墙HDFS权限ACLs控方案
    足提供安全保证 恶意户穿透防火墙
    身份伪装方式意读取集群中数
    安全隐患包括限9条
    (1) 未授权户通RPCHTTP访问
    HDFS文件 集群执行意代码
    (2) 未授权户直接相应流式数
    传输协议直接DataNode中文件块进行读写操作
    (3) 未授权户私授权
    集群意队列提交务修改户务优
    先级 甚删户务
    (4) 未授权户通HTTP shuffle protocol
    2018 年 第 27 卷 第 1 期 httpwwwcsaorgcn 计算机系统应
    Special Issue 专·综述 3直接访问Map务中间输出结果
    (5) 务通操作系统接口访问
    正运行务 直接方案运行务节点(般
    台DataNode)磁盘数
    (6) 未授权户截获户客户端
    DataNode通信数包
    (7) 程序节点伪装成Hadoop集群部
    服务  NameNodeDataNode等
    (8) 恶意户户身份Oozie提交

    (9) DataNode身文件概念(数块
    概念) 恶意户视集群HDFS文件权限
    ACLs直接读取DataNode中意数块
    综述 传统Hadoop台建设优先考虑
    功性 安全问题没重点考虑 恶意
    户留利安全漏洞隐患 善意户留
    错误操作影响超预期隐患 然Hadoop行业领先
    企业开源社区提出安全控方案 实
    际工业界普率然低 安全问题旧需引起
    重视
    2   Hadoop台安全问题解决方法
    Hadoop分布式系统 允许存储量
    数 行处理数 支持租户服
    务 避免会存储户相关敏感数 身
    份信息财务数 企业户言 Hadoop
    数台存储海量数包含户相关敏
    感数 数仅权限真实户见 
    需强认证授权
    Hadoop生态系统种组件组成 需保护
    Hadoop生态系统组件 Hadoop组件般
    会终户直接访问Hadoop核心组件部
    (HDFSMapReduce)访问 2009年 Yahoo团队发表
    文[15]选择Kerberos做Hadoop台身份验
    证方案 Hadoop数台安全控方案提供
    坚实基础 Hadoop生态系统安全控突飞猛
    进 尝试着生态系统组件安全性
    组件安全解决方案做次系统梳理 组件
    安全挑战 需采取特定方案根需求
    进行正确配置确保安全
    Hadoop数台安全问题两方面体
    现 第 部Hadoop数台需支持租户
    安全 确保户身份信具备细粒度访问
    权限控制 保证操作相互影响 数安全隔离
    第二 外部Hadoop数台需支持禁止匿名
    户访问 禁止恶意窃取户信息 确保户操作
    审计 查 保证户数加密 避免
    泄露数导致信息窃取
    针述Hadoop数台安全两方面
    问题 解决时需针全部组件 身份验证访
    问授权数加密操作审计[1617]四方出解决
    方案
    21 身份验证
    身份验证指验证访问系统户标识 Hadoop提
    供Kerberos作身份验证 初 SASLGSSAPI
    实现Kerberos 通RPC连接相互验证户 应
    程序Hadoop服务 Hadoop支持HTTP Web控制
    台Pluggable身份验证 意味着Web应程序
    Web控制台实现者HTTP连接实现
    身份验证机制 包括限HTTP SPNEGO身
    份验证
    Hadoop组件支持SASL框架 RPC层根需
    选择SASL DigestMD5认证SASL GSSAPI
    Kerberos认证[18] 详细
    (1) HDFS NameNodeDataNode间通信通
    RPC连接 间执行相互Kerberos认证[19]
    (2) YARN 支持Kerberos身份验证 SASL Digest
    MD5身份验证RPC连接委派令牌身份验证
    (3) HBase 支持通RPC HTTPSASL
    Kerberos客户端安全认证
    (4) Hive 支持KerberosLDAP认证 支持通
    Apache Knox认证
    (5) Pig 户票作业提交Hadoop 
     需额外Kerberos安全认证 启动
    Pig前 户应该KDC进行身份验证获取
    效Kerberos票
    (6) Oozie Web客户端提供Kerberos HTTP
    简单受保护GSSAPI协商机制(SPNEGO)
    身份验证 客户端应程序想远程服务器进行
    身份验证 确定身份验证协议时 
    SPNEGO协议
    (7) Zookeeper RPC连接支持SASL Kerberos
    计算机系统应 httpwwwcsaorgcn 2018 年 第 27 卷 第 1 期
    4 专·综述 Special Issue身份验证
    (8) Hue 提供SPENGO身份验证 LDAP身份验
    证 现支持SAML SSO身份验证
    Hadoop认证涉数流 Kerberos RPC认证
    机制户认证应程序Hadoop服务 HTTP
    SPNEGO认证Web控制台 委托令牌
    委托令牌户NameNode间认证户双
    方认证协议 Kerberos三方协议更加简单
    运行效率更高 OozieHDFSMapReduce均支
    持委托令牌
    22 访问授权
    授权户系统指定访问控制权限程
    Hadoop中 访问控制遵循UNIX权限模型基
    文件权限模型实现 具体
    (1) HDFS NameNode基户户组文件权
    限HDFS中文件进行访问控制
    (2) YARN 作业队列提供ACL 定义户
    组作业提交队列户组更
    改队列属性
    (3) HBase 提供表列族户授权 协处
    理器实现户授权 协处理器HBase中数
    库触发器 前拦截表请求 目前
    HBase支撑单元级超细粒度访问控制
    (4) Hive 赖HDFS文件权限进行控制
    类似SQL方式实现数库数
    表甚字段级超细粒度访问控制
    (5) Pig ACL作业队列提供授权
    (6) Oozie 提交务权限赖YARN定义
    务队列提交权限控制
    (7) Zookeeper 提供节点ACL授权
    (8) Hue 通文件系统权限提供访问控制 提
    供作业队列ACL
    Hadoop设置通户组权限访
    问控制列表(ACL)执行访问控制 足满
    足企业需 组件均套
    控体系导致控入口分散 组件控具体操作
    方式异 导致运维实施操作时复杂度高 般
    会采集成解决方案 访问授权集中
    视化方式封装起[20] 降低运维操作复杂
    度 提升效率 解决方案包括 Apache Ranger
    Cloudera Sentry等
    23 数加密
    加密确保户信息机密性隐私性 保护
    Hadoop中敏感数[21] Hadoop机器
    运行分布式系统 意味着数网络定期传输
    避免 数挖掘需求会求
    数持续断写入集群 数写入读出集群时
    称运动数 数保存集群部时 称静
    止数 全面数加密方案需时兼顾运动
    数加密静止数加密[22] 常见数加密保护
    策略包括两条
    (1) 运动数加密保护策略 数传输
    Hadoop系统Hadoop系统读出数时 
    简单认证安全层(SASL)认证框架Hadoop生
    态系统中加密运动中数 SASL安全性保证客户端
    服务器间交换数 确保数会中间
    读取 SASL支持种身份验证机制 例DIGEST
    MD5 CRAMMD5等
    (2) 静止数加密保护策略 静止数通
    两种方案加密 方案 数存储HDFS前
    首先整数文件进行加密 然加密文
    件写入HDFS中 种方法中 DataNode中
    数块单独解密 全部DataNode中全部
    数块读取出 进行解密 方案二 
    HDFS层面数块进行加密 操作文
    件写入方感知 HDFS底层静默进行加密处

    Hadoop组件数加密支持
    (1) HDFS 支持种通道加密功 RPC
    HTTP数传输协议等 支持运动数进行加
    密保护 Hadoop支持静止数加密保护 
    通Hadoop加密编解码器框架加密编解码器
    实现
    (2) YARN 存储数 涉数加密
    (3) HBase 支持基SASL框架RPC操作
    提供运动数进行加密 目前暂提供静止数
    加密解决方案 通定制加密技术第三
    方工具实现
    (4) Hive 目前官方暂提数加密解决方案数
     通定制加密技术第三方工具实现
    (5) Pig 支持SASL运动数进行加密
    目前暂提供静止数加密解决方案 通
    2018 年 第 27 卷 第 1 期 httpwwwcsaorgcn 计算机系统应
    Special Issue 专·综述 5定制加密技术第三方工具实现
    (6) Oozie 支持SSLTLS运动数进行
    加密 目前暂提供静止数加密解决方案 
    通定制加密技术第三方工具实现
    (7) Zookeeper 目前官方暂提数加密解决方
    案数 通定制加密技术第三方工具
    实现
    (8) Hue 支持HTTPS运动数进行加
    密 目前暂提供静止数加密解决方案 
    通定制加密技术第三方工具实现
    24 操作审计
    Hadoop集群托敏感信息 信息安全企
    业具成功安全数关重[23] 便做
    较完善安全控 然存未授权访问
    特权户适访问发生安全漏洞性 
    满足安全合规性求 需定期审计整
    Hadoop生态系统 部署实施执行日志监视
    系统[24] 详细
    (1) HDFS 提供户访问HDFS执行操作行
    审计支持
    (2) YARN 提供户务提交资源量资
    源队列操作等行审计支持
    (3) HBase 提供户访问HBase执行操作行
    审计支持
    (4) Hive 通Metastore提供户访问Hive执
    行操作行审计支持
    (5) Pig 目前官方暂提审计功 通
    定制加开发第三方工具实现
    (6) Oozie 通Oozie日志文件提供户执行
    分布式务调度信息审计支持
    (7) Zookeeper 目前官方暂提审计功 
    通定制开发第三方工具实现
    (8) Hue 通Hue日志文件提供户
    Hue执行操作行审计支持
    官方提供置审计日志记录Hadoop组
    件 行业般通定义开发日志记录结合日志
    采集工具 例 FlumeScribeLogStash等开源工
    具 实现审计日志数接入数台中 然托
    需采集日志 搭建适合企业部日志理系
    统 支持集中式日志记录审核[25]
    综述 Hadoop安全问题目前身份验证访
    问授权数加密操作审计四方均
    解决方案实现解决思路 数台
    户应该合理分析应场景明确安全保障等级
    台组件应该存安全短板 具体
    租户场景 户身份验证访问授权关
    重 数敏感场景 数传输中动态加密
    数存储时静态加密均需考虑 问题追责体系
    量计量需求时 操作审计必需具备安全控
    力 实际生产环境中实践显示操作审计性
    定影响 审计日志体量较 需做评估
    优化设计
    3   Hadoop台安全技术方案
    数台开源社区致力开发更高性
    更稳定数组件时 致力解决台安全
    重问题 着发行版Hadoop日趋成熟 目前
    行业领先ClouderaHortonworks等Hadoop发行
    厂商支持开源社区输出较成熟先进
    组件产品技术方案
    Hadoop台安全技术方案正致力覆盖更
    全面Hadoop台组件 均数台安全控
    身份验证访问授权数加密操作审计四方
    应设计出安全控产品 具备安全力保障
    安全力易两特性 具体 技术方案分

    (1) Hadoop台安全技术控核心 集中化安
    全控
    (2) Hadoop台安全技术台应方更友
    封装 集群边界安全控
    (3) Hadoop台安全技术台运维方更友
    封装 动化安全控
    31 集中化安全控
    早期没集中化安全控工具时 Hadoop数
    台安全理问题运维团队相友
    (1) 控入口零散 技术组件具备
    控指令语法 控工作繁琐效率低
    (2) 缺少视化界面 全部技术组件仅支持命令
    行式配置查询操作方式 控工作复杂出错概
    率高
    计算机系统应 httpwwwcsaorgcn 2018 年 第 27 卷 第 1 期
    6 专·综述 Special Issue 
    图3    传统数台安全控方式
     
    通集中化安全控组件 幅度降低数
    台安全控复杂度工作量
    311    Apache Sentry
    Apache SentryCloudera公司发布
    Hadoop开源组件 提供细粒度级基角色授
    权租户理模式 该项目2016年3月孵化
    成果 目前属Apache顶级项目
    Apache Sentry目前Cloudera发行版Hadoop
    (CDH) 集中化安全控组件 定位集中
    化提供Hadoop数台组件权限控 设计目

    (1) 授权户数元数访问需求提
    供细粒度基角色控制 (RBAC rolebased
    access control)
    (2) 企业级数安全控标准
    (3) 提供统权限策略控方式
    (4) 插件化高度模块化
    截止版v170已支持组件包括 HDFS
    Hive (SolrKafkaImpla)
    Apache Sentry架构设计支持高 单点障
    影响正常服务
    目前Apache Sentry支持Hadoop相关组件
    数量然 支持基属性标签权限控制方案
    支持Hadoop相关组件操作行审计
    312    Apache Ranger
    Apache RangerHortonworks发布
    Hadoop开源组件 解决Hadoop台服务安
    全理政现状 造集中统理
    界面 服务提供权限理日志审计等
    Apache Ranger目前Hortonworks发行版
    Hadoop (HDP) 集中化安全控组件 定位
    集中化提供Hadoop数台组件权限控
    相关组件提供审计力 设计目标
    (1) 通Web UIREST APIs方式提供集中化
    安全控力
    (2) 集中式理工具提供细粒度操作
    行控
    (3) Hadoop相关技术组件提供标准化授权
    理方案
    (4) 增强支持权限控方案  基角色
    控基属性标签 (Tag) 控
    (5) 支持Hadoop相关技术组件户操作维护
    行集中审计
    截止版070已支持组件包括 YARN
    HDFSHiveHBase (SolrKafkaKnox
    StormNiFi)
    Apache Ranger目前支持组件较丰富 提供
    统审计力
    目前Apache Ranger高力暂完善
    单点障时然影响Hadoop相关组件权限判
    断户 时法提供访问权限变更服

    32 集群边界安全控
    数台安全解决方案然显著提升集
    群安全性 运维团队说面租户场景
    运维存定复杂性工作量 开发团队说
    基Kerberos身份验证存着编程开发门
    槛 集群边界安全控方案提出 运维团队
    仅须关注集群部 需部署细节外公布 开
    发团队说 通边界网集中式访问种Hadoop相
    关服务 幅度简化开发复杂性
    321    Apache Knox
    Apache Knox开源Hadoop Gateway 
    目简化标准化发布实现安全
    Hadoop集群 Kerberos化集群 
    者屏蔽复杂Kerberos交互 需专注通集
    中式REST APIs访问Hadoop相关服务
    具体 Apache Knox支持户身份验证单点登
    录服务级授权控制审计功 配合合理配置
    网络安全策略Kerberos化Hadoop集群 Apache
    Knox提供企业级REST API Gateway服务
    (1) 企业现户身份理方案快速集成
    (2) 保护集群部署细节 终端户需保留集
    群机端口号等信息 减少安全隐患
    (3) 简化开发团队需交互服务数量 需
    众Hadoop相关组件直接交互 仅需Apach Knox
    交互
    截止版0120已支持组件包括
    2018 年 第 27 卷 第 1 期 httpwwwcsaorgcn 计算机系统应
    Special Issue 专·综述 7(1) 服务 AmbariHDFSHBaseHCatalog
    OozieHiveYARNStorm
    (2) Web UI NameNode UIJobHistory UIOozie
    UIHBase UIYARN UISpark UIAmbari UI
    Ranger Admin Console
    Apache Knox处快速发展程中 Horton
    works发行版Hadoop (HDP) 已提供较完善
    支持 支持键安装 余Hadoop发行版
    时需行做相关适配工作
    33 动化安全控
    331    Apache Ambari
    Apache Ambari创建理监视
    Hadoop集群开源工具 Hadoop相
    关数软件更容易工具 Ambari
    数台安全支持良 提供键式视化
    Kerberos化Hadoop集群功
    截止版250 安全控方面 Apache
    Ambari提供功
    (1) 视化动化Kerberos化Hadoop集群操

    (2) Apache Ranger键安装配置
    (3) Apache Knox键安装配置
    Apache AmbariHortonworks IBM Pivotal
    Infosys等公司支持开发 益开源社区力量 
    发展速度相快 目前相成熟Hadoop集群
    控工具
    目前存问题界面友性较弱 动
    化部署配置时错误日志显示精确 (便定位问
    题根原) 出现问题缺少动回滚力 (停留
    配置中间状态需工修复)
    332    Cloudera Manager
    Cloudera Manager定位Apache Ambari
    致产品 Cloudera公司开发支持
    发行版Hadoop (CDH) 理工具 开发投产时间
    早Apache Ambari约3年 产品完善程
    度户界面友程度较领先
    截止版5101 安全控方面 Cloudera
    Manager提供功
    (1) 视化动化Kerberos化Hadoop集群
    操作
    (2) Apache Sentry键安装配置
    Cloudera ManagerCloudera公司闭源开发产
    品 仅支持发行版Hadoop配套 没采
    开源路线 缺陷新功修改意见等均法
    Apache Ambari样快速响应 时需
    License付费支持二次开发
    目前存问题缺少集群边界安全控
    支持
    综述 目前工业界开源社区已具备基
    Hadoop安全技术方案 实现基安全
    控力 构建安全数台时 建议选择集中化
    安全控工具动化安全控工具实现安全控
    希降低数台户门槛运维理维
    护工作量需求 考虑引入集群边界安全控工
    具 总体言 目前安全技术方案开箱
    力稳定性易性完善 般需投入定
    定制化开发适配工作 台运营理流程
    需针性做规范 避免台运维者者间
    分工模糊流程紊乱产生突问题
    4   结语
    数时代 数台需处理海量数
    承载租户应 集群安全数安全成需
    重点关注问题 着Hadoop行业越越采
    纳广泛生产环境 实战环境中安全
    解决方案企业团队需综合考虑实践
    文描述传统Hadoop数台安全隐患 基涵
    盖解决隐患采技术方法 目前
    成熟技术方案 认研究方侧重
    4方面
    (1) Hadoop台安全问题 持续进Hadoop生态
    圈技术组件 关注生产实践中新发现安全问
    题隐患
    (2) Hadoop台安全问题解决方法 持续进安
    全控四方新方 Hadoop
    生态圈技术组件安全问题解决方法补充更
    新 关注新安全问题解决方法
    (3) Hadoop台安全问题技术方案 持续进工
    业界开源社区 关注Hadoop台安全问题技
    术方案力更新出现新技术方案
    (4) Hadoop台安全控佳实践 根技术方
    案成熟度行业应实战验 技术方案足
    计算机系统应 httpwwwcsaorgcn 2018 年 第 27 卷 第 1 期
    8 专·综述 Special Issue够解决基安全问题时 出Hadoop台安全控
    佳实践 安全理等级需求 出针性
    落方案指导佳实践建议
    参考文献
    Laney  D  3D  data  management  Controlling  data  volume
    velocity and variety META Group Research Note 2001 (6)
    70
    1
    Terzi  DS  Terzi  R  Sagiroglu  S  A  survey  on  security  and
    privacy  issues  in  big  data  2015  10th  International  Confer
    ence  for  Internet  Technology  and  Secured  Transactions
    (ICITST) London UK 2015 14–16
    2
    Hashem  IAT  Yaqoob  I  Anuar  NB et al  The  rise  of   big
    data on cloud computing Review and open research issues
    Information  Systems  2015  (47)  98 –115  [doi 101016
    jis201407006]
    3
    Verma A Pedrosa L Korupolu M et al Largescale cluster
    management at Google with Borg Proceedings of the Tenth
    European  Conference  on  Computer  Systems  Bordeaux
    France 2015 18
    4
    Ghemawat S Gobioff H Leung ST The Google file system
    ACM SIGOPS Operating Systems Review 2003 37(5) 29–
    43 [doi 1011451165389]
    5
    Dean J Ghemawat S MapReduce A flexible data processing
    tool  Communications  of  the  ACM  2010  53(1)  72 –
    77 [doi 1011451629175]
    6
    Burrows  M  The  Chubby  lock  service  for  looselycoupled
    distributed  systems  Proceedings  of  the  7th  Symposium  on
    Operating  Systems  Design  and  Implementation  Berkeley
    CA USA 2006 335–350
    7
    Chang F Dean J Ghemawat S et al Bigtable A distributed
    storage  system  for  structured  data  ACM  Transactions  on
    Computer Systems (TOCS) 2008 26(2) 4
    8
    Vavilapalli  VK  Murthy  AC  Douglas  C et al  Apache
    Hadoop  YARN  Yet  another  resource  negotiator
    Proceedings  of  the  4th  Annual  Symposium  on  Cloud
    Computing New York NY USA 2013 5
    9
    Big Data Working Group Expanded top ten big data security
    and privacy challenges 2013
    10
    Adluru P Datla SS Zhang XW Hadoop eco system for big
    data security and privacy 2015 IEEE Long Island Systems
    Applications  and  Technology  Conference  (LISAT)
    Farmingdale NY USA 2015 1–6
    11
    Somu N Gangaa A Sriram VSS Authentication service in12
    Hadoop  using  one  time  pad  Indian  Journal  of  Science  &
    Technology 2014 7(S4) 56–62
    Bardi  M  Zhou  XW  Li  S et al  Big  Data  security  and
    privacy A review China Communications 2014 11(14) 135–
    145 [doi 101109CC20147085614]
    13
    Fernandez EB Security in data intensive computing systems
    Furht B Escalante A Handbook of Data Intensive Comput
    ing New York Springer 2011 447–466
    14
    O ’Malley  O  Zhang  K  Radia  S et al  Hadoop  security
    design Sunnyvale CA USA Yahoo Inc 2009
    15
    Hortonworks  Securing  your  hadoop  infrasturcture  with
    apach knox httphortonworkscomhadooptutorial securing
    hadoopinfrastructureapacheknox 2014
    16
    Shukla  V  Hadoop  security  Today  and  tomorrow
    httpshortonworkscombloghadoopsecuritytodayand
    tomorrow [20131209]
    17
    Zhang XF Secure your Hadoop cluster with apache sentry
    Cloudera [20140407]
    18
    Saraladevi B Pazhaniraja N Paul P V et al Big Data and
    Hadoopa  study  in  security  perspective  Procedia  Computer
    Science  2015  (50)  596 –601  [doi 101016jprocs2015
    04091]
    19
    Hortonworks  Comprehensive  and  coordinated  security  for
    enterprise  hadoop httphortonworkscomlabssecurity
    [20140515]
    20
    Tene  O  Polonetsky  J  Big  Data  for  all  Privacy  and  user
    control  in  the  age  of  analytics  Northwestern  Journal  of
    Technology  and  Intellectual  Property  Volume  2013  11(5)
    240–273
    21
    Cheng  HB  Rong  CM  Hwang  K et al  Secure  Big  Data
    storage and sharing scheme for cloud tenants China Communic
    ations 2015 12(6) 106–115 [doi 101109CC 20157122469]
    22
    Marchal S Jiang XY State R et al A Big Data architecture
    for large scale security monitoring 2014 IEEE International
    Congress on Big Data (BigData Congress) Anchorage AK
    USA 2014 56–63
    23
    Lan  L  Jun  L  Some  special  issues  of  network  security
    monitoring  on  Big  Data  environments  Proceedings  of  the
    2013  IEEE  11th  International  Conference  on  Dependable
    Autonomic  and  Secure  Computing  (DASC)  Washington
    DC USA 2013 10–15
    24
    Gupta  A  Verma  A  Kalra  P et al  Big  Data  A  security
    compliance  model  Proceedings  of  the  2014  Conference  on
    IT in Business Industry and Government (CSIBIG) Indore
    India 2014 1–5
    25
    2018 年 第 27 卷 第 1 期 httpwwwcsaorgcn 计算机系统应
    Special Issue 专·综述 9

    《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
    该内容是文档的文本内容,更好的格式请下载文档

    下载pdf到电脑,查找使用更方便

    pdf的实际排版效果,会与网站的显示效果略有不同!!

    需要 3 香币 [ 分享pdf获得香币 ]

    下载pdf

    相关文档

    慧点科技电子政务数据共享平台解决方案-电子政务解决方案

    慧点科技电子政务数据共享平台解决方案-电子政务解决方案  项目背景   随着信息化进程的推进,佛山市电子政务建设已经取得可喜突破和巨大成就。但由于现时佛山市属下各区、各部门的信息化建设的独立性...

    11年前   
    627    0

    中创软件电子政务数据交换平台解决方案-电子政务解决方案

    中创软件电子政务数据交换平台解决方案-电子政务解决方案  方案概要  中创软件推出的“电子政务数据交换平台解决方案”,是基于中创软件Infor系列中间件技术,结合政府信息化建设现状及发展需求而...

    11年前   
    486    0

    中创软件数据交换平台系统解决方案-信息系统解决方案

    中创软件数据交换平台系统解决方案-信息系统解决方案  随着我国信息化工程建设的迅速发展,政府部门及各大企业都建立了各自的信息处理系统。这些信息系统往往是在不同时期、由不同厂商、在不同平台上建设...

    9年前   
    604    0

    基于Action的数据分析大数据平台

     基于Action的用户行为分析大数据平台Action-based user behavior analytics big data platform内容摘要电商平台作为当前最受欢迎,热度最...

    10个月前   
    242    0

    StorageTek:医疗数据档案解决方案-数据存储解决方案

    StorageTek:医疗数据档案解决方案-数据存储解决方案  商务需求  克利夫兰医疗中心是美国接收病人最多的保健中心之一,必须保证病人的研究数据实时快速可用。医疗中心决不能容忍因为存储产品...

    9年前   
    557    0

    VERITAS:数据保护和防灾系统解决方案-灾难备份解决方案

    VERITAS:数据保护和防灾系统解决方案-灾难备份解决方案  项目背景   北京市公安局出入境管理处是为中国公民和外国公民出入境提供服务的政府机构,是北京乃至中国的对外服务窗口机构,由于近年...

    10年前   
    448    0

    医疗大数据解决方案

    医疗大数据解决方案与信息系统的耦合度为零的数据才是合格的大数据全国97.8万家医疗机构的信息系统基本上都是用关系数据库而建立的,然而要对关系数据库中的数据进行挖掘非常困难。大数据并不是小数据之...

    4年前   
    694    0

    深思数据库信息整合发布平台(WEB)方案-信息系统解决方案

    深思数据库信息整合发布平台(WEB)方案-信息系统解决方案  一.前言  信息技术目前已进入的社会的各个领域,许多政府和企业已开发应用的许多管理信息系统,这些系统在日常业务管理工作中发挥了极其...

    9年前   
    645    0

    中远物流公司数据交换平台项目应用案例-物流与供应链(SCM)解决方案

    中远物流公司数据交换平台项目应用案例-物流与供应链(SCM)解决方案  行业背景  中国远洋物流公司(COSCO LOGISTICS以下简称中远物流)是中国远洋运输集团(COSCO)下属的、规...

    10年前   
    604    0

    光明乳业应用数据交换平台成功案例-进销存管理解决方案

    光明乳业应用数据交换平台成功案例-进销存管理解决方案  公司简介  上海光明乳业有限公司成立于1996年,经过五年健康良性的快速发展,已经取得了在中国乳品行业的领先地位。光明乳业于2000年底...

    9年前   
    444    0

    VERITAS助福建地税实现数据备份解决方案-数据存储解决方案

    VERITAS助福建地税实现数据备份解决方案-数据存储解决方案  项目背景   随着福建地税管理信息系统的全面运行,全省业务数据将随业务的开展逐步增加,这些数据对福建地税来说至关重要,数据的丢...

    11年前   
    447    0

    Sybase数据仓库解决方案--贵州电信-数据仓库解决方案

    Sybase数据仓库解决方案--贵州电信-数据仓库解决方案  概 述  随着电信市场的逐步开放,新兴的运营商不断产生,电信市场的竞争日趋激烈。一方面,为了能够在竞争中生存和持续发展,各电信运营...

    9年前   
    466    0

    MapReduce在Hadoop中的性能分析

    MapReduce在Hadoop中的性能分析 第1章      Hadoop平台研究 3.1  Hadoop的思想之源:Google Google的服务非常多,包括Google搜索引...

    10年前   
    8842    0

    Sybase:电信运营数据集成成功案例-数据仓库解决方案

    Sybase:电信运营数据集成成功案例-数据仓库解决方案  客户背景  Telefonica,西班牙及葡萄牙语地区领先的电信运营商,拥有8200多万用户。  系统介绍  Telefonica已...

    11年前   
    625    0

    金保工程应用Sybase数据中心成功案例-数据存储解决方案

    金保工程应用Sybase数据中心成功案例-数据存储解决方案  项目背景  金保工程是劳动和社会保障信息化建设的总称。劳动和社会保障信息化建设是我国政府信息化建设的重要组成部分,也是我省的电子政...

    12年前   
    734    0

    GoCom融合通信平台电子政务解决方案-平台软件解决方案

    GoCom融合通信平台电子政务解决方案-平台软件解决方案  行业背景  在信息化迅速发展的今天,政府面对各种各样业务,需要一个能够简洁对业务进行处理的通道,需要一个能够实时,快速与其它工作人员...

    11年前   
    437    0

    IBM ACS:某数据中心整体解决方案-光纤接入解决方案

    IBM ACS:某数据中心整体解决方案-光纤接入解决方案  1.项目概况  XX大型数据中心项目,总计建筑面积约为1万平方米,铜缆4000多个信息点,光纤20000芯,全面采用IBM ACS ...

    11年前   
    609    0

    长久斯捷数据备份解决方案-灾难备份解决方案

    长久斯捷数据备份解决方案-灾难备份解决方案  LANfree的概念 SAN存储区域网基于高速光纤通道(Fibre Channel)SCSI技术,在服务器之间以及服务器和存储设备之间建立了高速的...

    10年前   
    491    0

    ICEFLOW MC助“华氏大药房”提升数据安全性-系统安全解决方案

    ICEFLOW MC助“华氏大药房”提升数据安全性-系统安全解决方案  用户背景:  上海华氏大药房成立于1998年,拥有一支不断发展的员工与专业人员队伍,公司建立了以质量管理为主线贯穿于整个...

    11年前   
    586    0

    中国建设银行数据存储管理解决方案-数据存储解决方案

    中国建设银行数据存储管理解决方案-数据存储解决方案  面对日趋激烈的竞争,中国建设银行需要整合、统一、改进其存储基础设施。赛门铁克数据管理解决方案帮助该行将存储利用率提高50%,能够避免购买1...

    9年前   
    399    0