在线网盘资源搜索下载资源搜

深度剖析Hadoop HDFS

资源名称：深度剖析Hadoop HDFS 内容简介：《深度剖析Hadoop HDFS》基于Hadoop 2.7.1版本进行分析，全面描述了HDFS 2.X的核心技术与解决方案，书中描述了HDFS内存存储、异构存储等几大核心设计，包括源码细节层面的分析，对于HDFS中比较特殊的几个场景过程也做了细粒度的分析。还分享了作者在实际应用中的解决方案及扩展思路。阅读《深度剖析Hadoop HDFS》可以帮助读者从架构设计与功能实现角度了解HDFS 2.X，同时还能学习HDFS 2.X框架中优秀的设计思想、设计模式、Java语言技巧等。这些对于读者全面提高自己分布式技术水平有很大的帮助。《深度剖析Hadoop HDFS》分为三大部分：核心设计篇、细节实现篇、解决方案篇，“核心设计篇”包括HDFS的数据存储原理、HDFS的数据管理与策略选择机制、HDFS的新颖功能特性；“细节实现篇”包括HDFS的块处理、流量处理等细节，以及部分结构分析；“解决方案篇”包括HDFS的数据管理、HDFS的数据读写、HDFS的异常场景等。资源目录：前言第一部分核心设计篇第1章 HDFS的数据存储2 1.1 HDFS内存存储2 1.1.1 HDFS内存存储原理2 1.1.2 Linux 虚拟内存盘4 1.1.3 HDFS的内存存储流程分析4 1.1.4 LAZY_PERSIST内存存储的使用14 1.2 HDFS异构存储15 1.2.1 异构存储类型16 1.2.2 异构存储原理17 1.2.3 块存储类型选择策略22 1.2.4 块存储策略集合24 1.2.5 块存储策略的调用27 1.2.6 HDFS异构存储策略的不足之处28 1.2.7 HDFS存储策略的使用30 1.3 小结31 第2章 HDFS的数据管理与策略选择32 2.1 HDFS缓存与缓存块32 2.1.1 HDFS物理层面缓存块33 2.1.2 缓存块的生命周期状态34 2.1.3 CacheBlock、UnCacheBlock场景触发36 2.1.4 CacheBlock、UnCacheBlock缓存块的确定38 2.1.5 系统持有的缓存块列表如何更新39 2.1.6 缓存块的使用40 2.1.7 HDFS缓存相关配置40 2.2 HDFS中心缓存管理42 2.2.1 HDFS缓存适用场景43 2.2.2 HDFS缓存的结构设计43 2.2.3 HDFS缓存管理机制分析45 2.2.4 HDFS中心缓存疑问点55 2.2.5 HDFS CacheAdmin命令使用56 2.3 HDFS快照管理58 2.3.1 快照概念59 2.3.2 HDFS中的快照相关命令59 2.3.3 HDFS内部的快照管理机制60 2.3.4 HDFS的快照使用71 2.4 HDFS副本放置策略72 2.4.1 副本放置策略概念与方法72 2.4.2 副本放置策略的有效前提73 2.4.3 默认副本放置策略的分析73 2.4.4 目标存储好坏的判断82 2.4.5 chooseTargets的调用83 2.4.6 BlockPlacementPolicyWithNodeGroup继承类84 2.4.7 副本放置策略的结果验证85 2.5 HDFS内部的认证机制85 2.5.1 BlockToken认证85 2.5.2 HDFS的Sasl认证91 2.5.3 BlockToken认证与HDFS的Sasl认证对比97 2.6 HDFS内部的磁盘目录服务98 2.6.1 HDFS的三大磁盘目录检测扫描服务98 2.6.2 DiskChecker：坏盘检测服务99 2.6.3 DirectoryScanner：目录扫描服务104 2.6.4 VolumeScanner：磁盘目录扫描服务110 2.7 小结116 第3章 HDFS的新颖功能特性117 3.1 HDFS视图文件系统：ViewFileSystem117 3.1.1 ViewFileSystem：视图文件系统118 3.1.2 ViewFileSystem内部实现原理119 3.1.3 ViewFileSystem的使用125 3.2 HDFS的Web文件系统：WebHdfsFileSystem126 3.2.1 WebHdfsFileSystem的REST API操作127 3.2.2 WebHdfsFileSystem的流程调用129 3.2.3 WebHdfsFileSystem执行器调用130 3.2.4 WebHDFS的OAuth2认证133 3.2.5 WebHDFS的使用135 3.3 HDFS数据加密空间：Encryption zone136 3.3.1 Encryption zone原理介绍136 3.3.2 Encryption zone源码实现136 3.3.3 Encryption zone的使用144 3.4 HDFS纠删码技术145 3.4.1 纠删码概念145 3.4.2 纠删码技术的优劣势146 3.4.3 Hadoop纠删码概述147 3.4.4 纠删码技术在Hadoop中的实现148 3.5 HDFS对象存储：Ozone152 3.5.1 Ozone介绍153 3.5.2 Ozone的高层级设计154 3.5.3 Ozone的实现细节157 3.5.4 Ozone的使用157 3.6 小结158 第二部分细节实现篇第4章 HDFS的块处理160 4.1 HDFS块检查命令fsck160 4.1.1 fsck参数使用160 4.1.2 fsck过程调用161 4.1.3 fsck原理分析162 4.1.4 fsck使用场景171 4.2 HDFS如何检测并删除多余副本块171 4.2.1 多余副本块以及发生的场景172 4.2.2 OverReplication多余副本块处理172 4.2.3 多余副本块清除的场景调用177 4.3 HDFS数据块的汇报与处理179 4.3.1 块处理的五大类型179 4.3.2 toAdd：新添加的块181 4.3.3 toRemove：待移除的块184 4.3.4 toInvalidate：无效的块186 4.3.5 toCorrupt：损坏的块189 4.3.6 toUC：正在构建中的块191 4.4 小结193 第5章 HDFS的流量处理194 5.1 HDFS的内部限流194 5.1.1 数据的限流194 5.1.2 DataTransferThrottler限流原理196 5.1.3 数据流限流在Hadoop中的使用198 5.1.4 Hadoop限流优化点202 5.2 数据平衡204 5.2.1 Balancer和Dispatcher204 5.2.2 数据不平衡现象207 5.2.3 Balancer性能优化207 5.3 HDFS节点内数据平衡210 5.3.1 磁盘间数据不平衡现象及问题211 5.3.2 传统的磁盘间数据不平衡解决方案211 5.3.3 社区解决方案：DiskBalancer212 5.4 小结216 第6章 HDFS的部分结构分析217 6.1 HDFS镜像文件的解析与反解析217 6.1.1 HDFS的FsImage镜像文件218 6.1.2 FsImage的解析218 6.1.3 FsImage的反解析221 6.1.4 HDFS镜像文件的解析与反解析命令226 6.2 DataNode数据处理中心DataXceiver227 6.2.1 DataXceiver的定义和结构228 6.2.2 DataXceiver下游处理方法232 6.2.3 ShortCircuit232 6.2.4 DataXceiver的上游调用233 6.2.5 DataXceiver与DataXceiverServer234 6.3 HDFS邻近信息块：BlockInfoContiguous235 6.3.1 triplets对象数组236 6.3.2 BlockInfoContiguous的链表操作239 6.3.3 块迭代器BlockIterator244 6.4 小结246 第三部分解决方案篇第7章 HDFS的数据管理248 7.1 HDFS的读写限流方案248 7.1.1 限流方案实现要点以及可能造成的影响248 7.1.2 限流方案实现249 7.1.3 限流测试结果250 7.2 HDFS数据资源使用量分析以及趋势预测250 7.2.1 要获取哪些数据251 7.2.2 如何获取这些数据251 7.2.3 怎么用这些数据254 7.3 HDFS数据迁移解决方案257 7.3.1 数据迁移使用场景257 7.3.2 数据迁移要素考量258 7.3.3 HDFS数据迁移解决方案：DistCp259 7.3.4 DistCp优势特性260 7.3.5 Hadoop DistCp命令264 7.3.6 DistCp解决集群间数据迁移实例265 7.4 DataNode迁移方案265 7.4.1 迁移方案的目标266 7.4.2 DataNode更换主机名、ip地址时的迁移方案267 7.5 HDFS集群重命名方案268 7.6 HDFS的配置管理方案271 7.6.1 HDFS配置管理的问题271 7.6.2 现有配置管理工具272 7.6.3 运用Git来做配置管理272 7.7 小结273 第8章 HDFS的数据读写274 8.1 DataNode引用计数磁盘选择策略274 8.1.1 HDFS现有磁盘选择策略274 8.1.2 自定义磁盘选择策略279 8.2 Hadoop节点“慢磁盘”监控282 8.2.1 慢磁盘的定义以及如何发现282 8.2.2 慢磁盘监控284 8.3 小结287 第9章 HDFS的异常场景288 9.1 DataNode慢启动问题288 9.1.1 DataNode慢启动现象288 9.1.2 代码追踪分析290 9.1.3 参数可配置化改造293 9.2 Hadoop中止下线操作后大量剩余复制块问题295 9.2.1 节点下线操作的含义及问题295 9.2.2 死节点“复活”297 9.2.3 Decommission下线操作如何运作299 9.2.4 中止下线操作后移除残余副本块解决方案303 9.3 DFSOutputStream的DataStreamer线程泄漏问题306 9.3.1 DFSOutputStream写数据过程及周边相关类、变量306 9.3.2 DataStreamer数据流对象307 9.3.3 ResponseProcessor回复获取类311 9.3.4 DataStreamer与DFSOutputStream的关系313 9.3.5 Streamer线程泄漏问题316 9.4 小结319 附录如何向开源社区提交自己的代码320 资源截图：

陌佑

百度云

架构大数据大数据技术及算法解析

资源名称：架构大数据大数据技术及算法解析内容简介：本书从大数据架构的角度全面解析大数据技术及算法，探讨大数据的发展和趋势。不仅对大数据相关技术及算法做了系统性的分析和描述，梳理了大数据的技术分类，如基础架构支持、大数据采集、大数据存储、大数据处理、大数据展示及交互，还融合了大数据行业的最新技术进展和大型互联网公司的大数据架构实践，努力为读者提供一个大数据的全景画卷。资源目录：第1章大数据技术概述 1 1.1 大数据的概念 1 1.2 大数据的行业价值 4 1.3 大数据问题的爆发 9 1.4 大数据处理流程 12 1.5 大数据技术 13 1.5.1 基础架构支持 14 1.5.2 数据采集 14 1.5.3 数据存储 15 1.5.4 数据计算 16 1.5.5 展现与交互 18 1.6 练习题 19 参考文献 19 第2章大数据基础支撑——数据中心及云计算 20 2.1 数据中心概述 20 2.1.1 云计算时代数据中心面临的问题 21 2.1.2 新一代数据中心关键技术 22 2.1.3 业界发展动态 24 2.1.4 小结 25 2.2 云计算简介 25 2.2.1 云计算定义 26 2.2.2 云计算主要特征 27 2.2.3 Web服务、网格和云计算 28 2.2.4 云计算应用分类 29 2.2.5 小结 31 2.3 大数据与云计算的关系 32 2.3.1 大数据是信息技术发展的必然阶段 33 2.3.2 云计算等新兴信息技术正在真正地落地和实施 34 2.3.3 云计算等新兴技术是解决大数据问题的核心关键 34 2.4 云资源调度与管理 35 2.4.1 云资源管理 36 2.4.2 云资源调度策略 38 2.4.3 云计算数据中心负载均衡调度 40 2.5 开源云管理平台OpenStack 44 2.5.1 OpenStack的构成 45 2.5.2 OpenStack各组件之间的关系 46 2.5.3 OpenStack的逻辑架构 47 2.5.4 小结 49 2.6 软件定义网络 49 2.6.1 起源与发展 50 2.6.2 OpenFlow标准和规范 50 2.6.3 OpenFlow的应用 53 2.7 虚拟机与容器 55 2.7.1 VM虚拟化与Container虚拟化 55 2.7.2 Docker 55 2.8 练习题 57 参考文献 57 第3章云计算先行者——Google的三驾马车 59 3.1 Google的三驾马车 59 3.1.1 GFS——一个可扩展的分布式文件系统 59 3.1.2 MapReduce——一种并行计算的编程模型 64 3.1.3 BigTable——一个分布式数据存储系统 69 3.2 Google新“三驾马车” 77 3.2.1 Caffeine——基于Percolator的搜索索引系统 77 3.2.2 Pregel——高效的分布式图计算的计算框架 80 3.2.3 Dremel——大规模数据的交互式数据分析系统 85 3.3 练习题 89 参考文献 89 第4章云存储系统 91 4.1 云存储的基本概念 91 4.1.1 云存储结构模型 91 4.1.2 云存储与传统存储系统的区别 94 4.2 云存储关键技术 95 4.2.1 存储虚拟化技术 95 4.2.2 分布式存储技术 97 4.3 云存储系统分类 98 4.3.1 分布式文件存储 99 4.3.2 分布式块存储 105 4.3.3 分布式对象存储 109 4.3.4 统一存储 117 4.4 其他相关技术 124 4.5 练习题 127 参考文献 127 第5章数据采集系统 129 5.1 Flume 130 5.1.1 Flume架构 130 5.1.2 Flume核心组件 133 5.1.3 Flume环境搭建与部署 134 5.2 Scribe 139 5.2.1 Scribe架构 139 5.2.2 Scribe中的Store 140 5.2.3 Scribe环境搭建与部署 141 5.3 Chukwa 144 5.3.1 Chukwa的设计目标 144 5.3.2 Chukwa架构 145 5.3.3 Chukwa 环境搭建与部署 147 5.4 Kafka 150 5.4.1 Kafka架构 150 5.4.2 Kafka存储 152 5.4.3 Kafka的特点 152 5.4.4 Kafka环境搭建与部署 154 5.5 练习题 155 参考文献 155 第6章 Hadoop与MapReduce 156 6.1 Hadoop平台 156 6.1.1 Hadoop概述 156 6.1.2 Hadoop的发展简史 157 6.1.3 Hadoop的功能和作用 158 6.1.4 HDFS 159 6.1.5 HBase 162 6.2 MapReduce 171 6.2.1 第一代MapReduce（MRv1） 172 6.2.2 MapReduce 2.0——Yarn 180 6.3 Hadoop相关生态系统 184 6.3.1 交互式数据查询分析 184 6.3.2 数据收集、转换工具 187 6.3.3 机器学习工具 188 6.3.4 集群管理与监控 188 6.3.5 其他工具 189 6.4 Hadoop应用案例 191 6.5 练习题 192 参考文献 192 第7章 Spark——大数据统一计算平台 193 7.1 Spark简介 193 7.1.1 Spark 193 7.1.2 BDAS 195 7.2 RDD 197 7.2.1 RDD基本概念 197 7.2.2 RDD示例 199 7.2.3 RDD与分布式共享内存 200 7.3 Spark SQL 201 7.4 MLlib 203 7.5 GraphX 206 7.6 Spark Streaming 206 7.6.1 基本概念 207 7.6.2 编程模型 208 7.7 Spark的安装 210 7.7.1 单机运行Spark 210 7.7.2 使用Spark Shell与Spark交互 213 7.8 Shark、Impala、Hive对比 214 7.9 练习题 216 参考文献 216 第8章 Storm流计算系统 218 8.1 流计算系统 218 8.1.1 流计算系统的特点 218 8.1.2 流计算处理基本流程 219 8.2 Storm流计算框架 220 8.2.1 Storm简介 220 8.2.2 Storm关键术语 221 8.2.3 Storm架构设计 223 8.3 Storm编程实例 225 8.4 Storm应用 228 8.4.1 Storm应用场景 228 8.4.2 Storm应用实例 228 8.5 其他流计算框架 229 8.6 练习题 231 参考文献 231 第9章 SQL、NoSQL与NewSQL 232 9.1 传统SQL数据库 232 9.1.1 关系模型 232 9.1.2 关系型数据库的优点 233 9.1.3 关系型数据库面临的问题 234 9.2 NoSQL 234 9.2.1 NoSQL与大数据 235 9.2.2 NoSQL理论基础 235 9.2.3 分布式模型 238 9.2.4 NoSQL数据库分类 241 9.3 NewSQL 255 9.3.1 系统分类 255 9.3.2 Google Spanner 256 9.3.3 MemSQL 258 9.3.4 VoltDB 260 9.4 练习题 263 参考文献 263 第10章大数据与数据挖掘 264 10.1 数据挖掘的主要功能和常用算法 264 10.1.1 数据挖掘的主要功能 264 10.1.2 常用算法 265 10.2 大数据时代的数据挖掘 280 10.2.1 传统数据挖掘解决方案 280 10.2.2 分布式数据挖掘解决方案 280 10.3 数据挖掘相关工具 282 10.3.1 Mahout 282 10.3.2 语言工具——Python 288 10.4 数据挖掘与R语言 289 10.4.1 R语言简介 289 10.4.2 R语言在数据挖掘上的应用 290 10.5 练习题 294 参考文献 294 第11章深度学习 298 11.1 深度学习介绍 299 11.1.1 深度学习的概念 299 11.1.2 深度学习的结构 299 11.1.3 从机器学习到深度学习 301 11.2 深度学习基本方法 302 11.2.1 自动编码器 302 11.2.2 稀疏编码 304 11.3 深度学习模型 305 11.3.1 深度置信网络 306 11.3.2 卷积神经网络 308 11.4 深度学习的训练加速 310 11.4.1 GPU加速 310 11.4.2 数据并行 311 11.4.3 模型并行 312 11.4.4 计算集群 313 11.5 深度学习应用 313 11.5.1 Google 314 11.5.2 百度 314 11.5.3 腾讯Mariana 315 11.6 练习题 316 参考文献 316 第12章电子商务与社会化网络大数据分析 318 12.1 推荐系统简介 318 12.1.1 推荐系统的评判标准 319 12.1.2 推荐系统的分类 319 12.1.3 在线推荐系统常用算法介绍 320 12.1.4 相关算法知识 323 12.2 计算广告 327 12.2.1 计算广告简介 327 12.2.2 计算广告发展阶段 327 12.2.3 计算广告相关算法 330 12.2.4 计算广告与大数据 332 12.2.5 大数据在计算广告中的应用案例 333 12.3 社交网络 333 12.3.1 社交网络中大数据挖掘的应用场景 334 12.3.2 社交网络大数据挖掘核心算法模型 334 12.3.3 图计算框架 335 12.3.4 大数据在社交网络中的应用案例 337 12.4 练习题 338 第13章大数据展示与交互技术 339 13.1 数据可视化分类 339 13.1.1 按照展示内容进行划分 340 13.1.2 按照数据类型进行划分 341 13.2 可视化技术分类 351 13.2.1 2D展示技术 351 13.2.2 3D渲染技术 356 13.2.3 体感互动技术 360 13.2.4 虚拟现实技术 362 13.2.5 增强现实技术 364 13.2.6 可穿戴技术 365 13.2.7 可植入设备 368 13.3 练习题 369 参考文献 369 第14章大数据安全与隐私 372 14.1 云计算时代安全与隐私问题凸显 372 14.2 云计算与大数据时代的安全挑战 374 14.2.1 大数据时代的安全需求 374 14.2.2 信息安全的发展历程 375 14.2.3 新兴信息技术带来的安全挑战 376 14.3 如何解决安全问题 380 14.3.1 云计算安全防护框架 381 14.3.2 基础云安全防护关键技术 384 14.3.3 创立本质安全的新型IT体系 387 14.4 隐私问题 389 14.4.1 防不胜防的隐私泄露 389 14.4.2 隐私保护的政策法规 390 14.4.3 隐私保护技术 391 14.5 练习题 393 参考文献 393 第15章大数据技术发展趋势 394 15.1 实时化 394 15.2 内存计算 396 15.2.1 机遇与挑战 396 15.2.2 研究进展 397 15.2.3 发展展望 399 15.3 泛在化 399 15.3.1 发展现状 400 15.3.2 发展趋势 401 15.4 智能化 406 15.4.1 传统人工智能 406 15.4.2 基于大数据的人工智能 407 15.5 练习题 410 参考文献 410 第16章知名企业大数据架构简介 411 16.1 腾讯 411 16.1.1 背景介绍 411 16.1.2 整体架构 412 16.2 淘宝 416 16.2.1 背景介绍 416 16.2.2 整体架构 416 16.3 Facebook 417 16.3.1 背景介绍 417 16.3.2 整体架构 418 16.3.3 技术架构展望 420 16.4 Twitter 420 16.4.1 背景介绍 420 16.4.2 整体架构 420 16.4.3 技术架构展望 422 16.5 Netflix 422 16.5.1 背景介绍 422 16.5.2 整体架构 423 16.5.3 Netflix个性化和推荐系统架构 426 16.6 练习题 430 参考文献 430 资源截图：

陌佑

百度云

资源搜

大数据概论

大数据处理系统：Hadoop源代码情景分析

Hadoop构建数据仓库实践

一本书读懂大数据客户分析

数据挖掘技术

Hadoop YARN权威指南

深度剖析Hadoop HDFS

架构大数据大数据技术及算法解析

大数据治理与服务

Splunk大数据分析

资源搜

大数据概论

大数据处理系统：Hadoop源代码情景分析

Hadoop构建数据仓库实践

一本书读懂大数据客户分析

数据挖掘技术

Hadoop YARN权威指南

深度剖析Hadoop HDFS

架构大数据 大数据技术及算法解析

大数据治理与服务

Splunk大数据分析

架构大数据大数据技术及算法解析