资源搜
资源搜
👀 联系夏柔
🔥 投稿源码
资源搜

资源搜

  • 全部
  • 123盘
  • 阿里盘
  • 百度云
  • 迅雷
  • 夸克
  • 115
  • 蓝奏云
  • 其他
已收录34127条资源,仅供学习交流,请在24h内删除资源!

Hadoop YARN权威指南

资源名称:Hadoop YARN权威指南 内容简介: 《Hadoop YARN权威指南》由YARN的创建和开发团队亲笔撰写,Altiscale的CEO作序鼎力推荐,是使用Hadoop YARN建立分布式、大数据应用的权威指南。书中利用多个实例,详细介绍Hadoop YARN的安装和管理,以帮助用户使用YARN进行应用开发,并在YARN上运行除了MapReduce之外的新框架。 《Hadoop YARN权威指南》共12章,第1章讲述Apache Hadoop YARN产生和发展的历史;第2章讲解在单台机器(工作站、服务器或笔记本电脑)上快速安装Hadoop 2.0;第3章介绍Apache Hadoop YARN资源管理器;第4章简要介绍YARN组件的功能,帮助读者开始深入了解YARN;第5章详细讲解YARN的安装方法,包括一个基于脚本的手动安装,以及使用Apache Ambari基于GUI的安装;第6章讲述对YARN集群的管理,涉及一些基本的YARN管理场景,介绍如何利用Nagios和Ganglia监控集群,论述对JVM的监视,并介绍Ambari的管理界面;第7章深入探究YARN的架构,向读者展示YARN的内部工作原因;第8章深入讨论Capacity调度器;第9章描述基于现有MapReduce的应用程序如何继续工作以及利用YARN的优势;第10章通过创建一个JBoss Application Server集群的过程,讲述如何构建一个YARN应用程序;第11章描述建立在YARN上的典型示例程序distributed shell的使用和内部情况;第12章总结运行在YARN上的新兴开源框架。最后提供6个附录,包括补充内容和代码下载、YARN的安装脚本、YARN管理脚本、Nagios模块、资源及其他信息、HDFS快速参考。 资源目录: 译者序 推荐序一 推荐序二 前 言 第1章 Apache Hadoop YARN:简明历史及基本原理  第2章 Apache Hadoop YARN安装快速入门  第3章 Apache Hadoop YARN的核心概念 第4章 YARN组件的功能概述  第5章 安装Apache Hadoop YARN  第6章 Apache Hadoop YARN的管理 第7章 Apache Hadoop YARN的架构指南 第8章 YARN中的Capacity调度器  第9章 Apache Hadoop YARN下的MapReduce  第10章 Apache Hadoop YARN应用程序范例 第11章 使用Apache Hadoop YARN Distributed-Shell 第12章 Apache Hadoop YARN框架  附录A 补充内容和代码下载 附录B YARN的安装脚本  附录C YARN的管理脚本  附录D Nagios模块  附录E 资源及附加资料  附录F HDFS快速参考  资源截图:
陌佑
百度云
百度云

深度剖析Hadoop HDFS

资源名称:深度剖析Hadoop HDFS 内容简介: 《深度剖析Hadoop HDFS》基于Hadoop 2.7.1版本进行分析,全面描述了HDFS 2.X的核心技术与解决方案,书中描述了HDFS内存存储、异构存储等几大核心设计,包括源码细节层面的分析,对于HDFS中比较特殊的几个场景过程也做了细粒度的分析。还分享了作者在实际应用中的解决方案及扩展思路。阅读《深度剖析Hadoop HDFS》可以帮助读者从架构设计与功能实现角度了解HDFS 2.X,同时还能学习HDFS 2.X框架中优秀的设计思想、设计模式、Java语言技巧等。这些对于读者全面提高自己分布式技术水平有很大的帮助。《深度剖析Hadoop HDFS》分为三大部分:核心设计篇、细节实现篇、解决方案篇,“核心设计篇”包括HDFS的数据存储原理、HDFS的数据管理与策略选择机制、HDFS的新颖功能特性;“细节实现篇”包括HDFS的块处理、流量处理等细节,以及部分结构分析;“解决方案篇”包括HDFS的数据管理、HDFS的数据读写、HDFS的异常场景等。 资源目录: 前言 第一部分 核心设计篇 第1章 HDFS的数据存储2 1.1 HDFS内存存储2 1.1.1 HDFS内存存储原理2 1.1.2 Linux 虚拟内存盘4 1.1.3 HDFS的内存存储流程分析4 1.1.4 LAZY_PERSIST内存存储的使用14 1.2 HDFS异构存储15 1.2.1 异构存储类型16 1.2.2 异构存储原理17 1.2.3 块存储类型选择策略22 1.2.4 块存储策略集合24 1.2.5 块存储策略的调用27 1.2.6 HDFS异构存储策略的不足之处28 1.2.7 HDFS存储策略的使用30 1.3 小结31 第2章 HDFS的数据管理与策略选择32 2.1 HDFS缓存与缓存块32 2.1.1 HDFS物理层面缓存块33 2.1.2 缓存块的生命周期状态34 2.1.3 CacheBlock、UnCacheBlock场景触发36 2.1.4 CacheBlock、UnCacheBlock缓存块的确定38 2.1.5 系统持有的缓存块列表如何更新39 2.1.6 缓存块的使用40 2.1.7 HDFS缓存相关配置40 2.2 HDFS中心缓存管理42 2.2.1 HDFS缓存适用场景43 2.2.2 HDFS缓存的结构设计43 2.2.3 HDFS缓存管理机制分析45 2.2.4 HDFS中心缓存疑问点55 2.2.5 HDFS CacheAdmin命令使用56 2.3 HDFS快照管理58 2.3.1 快照概念59 2.3.2 HDFS中的快照相关命令59 2.3.3 HDFS内部的快照管理机制60 2.3.4 HDFS的快照使用71 2.4 HDFS副本放置策略72 2.4.1 副本放置策略概念与方法72 2.4.2 副本放置策略的有效前提73 2.4.3 默认副本放置策略的分析73 2.4.4 目标存储好坏的判断82 2.4.5 chooseTargets的调用83 2.4.6 BlockPlacementPolicyWithNodeGroup继承类84 2.4.7 副本放置策略的结果验证85 2.5 HDFS内部的认证机制85 2.5.1 BlockToken认证85 2.5.2 HDFS的Sasl认证91 2.5.3 BlockToken认证与HDFS的Sasl认证对比97 2.6 HDFS内部的磁盘目录服务98 2.6.1 HDFS的三大磁盘目录检测扫描服务98 2.6.2 DiskChecker:坏盘检测服务99 2.6.3 DirectoryScanner:目录扫描服务104 2.6.4 VolumeScanner:磁盘目录扫描服务110 2.7 小结116 第3章 HDFS的新颖功能特性117 3.1 HDFS视图文件系统:ViewFileSystem117 3.1.1 ViewFileSystem: 视图文件系统118 3.1.2 ViewFileSystem内部实现原理119 3.1.3 ViewFileSystem的使用125 3.2 HDFS的Web文件系统:WebHdfsFileSystem126 3.2.1 WebHdfsFileSystem的REST API操作127 3.2.2 WebHdfsFileSystem的流程调用129 3.2.3 WebHdfsFileSystem执行器调用130 3.2.4 WebHDFS的OAuth2认证133 3.2.5 WebHDFS的使用135 3.3 HDFS数据加密空间:Encryption zone136 3.3.1 Encryption zone原理介绍136 3.3.2 Encryption zone源码实现136 3.3.3 Encryption zone的使用144 3.4 HDFS纠删码技术145 3.4.1 纠删码概念145 3.4.2 纠删码技术的优劣势146 3.4.3 Hadoop纠删码概述147 3.4.4 纠删码技术在Hadoop中的实现148 3.5 HDFS对象存储:Ozone152 3.5.1 Ozone介绍153 3.5.2 Ozone的高层级设计154 3.5.3 Ozone的实现细节157 3.5.4 Ozone的使用157 3.6 小结158 第二部分 细节实现篇 第4章 HDFS的块处理160 4.1 HDFS块检查命令fsck160 4.1.1 fsck参数使用160 4.1.2 fsck过程调用161 4.1.3 fsck原理分析162 4.1.4 fsck使用场景171 4.2 HDFS如何检测并删除多余副本块171 4.2.1 多余副本块以及发生的场景172 4.2.2 OverReplication多余副本块处理172 4.2.3 多余副本块清除的场景调用177 4.3 HDFS数据块的汇报与处理179 4.3.1 块处理的五大类型179 4.3.2 toAdd:新添加的块181 4.3.3 toRemove:待移除的块184 4.3.4 toInvalidate:无效的块186 4.3.5 toCorrupt:损坏的块189 4.3.6 toUC:正在构建中的块191 4.4 小结193 第5章 HDFS的流量处理194 5.1 HDFS的内部限流194 5.1.1 数据的限流194 5.1.2 DataTransferThrottler限流原理196 5.1.3 数据流限流在Hadoop中的使用198 5.1.4 Hadoop限流优化点202 5.2 数据平衡204 5.2.1 Balancer和Dispatcher204 5.2.2 数据不平衡现象207 5.2.3 Balancer性能优化207 5.3 HDFS节点内数据平衡210 5.3.1 磁盘间数据不平衡现象及问题211 5.3.2 传统的磁盘间数据不平衡解决方案211 5.3.3 社区解决方案:DiskBalancer212 5.4 小结216 第6章 HDFS的部分结构分析217 6.1 HDFS镜像文件的解析与反解析217 6.1.1 HDFS的FsImage镜像文件218 6.1.2 FsImage的解析218 6.1.3 FsImage的反解析221 6.1.4 HDFS镜像文件的解析与反解析命令226 6.2 DataNode数据处理中心DataXceiver227 6.2.1 DataXceiver的定义和结构228 6.2.2 DataXceiver下游处理方法232 6.2.3 ShortCircuit232 6.2.4 DataXceiver的上游调用233 6.2.5 DataXceiver与DataXceiverServer234 6.3 HDFS邻近信息块:BlockInfoContiguous235 6.3.1 triplets对象数组236 6.3.2 BlockInfoContiguous的链表操作239 6.3.3 块迭代器BlockIterator244 6.4 小结246 第三部分 解决方案篇 第7章 HDFS的数据管理248 7.1 HDFS的读写限流方案248 7.1.1 限流方案实现要点以及可能造成的影响248 7.1.2 限流方案实现249 7.1.3 限流测试结果250 7.2 HDFS数据资源使用量分析以及趋势预测250 7.2.1 要获取哪些数据251 7.2.2 如何获取这些数据251 7.2.3 怎么用这些数据254 7.3 HDFS数据迁移解决方案257 7.3.1 数据迁移使用场景257 7.3.2 数据迁移要素考量258 7.3.3 HDFS数据迁移解决方案:DistCp259 7.3.4 DistCp优势特性260 7.3.5 Hadoop DistCp命令264 7.3.6 DistCp解决集群间数据迁移实例265 7.4 DataNode迁移方案265 7.4.1 迁移方案的目标266 7.4.2 DataNode更换主机名、ip地址时的迁移方案267 7.5 HDFS集群重命名方案268 7.6 HDFS的配置管理方案271 7.6.1 HDFS配置管理的问题271 7.6.2 现有配置管理工具272 7.6.3 运用Git来做配置管理272 7.7 小结273 第8章 HDFS的数据读写274 8.1 DataNode引用计数磁盘选择策略274 8.1.1 HDFS现有磁盘选择策略274 8.1.2 自定义磁盘选择策略279 8.2 Hadoop节点“慢磁盘”监控282 8.2.1 慢磁盘的定义以及如何发现282 8.2.2 慢磁盘监控284 8.3 小结287 第9章 HDFS的异常场景288 9.1 DataNode慢启动问题288 9.1.1 DataNode慢启动现象288 9.1.2 代码追踪分析290 9.1.3 参数可配置化改造293 9.2 Hadoop中止下线操作后大量剩余复制块问题295 9.2.1 节点下线操作的含义及问题295 9.2.2 死节点“复活”297 9.2.3 Decommission下线操作如何运作299 9.2.4 中止下线操作后移除残余副本块解决方案303 9.3 DFSOutputStream的DataStreamer线程泄漏问题306 9.3.1 DFSOutputStream写数据过程及周边相关类、变量306 9.3.2 DataStreamer数据流对象307 9.3.3 ResponseProcessor回复获取类311 9.3.4 DataStreamer与DFSOutputStream的关系313 9.3.5 Streamer线程泄漏问题316 9.4 小结319 附录 如何向开源社区提交自己的代码320 资源截图:
陌佑
百度云
百度云

架构大数据 大数据技术及算法解析

资源名称:架构大数据 大数据技术及算法解析 内容简介: 本书从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势。不仅对大数据相关技术及算法做了系统性的分析和描述,梳理了大数据的技术分类,如基础架构支持、大数据采集、大数据存储、大数据处理、大数据展示及交互,还融合了大数据行业的最新技术进展和大型互联网公司的大数据架构实践,努力为读者提供一个大数据的全景画卷。 资源目录: 第1章 大数据技术概述 1 1.1 大数据的概念 1 1.2 大数据的行业价值 4 1.3 大数据问题的爆发 9 1.4 大数据处理流程 12 1.5 大数据技术 13 1.5.1 基础架构支持 14 1.5.2 数据采集 14 1.5.3 数据存储 15 1.5.4 数据计算 16 1.5.5 展现与交互 18 1.6 练习题 19 参考文献 19 第2章 大数据基础支撑——数据中心及云计算 20 2.1 数据中心概述 20 2.1.1 云计算时代数据中心面临的问题 21 2.1.2 新一代数据中心关键技术 22 2.1.3 业界发展动态 24 2.1.4 小结 25 2.2 云计算简介 25 2.2.1 云计算定义 26 2.2.2 云计算主要特征 27 2.2.3 Web服务、网格和云计算 28 2.2.4 云计算应用分类 29 2.2.5 小结 31 2.3 大数据与云计算的关系 32 2.3.1 大数据是信息技术发展的必然阶段 33 2.3.2 云计算等新兴信息技术正在真正地落地和实施 34 2.3.3 云计算等新兴技术是解决大数据问题的核心关键 34 2.4 云资源调度与管理 35 2.4.1 云资源管理 36 2.4.2 云资源调度策略 38 2.4.3 云计算数据中心负载均衡调度 40 2.5 开源云管理平台OpenStack 44 2.5.1 OpenStack的构成 45 2.5.2 OpenStack各组件之间的关系 46 2.5.3 OpenStack的逻辑架构 47 2.5.4 小结 49 2.6 软件定义网络 49 2.6.1 起源与发展 50 2.6.2 OpenFlow标准和规范 50 2.6.3 OpenFlow的应用 53 2.7 虚拟机与容器 55 2.7.1 VM虚拟化与Container虚拟化 55 2.7.2 Docker 55 2.8 练习题 57 参考文献 57 第3章 云计算先行者——Google的三驾马车 59 3.1 Google的三驾马车 59 3.1.1 GFS——一个可扩展的分布式文件系统 59 3.1.2 MapReduce——一种并行计算的编程模型 64 3.1.3 BigTable——一个分布式数据存储系统 69 3.2 Google新“三驾马车” 77 3.2.1 Caffeine——基于Percolator的搜索索引系统 77 3.2.2 Pregel——高效的分布式图计算的计算框架 80 3.2.3 Dremel——大规模数据的交互式数据分析系统 85 3.3 练习题 89 参考文献 89 第4章 云存储系统 91 4.1 云存储的基本概念 91 4.1.1 云存储结构模型 91 4.1.2 云存储与传统存储系统的区别 94 4.2 云存储关键技术 95 4.2.1 存储虚拟化技术 95 4.2.2 分布式存储技术 97 4.3 云存储系统分类 98 4.3.1 分布式文件存储 99 4.3.2 分布式块存储 105 4.3.3 分布式对象存储 109 4.3.4 统一存储 117 4.4 其他相关技术 124 4.5 练习题 127 参考文献 127 第5章 数据采集系统 129 5.1 Flume 130 5.1.1 Flume架构 130 5.1.2 Flume核心组件 133 5.1.3 Flume环境搭建与部署 134 5.2 Scribe 139 5.2.1 Scribe架构 139 5.2.2 Scribe中的Store 140 5.2.3 Scribe环境搭建与部署 141 5.3 Chukwa 144 5.3.1 Chukwa的设计目标 144 5.3.2 Chukwa架构 145 5.3.3 Chukwa 环境搭建与部署 147 5.4 Kafka 150 5.4.1 Kafka架构 150 5.4.2 Kafka存储 152 5.4.3 Kafka的特点 152 5.4.4 Kafka环境搭建与部署 154 5.5 练习题 155 参考文献 155 第6章 Hadoop与MapReduce 156 6.1 Hadoop平台 156 6.1.1 Hadoop概述 156 6.1.2 Hadoop的发展简史 157 6.1.3 Hadoop的功能和作用 158 6.1.4 HDFS 159 6.1.5 HBase 162 6.2 MapReduce 171 6.2.1 第一代MapReduce(MRv1) 172 6.2.2 MapReduce 2.0——Yarn 180 6.3 Hadoop相关生态系统 184 6.3.1 交互式数据查询分析 184 6.3.2 数据收集、转换工具 187 6.3.3 机器学习工具 188 6.3.4 集群管理与监控 188 6.3.5 其他工具 189 6.4 Hadoop应用案例 191 6.5 练习题 192 参考文献 192 第7章 Spark——大数据统一计算平台 193 7.1 Spark简介 193 7.1.1 Spark 193 7.1.2 BDAS 195 7.2 RDD 197 7.2.1 RDD基本概念 197 7.2.2 RDD示例 199 7.2.3 RDD与分布式共享内存 200 7.3 Spark SQL 201 7.4 MLlib 203 7.5 GraphX 206 7.6 Spark Streaming 206 7.6.1 基本概念 207 7.6.2 编程模型 208 7.7 Spark的安装 210 7.7.1 单机运行Spark 210 7.7.2 使用Spark Shell与Spark交互 213 7.8 Shark、Impala、Hive对比 214 7.9 练习题 216 参考文献 216 第8章 Storm流计算系统 218 8.1 流计算系统 218 8.1.1 流计算系统的特点 218 8.1.2 流计算处理基本流程 219 8.2 Storm流计算框架 220 8.2.1 Storm简介 220 8.2.2 Storm关键术语 221 8.2.3 Storm架构设计 223 8.3 Storm编程实例 225 8.4 Storm应用 228 8.4.1 Storm应用场景 228 8.4.2 Storm应用实例 228 8.5 其他流计算框架 229 8.6 练习题 231 参考文献 231 第9章 SQL、NoSQL与NewSQL 232 9.1 传统SQL数据库 232 9.1.1 关系模型 232 9.1.2 关系型数据库的优点 233 9.1.3 关系型数据库面临的问题 234 9.2 NoSQL 234 9.2.1 NoSQL与大数据 235 9.2.2 NoSQL理论基础 235 9.2.3 分布式模型 238 9.2.4 NoSQL数据库分类 241 9.3 NewSQL 255 9.3.1 系统分类 255 9.3.2 Google Spanner 256 9.3.3 MemSQL 258 9.3.4 VoltDB 260 9.4 练习题 263 参考文献 263 第10章 大数据与数据挖掘 264 10.1 数据挖掘的主要功能和常用算法 264 10.1.1 数据挖掘的主要功能 264 10.1.2 常用算法 265 10.2 大数据时代的数据挖掘 280 10.2.1 传统数据挖掘解决方案 280 10.2.2 分布式数据挖掘解决方案 280 10.3 数据挖掘相关工具 282 10.3.1 Mahout 282 10.3.2 语言工具——Python 288 10.4 数据挖掘与R语言 289 10.4.1 R语言简介 289 10.4.2 R语言在数据挖掘上的应用 290 10.5 练习题 294 参考文献 294 第11章 深度学习 298 11.1 深度学习介绍 299 11.1.1 深度学习的概念 299 11.1.2 深度学习的结构 299 11.1.3 从机器学习到深度学习 301 11.2 深度学习基本方法 302 11.2.1 自动编码器 302 11.2.2 稀疏编码 304 11.3 深度学习模型 305 11.3.1 深度置信网络 306 11.3.2 卷积神经网络 308 11.4 深度学习的训练加速 310 11.4.1 GPU加速 310 11.4.2 数据并行 311 11.4.3 模型并行 312 11.4.4 计算集群 313 11.5 深度学习应用 313 11.5.1 Google 314 11.5.2 百度 314 11.5.3 腾讯Mariana 315 11.6 练习题 316 参考文献 316 第12章 电子商务与社会化网络大数据分析 318 12.1 推荐系统简介 318 12.1.1 推荐系统的评判标准 319 12.1.2 推荐系统的分类 319 12.1.3 在线推荐系统常用算法介绍 320 12.1.4 相关算法知识 323 12.2 计算广告 327 12.2.1 计算广告简介 327 12.2.2 计算广告发展阶段 327 12.2.3 计算广告相关算法 330 12.2.4 计算广告与大数据 332 12.2.5 大数据在计算广告中的应用案例 333 12.3 社交网络 333 12.3.1 社交网络中大数据挖掘的应用场景 334 12.3.2 社交网络大数据挖掘核心算法模型 334 12.3.3 图计算框架 335 12.3.4 大数据在社交网络中的应用案例 337 12.4 练习题 338 第13章 大数据展示与交互技术 339 13.1 数据可视化分类 339 13.1.1 按照展示内容进行划分 340 13.1.2 按照数据类型进行划分 341 13.2 可视化技术分类 351 13.2.1 2D展示技术 351 13.2.2 3D渲染技术 356 13.2.3 体感互动技术 360 13.2.4 虚拟现实技术 362 13.2.5 增强现实技术 364 13.2.6 可穿戴技术 365 13.2.7 可植入设备 368 13.3 练习题 369 参考文献 369 第14章 大数据安全与隐私 372 14.1 云计算时代安全与隐私问题凸显 372 14.2 云计算与大数据时代的安全挑战 374 14.2.1 大数据时代的安全需求 374 14.2.2 信息安全的发展历程 375 14.2.3 新兴信息技术带来的安全挑战 376 14.3 如何解决安全问题 380 14.3.1 云计算安全防护框架 381 14.3.2 基础云安全防护关键技术 384 14.3.3 创立本质安全的新型IT体系 387 14.4 隐私问题 389 14.4.1 防不胜防的隐私泄露 389 14.4.2 隐私保护的政策法规 390 14.4.3 隐私保护技术 391 14.5 练习题 393 参考文献 393 第15章 大数据技术发展趋势 394 15.1 实时化 394 15.2 内存计算 396 15.2.1 机遇与挑战 396 15.2.2 研究进展 397 15.2.3 发展展望 399 15.3 泛在化 399 15.3.1 发展现状 400 15.3.2 发展趋势 401 15.4 智能化 406 15.4.1 传统人工智能 406 15.4.2 基于大数据的人工智能 407 15.5 练习题 410 参考文献 410 第16章 知名企业大数据架构简介 411 16.1 腾讯 411 16.1.1 背景介绍 411 16.1.2 整体架构 412 16.2 淘宝 416 16.2.1 背景介绍 416 16.2.2 整体架构 416 16.3 Facebook 417 16.3.1 背景介绍 417 16.3.2 整体架构 418 16.3.3 技术架构展望 420 16.4 Twitter 420 16.4.1 背景介绍 420 16.4.2 整体架构 420 16.4.3 技术架构展望 422 16.5 Netflix 422 16.5.1 背景介绍 422 16.5.2 整体架构 423 16.5.3 Netflix个性化和推荐系统架构 426 16.6 练习题 430 参考文献 430 资源截图:
陌佑
百度云
百度云

大数据治理与服务

资源名称:大数据治理与服务 资源截图:
陌佑
百度云
百度云

Splunk大数据分析

资源名称:Splunk大数据分析 内容简介: Splunk是一种典型的大数据处理工具,能够高效地按时序对数据进行存储、索引、访问,已广泛应用在多个领域。本书是介绍如何实时处理大数据并从中获得商业价值的一本实用指南。本书通过真实的大数据分析项目,从数据导入、访问、挖掘和可视化角度全面而系统地介绍Splunk的基本概念和使用方法,以帮助读者快速掌握Splunk。 全书共16章,分为四个部分:第一部分(第1~7章)介绍Splunk的基本操作,包括利用Splunk进行数据收集、处理、分析及结果可视化等的基本操作和命令,以及使用日志文件创建高级数据分析报表的方法;第二部分(第8~11章)使用“航空公司准点性能数据”介绍一个典型的数据分析案例,详细讲解如何运用Splunk深度挖掘现有数据仓库,并介绍一些新的Splunk命令和实用技巧;第三部分(第12~14章)详细介绍如何收集、处理、分析推文和Foursquare的签到信息等,涵盖分析社会化媒体流数据所需的知识;第四部分(第15~16章)详细介绍如何按需求扩展Splunk,以及分布式处理和高可用性的基本概念。此外,还包括两个附录,展示Splunk的性能以及各种可用的应用程序。 资源目录: 第1章 大数据和Splunk / 1 1.1 什么是大数据 / 1 1.2 非传统的数据处理技术 / 5 1.3 Splunk是什么 / 6 1.4 关于本书 / 7 第2章 将数据导入Splunk / 9 2.1 数据的多样性 / 9 2.2 Splunk如何处理多样化的数据 / 10 2.2.1 文件和目录 / 11 2.2.2 数据生成器 / 16 2.2.3 生成样本数据 / 17 2.2.4 网络资源 / 21 2.2.5 Windows数据 / 21 2.2.6 其他资源 / 21 2.3 应用程序和附加组件 / 21 2.4 转发器 / 26 2.5 小结 / 27 第3章 处理和分析数据 / 28 3.1 了解组合访问日志数据 / 28 3.2 搜索和分析索引数据 / 29 3.3 报表 / 35 3.3.1 使用最多的浏览器 / 35 3.3.2 排名前五的IP地址 / 37 3.3.3 浏览量来源最多的网站 / 38 3.3.4 有多少404事件 / 40 3.3.5 有多少事件包含购买行为 / 42 3.3.6 列出购买的商品 / 42 3.4 排序 / 44 3.5 过滤 / 45 3.6 添加和评估字段 / 47 3.7 聚合 / 48 3.8 小结 / 54 第4章 结果的可视化 / 55 4.1 数据可视化 / 55 4.2 Splunk是怎样处理可视化的 / 55 4.3 chart / 60 4.3.1 制作每一个主机的GET和POST事件数量的图表 / 61 4.3.2 制作每一个产品类别的购买数和浏览数的图表 / 62 4.3.3 哪个产品种类受HTTP 404错误的影响 / 63 4.3.4 MyGizmoStore.com的购买趋势 / 64 4.3.5 事务持续时间 / 66 4.4 timechart / 67 4.4.1 最高购买数量的产品 / 67 4.4.2 页面浏览率和购买量 / 68 4.5 使用Google Maps应用程序来可视化 / 69 4.6 Globe / 71 4.7 仪表盘 / 72 4.8 小结 / 80 第5章 定义警报 / 81 5.1 什么是警报 / 81 5.2 Splunk如何提供警报 / 81 5.2.1 基于商品销售量的警报 / 82 5.2.2 登录失败的警报 / 84 5.2.3 日志文件中关键性错误的警报 / 87 5.3 小结 / 88 第6章 网站监测 / 90 6.1 监测网站 / 90 6.2 IT运作 / 91 6.2.1 主机访问量 / 91 6.2.2 无内部访问的主机访问量 / 91 6.2.3 HTTP请求成功的流量 / 93 6.2.4 HTTP请求未成功的流量 / 93 6.2.5 返回HTTP错误状态码最多的页面 / 94 6.3 业务 / 96 6.3.1 区域用户统计 / 96 6.3.2 跳出率 / 97 6.3.3 独立访问者数量 / 98 6.4 小结 / 103 第7章 使用日志文件创建高级分析 / 104 7.1 传统的分析方法 / 104 7.2 范式变更 / 105 7.3 语义日志 / 106 7.4 日志最佳实践 / 113 7.5 小结 / 115 第8章 航班准点率项目 / 116 小结 / 118 第9章 将航班数据导入Splunk / 119 9.1 处理CSV文件 / 119 9.1.1 航班数据 / 119 9.1.2 下载数据 / 120 9.1.3 了解航班数据 / 121 9.1.4 关于时间戳 / 123 9.1.5 将字段映射成一个时间戳 / 124 9.1.6 对所有航班数据建立索引 / 131 9.2 从关系数据库中索引数据 / 132 9.2.1 定义一个新的数据库连接 / 132 9.2.2 数据库监测 / 133 9.3 小结 / 136 第10章 分析航空公司、机场、航班和延迟 / 137 10.1 分析航空公司 / 137 10.1.1 计算航空公司的总数 / 138 10.1.2 可视化结果 / 139 10.2 分析机场 / 143 10.3 分析航班 / 146 10.4 分析延迟 / 151 10.4.1 各航空公司航班延迟情况 / 151 10.4.2 各机场航班延迟的原因 / 152 10.4.3 冬天与夏天的航班延迟情况 / 155 10.5 创建和使用宏命令 / 157 10.6 报告加速 / 158 10.7 加速统计 / 161 10.8 小结 / 166 第11章 分析一个特定航班的历年数据 / 167 11.1 航空公司名称 / 167 11.1.1 字段查找自动化 / 172 11.1.2 从搜索中创建查找表 / 173 11.2 United flight 871航班 / 174 11.3 小结 / 178 第12章 分析推文 / 179 12.1 开发样本流 / 180 12.2 将推文加载到Splunk中 / 183 12.3 Twitter / 185 12.4 最流行的单词 / 188 12.5 实时的Twitter趋势 / 191 12.6 小结 / 196 第13章 分析Foursquare签到信息 / 197 13.1 签到信息格式 / 198 13.2 时区注意事项 / 202 13.3 装载签到数据 / 203 13.4 分析签到信息 / 205 13.4.1 星期日早午餐搜索 / 205 13.4.2 Google地图和热门地点 / 209 13.4.3 地点的签到模式 / 211 13.4.4 地点的签到数量 / 212 13.4.5 分析性别活动 / 214 13.5 小结 / 217 第14章 情感分析 / 218 14.1 意见、观点、信仰、信念 / 218 14.2 商业用途 / 219 14.3 情感分析的技术性工作 / 220 14.4 情感分析应用程序 / 222 14.4.1 全局性的命令 / 223 14.4.2 挖掘情感 / 224 14.4.3 语言的处理 / 226 14.4.4 训练数据和测试数据 / 227 14.5 世界情绪指数项目 / 231 14.5.1 收集RSS摘要 / 232 14.5.2 将新闻标题索引到Splunk中 / 234 14.5.3 定义情感语料库 / 237 14.5.4 对结果进行可视化 / 240 14.6 小结 / 242 第15章 远程数据收集 / 243 15.1 转发器 / 243 15.1.1 流行的拓扑结构 / 244 15.1.2 安装转发器 / 246 15.2 部署服务器 / 248 15.2.1 配置部署服务器 / 250 15.2.2 配置转发器 / 251 15.3 部署监控 / 252 15.4 小结 / 253 第16章 可扩展性和高可用性 / 254 16.1 扩展Splunk / 254 16.2 聚类 / 259 16.3 小结 / 264 附录A Splunk的性能 / 265 附录B 有用的Splunk应用程序 / 281 资源截图:
陌佑
百度云
百度云

Hadoop集群与安全

资源名称:Hadoop集群与安全 内容简介: Hadoop自动化安装和配置的问题在于隐藏了许多Hadoop组件协同工作的重要细节,本书介绍如何手动安装和配置主要的Hadoop组件,以便高效使用Hadoop平台。通过设置一个完全可运行的集群,可对Hadoop内部的运行机制产生更深入的了解,并且有助于你调试任何可能发生的问题。本书还介绍了保障基于Hadoop的大数据平台安全的实现方案和最佳实践,覆盖Kerberos安全协议和Hadoop安全机制的设计,并包括在企业内部来确保Hadoop及其生态系统相关组件安全的详细方案。 资源目录: 第1章 导言 1.1 研究日本大众传播学发展脉络的现实背景 1.2 本书的写作视角 1.3 学界对日本大众传播学研究的现状分析 1.4 日本大众传播学研究发展脉络的研究方法 第2章 社会因素对大众传播学研究体系的影响 2.1 思想层面的要因 2.2 日本民族特征对学术研究的影响 第3章 日本大众传播学研究的发展历程 3.1 前大众传播学研究时期的新闻学研究(1929~1948) 3.2 大众传播研究时期(1949~1990) 3.3 社会信息学研究时期(1991~2003) 3.4 信息研究的学科融合时期(2004至今) 第4章 日本大众传播学理论研究的特征 4.1 日本大众传播学研究的理论源流 4.2 社会心理学取向的研究 4.3 大众社会论取向的研究 4.4 马克思主义取向的研究 第5章 扎根于日本社会的大众传播学研究——以灾害信息学研究为例 5.1 灾害信息学研究的开端 5.2 日本灾害信息学研究的历史脉络 5.3 日本灾害信息学研究的主要课题 5.4 灾害信息学的研究现状 第6章 日本大众传播学研究的特征及其存在问题 6.1 日本大众传播学研究的特征 6.2 日本大众传播学研究的问题 第7章 日本大众传播学研究给中国的启示 7.1 中国传播学研究中的问题 7.2 日本对中国传播学研究的启迪 7.3 结语 参考文献 后记 资源截图:
陌佑
百度云
百度云

Spark内核设计的艺术架构设计与实现

资源名称:Spark内核设计的艺术架构设计与实现 内容简介: 本书赞誉 前言 第1章 环境准备 ········································1 1.1 运行环境准备 ···········································2 1.1.1 安装JDK ·········································2 1.1.2 安装Scala ········································2 1.1.3 安装Spark ·······································3 1.2 Spark初体验 ···································4 1.2.1 运行spark-shell ·······························4 1.2.2 执行word count ······························5 1.2.3 剖析spark-shell ·······························9 1.3 阅读环境准备 ·········································14 1.3.1 安装SBT ·······································15 1.3.2 安装Git ·········································15 1.3.3 安装Eclipse Scala IDE插件 ········15 1.4 Spark源码编译与调试 ·························17 1.5 小结 ···························23 第2章 设计理念与基本架构 ···············24 2.1 初识Spark ··································25 2.1.1 Hadoop MRv1的局限···················25 2.1.2 Spark的特点 ·································26 2.1.3 Spark使用场景 ·····························28 2.2 Spark基础知识 ······································29 2.3 Spark基本设计思想 ·····························31 2.3.1 Spark模块设计 ·····························32 2.3.2 Spark模型设计 ·····························34 2.4 Spark基本架构 ···································36 2.5 小结 ·································38 第3章 Spark基础设施 ·························39 3.1 Spark配置 ········································40 3.1.1 系统属性中的配置 ·······················40 3.1.2 使用SparkConf配置的API ·········41 3.1.3 克隆SparkConf配置 ····················42 3.2 Spark内置RPC框架 ····························42 3.2.1 RPC配置TransportConf ··············45 3.2.2 RPC客户端工厂Transport- ClientFactory ·······················47 3.2.3 RPC服务端TransportServer ········53 3.2.4 管道初始化 ···································56 3.2.5 TransportChannelHandler详解 ·····57 3.2.6 服务端RpcHandler详解 ··············63 3.2.7 服务端引导程序Transport-ServerBootstrap ·····················68 3.2.8 客户端TransportClient详解 ········71 3.3 事件总线 ····································78 3.3.1 ListenerBus的继承体系 ···············79 3.3.2 SparkListenerBus详解 ··················80 3.3.3 LiveListenerBus详解 ····················83 3.4 度量系统 ···········································87 3.4.1 Source继承体系 ···························87 3.4.2 Sink继承体系 ·······························89 3.5 小结 ·········································92 第4章 SparkContext的初始化 ·········93 4.1 SparkContext概述 ·································94 4.2 创建Spark环境 ·····································97 4.3 SparkUI的实现 ····································100 4.3.1 SparkUI概述 ·······························100 4.3.2 WebUI框架体系 ·························102 4.3.3 创建SparkUI ·······························107 4.4 创建心跳接收器 ··································111 4.5 创建和启动调度系统··························112 4.6 初始化块管理器BlockManager ·······114 4.7 启动度量系统 ·······························114 4.8 创建事件日志监听器··························115 4.9 创建和启动ExecutorAllocation-Manager ··························116 4.10 ContextCleaner的创建与启动 ········120 4.10.1 创建ContextCleaner ·················120 4.10.2 启动ContextCleaner ·················120 4.11 额外的SparkListener与启动事件总线 ··························122 4.12 Spark环境更新 ··································123 4.13 SparkContext初始化的收尾 ···········127 4.14 SparkContext提供的常用方法 ·······128 4.15 SparkContext的伴生对象················130 4.16 小结 ····································131 第5章 Spark执行环境 ························132 5.1 SparkEnv概述 ·································133 5.2 安全管理器SecurityManager ············133 5.3 RPC环境 ·········································135 5.3.1 RPC端点RpcEndpoint ···············136 5.3.2 RPC端点引用RpcEndpointRef ···139 5.3.3 创建传输上下文TransportConf ···142 5.3.4 消息调度器Dispatcher ···············142 5.3.5 创建传输上下文Transport-Context ·························154 5.3.6 创建传输客户端工厂Transport-ClientFactory ····················159 5.3.7 创建TransportServer ···················160 5.3.8 客户端请求发送 ·························162 5.3.9 NettyRpcEnv中的常用方法 ·······173 5.4 序列化管理器SerializerManager ·····175 5.5 广播管理器BroadcastManager ·········178 5.6 map任务输出跟踪器 ··························185 5.6.1 MapOutputTracker的实现 ··········187 5.6.2 MapOutputTrackerMaster的实现原理 ·······················191 5.7 构建存储体系 ·······································199 5.8 创建度量系统 ·······································201 5.8.1 MetricsCon?g详解 ·····················203 5.8.2 MetricsSystem中的常用方法 ····207 5.8.3 启动MetricsSystem ····················209 5.9 输出提交协调器 ··································211 5.9.1 OutputCommitCoordinator-Endpoint的实现 ··················211 5.9.2 OutputCommitCoordinator的实现 ··························212 5.9.3 OutputCommitCoordinator的工作原理 ························216 5.10 创建SparkEnv ····································217 5.11 小结 ·····································217 第6章 存储体系 ·····································219 6.1 存储体系概述 ·······································220 6.1.1 存储体系架构 ·····························220 6.1.2 基本概念 ·····································222 6.2 Block信息管理器 ································227 6.2.1 Block锁的基本概念 ···················227 6.2.2 Block锁的实现 ···························229 6.3 磁盘Block管理器 ······························234 6.3.1 本地目录结构 ·····························234 6.3.2 DiskBlockManager提供的方法 ···························236 6.4 磁盘存储DiskStore ·····························239 6.5 内存管理器 ·····································242 6.5.1 内存池模型 ·································243 6.5.2 StorageMemoryPool详解 ···········244 6.5.3 MemoryManager模型 ················247 6.5.4 Uni?edMemoryManager详解 ····250 6.6 内存存储MemoryStore ······················252 6.6.1 MemoryStore的内存模型 ··········253 6.6.2 MemoryStore提供的方法 ··········255 6.7 块管理器BlockManager ····················265 6.7.1 BlockManager的初始化 ·············265 6.7.2 BlockManager提供的方法 ·········266 6.8 BlockManagerMaster对Block-Manager的管理 ·················285 6.8.1 BlockManagerMaster的职责 ······285 6.8.2 BlockManagerMasterEndpoint详解 ·································286 6.8.3 BlockManagerSlaveEndpoint详解 ·····························289 6.9 Block传输服务 ····································290 6.9.1 初始化NettyBlockTransfer-Service ···························291 6.9.2 NettyBlockRpcServer详解 ·········292 6.9.3 Shuf?e客户端 ·····························296 6.10 DiskBlockObjectWriter详解 ···········305 6.11 小结 ·······································308 第7章 调度系统 ·····································309 7.1 调度系统概述 ·······································310 7.2 RDD详解 ·····································312 7.2.1 为什么需要RDD ························312 7.2.2 RDD实现的初次分析 ················313 7.2.3 RDD依赖 ····································316 7.2.4 分区计算器Partitioner················318 7.2.5 RDDInfo ······································320 7.3 Stage详解 ········································321 7.3.1 ResultStage的实现 ·····················322 7.3.2 Shuf?eMapStage的实现 ·············323 7.3.3 StageInfo ······································324 7.4 面向DAG的调度器DAGScheduler ···326 7.4.1 JobListener与JobWaiter ·············326 7.4.2 ActiveJob详解 ····························328 7.4.3 DAGSchedulerEventProcessLoop的简要介绍 ·······················328 7.4.4 DAGScheduler的组成 ················329 7.4.5 DAGScheduler提供的常用方法 ···330 7.4.6 DAGScheduler与Job的提交 ····334 7.4.7 构建Stage····································337 7.4.8 提交ResultStage ························341 7.4.9 提交还未计算的Task ·················343 7.4.10 DAGScheduler的调度流程 ······347 7.4.11 Task执行结果的处理 ··············348 7.5 调度池Pool ······································351 7.5.1 调度算法 ·······························352 7.5.2 Pool的实现 ·································354 7.5.3 调度池构建器 ·····························357 7.6 任务集合管理器TaskSetManager ···363 7.6.1 Task集合 ·····································363 7.6.2 TaskSetManager的成员属性 ······364 7.6.3 调度池与推断执行 ·····················366 7.6.4 Task本地性 ·································370 7.6.5 TaskSetManager的常用方法 ······373 7.7 运行器后端接口LauncherBackend ···383 7.7.1 BackendConnection的实现 ········384 7.7.2 LauncherBackend的实现 ···········386 7.8 调度后端接口SchedulerBackend ····389 7.8.1 SchedulerBackend的定义 ··········389 7.8.2 LocalSchedulerBackend的实现分析 ································390 7.9 任务结果获取器TaskResultGetter ···394 7.9.1 处理成功的Task ·························394 7.9.2 处理失败的Task ·························396 7.10 任务调度器TaskScheduler ··············397 7.10.1 TaskSchedulerImpl的属性 ·····397 7.10.2 TaskSchedulerImpl的初始化 ···399 7.10.3 TaskSchedulerImpl的启动 ·····399 7.10.4 TaskSchedulerImpl与Task的提交 ·······················400 7.10.5 TaskSchedulerImpl与资源分配 ···························402 7.10.6 TaskSchedulerImpl的调度流程 ······························405 7.10.7 TaskSchedulerImpl对执行结果的处理 ·····························406 7.10.8 TaskSchedulerImpl的常用方法 ···409 7.11 小结 ·······································412 第8章 计算引擎 ·····································413 第9章 部署模式 ········································520 第10章 Spark API ································647 资源截图:
陌佑
百度云
百度云

大数据 技术与应用实践指南 第2版

资源名称:大数据 技术与应用实践指南 第2版 内容简介: 大数据是互联网、移动应用、社交网络和物联网等技术发展的必然趋势,大数据应用成为当前最为热门的信息技术应用领域。《大数据:技术与应用实践指南(第2版)》由浅入深,首先概述性地分析了大数据的发展背景、基本概念,从业务的角度分析了大数据应用的主要业务价值和业务需求,在此基础上介绍大数据的技术架构和关键技术,结合应用实践,详细阐述了传统信息系统与大数据平台的整合策略,大数据应用实践的流程和方法,并介绍了主要的大数据应用产品和解决方案。最后,对大数据面临的挑战和未来的趋势进行了展望。 《大数据:技术与应用实践指南(第2版)》既具有技术深度,又具有很强的可操作性,提供了一个系统性、架构性的大数据应用实践指南,纲要性地指导大数据应用实践,推动大数据技术在各个行业的广泛应用。 资源目录: 第1章 大数据的概念和发展背景 1 1.1 大数据的发展背景 1 1.2 大数据的概念和特征 4 1.2.1 大数据的概念 4 1.2.2 大数据的特征 4 1.3 大数据的产生 5 1.3.1 数据产生由企业内部向企业外部扩展 5 1.3.2 数据产生从Web 1.0向Web 2.0、从互联网向移动互联网扩展 6 1.3.3 数据产生从计算机/互联网(IT)向物联网(IOT)扩展 7 1.4 数据的量级 7 1.4.1 数据大小的量级 7 1.4.2 大数据的量级 8 1.5 大量不同的数据类型 8 1.5.1 按照数据结构分类 9 1.5.2 按照产生主体分类 12 1.5.3 按照数据作用方式分类 13 1.6 大数据的速度 14 1.7 大数据的应用价值 14 1.8 大数据的挑战 15 1.8.1 业务视角不同带来的挑战 15 1.8.2 技术架构不同带来的挑战 15 1.8.3 管理策略不同带来的挑战 16 第2章 大数据应用的业务需求 17 2.1 大数据应用的业务流程 17 2.1.1 产生数据 18 2.1.2 聚集数据 18 2.1.3 分析数据 19 2.1.4 利用数据 19 2.2 大数据应用的业务价值 19 2.2.1 发现大数据的潜在价值 20 2.2.2 发现动态行为数据的价值 20 2.2.3 实现大数据整合创新的价值 20 2.3 各行业大数据应用的个性需求 21 2.3.1 互联网与电子商务行业 21 2.3.2 零售业 26 2.3.3 金融业 28 2.3.4 政府 31 2.3.5 医疗业 34 2.3.6 能源业 35 2.3.7 制造业 37 2.3.8 电信运营业 38 2.3.9 交通业 40 2.4 企业级大数据应用的共性需求 42 2.4.1 客户分析 42 2.4.2 绩效分析 46 2.4.3 欺诈和风险评估 47 2.5 以银行客户分析为例,分析一个大数据的应用场景 48 第3章 大数据应用的总体架构和关键技术 51 3.1 总体架构 51 3.1.1 业务目标 51 3.1.2 架构设计原则 52 3.1.3 总体架构参考模型 55 3.1.4 总体架构的特点 58 3.2 大数据存储和处理技术 59 3.2.1 Hadoop:分布式存储和计算平台 59 3.2.2 HDFS:分布式文件系统 65 3.2.3 MapReduce:分布式计算框架 72 3.2.4 NoSQL:分布式数据库 98 3.2.5 MPP:大规模并行处理系统 113 3.2.6 Spark:轻量级的分布式内存计算系统 117 3.2.7 S4和Storm:流计算框架 126 3.2.8 大数据存储和处理技术的比较分析 132 3.3 大数据查询和分析技术 133 3.3.1 Hive:基本的Hadoop查询和分析 134 3.3.2 Hive 2.0:Hive的优化和升级 144 3.3.3 实时互动的SQL:Impala和drill 147 3.3.4 基于PostgreSQL的SQL on Hadoop 153 3.4 大数据高级分析和可视化技术 154 3.4.1 传统数据仓库与联机分析处理技术 154 3.4.2 大数据对传统分析的挑战 157 3.4.3 大数据挖掘与高级分析 157 3.4.4 大数据挖掘与高级分析库 162 3.4.5 非结构化复杂数据分析 163 3.4.6 实时预测分析 170 3.4.7 开源可视化工具:R语言 177 3.4.8 可视化技术 185 3.5 以银行客户分析为例的大数据应用体系架构 194 第4章 大数据与企业级应用的整合策略 196 4.1 大数据传输、接入、整合和流程管理平台 197 4.1.1 数据传输 197 4.1.2 数据接入 203 4.1.3 数据整合 207 4.1.4 流程管理 208 4.2 大数据与存储架构的整合 212 4.2.1 传统存储架构比较 212 4.2.2 大数据平台的存储架构的选择 214 4.2.3 集群存储的发展 214 4.2.4 基于HDFS的集群存储 216 4.2.5 固态硬盘(SSD)对内存计算的支持 218 4.2.6 软件定义存储(SDS) 218 4.2.7 超融合架构(HCI) 220 4.3 大数据与网络架构的发展 220 4.3.1 统一的以太网结构 222 4.3.2 软件定义网络(SDN) 223 4.3.3 网络功能虚拟化(NFV) 226 4.4 大数据与虚拟化技术的整合 228 4.5 大数据与Docker技术 230 4.5.1 Docker概述 230 4.5.2 Docker原理与总体架构 231 4.5.3 Docker与应用程序开发与管理 237 4.6 大数据与云计算 240 4.7 大数据安全 242 4.8 以银行客户分析为例,分析一个大数据的平台整合 244 第5章 大数据应用的实践方法与案例 246 5.1 实践方法论 246 5.1.1 业务需求定义 247 5.1.2 数据应用现状分析与标杆比较 248 5.1.3 大数据应用架构规划和设计 249 5.1.4 大数据技术切入与实施 250 5.1.5 大数据试用和评估 251 5.1.6 大数据应用推广 252 5.2 技术应用案例 252 5.2.1 Amazon和Google 252 5.2.2 Yahoo 255 5.2.3 Amazon 257 5.2.4 Facebook 259 5.2.5 Twitter 263 5.2.6 淘宝网 264 5.3 以银行客户分析为例的实施案例分析 266 5.3.1 银行基于大数据的客户分析的业务需求 266 5.3.2 银行基于大数据的客户分析的现状与标杆比较 267 5.3.3 银行基于大数据的客户分析的应用架构规划与设计 269 5.3.4 银行基于大数据的数据分析的实施、试点和推广 269 第6章 大数据应用的主流解决方案 270 6.1 产业链 270 6.1.1 国际大数据产业生态 270 6.1.2 国内大数据产业生态 273 6.2 主流厂商解决方案 274 6.2.1 Cloundera 275 6.2.2 Hortonworks 276 6.2.3 MapR 277 6.2.4 IBM 278 6.2.5 Oracle 280 6.2.6 EMC 281 6.2.7 Intel 282 6.2.8 SAP 283 6.2.9 Teradata 285 第7章 大数据应用的未来挑战和趋势 286 7.1 隐私保护 286 7.1.1 法律保护 287 7.1.2 技术保护 289 7.1.3 理念革新 290 7.2 技术标准 291 7.2.1 ISO大数据标准化进展 291 7.2.2 大数据基准和基准测试 293 7.2.3 大数据处理分析标准套件 296 7.3 大数据治理 296 7.3.1 数据治理框架 297 7.3.2 数据质量管理 298 7.3.3 大数据的组织、角色和责任 299 7.4 适应商业社会的未来趋势 300 7.4.1 从产品推销向数据营销的转变 300 7.4.2 从流程驱动到分析驱动的转变 300 7.4.3 从私有资源到公共服务的转变 301 资源截图:
陌佑
百度云
百度云

R与Hadoop大数据分析实战

资源名称:R与Hadoop大数据分析实战 内容简介: 本书全面而系统地讲解了如何将R语言与Hadoop技术结合并应用于大数据分析,不仅系统且深入地阐释了R与Hadoop集成技术的工具、方法、原则和最佳实践,而且通过大量实践案例深入剖析各种常见问题,能为用户高效利用R语言与Hadoop技术进行大数据处理提供翔实指导。 全书分为四部分,共7章:第一部分(第1~2章)是基础知识,主要讲解R语言以及Hadoop的安装过程、计算原理和基本概念;第二部分(第3~4章)是初级应用,主要讲解RHIPE、RHadoop和streaming三种实现方案;第三部分(第5~6章)是高级实例,主要以RHadoop为技术背景,讲解多个实际应用案例;第四部分(第7章)介绍数据库连接,主要讲解在RHadoop下如何与各类数据库进行连接。 资源目录: 译者序 前言 审校者简介 致谢 第1章 R和Hadoop入门 1 1.1 安装R 2 1.2 安装RStudio 3 1.3 R语言的功能特征 3 1.3.1 使用R程序包 3 1.3.2 执行数据操作 3 1.3.3 日渐增多的社区支持 4 1.3.4 R语言数据建模 4 1.4 Hadoop的安装 5 1.4.1 不同的Hadoop模式 6 1.4.2 Hadoop的安装步骤 6 1.5 Hadoop的特点 12 1.5.1 HDFS简介 13 1.5.2 MapReduce简介 13 1.6 HDFS和MapReduce架构 14 1.6.1 HDFS架构 14 1.6.2 MapReduce架构 15 1.6.3 通过图示了解HDFS和MapReduce架构 15 1.7 Hadoop的子项目 16 1.8 小结 19 第2章 编写Hadoop MapReduce程序 20 2.1 MapReduce基础概念 20 2.2 Hadoop MapReduce技术简介 22 2.2.1 MapReduce中包含的实体 22 2.2.2 MapReduce中的主要执行进程 23 2.2.3 MapReduce的局限 25 2.2.4 MapReduce 可以解决的问题 26 2.2.5 使用Hadoop编程时用到不同的Java概念 26 2.3 Hadoop MapReduce原理 27 2.3.1 MapReduce对象 27 2.3.2 MapReduce中实现Map阶段的执行单元数目 28 2.3.3 MapReduce中实现Reduce阶段的执行单元数目 28 2.3.4 MapReduce的数据流 28 2.3.5 深入理解HadoopMapReduce 30 2.4 编写Hadoop MapReduce示例程序 32 2.4.1 MapReduce job运行的步骤 33 2.4.2 MapReduce可解决的商业问题 38 2.5 在R环境中编写Hadoop MapReduce程序的方式 39 2.5.1 RHadoop 39 2.5.2 RHIPE 40 2.5.3 Hadoop streaming 40 2.6 小结 40 第3章 集成R和Hadoop 41 3.1 RHIPE 42 3.1.1 安装RHIPE 42 3.1.2 RHIPE架构 44 3.1.3 RHIPE实例 45 3.1.4 RHIPE参考函数 48 3.2 RHadoop 51 3.2.1 RHadoop架构 51 3.2.2 安装RHadoop 52 3.2.3 RHadoop案例 53 3.2.4 RHadoop参考函数 56 3.3 小结 58 第4章 Hadoop Streaming中使用R 59 4.1 Hadoop Streaming基础概念 59 4.2 使用R运行Hadoop streaming 62 4.2.1 MapReduce应用程序基础 63 4.2.2 如何编写MapReduce应用程序 65 4.2.3 如何运行MapReduce应用程序 67 4.2.4 如何浏览MapRecuce应用程序的输出 69 4.2.5 Hadoop MapReduce脚本的基础R函数 70 4.2.6 管理Hadoop MapReduce任务 71 4.3 R语言扩展包HadoopStreaming介绍 72 4.3.1 hsTableReader函数 73 4.3.2 hsKeyValReader函数 75 4.3.3 hasLineReader函数 75 4.3.4 运行Hadoop streaming任务 78 4.3.5 执行Hadoop Streaming任务 79 4.4 小结 79 第5章 利用R和Hadoop学习数据分析 80 5.1 数据分析项目生命周期 80 5.1.1 问题定义 81 5.1.2 设计数据需求 81 5.1.3 数据预处理 81 5.1.4 数据分析 82 5.1.5 数据可视化 82 5.2 数据分析问题 83 5.2.1 展示网页分类 83 5.2.2 计算股市变动频率 92 5.2.3 案例研究:预测推土机售价 98 5.3 小结 107 第6章 应用机器学习做大数据分析 108 6.1 机器学习介绍 108 6.2 有监督机器学习算法 109 6.2.1 线性回归 109 6.2.2 logistic回归 115 6.3 无监督机器学习算法 118 6.4 推荐算法 123 6.4.1 在R中产生推荐商品的步骤 125 6.4.2 使用R和Hadoop产生推荐商品 128 6.5 小结 131 第7章 从各种数据库中导入与导出数据 132 7.1 文件型数据库 134 7.1.1 不同类型的文件 134 7.1.2 安装R包 134 7.1.3 将数据导入R 134 7.1.4 从R导出数据 135 7.2 MySQL 135 7.2.1 安装MySQL 135 7.2.2 安装RMySQL 136 7.2.3 列出数据表及其结构 136 7.2.4 导入数据进R 136 7.2.5 数据操纵 137 7.3 Excel 137 7.3.1 安装Excel 138 7.3.2 导入数据进R 138 7.3.3 R和Excel的数据操纵 138 7.3.4 导出数据到Excel 138 7.4 MongoDB 138 7.4.1 安装MongoDB 139 7.4.2 安装rmongodb 141 7.4.3 导入数据进R 141 7.4.4 数据操纵 142 7.5 SQLite 143 7.5.1 SQLite的特性 143 7.5.2 安装SQLite 144 7.5.3 安装RSQLite 144 7.5.4 将数据导师入R 144 7.5.5 数据操纵 145 7.6 PostgreSQL 145 7.6.1 PostgreSQL的特性 145 7.6.2 安装PostgreSQL 145 7.6.3 安装RPostgreSQL 146 7.6.4 从R导出数据 146 7.7 Hive 147 7.7.1 Hive的特性 147 7.7.2 安装Hive 147 7.7.3 安装RHive 149 7.7.4 RHive操作 149 7.8 HBase 150 7.8.1 HBase的特性 150 7.8.2 安装HBase 151 7.8.3 安装Thrift 152 7.8.4 安装RHBase 153 7.8.5 导入数据进R 153 7.8.6 数据操纵 153 7.9 小结 154 附录 参考资源 155 资源截图:
陌佑
百度云
百度云

大数据与机器学习:实践方法与行业案例

资源名称:大数据与机器学习:实践方法与行业案例 内容简介: 本书从企业实践出发,内容覆盖数据、平台、分析和应用等企业内数据流转的主要环节。布局上,按照数据与平台篇、分析篇和应用篇分别撰写。数据与平台篇(第1~3章),立足找到数据、整合数据、使用数据三个角度,介绍数据在企业内的分布和处理逻辑,以便快速为分析准备素材。分析篇(第4~11章),选取企业实际案例,介绍常用的数据挖掘与机器学习算法,以业务场景为导向展示数据分析过程和技巧。应用篇(第12~15章),选取当前主流的四个应用场景,介绍如何实现数据驱动,让数据“自动”流转于各个环节。 资源目录: 第1章概述 1.1名词演化 1.2基本内容 1.3数据智慧 第2章线性回归方法 2.1多元线性回归 2.2压缩方法:岭回归与Lasso 2.3*Lasso 模型的求解与理论性质 2.4损失函数加罚的建模框架 2.5上机实践   第3章线性分类方法 3.1分类问题综述与评价准则 3.2Logistic回归 3.3线性判别 3.4上机实践   第4章模型评价与选择 4.1基本概念 4.2*理论方法 4.3数据重利用方法 4.4上机实践   第5章决策树与组合方法 5.1决策树 5.2Bagging 5.3Boosting 5.4随机森林 5.5上机实践   第6章神经网络与深度学习 6.1神经网络 6.2深度学习 6.3上机实践   第7章支持向量机 7.1线性可分支持向量机 7.2软间隔支持向量机 7.3一些拓展 7.4上机实践   第8章聚类分析 8.1基于距离的聚类 8.2基于模型和密度的聚类 8.3稀疏聚类 8.4双向聚类 8.5上机实践 第9章推荐系统 9.1基于邻居的推荐 9.2潜在因子与矩阵分解算法 9.3上机实践   第10章大数据案例分析 10.1智能手机用户监测数据案例分析 10.2美国航空数据案例分析   参考文献 大数据挖掘与统计机器学习 资源截图:
陌佑
百度云
百度云
⬅️ 1...20442045204620472048...3148

添加微信,反馈问题

微信及时反馈问题,方便沟通,请备注 ❤️

搜索榜单

1

骚老板资源网整站源码 打包数据高达2GB

1686

2

绿色风格网络公司源码 php网络建站公司源码

1092

3

(自适应手机版)响应式餐饮美食企业网站源码 餐饮品牌连锁机构织梦模板

1049

4

雷速问卷调查系统(疫情上报系统) v7.08

936

5

Zblog仿918回忆模特写真网带整站数据图库系统源码

894

6

一款笑话类网站源码 简约清爽的织梦笑话网站模板

819

最新资源

1

网狐电玩系列/乐游电玩城/免微信免短信登陆

2

湖南地方玩法好玩互娱纯源码

3

最新更新网狐旗舰大联盟+UI工程

4

傲玩系列客户端通用加解密工具

5

优米H5电玩城组件/多语言/带84个游戏/后台带控+搭建视频教程

6

网狐系列猫娱乐新UI蜡笔小新金币组件

友情链接:
免费APISSL在线检测在线pingAPI版本项目seo教程免费下载狗凯源码网 查看更多
网站地图 法律声明
本站所存储的源码数据均为转载,不提供在线播放和下载服务。本站为非盈利性,不收取费用,所有内容不用于商业行为,仅供学习交流使用。如有侵权,请联系15001904@qq.com
  • 联系微信,反馈问题

  • 点此立刻反馈