资源搜
资源搜
👀 联系夏柔
🔥 投稿源码
资源搜

资源搜

  • 全部
  • 123盘
  • 阿里盘
  • 百度云
  • 迅雷
  • 夸克
  • 115
  • 蓝奏云
  • 其他
已收录34127条资源,仅供学习交流,请在24h内删除资源!

Hadoop硬实战

资源名称:Hadoop硬实战  内容简介: Hadoop 是一个开源的MapReduce 平台,设计运行在大型分布式集群环境中,为开发者进行数据存储、管理以及分析提供便利的方法。《Hadoop硬实战》详细讲解了Hadoop 和MapReduce 的基本概念,并收集了85 个问题及其解决方案。在关键问题领域对基础概念和实战方法做了权衡。 《Hadoop硬实战》适合使用Hadoop 进行数据存储、管理和分析的技术人员使用。 资源目录: 前言 ...............................................................................................................XV 致谢 ............................................................................................................XVII 关于本书 ..................................................................................................... XIX 第1 部分 背景和基本原理...............................................1 1 跳跃中的Hadoop....................................................................................... 3 1.1 什么是Hadoop ................................................................................................. 4 1.1.1 Hadoop 的核心组件 ............................................................................ 5 1.1.2 Hadoop 生态圈 .................................................................................... 9 1.1.3 物理架构 ............................................................................................ 10 1.1.4 谁在使用Hadoop .............................................................................. 12 1.1.5 Hadoop 的局限性 .............................................................................. 13 1.2 运行Hadoop ................................................................................................... 14 1.2.1 下载并安装Hadoop .......................................................................... 14 1.2.2 Hadoop 的配置 .................................................................................. 15 1.2.3 CLI 基本命令 ..................................................................................... 17 1.2.4 运行MapReduce 作业 ....................................................................... 18 1.3 本章小结 ........................................................................................................ 24 第2 部分 数据逻辑....................................................... 25 2 将数据导入导出Hadoop.........................................................27 2.1 导入导出的关键要素 .................................................................................... 29 2.2 将数据导入Hadoop ....................................................................................... 30 2.2.1 将日志文件导入Hadoop .................................................................. 31 技术点1 使用Flume 将系统日志文件导入HDFS ............................. 33 2.2.2 导入导出半结构化和二进制文件 .................................................... 42 技术点2 自动复制文件到HDFS 的机制 ............................................ 43 技术点3 使用Oozie 定期执行数据导入活动 ..................................... 48 2.2.3 从数据库中拉数据 ............................................................................ 52 技术点4 使用MapReduce 将数据导入数据库 ................................... 53 技术点5 使用Sqoop 从MySQL 导入数据 ......................................... 58 2.2.4 HBase ................................................................................................. 68 技术点6 HBase 导入HDFS ................................................................. 68 技术点7 将HBase 作为MapReduce 的数据源 .................................. 70 2.3 将数据导出Hadoop ....................................................................................... 73 2.3.1 将数据导入本地文件系统 ................................................................ 73 技术点8 自动复制HDFS 中的文件 .................................................... 73 2.3.2 数据库 ................................................................................................ 74 技术点9 使用Sqoop 将数据导入MySQL .......................................... 75 2.3.3 Hbase .................................................................................................. 78 技术点10 将数据从HDFS 导入HBase .............................................. 78 技术点11 使用HBase 作为MapReduce 的数据接收器 .................... 79 2.4 本章小结 ........................................................................................................ 81 3 数据序列化——处理文本文件及其他格式的文件........................83 3.1 了解MapReduce 中的输入和输出 ............................................................... 84 3.1.1 数据输入 ............................................................................................ 85 3.1.2 数据输出 ............................................................................................ 89 3.2 处理常见的序列化格式 ................................................................................ 91 3.2.1 XML ................................................................................................... 91 技术点12 MapReduce 和XML ............................................................ 91 3.2.2 JSON ................................................................................................... 95 技术点13 MapReduce 和JSON ........................................................... 95 3.3 大数据的序列化格式 .................................................................................... 99 3.3.1 比较SequenceFiles、Protocol Buffers、Thrift 和 Avro .................. 99 3.3.2 Sequence File .................................................................................... 101 技术点14 处理SequenceFile .............................................................. 103 3.3.3 Protocol Buffers ................................................................................ 109 技术点15 整合Protocol Buffers 和MapReduce ............................... 110 3.3.4 Thrift ................................................................................................. 117 技术点16 使用Thrift .......................................................................... 117 3.3.5 Avro .................................................................................................. 119 技术点17 MapReduce 的下一代数据序列化技术 ............................ 120 3.4 自定义文件格式 .......................................................................................... 127 3.4.1 输入输出格式 .................................................................................. 127 技术点18 输入和输出格式为CSV 的文件 ...................................... 128 3.4.2 output committing 的重要性 ........................................................... 136 3.5 本章小结 ...................................................................................................... 136 第3 部分 大数据模式..................................................137 . . 第4 部分 数据科学.......................................................251 . 第5 部分 驯服大象......................................................333 . 附录A 相关技术..................................................................... 443 附录B Hadoop 内置的数据导入导出工具.................................. 471 附录C HDFS 解剖................................................................. 486 附录D 优化MapReduce 合并框架............................................ 493 索引.......................................................................................... 503 资源截图:
陌佑
百度云
百度云

大数据概论

资源名称:大数据概论  内容简介: 本书主要介绍大数据概论,内容包括大数据概述、科学研究第四范式、分布系统设计的CAP理论、NoSQL数据库、复杂网络、MapReduce分布编程模型、大数据存储、大数据分析、大数据挖掘、大数据可视化、大数据安全、大数据机器学习、大数据推荐技术,以及数据科学与数据思维。全书对上述内容概念性地介绍,语言精练、内容全面。 资源截图:
陌佑
百度云
百度云

触手可及的大数据分析工具:Tableau案例集

资源名称:触手可及的大数据分析工具:Tableau案例集 内容简介: 《触手可及的大数据分析工具:Tableau案例集》对Tableau的产品、优势、Tableau 9.0的新特性及其功能做了全面的介绍,并且从15个不同行业的案例入手,让你在阅读本书后能够从一个新手成长为能够创建出复杂仪表板的高手。 《触手可及的大数据分析工具:Tableau案例集》分为五个部分共14章:Tableau使用概述、新手上路、成功晋级、高手秘籍以及实际应用。 Tableau使用概述包含四章,分别从为何要进行数据可视化、Tableau的发展历程、Tableau的产品介绍、Tableau 9.0的新特性、Tableau的应用优势以及如何利用Tableau进行数据连接和了解工作区几个方面做了详尽的阐述。 新手上路包含两章,该部分以各行业案例为依托,带你从Tableau的排序、筛选、分层和分组、参数和函数等方面来全面了解Tableau 9.0的新功能。 成功晋级包含四章,分别从不同行业的案例入手介绍Tableau的高级功能。 高手秘籍包含三章,该部分介绍如何利用Tableau中的颜色和形状进行异常值检测、如何利用背景图像进行货架分析以及如何使用Tableau中的超级链接使用WMS地图服务和动态调用外部网页。 实际应用自成一章包含八个数据可视化分析实例,全面展示Tableau进行数据可视化分析的各种技术细节和实用技巧。 《触手可及的大数据分析工具:Tableau案例集》对于初次接触Tableau软件的读者会有很大帮助,书中对Tableau创建可视化视图的每一步操作都有详尽的说明。如果你是Tableau软件的老用户,《触手可及的大数据分析工具:Tableau案例集》中不同行业案例的可视化分析和展现方式也会给你带来全新的思路和视角。 资源目录: 第1部分 Tableau使用概述 第1章数据可视化2 1.1 用数据讲故事2 1.2 数据不只是数字3 1.3 在数据中寻找什么3 1.4 本章小结5 第2章 Tableau概述6 2.1 Tableau的发展历程6 2.2 Tableau产品简介7 2.2.1 Tableau Desktop7 2.2.2 Tableau Server9 2.2.3 Tableau Online9 2.2.4 Tableau Reader9 2.2.5 Tableau Public9 2.3 Tableau 9.0版本新特性10 2.4 本章小结16 第3章 Tableau应用优势17 3.1 简单易用17 3.2 极速高效18 3.3 美观交互的视图与界面20 3.4 轻松实现数据融合22 3.5 简便的管理23 3.6 灵活的配置23 3.7 本章小结24 第4章 Tableau功能介绍25 4.1 数据连接25 4.1.1 数据文件连接25 4.1.2 数据库连接27 4.2 了解Tableau工作区29 4.3 本章小结39 第2部分新手上路 第5章创作第一个仪表板42 5.1 排序42 5.2 分层与分组46 5.2.1 分层46 5.2.2 分组50 5.3 参数设置52 5.4 语法操作55 5.4.1 主要功能函数简介55 5.4.2 快速表计算简介62 5.5 可视化67 5.5.1 地图67 5.5.2 条形图73 5.5.3 线形图77 5.5.4 饼图79 5.5.5 复合图80 5.5.6 嵌套条形图81 5.5.7 动态图84 5.5.8 热图86 5.5.9 突显表89 5.5.10 散点图90 5.5.11 气泡图93 5.5.12 甘特图93 5.5.13 标靶图95 5.5.14 盒须图98 5.5.15 瀑布图100 5.5.16 直方图101 5.5.17 帕累托图103 5.5.18 填充气泡图107 5.5.19 文字云110 5.5.20 树地图111 5.6 设计动态仪表板113 5.6.1 新建一个仪表板113 5.6.2 创建动作118 5.6.3 使用仪表板的注意事项123 5.7 作品分享方案123 5.8 本章小结131 第6章实战演练132 6.1 教育水平评估132 6.1.1 学校教育水平评估132 6.1.2 城市教育水平评估139 6.2 网站内容评估146 6.3 投资分析151 6.4 本章小结164 第3部分成功晋级 第7章巧用地图166 7.1 索偿分析166 7.2 估值分析171 7.3 本章小结175 第8章美化趋势图176 8.1 欺诈检测176 8.2 生产分析179 8.3 资源组合分析189 8.4 本章小结195 第9章设计动态仪表板196 9.1 继任规划196 9.2 资产监控201 9.3 本章小结206 第10章客户细分207 10.1 网站客户细分207 10.2 零售业客户细分212 10.3 游戏客户洞察217 10.4 本章小结226 第4部分高手秘籍 第11章生“动”形“象”228 11.1 识别与预测228 11.2 门户创建243 11.3 网络广告投放分析250 11.4 本章小结260 第12章设计个性化背景261 12.1 NBA赛事分析261 12.2 货架图分析265 12.3 本章小结275 第13章超级链接276 13.1 使用Web地图服务277 13.2 淘宝网店数据分析281 13.3 本章小结290 第5部分实际应用 第14章实际应用案例分析292 14.1 中国楼市降温的分析292 14.2 中国最美八条骑行路线的展示311 14.3 中国教育水平发展指标历史数据统计报告321 14.4 空难信息统计337 14.5 Tableau官网各版块访问情况365 14.6 2014年巴西世界杯小组赛各球队球员数据统计373 14.7 2014年太平洋台风季分析391 14.8 制作“伦敦巴士线路数据”视图406 附A录 Tableau安装415 附B录 Tableau函数汇总419 资源截图:
陌佑
百度云
百度云

Hadoop技术内幕_深入解析HADOOP_COMMON和HDFS架构设计与实现原理

资源名称:Hadoop技术内幕_深入解析HADOOP_COMMON和HDFS架构设计与实现原理 内容简介: 《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和MapReduce的架构设计与实现原理进行了极为详细的分析。《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》由腾讯数据平台的资深Hadoop专家、X-RIME的作者亲自执笔,对Common和HDFS的源代码进行了分析,旨在为Hadoop的优化、定制和扩展提供原理性的指导。除此之外,《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》还从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法,以及Java语言的编码技巧、编程规范和对设计模式的精妙运用进行了总结和分析,对提高读者的分布式技术能力和Java编程能力都非常有帮助。《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》适合Hadoop的二次开发人员、应用开发工程师、运维工程师阅读。 全书共9章,分为三部分:第一部分(第1章)主要介绍了Hadoop源代码的获取和源代码阅读环境的搭建;第二部分(第2~5章)对Hadoop公共工具Common的架构设计和实现原理进行了深入分析,包含Hadoop的配置信息处理、面向海量数据处理的序列化和压缩机制、Hadoop的远程过程调用,以及满足Hadoop上各类应用访问数据的Hadoop抽象文件系统和部分具体文件系统等内容;第三部分(第6~9章)对Hadoop的分布式文件系统HDFS的架构设计和实现原理进行了详细的分析,这部分内容采用了总分总的结构,第6章对HDFS的各个实体和实体间接口进行了分析;第7章和第8章分别详细地研究了数据节点和名字节点的实现原理,并通过第9章对客户端的解析,回顾了HDFS各节点间的配合,完整地介绍了一个大规模数据存储系统的实现。 资源目录: 前 言 第一部分 环境准备 第1章 源代码环境准备/ 2 1.1 什么是Hadoop / 2 1.1.1 Hadoop简史/ 2 1.1.2 Hadoop的优势/ 3 1.1.3 Hadoop生态系统/ 4 1.2 准备源代码阅读环境/ 8 1.2.1 安装与配置JDK / 8 1.2.2 安装Eclipse / 9 1.2.3 安装辅助工具Ant/ 12 1.2.4 安装类UNIX Shell环境Cygwin / 13 1.3 准备Hadoop源代码/ 15 1.3.1 下载Hadoop / 15 1.3.2 创建Eclipse项目/ 16 1.3.3 Hadoop源代码组织/ 18 1.4 小结/ 19 第二部分 Common的实现 第2章 Hadoop配置信息处理/ 22 2.1 配置文件简介/ 22 2.1.1 Windows操作系统的配置文件/ 22 2.1.2 Java配置文件/ 23 2.2 Hadoop Configuration详解/ 24 2.2.1 Hadoop配置文件的格式/ 24 2.2.2 Configuration的成员变量/ 26 2.2.3 资源加载/ 27 2.2.4 使用get*和set*访问/设置配置项/ 32 2.3 Configurable接口/ 34 2.4 小结/ 35 第3章 序列化与压缩/ 36 3.1 序列化/ 36 3.1.1 Java内建序列化机制/ 36 3.1.2 Hadoop序列化机制/ 38 3.1.3 Hadoop序列化机制的特征/ 39 3.1.4 Hadoop Writable机制/ 39 3.1.5 典型的Writable类详解/ 41 3.1.6 Hadoop序列化框架/ 48 3.2 压缩/ 49 3.2.1 Hadoop压缩简介/ 50 3.2.2 Hadoop压缩API应用实例/ 51 3.2.3 Hadoop压缩框架/ 52 3.2.4 Java本地方法/ 61 3.2.5 支持Snappy压缩/ 65 3.3 小结/ 69 第4章 Hadoop远程过程调用/ 70 4.1 远程过程调用基础知识/ 70 4.1.1 RPC原理/ 70 4.1.2 RPC机制的实现/ 72 4.1.3 Java远程方法调用/ 73 4.2 Java动态代理/ 78 4.2.1 创建代理接口/ 78 4.2.2 调用转发/ 80 4.2.3 动态代理实例/ 81 4.3 Java NIO/ 84 4.3.1 Java基本套接字/ 84 4.3.2 Java NIO基础/ 86 4.3.3 Java NIO实例:回显服务器/ 93 4.4 Hadoop中的远程过程调用/ 96 4.4.1 利用Hadoop IPC构建简单的分布式系统/ 96 4.4.2 Hadoop IPC的代码结构/ 100 4.5 Hadoop IPC连接相关过程/ 104 4.5.1 IPC连接成员变量/ 104 4.5.2 建立IPC连接/ 106 4.5.3 数据分帧和读写/ 111 4.5.4 维护IPC连接/ 114 4.5.5 关闭IPC连接/ 116 4.6 Hadoop IPC方法调用相关过程/ 118 4.6.1 Java接口与接口体/ 119 4.6.2 IPC方法调用成员变量/ 121 4.6.3 客户端方法调用过程/ 123 4.6.4 服务器端方法调用过程/ 126 4.7 Hadoop IPC上的其他辅助过程/ 135 4.7.1 RPC.getProxy()和RPC.stopProxy() / 136 4.7.2 RPC.getServer()和Server的启停/ 138 4.8 小结/ 141 第5章 Hadoop文件系统/ 142 5.1 文件系统/ 142 5.1.1 文件系统的用户界面/ 142 5.1.2 文件系统的实现/ 145 5.1.3 文件系统的保护控制/ 147 5.2 Linux文件系统/ 150 5.2.1 Linux本地文件系统/ 150 5.2.2 虚拟文件系统/ 153 5.2.3 Linux文件保护机制/ 154 5.2.4 Linux文件系统API/ 155 5.3 分布式文件系统/ 159 5.3.1 分布式文件系统的特性/ 159 5.3.2 基本NFS体系结构/ 160 5.3.3 NFS支持的文件操作/ 160 5.4 Java文件系统/ 162 5.4.1 Java文件系统API / 162 5.4.2 URI和URL / 164 5.4.3 Java输入/输出流/ 166 5.4.4 随机存取文件/ 169 5.5 Hadoop抽象文件系统/ 170 5.5.1 Hadoop文件系统API / 170 5.5.2 Hadoop输入/输出流/ 175 5.5.3 Hadoop文件系统中的权限/ 179 5.5.4 抽象文件系统中的静态方法/ 180 5.5.5 Hadoop文件系统中的协议处理器/ 184 5.6 Hadoop具体文件系统/ 188 5.6.1 FileSystem层次结构/ 189 5.6.2 RawLocalFileSystem的实现/ 191 5.6.3 ChecksumFileSystem的实现/ 196 5.6.4 RawInMemoryFileSystem的实现/ 210 5.7 小结/ 213 第三部分 Hadoop分布式文件系统 第6章 HDFS概述/ 216 6.1 初识HDFS / 216 6.1.1 HDFS主要特性/ 216 6.1.2 HDFS体系结构/ 217 6.1.3 HDFS源代码结构/ 221 6.2 基于远程过程调用的接口/ 223 6.2.1 与客户端相关的接口/ 224 6.2.2 HDFS各服务器间的接口/ 236 6.3 非远程过程调用接口/ 244 6.3.1 数据节点上的非IPC接口/ 245 6.3.2 名字节点和第二名字节点上的非IPC接口/ 252 6.4 HDFS主要流程/ 254 6.4.1 客户端到名字节点的文件与目录操作/ 254 6.4.2 客户端读文件/ 256 6.4.3 客户端写文件/ 257 6.4.4 数据节点的启动和心跳/ 258 6.4.5 第二名字节点合并元数据/ 259 6.5 小结/ 261 第7章 数据节点实现/ 263 7.1 数据块存储/ 263 7.1.1 数据节点的磁盘目录文件结构/ 263 7.1.2 数据节点存储的实现/ 266 7.1.3 数据节点升级/ 269 7.1.4 文件系统数据集的工作机制/ 276 7.2 流式接口的实现/ 285 7.2.1 DataXceiverServer和DataXceiver / 286 7.2.2 读数据/ 289 7.2.3 写数据/ 298 7.2.4 数据块替换、数据块拷贝和读数据块检验信息/ 313 7.3 作为整体的数据节点/ 314 7.3.1 数据节点和名字节点的交互/ 314 7.3.2 数据块扫描器/ 319 7.3.3 数据节点的启停/ 321 7.4 小结/ 326 第8章 名字节点实现/ 327 8.1 文件系统的目录树/ 327 8.1.1 从i-node到INode/ 327 8.1.2 命名空间镜像和编辑日志/ 333 8.1.3 第二名字节点/ 351 8.1.4 FSDirectory的实现/ 361 8.2 数据块和数据节点管理/ 365 8.2.1 数据结构/ 366 8.2.2 数据节点管理/ 378 8.2.3 数据块管理/ 392 8.3 远程接口ClientProtocol的实现/ 412 8.3.1 文件和目录相关事务/ 412 8.3.2 读数据使用的方法/ 415 8.3.3 写数据使用的方法/ 419 8.3.4 工具dfsadmin依赖的方法/ 443 8.4 名字节点的启动和停止/ 444 8.4.1 安全模式/ 444 8.4.2 名字节点的启动/ 449 8.4.3 名字节点的停止/ 454 8.5 小结/ 454 第9章 HDFS客户端/ 455 9.1 认识DFSClient / 455 9.1.1 DFSClient的构造和关闭/ 455 9.1.2 文件和目录、系统管理相关事务/ 457 9.1.3 删除HDFS文件/目录的流程/ 459 9.2 输入流/ 461 9.2.1 读数据前的准备:打开文件/ 463 9.2.2 读数据/ 465 9.2.3 关闭输入流/ 475 9.2.4 读取HDFS文件数据的流程/ 475 9.3 输出流/ 478 9.3.1 写数据前的准备:创建文件/ 481 9.3.2 写数据:数据流管道的建立/ 482 9.3.3 写数据:数据包的发送/ 486 9.3.4 写数据:数据流管道出错处理/ 493 9.3.5 写数据:租约更新/ 496 9.3.6 写数据:DFSOutputStream.sync()的作用/ 497 9.3.7 关闭输出流/ 499 9.3.8 向HDFS文件写入数据的流程/ 500 9.4 DistributedFileSystem的实现/ 506 9.5 HDFS常用工具/ 508 9.5.1 FsShell / 508 9.5.2 DFSAdmin / 510 9.6 小结/ 511 资源截图:
陌佑
百度云
百度云

Hadoop构建数据仓库实践

资源名称:Hadoop构建数据仓库实践 作者简介: 王雪迎,毕业于中国地质大学计算机专业,高级工程师,拥有20年数据库、数据仓库相关技术经验。曾先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。 资源目录: 第1章 数据仓库简介 1.1 什么是数据仓库 1 1.1.1 数据仓库的定义 1 1.1.2 建立数据仓库的原因 3 1.2 操作型系统与分析型系统 5 1.2.1 操作型系统 5 1.2.2 分析型系统 8 1.2.3 操作型系统和分析型系统对比 9 1.3 数据仓库架构 10 1.3.1 基本架构 10 1.3.2 主要数据仓库架构 12 1.3.3 操作数据存储 16 1.4 抽取-转换-装载 17 1.4.1 数据抽取 17 1.4.2 数据转换 19 1.4.3 数据装载 20 1.4.4 开发ETL系统的方法 21 1.4.5 常见ETL工具 21 1.5 数据仓库需求 22 1.5.1 基本需求 22 1.5.2 数据需求 23 1.6 小结 24 第2章 数据仓库设计基础 2.1 关系数据模型 25 2.1.1 关系数据模型中的结构 25 2.1.2 关系完整性 28 2.1.3 规范化 30 2.1.4 关系数据模型与数据仓库 33 2.2 维度数据模型 34 2.2.1 维度数据模型建模过程 35 2.2.2 维度规范化 36 2.2.3 维度数据模型的特点 37 2.2.4 星型模式 38 2.2.5 雪花模式 40 2.3 Data Vault模型 42 2.3.1 Data Vault模型简介 42 2.3.2 Data Vault模型的组成部分 43 2.3.3 Data Vault模型的特点 44 2.3.4 Data Vault模型的构建 44 2.3.5 Data Vault模型实例 46 2.4 数据集市 49 2.4.1 数据集市的概念 50 2.4.2 数据集市与数据仓库的区别 50 2.4.3 数据集市设计 50 2.5 数据仓库实施步骤 51 2.6 小结 54 第3章 Hadoop生态圈与数据仓库 3.1 大数据定义 55 3.2 Hadoop简介 56 3.2.1 Hadoop的构成 57 3.2.2 Hadoop的主要特点 58 3.2.3 Hadoop架构 58 3.3 Hadoop基本组件 59 3.3.1 HDFS 60 3.3.2 MapReduce 65 3.3.3 YARN 72 3.4 Hadoop生态圈的其他组件 77 3.5 Hadoop与数据仓库 81 3.5.1 关系数据库的可扩展性瓶颈 82 3.5.2 CAP理论 84 3.5.3 Hadoop数据仓库工具 85 3.6 小结 88 第4章 安装Hadoop 4.1 Hadoop主要发行版本 89 4.1.1 Cloudera Distribution for Hadoop(CDH) 89 4.1.2 Hortonworks Data Platform(HDP) 90 4.1.3 MapR Hadoop 90 4.2 安装Apache Hadoop 91 4.2.1 安装环境 91 4.2.2 安装前准备 92 4.2.3 安装配置Hadoop 93 4.2.4 安装后配置 97 4.2.5 初始化及运行 97 4.3 配置HDFS Federation 99 4.4 离线安装CDH及其所需的服务 104 4.4.1 CDH安装概述 104 4.4.2 安装环境 106 4.4.3 安装配置 106 4.4.4 Cloudera Manager许可证管理 114 4.5 小结 115 第5章 Kettle与Hadoop 5.1 Kettle概述 117 5.2 Kettle连接Hadoop 119 5.2.1 连接HDFS 119 5.2.2 连接Hive 124 5.3 导出导入Hadoop集群数据 128 5.3.1 把数据从HDFS抽取到RDBMS 128 5.3.2 向Hive表导入数据 132 5.4 执行Hive的HiveQL语句 134 5.5 MapReduce转换示例 135 5.6 Kettle提交Spark作业 143 5.6.1 安装Spark 143 5.6.2 配置Kettle向Spark集群提交作业 146 5.7 小结 149 第6章 建立数据仓库示例模型 6.1 业务场景 150 6.2 Hive相关配置 152 6.2.1 选择文件格式 152 6.2.2 支持行级更新 159 6.2.3 Hive事务支持的限制 164 6.3 Hive表分类 164 6.4 向Hive表装载数据 169 6.5 建立数据库表 174 6.6 装载日期维度数据 179 6.7 小结 180 第7章 数据抽取 7.1 逻辑数据映射 182 7.2 数据抽取方式 185 7.3 导出成文本文件 191 7.4 分布式查询 196 7.5 使用Sqoop抽取数据 200 7.5.1 Sqoop简介 200 7.5.2 CDH 5.7.0中的Sqoop 203 7.5.3 使用Sqoop抽取数据 203 7.5.4 Sqoop优化 207 7.6 小结 208 第8章 数据转换与装载 8.1 数据清洗 210 8.2 Hive简介 214 8.2.1 Hive的体系结构 215 8.2.2 Hive的工作流程 216 8.2.3 Hive服务器 218 8.2.4 Hive客户端 221 8.3 初始装载 231 8.4 定期装载 236 8.5 Hive优化 246 8.6 小结 254 第9章 定期自动执行ETL作业 9.1 crontab 256 9.2 Oozie简介 260 9.2.1 Oozie的体系结构 260 9.2.2 CDH 5.7.0中的Oozie 262 9.3 建立定期装载工作流 262 9.4 建立协调器作业定期自动执行工作流 271 9.5 Oozie优化 275 9.6 小结 276 第10章 维度表技术 10.1 增加列 278 10.2 维度子集 285 10.3 角色扮演维度 292 10.4 层次维度 298 10.4.1 固定深度的层次 299 10.4.2 递归 302 10.4.3 多路径层次 310 10.4.4 参差不齐的层次 312 10.5 退化维度 313 10.6 杂项维度 316 10.7 维度合并 323 10.8 分段维度 329 10.9 小结 335 第11章 事实表技术 11.1 事实表概述 336 11.2 周期快照 337 11.3 累积快照 343 11.4 无事实的事实表 349 11.5 迟到的事实 354 11.6 累积度量 360 11.7 小结 366 第12章 联机分析处理 12.1 联机分析处理简介 367 12.1.1 概念 367 12.1.2 分类 368 12.1.3 性能 371 12.2 Impala简介 371 12.3 Hive、SparkSQL、Impala比较 377 12.3.1 Spark SQL简介 377 12.3.2 Hive、Spark SQL、Impala比较 379 12.3.3 Hive、Spark SQL、Impala性能对比 382 12.4 联机分析处理实例 387 12.5 Apache Kylin与OLAP 399 12.5.1 Apache Kylin架构 399 12.5.2 Apache Kylin安装 401 12.6 小结 407 第13章 数据可视化 13.1 数据可视化简介 408 13.2 Hue简介 410 13.2.1 Hue功能快速预览 411 13.2.2 配置元数据存储 412 13.3 Zeppelin简介 415 13.3.1 Zeppelin架构 415 13.3.2 Zeppelin安装配置 416 13.3.3 在Zeppelin中添加MySQL翻译器 421 13.4 Hue、Zeppelin比较 425 13.5 数据可视化实例 426 13.6 小结 434 资源截图:
陌佑
百度云
百度云

云计算网络珠玑

资源名称:云计算网络珠玑 内容简介: 《云计算网络珠玑》着眼于讲解云计算网络虚拟化中所用到的网络技术原理,重点展示以太网及TCP/IP网络中各种技术内在的关联脉络,包括从传统的MAC、IP、安全和QoS等到新兴的Trill、LISP、DPI和CDN等技术,从以太网交换机的二层转发、三层路由和Linux的TCP/IP协议栈到MAC-in-MAC、VXLAN和Neutron等新方案,以及从传统的数据中心三层架构到扁平化大二层和SDN/NFV等新架构。另外,本书对一些网络新技术和新方案(如SR-IOV、Openflow、DPDK、Serverswitch等)也进行了阐述,并讨论了在若干技术问题上网络的发展趋势。 《云计算网络珠玑》内容囊括了以太网和TCP/IP网络技术的每个方面,并选择大量的实例进行详细描述,其中每个技术点和实例都是经过精心选择的,既兼顾网络技术发展的顺序,也遵循TCP/IP网络四层从下到上的划分;另外,还从当前的技术热点上选取了SDN、Openflow、VXLAN等新兴技术的发展现状和发展趋势进行详细剖析,便于读者在逻辑思维上顺畅地理解,并向读者提供了一条快速掌握网络技术的学习途径。通览全书后,读者可以尽快建立自己在网络方面的技术知识体系。 资源目录: 第1部分 网络基本原理 第1章 TCP/IP网络技术 3 1.1 信息网络 6 1.2 以太网技术 12 1.3 网络传输设备 15 1.4 MAC和VLAN 18 1.5 MAC-in-MAC 22 1.6 STP和Trill 25 1.7 IP技术 29 1.7.1 IP地址 30 1.7.2 IP报文格式简介 32 1.7.3 TCP和UDP 34 1.7.4 TCP与UDP检验和 39 1.8 DNS和DHCP 39 1.9 ICMP报文 42 1.10 ARP和RARP 43 1.11 路由协议 46 1.11.1 RIP和BGP 47 1.11.2 OSPF协议 49 1.12 NAT技术 56 1.13 隧道技术 58 1.14 MPLS和VPLS 66 1.15 QoS功能 69 1.16 网络安全和监控 73 1.17 LB、CDN和DPI 77 1.18 LISP和LLDP 80 1.19 网络架构 82 第2章以太网交换机 86 2.1 交换机转发流程 87 2.2 交换机端口处理 90 2.3 交换机二层转发 93 2.4 交换机三层转发 100 2.5 交换机ACL和QoS 102 2.5.1 ACL功能 102 2.5.2 QoS功能 104 2.6 交换机的虚拟化支持 113 2.7 交换机的CPU 117 第3章 Linux网络基础 120 3.1 网卡和数据包的收发 121 3.1.1 Linux网卡收包流程 122 3.1.2多网卡Bonding 126 3.1.3 SR-IOV 128 3.1.4 DPDK 129 3.2 TUN/TAP 130 3.3 Linux Bridge和VLAN 131 3.4 TCP/IP协议栈 135 3.5 IPtables 138 3.6 QoS模块 139 3.7 Dnsmasq 141 第4章SDN网络架构 143 4.1 什么是SDN 144 4.2 OpenFlow与OpenvSwitch 149 4.2.1 OpenFlow简介 149 4.2.2 Open vSwitch简介 158 4.3 能为SDN做什么 160 第2部分 云计算及OpenStack的网络 第5章 OpenStack的网络 167 5.1 云计算及OpenStack 168 5.2 OpenStack的网络介绍 173 5.2.1 Nova-Network 175 5.2.2 Neutron网络 179 5.2.3 OpenStack存储网络 186 5.3 Neutron底层网络原理 187 5.3.1 Neutron组件的构成 189 5.3.2 Neutron网络的隔离 192 5.3.3 Neutron网络的互通 196 5.4 Neutron主要功能 200 5.4.1互通与隔离功能 201 5.4.2防火墙与安全组 203 5.4.3 LBaas和VPNaas 204 5.4.4监控安全和数据中心互联 206 5.4.5 Neutron中的QoS功能 207 5.4.6 Neutron部署运维 208 5.5 VXLAN隔离环境通信实例详解 209 5.5.1 VXLAN报文解析 210 5.5.2 VXLAN通信流程 214 5.6 Neutron网络高级话题讨论 219 5.6.1常见Neutron网络问题 220 5.6.2 Neutron网络性能 225 5.6.3 Neutron网络稳定性 229 5.6.4 Neutron在折翼 230 第6章 Neutron网络发展趋势 234 6.1 SDN的结合 235 6.2 硬件网络设备解决性能问题 236 6.3 安全和监控 238 6.4 虚拟网络中的路由协议 239 6.5 IaaS上的商业模式 240 6.6 云计算时代的终结 242 附录 245 附录A Open vSwitch基本命令 245 附录B 深入理解OpenStack 云计算VLANManager网络流的六种场景 247 附录C RDO配置文件网络部分——VLAN隔离 262 附录D VXLAN通信抓包实例 264 参考文献 274 资源截图:
陌佑
百度云
百度云

OpenStack高可用集群(上册):原理与架构

资源名称:OpenStack高可用集群(上册):原理与架构  内容简介: 本书是一本理论与实战结合,并全面讲解OpenStack相关技术知识点的书籍。书中首先介绍了与OpenStack相关的基础架构软件,同时深入讲解和分析了OpenStack三大核心组件——计算(Nova)、存储(Cinder/Ceph)和网络(Neutron)的架构原理及使用方式。在具备完善的理论知识后,本书又从实战角度讲解了如何对OpenStack的基础架构软件和核心组件项目进行高可用集群部署,并在成功部署OpenStack高可用集群后,介绍了如何在实际应用中对OpenStack高可用集群进行运维分析与故障解决。 资源目录: 序1 序2 序3 序4 前言 架构篇 第1章 云计算架构设计及业务系统高可用2 1.1 企业为何要进行云计算建设2 1.1.1 政策导向与IT发展的必然2 1.1.2 业务导向与IT弹性需求4 1.1.3 技术导向与IT自动化4 1.1.4 成本导向与TCO6 1.2 企业如何决策公有云与私有云8 1.2.1 云计算部署模式对比8 1.2.2 如何决策私有云与公有云10 1.3 云计算架构设计与进阶路线13 1.3.1 云计算生态模型13 1.3.2 云计算架构基本模型15 1.3.3 通用云计算参考架构16 1.3.4 云计算实施进阶路线20 1.4 业务系统高可用性概述22 1.4.1 业务系统高可用性23 1.4.2 业务系统容灾恢复24 1.5 传统IT架构高可用设计26 1.5.1 传统数据中心HADR设计原则26 1.5.2 故障划分与HADR高可用实现27 1.6 云环境下的高可用设计29 1.6.1 云计算HADR架构设计原则30 1.6.2 云计算HADR架构设计实现33 1.7 本章小结36 第2章 OpenStack高可用集群架构概述37 2.1 OpenStack高可用集群功能组件37 2.1.1 集群控制节点38 2.1.2 集群计算节点39 2.1.3 集群存储节点40 2.1.4 集群网络节点41 2.1.5 集群负载均衡器43 2.1.6 集群网络拓扑44 2.2 OpenStack高可用集群服务组件47 2.2.1 认证服务Keystone47 2.2.2 镜像服务Glance50 2.2.3 计算服务Nova52 2.2.4 块存储服务Cinder54 2.2.5 网络服务Neutron57 2.2.6 控制面板Horizon59 2.2.7 其他OpenStack服务60 2.3 Redhat OpenStack高可用部署架构63 2.3.1 Redhat OpenStack高可用集群部署架构63 2.3.2 Redhat OpenStack高可用集群服务规划67 2.4 Mirantis OpenStack高可用部署架构71 2.4.1 Mirantis OpenStack高可用集群部署架构72 2.4.2 Mirantis OpenStack自定义高可用集群架构76 2.5 其他厂商OpenStack高可用部署架构介绍及对比分析79 2.5.1 Juniper Networks OpenStack高可用部署方案80 2.5.2 HPE OpenStack高可用部署方案81 2.5.3 TCP Cloud OpenStack高可用部署方案83 2.5.4 Paypal OpenStack高可用部署方案84 2.5.5 Oracle OpenStack高可用部署方案87 2.5.6 OpenStack高可用部署方案对比分析87 2.6 本章小结89 原理篇 第3章 集群资源管理系统92 3.1 Pacemaker概述93 3.2 Pacemaker集群分类95 3.3 Pacemaker集群架构97 3.4 Pacemaker内部组件98 3.5 Pacemaker集群配置信息管理99 3.5.1 Pacemaker集群状态信息100 3.5.2 Pacemaker集群配置信息101 3.6 Pacemaker集群管理工具PCS108 3.6.1 PCS命令行工具108 3.6.2 PCS用户接口界面110 3.7 Pacemaker集群资源管理113 3.7.1 集群资源代理113 3.7.2 集群资源约束118 3.7.3 集群资源类型120 3.7.4 集群资源规则124 3.8 本章小结126 第4章 集群负载均衡系统127 4.1 Keepalived概述与配置128 4.1.1 Keepalived及LVS概述128 4.1.2 Keepalived工作原理133 4.1.3 Keepalived调度算法136 4.1.4 Keepalived路由方式137 4.1.5 Keepalived配置与使用138 4.2 HAProxy概述与配置144 4.2.1 HAProxy概述144 4.2.2 HAProxy配置146 4.2.3 HAProxy监控页面151 4.2.4 HAProxy配置参考154 4.3 本章小结158 第5章 集群消息队列系统159 5.1 AMQP概述160 5.2 RabbitMQ概述161 5.3 RabbitMQ工作原理167 5.4 RabbitMQ基本配置169 5.5 RabbitMQ集群基础170 5.5.1 RabbitMQ集群概述170 5.5.2 RabbitMQ的集群配置171 5.6 RabbitMQ集群管理174 5.6.1 RabbitMQ集群节点启停174 5.6.2 RabbitMQ的集群节点移除175 5.7 RabbitMQ的集群队列镜像177 5.8 基于Pacemaker的高可用Rabbit-MQ集群181 5.8.1 Active/Passive模式的Rabbit-MQ集群181 5.8.2 Active/Active模式的Rabbit-MQ集群182 5.9 RabbitMQ在OpenStack中的应用分析187 5.10 本章小结192 第6章 集群缓存系统193 6.1 Memcache缓存系统193 6.1.1 Memcache缓存概述193 6.1.2 Memcache的工作原理194 6.1.3 Memcache的功能特点196 6.1.4 Memcache集群概述197 6.1.5 Memcache集群高可用201 6.2 Redis缓存系统204 6.2.1 Redis缓存概述204 6.2.2 Redis数据交换205 6.2.3 Redis数据持久化206 6.2.4 Redis数据高可用207 6.2.5 Redis高可用配置209 6.2.6 Redis集群概述216 6.2.7 Redis在OpenStack中的应用218 6.3 本章小结219 第7章 集群数据库系统221 7.1 关系型数据库—MariaDB221 7.1.1 MySQL概述221 7.1.2 MariaDB概述224 7.1.3 MariaDB安装配置225 7.1.4 MariaDB高可用方案233 7.1.5 MariaDB Galera Cluster概述236 7.1.6 MariaDB Galera Cluster配置239 7.2 非关系型数据库—MongoDB249 7.2.1 NoSQL概述249 7.2.2 MongoDB概述251 7.2.3 MongoDB安装配置254 7.2.4 MongoDB Replica Set概述258 7.2.5 MongoDB Replica Set部署260 7.3 本章小结265 第8章 OpenStack计算服务267 8.1 OpenStack项目概述267 8.1.1 OpenStack项目概要267 8.1.2 OpenStack版 资源截图:
陌佑
百度云
百度云

数据挖掘技术

资源名称:数据挖掘技术 资源截图:
陌佑
百度云
百度云

拥抱大数据新常态下的数据分析典型案例

资源名称:拥抱大数据新常态下的数据分析典型案例 内容简介: 本书首先介绍了大数据的由来与数据分析师的职业前景,概述了大数据的特点及其分析方法,引发读者对数据分析师的向往。然后介绍了如今最流行的近三十种大数据算法,每种算法都附有一个成功的商业案例,通过案例深入分析每种算法的长处、缺点、适用范围等,使读者不仅知其然,更知其所以然。 该书比介绍大数据类的书籍具有更多的理论知识,比各种算法的教科书含有更多的实际应用,是两者的绝妙过渡,适合对大数据有一定了解的读者,可以帮助读者在短时间内深入学习大数据分析的算法体系,并进一步帮助读者挑选需要精学的、适合自己的算法。 资源目录: 第一章 为什么市场需要数据分析师 1.1 大数据的前世今生 1.2 大数据的具体定义 1.3 数据分析行业现状及巨大缺口 第二章 什么是数据分析师 2.1 明确两个概念 2.2 从四份招聘简历说起 2.2.1 第一份招聘简历要求 2.2.2 第二份招聘简历要求 2.2.3 第三份招聘简历要求 2.2.4 第四份招聘简历要求 2.3 数据分析师常见专业出身 2.3.1 数学与应用数学、统计学专业 2.3.2 经济管理类专业 2.3.3 计算机理论类专业 2.3.4 计算机应用类专业 2.3.5 其他专业 2.4 数据分析师可从事行业 2.4.1 互联网行业 2.4.2 制造行业 2.4.3 投资分析行业 2.4.4 咨询行业 2.4.5 其他类公司综述 第三章 如何成为数据分析师 3.1 数据分析师基础知识储备 3.1.1 基础统计知识 3.1.2 基础的数据库知识 3.1.3 Office办公软件和专业数据分析工具 3.1.4 基础算法编程知识 3.1.5 业务知识 3.1.6 一些数据分析经验 3.1.7 小结 3.2 数据分析师常用工具盘点 3.2.1 Excel 3.2.2 SPSS 3.2.3 STATA 3.2.4 Eviews 3.2.5 SAS 3.2.6 Matlab 3.2.7 R 3.2.8 小结 3.3 数据分析师应该学习的网络课程 3.3.1 M00C类课程 3.3.2 网上学习平台 3.3.3 现场培训班 第四章 描述性统计分析 4.1 频数分布分析:用统计图解决伦敦霍乱 4.1.1 可怕的英国霍乱 4.1.2 约翰医生的实地调查 4.1.3 对伦敦霍乱平息过程的分析 4.1.4 频数分布分析总结 4.2 关注数据代表性:统计学家改良轰炸机 4.2.1 “二战”盟国轰炸德国伤亡惨重 4.2.2 轰炸机的返航率得到提高 4.2.3 对轰炸机改进过程的分析 4.2.4 数据代表性总结 4.3 异常值分析:1号店提升营销精准率 4.3.1 1号店的数据分析案例 4.3.2 1号店数据分析过程 4.3.3 异常值分析总结 4.4 对比分析:刻画豆瓣变现具体压力 4.4.1 豆瓣变现的难题 4.4.2 豆瓣变现的具体压力 4.4.3 对比分析总结 4.5 描述性统计分析概述:淘宝箱店类目分析 4.5.1 淘宝箱店类目背景 4.5.2 箱店类目分析实解 4.5.3 描述性统计分析小结 第五章 相关分析与回归分析 5.1 相关分析与回归分析基础- 5.2 矩阵分解:价值百万美元的Net6lx推荐系统 5.2.1 Netnlx为推荐系统悬赏百万美元 5.2.2 构建一个推荐系统 5.2.3 矩阵分解小结 5.3 一元线性回归:引发金融危机的风险价值模型 5.3.1 广受欢迎的风险价值模型 5.3.2 评估一个理财产品的风险 5.3.3 一元线性回归小结: 5.4 评分系统:星巴克选址借力大数据 5.4.1 越来越难以选择的快餐店地址 5.4.2 多元线性回归与评分系统 5.4.3 评分系统小结- 5.5 相关分析与回归分析概述:奥巴马使用大数据赢得大选 5.5.1 神奇的Survey Manager系统 5.5.2 美国大选详细解读 5.5.3 相关分析与回归分析总结 第六章 关联分析与聚类分析 6.1 关联分析与聚类分析基础 6.2 购物篮分析:啤酒与尿布的经典案例 6.2.1 沃尔玛超市里的啤酒与尿布 6.2.2 购物篮分析案例实解 6.2.3 购物篮分析小结 6.3 序列模式挖掘:Web访问模式帮助电商优化网站 6.3.1 我们为什么需要序列模式挖掘 6.3.2 Web访问模式与优化网站 6.3.3 序列模式挖掘小结 6.4 快速聚类:大数据捧火《纸牌屋》 6.4.1 大数据助Netfilx赌赢《纸牌屋》 6.4.2 透视《纸牌屋》背后的大数据算法 6.4.3 快速聚类小结 6.5 层次聚类:人人网好友推荐的奥秘 6.5.1 无处不在的好友推荐 6.5.2 朴素的人人网好友推荐算法 6.5.3 层次聚类与好友推荐小结 6.6 关联分析与聚类分析综述:加州极客的聚类分析把妹法 6.6.1 使用大数据寻找另一半 6.6.2 分成七类的潜在女朋友 6.6.3 关联分析与聚类分析小结 第七章 决策树与模式识别 7.1 C4.5算法:电信客户流失预测 7.1.1 电信客户的流失与预测 7.1.2 使用信息熵建立决策树模型 7.1.3 为一个决策树剪枝并解释其规则 7.1.4 决策树小结 7.2 RBF神经网络:“房价网”的二手房价格评估 7.2.1 二手房价格评估的局限性 7.2.2 RBF神经网络的构建与解释 7.2.3 RBF神经网络小结 7.3 贝叶斯分析:神奇的谷歌智能翻译 7.3.1 世界第一的谷歌翻译 7.3.2 贝叶斯分析和智能翻译应用 7.3.3 贝叶斯分析小结 7.4 支持向量机:应用广泛的手写识别与语音识别 7.4.1 从阿里巴巴说起的模式识别 7.4.2 解决了高维诅咒的支持向量机 7.4.3 支持向量机小结 7.5 判别分析:肯德基通过客户分类大幅提高营业额 7.5.1 难以复制的肯德基APP营销模式 7.5.2 用于分类的线性判别分析 7.5.3 判别分析小结 7.6 模式识别综述:日趋成熟的信用评分模型 7.6.1 美国为限制信用评分模型立法 7.6.2 用多种算法实现信用评分模型 7.6.3 模式识别小结 第八章 更多的数据挖掘算法 8.1 核密度估计法:警务大数据预测犯罪 8.1.1 《少数派报告》的现实版 8.1.2 核密度估计法和圣克鲁兹市的犯罪地图 8.1.3 核密度估计法小结 8.2 Flu Trends:谷歌流感趋势算法帮助控制疫情 8.2.1 谷歌流感趋势算法的成与败 8.2.2 谷歌流感趋势算法与流感关联词 8.2.3 以F1u Trends为代表的预测算法小结 8.3 Apriori算法:透视美国国会投票模式 8.3.1 以立法者自居的美国国会议员 8.3.2 Apriori算法和关联分析 8.3.3 国会投票模式小结 8.4 SVD简化数据:IBM软件自动生成新菜谱 8.4.1 IBM推出可生成无限食谱的APP 8.4.2 SVD简化数据与综合计算 8.4.3 创新菜谱软件小结 8.5 大数据预测算法盘点:百度预测世界杯成功率81.8% 8.5.1 群英荟萃的绿茵场 8.5.2 大数据预测算法模型大盘点 8.5.3 大数据预测算法小结 8.6 网络理论分析:西班牙球队的控球哲学 8.6.1 独树一帜的西班牙球队控球哲学 8.6.2 以网络理论分析为基础的聚类分析 8.6.3 网络理论分析小结 资源截图:
陌佑
百度云
百度云

R与Hadoop大数据分析实战

资源名称:R与Hadoop大数据分析实战 内容简介: 本书全面而系统地讲解了如何将R语言与Hadoop技术结合并应用于大数据分析,不仅系统且深入地阐释了R与Hadoop集成技术的工具、方法、原则和最佳实践,而且通过大量实践案例深入剖析各种常见问题,能为用户高效利用R语言与Hadoop技术进行大数据处理提供翔实指导。 全书分为四部分,共7章:第一部分(第1~2章)是基础知识,主要讲解R语言以及Hadoop的安装过程、计算原理和基本概念;第二部分(第3~4章)是初级应用,主要讲解RHIPE、RHadoop和streaming三种实现方案;第三部分(第5~6章)是高级实例,主要以RHadoop为技术背景,讲解多个实际应用案例;第四部分(第7章)介绍数据库连接,主要讲解在RHadoop下如何与各类数据库进行连接。 资源目录: 译者序 前言 审校者简介 致谢 第1章 R和Hadoop入门 1 1.1 安装R 2 1.2 安装RStudio 3 1.3 R语言的功能特征 3 1.3.1 使用R程序包 3 1.3.2 执行数据操作 3 1.3.3 日渐增多的社区支持 4 1.3.4 R语言数据建模 4 1.4 Hadoop的安装 5 1.4.1 不同的Hadoop模式 6 1.4.2 Hadoop的安装步骤 6 1.5 Hadoop的特点 12 1.5.1 HDFS简介 13 1.5.2 MapReduce简介 13 1.6 HDFS和MapReduce架构 14 1.6.1 HDFS架构 14 1.6.2 MapReduce架构 15 1.6.3 通过图示了解HDFS和MapReduce架构 15 1.7 Hadoop的子项目 16 1.8 小结 19 第2章 编写Hadoop MapReduce程序 20 2.1 MapReduce基础概念 20 2.2 Hadoop MapReduce技术简介 22 2.2.1 MapReduce中包含的实体 22 2.2.2 MapReduce中的主要执行进程 23 2.2.3 MapReduce的局限 25 2.2.4 MapReduce 可以解决的问题 26 2.2.5 使用Hadoop编程时用到不同的Java概念 26 2.3 Hadoop MapReduce原理 27 2.3.1 MapReduce对象 27 2.3.2 MapReduce中实现Map阶段的执行单元数目 28 2.3.3 MapReduce中实现Reduce阶段的执行单元数目 28 2.3.4 MapReduce的数据流 28 2.3.5 深入理解HadoopMapReduce 30 2.4 编写Hadoop MapReduce示例程序 32 2.4.1 MapReduce job运行的步骤 33 2.4.2 MapReduce可解决的商业问题 38 2.5 在R环境中编写Hadoop MapReduce程序的方式 39 2.5.1 RHadoop 39 2.5.2 RHIPE 40 2.5.3 Hadoop streaming 40 2.6 小结 40 第3章 集成R和Hadoop 41 3.1 RHIPE 42 3.1.1 安装RHIPE 42 3.1.2 RHIPE架构 44 3.1.3 RHIPE实例 45 3.1.4 RHIPE参考函数 48 3.2 RHadoop 51 3.2.1 RHadoop架构 51 3.2.2 安装RHadoop 52 3.2.3 RHadoop案例 53 3.2.4 RHadoop参考函数 56 3.3 小结 58 第4章 Hadoop Streaming中使用R 59 4.1 Hadoop Streaming基础概念 59 4.2 使用R运行Hadoop streaming 62 4.2.1 MapReduce应用程序基础 63 4.2.2 如何编写MapReduce应用程序 65 4.2.3 如何运行MapReduce应用程序 67 4.2.4 如何浏览MapRecuce应用程序的输出 69 4.2.5 Hadoop MapReduce脚本的基础R函数 70 4.2.6 管理Hadoop MapReduce任务 71 4.3 R语言扩展包HadoopStreaming介绍 72 4.3.1 hsTableReader函数 73 4.3.2 hsKeyValReader函数 75 4.3.3 hasLineReader函数 75 4.3.4 运行Hadoop streaming任务 78 4.3.5 执行Hadoop Streaming任务 79 4.4 小结 79 第5章 利用R和Hadoop学习数据分析 80 5.1 数据分析项目生命周期 80 5.1.1 问题定义 81 5.1.2 设计数据需求 81 5.1.3 数据预处理 81 5.1.4 数据分析 82 5.1.5 数据可视化 82 5.2 数据分析问题 83 5.2.1 展示网页分类 83 5.2.2 计算股市变动频率 92 5.2.3 案例研究:预测推土机售价 98 5.3 小结 107 第6章 应用机器学习做大数据分析 108 6.1 机器学习介绍 108 6.2 有监督机器学习算法 109 6.2.1 线性回归 109 6.2.2 logistic回归 115 6.3 无监督机器学习算法 118 6.4 推荐算法 123 6.4.1 在R中产生推荐商品的步骤 125 6.4.2 使用R和Hadoop产生推荐商品 128 6.5 小结 131 第7章 从各种数据库中导入与导出数据 132 7.1 文件型数据库 134 7.1.1 不同类型的文件 134 7.1.2 安装R包 134 7.1.3 将数据导入R 134 7.1.4 从R导出数据 135 7.2 MySQL 135 7.2.1 安装MySQL 135 7.2.2 安装RMySQL 136 7.2.3 列出数据表及其结构 136 7.2.4 导入数据进R 136 7.2.5 数据操纵 137 7.3 Excel 137 7.3.1 安装Excel 138 7.3.2 导入数据进R 138 7.3.3 R和Excel的数据操纵 138 7.3.4 导出数据到Excel 138 7.4 MongoDB 138 7.4.1 安装MongoDB 139 7.4.2 安装rmongodb 141 7.4.3 导入数据进R 141 7.4.4 数据操纵 142 7.5 SQLite 143 7.5.1 SQLite的特性 143 7.5.2 安装SQLite 144 7.5.3 安装RSQLite 144 7.5.4 将数据导师入R 144 7.5.5 数据操纵 145 7.6 PostgreSQL 145 7.6.1 PostgreSQL的特性 145 7.6.2 安装PostgreSQL 145 7.6.3 安装RPostgreSQL 146 7.6.4 从R导出数据 146 7.7 Hive 147 7.7.1 Hive的特性 147 7.7.2 安装Hive 147 7.7.3 安装RHive 149 7.7.4 RHive操作 149 7.8 HBase 150 7.8.1 HBase的特性 150 7.8.2 安装HBase 151 7.8.3 安装Thrift 152 7.8.4 安装RHBase 153 7.8.5 导入数据进R 153 7.8.6 数据操纵 153 7.9 小结 154 附录 参考资源 155 资源截图:
陌佑
百度云
百度云
⬅️ 1...18141815181618171818...2920

添加微信,反馈问题

微信及时反馈问题,方便沟通,请备注 ❤️

搜索榜单

1

骚老板资源网整站源码 打包数据高达2GB

1654

2

绿色风格网络公司源码 php网络建站公司源码

1070

3

(自适应手机版)响应式餐饮美食企业网站源码 餐饮品牌连锁机构织梦模板

1034

4

雷速问卷调查系统(疫情上报系统) v7.08

913

5

Zblog仿918回忆模特写真网带整站数据图库系统源码

875

6

一款笑话类网站源码 简约清爽的织梦笑话网站模板

807

最新资源

1

网狐电玩系列/乐游电玩城/免微信免短信登陆

2

湖南地方玩法好玩互娱纯源码

3

最新更新网狐旗舰大联盟+UI工程

4

傲玩系列客户端通用加解密工具

5

优米H5电玩城组件/多语言/带84个游戏/后台带控+搭建视频教程

6

网狐系列猫娱乐新UI蜡笔小新金币组件

友情链接:
免费APISSL在线检测在线pingAPI版本项目seo教程免费下载狗凯源码网 查看更多
网站地图 法律声明
本站所存储的源码数据均为转载,不提供在线播放和下载服务。本站为非盈利性,不收取费用,所有内容不用于商业行为,仅供学习交流使用。如有侵权,请联系15001904@qq.com
  • 联系微信,反馈问题

  • 点此立刻反馈