资源搜
资源搜
👀 联系夏柔
🔥 投稿源码
资源搜

资源搜

  • 全部
  • 123盘
  • 阿里盘
  • 百度云
  • 迅雷
  • 夸克
  • 115
  • 蓝奏云
  • 其他
已收录34127条资源,仅供学习交流,请在24h内删除资源!

图解Spark 核心技术与案例实战

资源名称:图解Spark 核心技术与案例实战 内容简介: 《图解Spark:核心技术与案例实战》以Spark 2.0 版本为基础进行编写,全面介绍了Spark 核心及其生态圈组件技术。主要内容包括Spark 生态圈、实战环境搭建、编程模型和内部重要模块的分析,重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架,同时还介绍了Spark 生态圈相关组件,包括Spark SQL 的即席查询、Spark Streaming 的实时流处理应用、MLbase/MLlib 的机器学习、GraphX 的图处理、SparkR 的数学计算和Alluxio 的分布式内存文件系统等。 《图解Spark:核心技术与案例实战》从Spark 核心技术进行深入分析,重要章节会结合源代码解读其实现原理,围绕着技术原理介绍了相关典型实例,读者通过这些实例可以更加深入地理解Spark 的运行机制。另外《图解Spark:核心技术与案例实战》还应用了大量的图表进行说明,让读者能够更加直观地理解Spark 相关原理。通过《图解Spark:核心技术与案例实战》,读者将能够很快地熟悉和掌握Spark 大数据分析计算的利器,在生产中解决实际问题。 资源目录: 第一篇 基础篇 第1章 Spark及其生态圈概述 1.1 Spark简介 1.1.1 什么是Spark 1.1.2 Spark与MapReduce比较 1.1.3 Spark的演进路线图 1.2 Spark生态系统 1.2.1 Spark Core 1.2.2 Spark Streaming 1.2.3 Spark SQL 1.2.4 BlinkDB 1.2.5 MLBase/MLlib 1.2.6 GraphX 1.2.7 SparkR 1.2.8 Alluxio 1.3 小结 第2章 搭建Spark实战环境 2.1 基础环境搭建 2.1.1 搭建集群样板机 2.1.2 配置集群环境 2.2 编译Spark源代码 2.2.1 配置Spark编译环境 2.2.2 使用Maven编译Spark 2.2.3 使用SBT编译Spark 2.2.4 生成Spark部署包 2.3 搭建Spark运行集群 2.3.1 修改配置文件 2.3.2 启动Spark 2.3.3 验证启动 2.3.4 第一个实例 2.4 搭建Spark实战开发环境 2.4.1 CentOS中部署IDEA 2.4.2 使用IDEA开发程序 2.4.3 使用IDEA阅读源代码 2.5 小结 第二篇 核心篇 第3章 Spark编程模型 3.1 RDD概述 3.1.1 背景 3.1.2 RDD简介 3.1.3 RDD的类型 3.2 RDD的实现 3.2.1 作业调度 3.2.2 解析器集成 3.2.3 内存管理 3.2.4 检查点支持 3.2.5 多用户管理 3.3 编程接口 3.3.1 RDD分区(Partitions) 3.3.2 RDD首选位置(PreferredLocations) 3.3.3 RDD依赖关系(Dependencies) 3.3.4 RDD分区计算(Iterator) 3.3.5 RDD分区函数(Partitioner) 3.4 创建操作 3.4.1 并行化集合创建操作 3.4.2 外部存储创建操作 3.5 转换操作 3.5.1 基础转换操作 3.5.2 键值转换操作 3.6 控制操作 3.7 行动操作 3.7.1 集合标量行动操作 3.7.2 存储行动操作 3.8 小结 第4章 Spark核心原理 4.1 消息通信原理 4.1.1 Spark消息通信架构 4.1.2 Spark启动消息通信 4.1.3 Spark运行时消息通信 4.2 作业执行原理 4.2.1 概述 4.2.2 提交作业 4.2.3 划分调度阶段 4.2.4 提交调度阶段 4.2.5 提交任务 4.2.6 执行任务 4.2.7 获取执行结果 4.3 调度算法 4.3.1 应用程序之间 4.3.2 作业及调度阶段之间 4.3.3 任务之间 4.4 容错及HA 4.4.1 Executor异常 4.4.2 Worker异常 4.4.3 Master异常 4.5 监控管理 4.5.1 UI监控 4.5.2 Metrics 4.5.3 REST 4.6 实例演示 4.6.1 计算年降水实例 4.6.2 HA配置实例 4.7 小结 第5章 Spark存储原理 5.1 存储分析 5.1.1 整体架构 5.1.2 存储级别 5.1.3 RDD存储调用 5.1.4 读数据过程 5.1.5 写数据过程 5.2 Shuffle分析 5.2.1 Shuffle简介 5.2.2 Shuffle的写操作 5.2.3 Shuffle的读操作 5.3 序列化和压缩 5.3.1 序列化 5.3.2 压缩 5.4 共享变量 5.4.1 广播变量 5.4.2 累加器 5.5 实例演示 5.6 小结 第6章 Spark运行架构 6.1 运行架构总体介绍 6.1.1 总体介绍 6.1.2 重要类介绍 6.2 本地(Local)运行模式 6.2.1 运行模式介绍 6.2.2 实现原理 6.3 伪分布(Local-Cluster)运行模式 6.3.1 运行模式介绍 6.3.2 实现原理 6.4 独立(Standalone)运行模式 6.4.1 运行模式介绍 6.4.2 实现原理 6.5 YARN运行模式 6.5.1 YARN运行框架 6.5.2 YARN-Client运行模式介绍 6.5.3 YARN-Client 运行模式实现原理 6.5.4 YARN-Cluster运行模式介绍 6.5.5 YARN-Cluster 运行模式实现原理 6.5.6 YARN-Client与YARN-Cluster对比 6.6 Mesos运行模式 6.6.1 Mesos介绍 6.6.2 粗粒度运行模式介绍 6.6.3 粗粒度实现原理 6.6.4 细粒度运行模式介绍 6.6.5 细粒度实现原理 6.6.6 Mesos粗粒度和Mesos细粒度对比 6.7 实例演示 6.7.1 独立运行模式实例 6.7.2 YARN-Client实例 6.7.3 YARN-Cluster实例 6.8 小结 第三篇 组件篇 第7章 Spark SQL 7.1 Spark SQL简介 7.1.1 Spark SQL发展历史 7.1.2 DataFrame/Dataset介绍 7.2 Spark SQL运行原理 7.2.1 通用SQL执行原理 7.2.2 SparkSQL运行架构 7.2.3 SQLContext运行原理分析 7.2.4 HiveContext介绍 7.3 使用Hive-Console 7.3.1 编译Hive-Console 7.3.2 查看执行计划 7.3.3 应用Hive-Console 7.4 使用SQLConsole 7.4.1 启动HDFS和Spark Shell 7.4.2 与RDD交互操作 7.4.3 读取JSON格式数据 7.4.4 读取Parquet格式数据 7.4.5 缓存演示 7.4.6 DSL演示 7.5 使用Spark SQL CLI 7.5.1 配置并启动Spark SQL CLI 7.5.2 实战Spark SQL CLI 7.6 使用Thrift Server 7.6.1 配置并启动Thrift Server 7.6.2 基本操作 7.6.3 交易数据实例 7.6.4 使用IDEA开发实例 7.7 实例演示 7.7.1 销售数据分类实例 7.7.2 网店销售数据统计 7.8 小结 第8章 Spark Streaming 8.1 Spark Streaming简介 8.1.1 术语定义 8.1.2 Spark Streaming特点 8.2 Spark Streaming编程模型 8.2.1 DStream的输入源 8.2.2 DStream的操作 8.3 Spark Streaming运行架构 8.3.1 运行架构 8.3.2 消息通信 8.3.3 Receiver分发 8.3.4 容错性 8.4 Spark Streaming运行原理 8.4.1 启动流处理引擎 8.4.2 接收及存储流数据 8.4.3 数据处理 8.5 实例演示 8.5.1 流数据模拟器 8.5.2 销售数据统计实例 8.5.3 Spark Streaming+Kafka实例 8.6 小结 第9章 Spark MLlib 9.1 Spark MLlib简介 9.1.1 Spark MLlib介绍 9.1.2 Spark MLlib数据类型 9.1.3 Spark MLlib基本统计方法 9.1.4 预言模型标记语言 9.2 线性模型 9.2.1 数学公式 9.2.2 线性回归 9.2.3 线性支持向量机 9.2.4 逻辑回归 9.2.5 线性最小二乘法、Lasso和岭回归 9.2.6 流式线性回归 9.3 决策树 9.4 决策模型组合 9.4.1 随机森林 9.4.2 梯度提升决策树 9.5 朴素贝叶斯 9.6 协同过滤 9.7 聚类 9.7.1 K-means 9.7.2 高斯混合 9.7.3 快速迭代聚类 9.7.4 LDA 9.7.5 二分K-means 9.7.6 流式K-means 9.8 降维 9.8.1 奇异值分解降维 9.8.2 主成分分析降维 9.9 特征提取和变换 9.9.1 词频—逆文档频率 9.9.2 词向量化工具 9.9.3 标准化 9.9.4 范数化 9.10 频繁模式挖掘 9.10.1 频繁模式增长 9.10.2 关联规则挖掘 9.10.3 PrefixSpan 9.11 实例演示 9.11.1 K-means聚类算法实例 9.11.2 手机短信分类实例 9.12 小结 第10章 Spark GraphX 10.1 GraphX介绍 10.1.1 图计算 10.1.2 GraphX介绍 10.1.3 发展历程 10.2 GraphX实现分析 10.2.1 GraphX图数据模型 10.2.2 GraphX图数据存储 10.2.3 GraphX图切分策略 10.2.4 GraphX图操作 10.3 实例演示 10.3.1 图例演示 10.3.2 社区发现演示 10.4 小结 第11章 SparkR 11.1 概述 11.1.1 R语言介绍 11.1.2 SparkR介绍 11.2 SparkR与DataFrame 11.2.1 DataFrames介绍 11.2.2 与DataFrame的相关操作 11.3 编译安装SparkR 11.3.1 编译安装R语言 11.3.2 安装SparkR运行环境 11.3.3 安装SparkR 11.3.4 启动并验证安装 11.4 实例演示 11.5 小结 第12章 Alluxio 12.1 Alluxio简介 12.1.1 Alluxio介绍 12.1.2 Alluxio系统架构 12.1.3 HDFS与Alluxio 12.2 Alluxio编译部署 12.2.1 编译Alluxio 12.2.2 单机部署Alluxio 12.2.3 集群模式部署Alluxio 12.3 Alluxio命令行使用 12.3.1 接口说明 12.3.2 接口操作示例 12.4 实例演示 12.4.1 启动环境 12.4.2 Alluxio上运行Spark 12.4.3 Alluxio上运行MapReduce 12.5 小结 资源截图:
陌佑
百度云
百度云

深度剖析Hadoop HDFS

资源名称:深度剖析Hadoop HDFS 内容简介: 《深度剖析Hadoop HDFS》基于Hadoop 2.7.1版本进行分析,全面描述了HDFS 2.X的核心技术与解决方案,书中描述了HDFS内存存储、异构存储等几大核心设计,包括源码细节层面的分析,对于HDFS中比较特殊的几个场景过程也做了细粒度的分析。还分享了作者在实际应用中的解决方案及扩展思路。阅读《深度剖析Hadoop HDFS》可以帮助读者从架构设计与功能实现角度了解HDFS 2.X,同时还能学习HDFS 2.X框架中优秀的设计思想、设计模式、Java语言技巧等。这些对于读者全面提高自己分布式技术水平有很大的帮助。《深度剖析Hadoop HDFS》分为三大部分:核心设计篇、细节实现篇、解决方案篇,“核心设计篇”包括HDFS的数据存储原理、HDFS的数据管理与策略选择机制、HDFS的新颖功能特性;“细节实现篇”包括HDFS的块处理、流量处理等细节,以及部分结构分析;“解决方案篇”包括HDFS的数据管理、HDFS的数据读写、HDFS的异常场景等。 资源目录: 前言 第一部分 核心设计篇 第1章 HDFS的数据存储2 1.1 HDFS内存存储2 1.1.1 HDFS内存存储原理2 1.1.2 Linux 虚拟内存盘4 1.1.3 HDFS的内存存储流程分析4 1.1.4 LAZY_PERSIST内存存储的使用14 1.2 HDFS异构存储15 1.2.1 异构存储类型16 1.2.2 异构存储原理17 1.2.3 块存储类型选择策略22 1.2.4 块存储策略集合24 1.2.5 块存储策略的调用27 1.2.6 HDFS异构存储策略的不足之处28 1.2.7 HDFS存储策略的使用30 1.3 小结31 第2章 HDFS的数据管理与策略选择32 2.1 HDFS缓存与缓存块32 2.1.1 HDFS物理层面缓存块33 2.1.2 缓存块的生命周期状态34 2.1.3 CacheBlock、UnCacheBlock场景触发36 2.1.4 CacheBlock、UnCacheBlock缓存块的确定38 2.1.5 系统持有的缓存块列表如何更新39 2.1.6 缓存块的使用40 2.1.7 HDFS缓存相关配置40 2.2 HDFS中心缓存管理42 2.2.1 HDFS缓存适用场景43 2.2.2 HDFS缓存的结构设计43 2.2.3 HDFS缓存管理机制分析45 2.2.4 HDFS中心缓存疑问点55 2.2.5 HDFS CacheAdmin命令使用56 2.3 HDFS快照管理58 2.3.1 快照概念59 2.3.2 HDFS中的快照相关命令59 2.3.3 HDFS内部的快照管理机制60 2.3.4 HDFS的快照使用71 2.4 HDFS副本放置策略72 2.4.1 副本放置策略概念与方法72 2.4.2 副本放置策略的有效前提73 2.4.3 默认副本放置策略的分析73 2.4.4 目标存储好坏的判断82 2.4.5 chooseTargets的调用83 2.4.6 BlockPlacementPolicyWithNodeGroup继承类84 2.4.7 副本放置策略的结果验证85 2.5 HDFS内部的认证机制85 2.5.1 BlockToken认证85 2.5.2 HDFS的Sasl认证91 2.5.3 BlockToken认证与HDFS的Sasl认证对比97 2.6 HDFS内部的磁盘目录服务98 2.6.1 HDFS的三大磁盘目录检测扫描服务98 2.6.2 DiskChecker:坏盘检测服务99 2.6.3 DirectoryScanner:目录扫描服务104 2.6.4 VolumeScanner:磁盘目录扫描服务110 2.7 小结116 第3章 HDFS的新颖功能特性117 3.1 HDFS视图文件系统:ViewFileSystem117 3.1.1 ViewFileSystem: 视图文件系统118 3.1.2 ViewFileSystem内部实现原理119 3.1.3 ViewFileSystem的使用125 3.2 HDFS的Web文件系统:WebHdfsFileSystem126 3.2.1 WebHdfsFileSystem的REST API操作127 3.2.2 WebHdfsFileSystem的流程调用129 3.2.3 WebHdfsFileSystem执行器调用130 3.2.4 WebHDFS的OAuth2认证133 3.2.5 WebHDFS的使用135 3.3 HDFS数据加密空间:Encryption zone136 3.3.1 Encryption zone原理介绍136 3.3.2 Encryption zone源码实现136 3.3.3 Encryption zone的使用144 3.4 HDFS纠删码技术145 3.4.1 纠删码概念145 3.4.2 纠删码技术的优劣势146 3.4.3 Hadoop纠删码概述147 3.4.4 纠删码技术在Hadoop中的实现148 3.5 HDFS对象存储:Ozone152 3.5.1 Ozone介绍153 3.5.2 Ozone的高层级设计154 3.5.3 Ozone的实现细节157 3.5.4 Ozone的使用157 3.6 小结158 第二部分 细节实现篇 第4章 HDFS的块处理160 4.1 HDFS块检查命令fsck160 4.1.1 fsck参数使用160 4.1.2 fsck过程调用161 4.1.3 fsck原理分析162 4.1.4 fsck使用场景171 4.2 HDFS如何检测并删除多余副本块171 4.2.1 多余副本块以及发生的场景172 4.2.2 OverReplication多余副本块处理172 4.2.3 多余副本块清除的场景调用177 4.3 HDFS数据块的汇报与处理179 4.3.1 块处理的五大类型179 4.3.2 toAdd:新添加的块181 4.3.3 toRemove:待移除的块184 4.3.4 toInvalidate:无效的块186 4.3.5 toCorrupt:损坏的块189 4.3.6 toUC:正在构建中的块191 4.4 小结193 第5章 HDFS的流量处理194 5.1 HDFS的内部限流194 5.1.1 数据的限流194 5.1.2 DataTransferThrottler限流原理196 5.1.3 数据流限流在Hadoop中的使用198 5.1.4 Hadoop限流优化点202 5.2 数据平衡204 5.2.1 Balancer和Dispatcher204 5.2.2 数据不平衡现象207 5.2.3 Balancer性能优化207 5.3 HDFS节点内数据平衡210 5.3.1 磁盘间数据不平衡现象及问题211 5.3.2 传统的磁盘间数据不平衡解决方案211 5.3.3 社区解决方案:DiskBalancer212 5.4 小结216 第6章 HDFS的部分结构分析217 6.1 HDFS镜像文件的解析与反解析217 6.1.1 HDFS的FsImage镜像文件218 6.1.2 FsImage的解析218 6.1.3 FsImage的反解析221 6.1.4 HDFS镜像文件的解析与反解析命令226 6.2 DataNode数据处理中心DataXceiver227 6.2.1 DataXceiver的定义和结构228 6.2.2 DataXceiver下游处理方法232 6.2.3 ShortCircuit232 6.2.4 DataXceiver的上游调用233 6.2.5 DataXceiver与DataXceiverServer234 6.3 HDFS邻近信息块:BlockInfoContiguous235 6.3.1 triplets对象数组236 6.3.2 BlockInfoContiguous的链表操作239 6.3.3 块迭代器BlockIterator244 6.4 小结246 第三部分 解决方案篇 第7章 HDFS的数据管理248 7.1 HDFS的读写限流方案248 7.1.1 限流方案实现要点以及可能造成的影响248 7.1.2 限流方案实现249 7.1.3 限流测试结果250 7.2 HDFS数据资源使用量分析以及趋势预测250 7.2.1 要获取哪些数据251 7.2.2 如何获取这些数据251 7.2.3 怎么用这些数据254 7.3 HDFS数据迁移解决方案257 7.3.1 数据迁移使用场景257 7.3.2 数据迁移要素考量258 7.3.3 HDFS数据迁移解决方案:DistCp259 7.3.4 DistCp优势特性260 7.3.5 Hadoop DistCp命令264 7.3.6 DistCp解决集群间数据迁移实例265 7.4 DataNode迁移方案265 7.4.1 迁移方案的目标266 7.4.2 DataNode更换主机名、ip地址时的迁移方案267 7.5 HDFS集群重命名方案268 7.6 HDFS的配置管理方案271 7.6.1 HDFS配置管理的问题271 7.6.2 现有配置管理工具272 7.6.3 运用Git来做配置管理272 7.7 小结273 第8章 HDFS的数据读写274 8.1 DataNode引用计数磁盘选择策略274 8.1.1 HDFS现有磁盘选择策略274 8.1.2 自定义磁盘选择策略279 8.2 Hadoop节点“慢磁盘”监控282 8.2.1 慢磁盘的定义以及如何发现282 8.2.2 慢磁盘监控284 8.3 小结287 第9章 HDFS的异常场景288 9.1 DataNode慢启动问题288 9.1.1 DataNode慢启动现象288 9.1.2 代码追踪分析290 9.1.3 参数可配置化改造293 9.2 Hadoop中止下线操作后大量剩余复制块问题295 9.2.1 节点下线操作的含义及问题295 9.2.2 死节点“复活”297 9.2.3 Decommission下线操作如何运作299 9.2.4 中止下线操作后移除残余副本块解决方案303 9.3 DFSOutputStream的DataStreamer线程泄漏问题306 9.3.1 DFSOutputStream写数据过程及周边相关类、变量306 9.3.2 DataStreamer数据流对象307 9.3.3 ResponseProcessor回复获取类311 9.3.4 DataStreamer与DFSOutputStream的关系313 9.3.5 Streamer线程泄漏问题316 9.4 小结319 附录 如何向开源社区提交自己的代码320 资源截图:
陌佑
百度云
百度云

大数据存储MongoDB实战指南

资源名称:大数据存储MongoDB实战指南 内容简介: MongoDB是一种面向文档的分布式数据库,可扩展,表结构自由,并且支持丰富的查询语句和数据类型。时至今日,MongoDB以其灵活的数据存储方式逐渐成为IT行业非常流行的一种非关系型数据库(NoSql)。 《大数据存储MongoDB实战指南》从学习与实践者的视角出发,本着通俗精简、注重实践、突出精髓的原则,精准剖析了MongoDB的诸多概念和要点。全书共分4个部分,分别从基础知识、深入理解MongoDB、监控与管理MongoDB和应用实践几个维度详细地介绍了MongoDB的特点及应用实例。 《大数据存储MongoDB实战指南》适合有海量数据存储需求的人员、数据库管理开发人员、数据挖掘与分析人员以及各类基于数据库的应用开发人员。读者将从书中获得诸多实用的知识和开发技巧。 资源目录: 第一部分基础知识 第1章大数据与云计算 1.1什么是大数据 1.2什么是云计算 1.3大数据与云计算 1.4什么是MongoDB 1.5大数据与MongoDB 1.6MongoDB特点 1.7安装MongoDB 1.8几个重要的进程介绍 1.8.1mongod进程 1.8.2mongo进程 1.8.3其他进程 1.9适合哪些业务 1.10小结 第2章查询语言系统 2.1查询选择器 2.2查询投射 2.3数组操作 2.4小结 第3章索引与查询优化 3.1索引 3.1.1单字段索引 3.1.2复合索引 3.1.3数组的多键索引 3.1.4索引管理 3.2查询优化 3.3小结 第4章增改删操作 4.1插入语句 4.2修改语句 4.3删除语句 4.4小结 第二部分深入理解MongoDB 第5章Journaling日志功能 5.1两个重要的存储视图 5.2Journaling工作原理 5.3小结 第6章聚集分析 6.1管道模式进行聚集 6.2MapReduce模式聚集 6.3简单聚集函数 6.4小结 第7章复制集 7.1复制集概述 7.2复制集工作机制 7.2.1数据同步 7.2.2故障转移 7.2.3写关注 7.2.4读参考 7.3小结 第8章分片集群 8.1分片部署架构 8.2分片工作机制 8.2.1使集合分片 8.2.2集群平衡器 8.2.3集群的写与读 8.2.4片键选择策略 8.3小结 第9章分布式文件存储系统 9.1小文件存储 9.2GridFS文件存储 9.3小结 第三部分监控与管理MongoDB 第10章管理与监控 10.1数据的导入导出 10.2备份与恢复 10.2.1单节点dump备份与恢复 10.2.2集群dump备份恢复策略 10.3监控 10.3.1数据库角度监控命令 10.3.2操作系统角度监控命令 10.3.3Web控制台监控 10.4小结 第11章权限控制 11.1权限控制API 11.1.1针对所有数据库的角色 11.1.2针对单个数据库的角色 11.2复制集与集群的权限控制 11.3小结 第四部分应用实践 第12章PHP驱动接口 12.1开发环境安装 12.2驱动介绍 12.3单实例上的增删改查 12.4几个重要的类、方法与参数 12.5复制集上的操作 12.6分片集群上的操作 12.7分布式小文件存取操作 12.8分布式大文件存取操作 12.9小结 第13章案例:高度可定制化的电商平台 13.1功能需求 13.2数据库表设计 13.3编写MongoDB_driver类 13.4CodeIgniter框架 13.4.1基本介绍 13.4.2下载与安装 13.4.3执行原理 13.4.4代码示范 13.5Bootstrap框架 13.6前台界面原型图 附录常见问题 资源截图:
陌佑
百度云
百度云

Spark MLlib机器学习:算法、源码及实战详解

资源名称:Spark MLlib机器学习:算法、源码及实战详解  内容简介: 《Spark MLlib机器学习:算法、源码及实战详解》以Spark 1.4.1版本源码为切入点,全面并且深入地解析Spark MLlib模块,着力于探索分布式机器学习的底层实现。 《Spark MLlib机器学习:算法、源码及实战详解》中本着循序渐进的原则,首先解析MLlib的底层实现基础:数据操作及矩阵向量计算操作,该部分是MLlib实现的基础;接着对各个机器学习算法的理论知识进行讲解,并且解析机器学习算法如何在MLlib中实现分布式计算;然后对MLlib源码进行详细的讲解;最后进行MLlib实例的讲解。相信通过《Spark MLlib机器学习:算法、源码及实战详解》的学习,读者可全面掌握Spark MLlib机器学习,能够进行MLlib实战、MLlib定制开发等。 《Spark MLlib机器学习:算法、源码及实战详解》适合大数据、Spark、数据挖掘领域的从业人员阅读,同时也为Spark开发者和大数据爱好者展现了分布式机器学习的原理和实现细节。 资源目录: 第一部分 Spark MLlib基础 第1章 Spark机器学习简介 2 1.1 机器学习介绍 2 1.2 Spark介绍 3 1.3 Spark MLlib介绍 4 第2章 Spark数据操作 6 2.1 Spark RDD操作 6 2.1.1 Spark RDD创建操作 6 2.1.2 Spark RDD转换操作 7 2.1.3 Spark RDD行动操作 14 2.2 MLlib Statistics统计操作 15 2.2.1 列统计汇总 15 2.2.2 相关系数 16 2.2.3 假设检验 18 2.3 MLlib数据格式 18 2.3.1 数据处理 18 2.3.2 生成样本 22 第3章 Spark MLlib矩阵向量 26 3.1 Breeze介绍 26 3.1.1 Breeze创建函数 27 3.1.2 Breeze元素访问及操作函数 29 3.1.3 Breeze数值计算函数 34 3.1.4 Breeze求和函数 35 3.1.5 Breeze布尔函数 36 3.1.6 Breeze线性代数函数 37 3.1.7 Breeze取整函数 39 3.1.8 Breeze常量函数 40 3.1.9 Breeze复数函数 40 3.1.10 Breeze三角函数 40 3.1.11 Breeze对数和指数函数 40 3.2 BLAS介绍 41 3.2.1 BLAS向量-向量运算 42 3.2.2 BLAS矩阵-向量运算 42 3.2.3 BLAS矩阵-矩阵运算 43 3.3 MLlib向量 43 3.3.1 MLlib向量介绍 43 3.3.2 MLlib Vector接口 44 3.3.3 MLlib DenseVector类 46 3.3.4 MLlib SparseVector类 49 3.3.5 MLlib Vectors伴生对象 50 3.4 MLlib矩阵 57 3.4.1 MLlib矩阵介绍 57 3.4.2 MLlib Matrix接口 57 3.4.3 MLlib DenseMatrix类 59 3.4.4 MLlib SparseMatrix类 64 3.4.5 MLlib Matrix伴生对象 71 3.5 MLlib BLAS 77 3.6 MLlib分布式矩阵 93 3.6.1 MLlib分布式矩阵介绍 93 3.6.2 行矩阵(RowMatrix) 94 3.6.3 行索引矩阵(IndexedRowMatrix) 96 3.6.4 坐标矩阵(CoordinateMatrix) 97 3.6.5 分块矩阵(BlockMatrix) 98 第二部分 Spark MLlib回归算法 第4章 Spark MLlib线性回归算法 102 4.1 线性回归算法 102 4.1.1 数学模型 102 4.1.2 最小二乘法 105 4.1.3 梯度下降算法 105 4.2 源码分析 106 4.2.1 建立线性回归 108 4.2.2 模型训练run方法 111 4.2.3 权重优化计算 114 4.2.4 线性回归模型 121 4.3 实例 123 4.3.1 训练数据 123 4.3.2 实例代码 123 第5章 Spark MLlib逻辑回归算法 126 5.1 逻辑回归算法 126 5.1.1 数学模型 126 5.1.2 梯度下降算法 128 5.1.3 正则化 129 5.2 源码分析 132 5.2.1 建立逻辑回归 134 5.2.2 模型训练run方法 137 5.2.3 权重优化计算 137 5.2.4 逻辑回归模型 144 5.3 实例 148 5.3.1 训练数据 148 5.3.2 实例代码 148 第6章 Spark MLlib保序回归算法 151 6.1 保序回归算法 151 6.1.1 数学模型 151 6.1.2 L2保序回归算法 153 6.2 源码分析 153 6.2.1 建立保序回归 154 6.2.2 模型训练run方法 156 6.2.3 并行PAV计算 156 6.2.4 PAV计算 157 6.2.5 保序回归模型 159 6.3 实例 164 6.3.1 训练数据 164 6.3.2 实例代码 164 第三部分 Spark MLlib分类算法 第7章 Spark MLlib贝叶斯分类算法 170 7.1 贝叶斯分类算法 170 7.1.1 贝叶斯定理 170 7.1.2 朴素贝叶斯分类 171 7.2 源码分析 173 7.2.1 建立贝叶斯分类 173 7.2.2 模型训练run方法 176 7.2.3 贝叶斯分类模型 179 7.3 实例 181 7.3.1 训练数据 181 7.3.2 实例代码 182 第8章 Spark MLlib SVM支持向量机算法 184 8.1 SVM支持向量机算法 184 8.1.1 数学模型 184 8.1.2 拉格朗日 186 8.2 源码分析 189 8.2.1 建立线性SVM分类 191 8.2.2 模型训练run方法 194 8.2.3 权重优化计算 194 8.2.4 线性SVM分类模型 196 8.3 实例 199 8.3.1 训练数据 199 8.3.2 实例代码 199 第9章 Spark MLlib决策树算法 202 9.1 决策树算法 202 9.1.1 决策树 202 9.1.2 特征选择 203 9.1.3 决策树生成 205 9.1.4 决策树生成实例 206 9.1.5 决策树的剪枝 208 9.2 源码分析 209 9.2.1 建立决策树 211 9.2.2 建立随机森林 216 9.2.3 建立元数据 220 9.2.4 查找特征的分裂及划分 223 9.2.5 查找最好的分裂顺序 228 9.2.6 决策树模型 231 9.3 实例 234 9.3.1 训练数据 234 9.3.2 实例代码 234 第四部分 Spark MLlib聚类算法 第10章 Spark MLlib KMeans聚类算法 238 10.1 KMeans聚类算法 238 10.1.1 KMeans算法 238 10.1.2 演示KMeans算法 239 10.1.3 初始化聚类中心点 239 10.2 源码分析 240 10.2.1 建立KMeans聚类 242 10.2.2 模型训练run方法 247 10.2.3 聚类中心点计算 248 10.2.4 中心点初始化 251 10.2.5 快速距离计算 254 10.2.6 KMeans聚类模型 255 10.3 实例 258 10.3.1 训练数据 258 10.3.2 实例代码 259 第11章 Spark MLlib LDA主题模型算法 261 11.1 LDA主题模型算法 261 11.1.1 LDA概述 261 11.1.2 LDA概率统计基础 262 11.1.3 LDA数学模型 264 11.2 GraphX基础 267 11.3 源码分析 270 11.3.1 建立LDA主题模型 272 11.3.2 优化计算 279 11.3.3 LDA模型 283 11.4 实例 288 11.4.1 训练数据 288 11.4.2 实例代码 288 第五部分 Spark MLlib关联规则挖掘算法 第12章 Spark MLlib FPGrowth关联规则算法 292 12.1 FPGrowth关联规则算法 292 12.1.1 基本概念 292 12.1.2 FPGrowth算法 293 12.1.3 演示FP树构建 294 12.1.4 演示FP树挖掘 296 12.2 源码分析 298 12.2.1 FPGrowth类 298 12.2.2 关联规则挖掘 300 12.2.3 FPTree类 303 12.2.4 FPGrowthModel类 306 12.3 实例 306 12.3.1 训练数据 306 12.3.2 实例代码 306 第六部分 Spark MLlib推荐算法 第13章 Spark MLlib ALS交替最小二乘算法 310 13.1 ALS交替最小二乘算法 310 13.2 源码分析 312 13.2.1 建立ALS 314 13.2.2 矩阵分解计算 322 13.2.3 ALS模型 329 13.3 实例 334 13.3.1 训练数据 334 13.3.2 实例代码 334 第14章 Spark MLlib协同过滤推荐算法 337 14.1 协同过滤推荐算法 337 14.1.1 协同过滤推荐概述 337 14.1.2 用户评分 338 14.1.3 相似度计算 338 14.1.4 推荐计算 340 14.2 协同推荐算法实现 341 14.2.1 相似度计算 344 14.2.2 协同推荐计算 348 14.3 实例 350 14.3.1 训练数据 350 14.3.2 实例代码 350 第七部分 Spark MLlib神经网络算法 第15章 Spark MLlib神经网络算法综述 354 15.1 人工神经网络算法 354 15.1.1 神经元 354 15.1.2 神经网络模型 355 15.1.3 信号前向传播 356 15.1.4 误差反向传播 357 15.1.5 其他参数 360 15.2 神经网络算法实现 361 15.2.1 神经网络类 363 15.2.2 训练准备 370 15.2.3 前向传播 375 15.2.4 误差反向传播 377 15.2.5 权重更新 381 15.2.6 ANN模型 382 15.3 实例 384 15.3.1 测试数据 384 15.3.2 测试函数代码 387 15.3.3 实例代码 388 资源截图:
陌佑
百度云
百度云

大数据分析:方法与应用

资源名称:大数据分析:方法与应用 内容简介: 本书介绍数据挖掘、统计学习和模式识别中与大数据分析相关的理论、方法及工具。理论学习的目标是使学生掌握复杂数据的分析与建模;方法学习的目标是使学生能够按照实证研究的规范和数据挖掘的步骤进行大数据研发,工具学习的目标是使学生熟练掌握一种数据分析的语言。本书内容由 10章构成:大数据分析概述,数据挖掘流程,有指导的学习,无指导的学习,贝叶斯分类和因果学习,高维回归及变量选择,图模型,客户关系管理、社会网络分析、自然语言模型和文本挖掘。 本书可用做统计学、管理学、计算机科学等专业进行数据挖掘、机器学习、人工智能等相关课程的本科高年级、研究生教材或教学参考书。 资源截图:
陌佑
百度云
百度云

大數據分析Excel Power BI全方位應用

资源名称:大數據分析Excel Power BI全方位應用 内容简介: 隨著電腦技術的發展,資料存儲量呈現倍增成長,以資料採礦為核心的Business Intelligence(BI)顯然成為IT和其他行業的必爭之地,同時市場潮流Big Data讓巨量資料分析變得更重要,商業智慧也順理成章成為企業注重的一環,專業的分析人員更是市場人才寵兒。 基於此利基Microsoft Excel Power BI實現在數據分析與商業智慧分析領域,達到方便且有效率的作業模式。使用Excel Power BI可迅速完成以往只有透過專業商業智慧工具或花費大量時間才能完成的任務,它同時提供蒐集合併清理內外部資料來源功能(Power Query)、精華版OLAP工具(Power Pivot)、視覺化分析資料探索(Power View)與2D/3D地圖資訊分析(Power Map),協助企業能夠整合來自不同來源的巨量資料並轉化成資訊和洞察,應用在市場策略上,最終達到令人滿意的效果。 ■ 瞭解自助式商業智慧分析流程,提升人員決策能力 ■ 學習利用Excel 2016 Power BI工具建立視覺化圖表分析 ■ 學習如何從大眾熟悉的Excel環境使用Power Pivot、Power View、Power Map與Power Query ■ 內容逐步實際操作,從入門到進階,縮短學習時間,讓您有效率的抓住學習重點 ■ 帶領初學者快速掌握Power BI Desktop的使用技巧 资源目录: CH01 Power BI概論 CH02 Power Pivot精簡版OLAP CH03 Power View資料探索智慧視覺( 彩色印刷) CH04 Power Map地理空間神奇體驗 (彩色印刷) CH05 Power Query雲端版ETL CH06 Power BI在產業案例之分析 CH07 Power BI Home (彩色印刷) CH08 資料視覺化武器Excel 2016 Power Map新功能 (彩色印刷) 资源截图:
陌佑
百度云
百度云

Hadoop 2.X HDFS源码剖析

资源名称:Hadoop 2.X HDFS源码剖析 内容简介: 《Hadoop 2.X HDFS源码剖析》以Hadoop 2.6.0源码为基础,深入剖析了HDFS 2.X中各个模块的实现细节,包括RPC框架实现、Namenode实现、Datanode实现以及HDFS客户端实现等。《Hadoop 2.X HDFS源码剖析》一共有5章,其中第1章从总体上介绍了HDFS的组件、概念以及典型的流程,同时详细介绍了HDFS各个组件间RPC接口的定义。第2章介绍了Hadoop RPC框架的实现,Hadoop RPC是HDFS各个组件间通信所依赖的底层框架,可以理解为HDFS的神经系统。第3~5章分别介绍了Namenode、Datanode以及HDFS客户端这三个组件的实现细节,同时穿插介绍了HDFS 2.X的新特性,例如Namenode HA、Federation Namenode等。 阅读《Hadoop 2.X HDFS源码剖析》可以帮助读者从架构设计与源码实现角度了解HDFS 2.X,同时还能学习HDFS 2.X框架中优秀的设计思想、设计模式、Java语言技巧以及编程规范等。这些对于读者全面提高自己的技术水平有很大的帮助。 资源目录: 第1章 HDFS 1 1.1 HDFS概述 1 1.1.1 HDFS体系结构 1 1.1.2 HDFS基本概念 2 1.2 HDFS通信协议 4 1.2.1 Hadoop RPC接口 4 1.2.2 流式接口 20 1.3 HDFS主要流程 22 1.3.1 HDFS客户端读流程 22 1.3.2 HDFS客户端写流程 24 1.3.3 HDFS客户端追加写流程 25 1.3.4 Datanode启动、心跳以及执行名字节点指令流程 26 1.3.5 HA切换流程 27 第2章 Hadoop RPC 29 2.1 概述 29 2.1.1 RPC框架概述 29 2.1.2 Hadoop RPC框架概述 30 2.2 Hadoop RPC的使用 36 2.2.1 Hadoop RPC使用概述 36 2.2.2 定义RPC协议 40 2.2.3 客户端获取Proxy对象 45 2.2.4 服务器获取Server对象 54 2.3 Hadoop RPC实现 63 2.3.1 RPC类实现 63 2.3.2 Client类实现 64 2.3.3 Server类实现 76 第3章 Namenode(名字节点) 88 3.1 文件系统目录树 88 3.1.1 INode相关类 89 3.1.2 Feature相关类 102 3.1.3 FSEditLog类 117 3.1.4 FSImage类 138 3.1.5 FSDirectory类 158 3.2 数据块管理 162 3.2.1 Block、Replica、BlocksMap 162 3.2.2 数据块副本状态 167 3.2.3 BlockManager类(done) 177 3.3 数据节点管理 211 3.3.1 DatanodeDescriptor 212 3.3.2 DatanodeStorageInfo 214 3.3.3 DatanodeManager 217 3.4 租约管理 233 3.4.1 LeaseManager.Lease 233 3.4.2 LeaseManager 234 3.5 缓存管理 246 3.5.1 缓存概念 247 3.5.2 缓存管理命令 247 3.5.3 HDFS集中式缓存架构 247 3.5.4 CacheManager类实现 248 3.5.5 CacheReplicationMonitor 250 3.6 ClientProtocol实现 251 3.6.1 创建文件 251 3.6.2 追加写文件 254 3.6.3 创建新的数据块 257 3.6.4 放弃数据块 265 3.6.5 关闭文件 266 3.7 Namenode的启动和停止 268 3.7.1 安全模式 268 3.7.2 HDFS High Availability 276 3.7.3 名字节点的启动 301 3.7.4 名字节点的停止 306 第4章 Datanode(数据节点) 307 4.1 Datanode逻辑结构 307 4.1.1 HDFS 1.X架构 307 4.1.2 HDFS Federation 308 4.1.3 Datanode逻辑结构 310 4.2 Datanode存储 312 4.2.1 Datanode升级机制 312 4.2.2 Datanode磁盘存储结构 315 4.2.3 DataStorage实现 317 4.3 文件系统数据集 334 4.3.1 Datanode上数据块副本的状态 335 4.3.2 BlockPoolSlice实现 335 4.3.3 FsVolumeImpl实现 342 4.3.4 FsVolumeList实现 345 4.3.5 FsDatasetImpl实现 348 4.4 BlockPoolManager 375 4.4.1 BPServiceActor实现 376 4.4.2 BPOfferService实现 389 4.4.3 BlockPoolManager实现 396 4.5 流式接口 398 4.5.1 DataTransferProtocol定义 398 4.5.2 Sender和Receiver 399 4.5.3 DataXceiverServer 403 4.5.4 DataXceiver 406 4.5.5 读数据 408 4.5.6 写数据(done) 423 4.5.7 数据块替换、数据块拷贝和读数据块校验 437 4.5.8 短路读操作 437 4.6 数据块扫描器 437 4.6.1 DataBlockScanner实现 438 4.6.2 BlockPoolSliceScanner实现 439 4.7 DirectoryScanner 442 4.8 DataNode类的实现 443 4.8.1 DataNode的启动 444 4.8.2 DataNode的关闭 446 第5章 HDFS客户端 447 5.1 DFSClient实现 447 5.1.1 构造方法 448 5.1.2 关闭方法 449 5.1.3 文件系统管理与配置方法 450 5.1.4 HDFS文件与目录操作方法 451 5.1.5 HDFS文件读写方法 452 5.2 文件读操作与输入流 452 5.2.1 打开文件 452 5.2.2 读操作——DFSInputStream实现 461 5.3 文件短路读操作 481 5.3.1 短路读共享内存 482 5.3.2 DataTransferProtocol 484 5.3.3 DFSClient短路读操作流程 488 5.3.4 Datanode短路读操作流程 509 5.4 文件写操作与输出流 512 5.4.1 创建文件 512 5.4.2 写操作——DFSOutputStream实现 516 5.4.3 追加写操作 543 5.4.4 租约相关 546 5.4.5 关闭输出流 548 5.5 HDFS常用工具 549 5.5.1 FsShell实现 550 5.5.2 DFSAdmin实现 552 资源截图:
陌佑
百度云
百度云

spark graphX实战

资源名称:spark graphX实战 内容简介: 《Spark GraphX实战》是一本Spark GraphX入门书籍。前5章为基础内容,即使读者对Spark、GraphX、Scala不熟悉,也能快速上手;后5章为图计算进阶,主要是图算法和机器学习算法的相关内容。专门讲图计算的书很少,《Spark GraphX实战》在第2、3、4章介绍了图的基础知识、GraphX基础知识、GraphX内置的图算法。第6章到第10章,主要介绍了GraphX之外的图算法、机器学习、图工具、GraphX监控和优化、GraphX的能力增强等实用技能。第9章和第10章主要介绍性能调优和监控,主要面向生产环境,有不少可以借鉴的技巧。 《Spark GraphX实战》面向对图计算感兴趣的读者,旨在帮助读者掌握Spark GraphX的相关知识及其应用。 资源目录: 序言 XI 致谢XIII 关于本书 XIV 关于封面插图 XVIII 第1部分 Spark和图 1 两项重要的技术:Spark和图 3 1.1 Spark:超越Hadoop MapReduce 4 1.1.1 模糊的大数据定义 6 1.1.2 Hadoop:Spark之前的世界 6 1.1.3 Spark:内存中的 MapReduce处理 7 1.2 图:挖掘关系中的含义 9 1.2.1 图的应用 11 1.2.2 图数据的类型 12 1.2.3 普通的关系型数据库在图方面的不足 14 1.3 把快如闪电的图处理放到一起:Spark GraphX 14 1.3.1 图的属性:增加丰富性 15 1.3.2 图的分区:当图变为大数据集时 17 1.3.3 GraphX允许选择:图并行还是数据并行 19 1.3.4 GraphX支持的各种数据处理方式 19 1.3.5 GraphX与其他图系统 21 1.3.6 图存储:分布式文件存储与图数据库 23 1.4 小结 23 2 GraphX快速入门 24 2.1 准备开始并准备数据 24 2.2 用Spark Shell做GraphX交互式查询 26 2.3 PageRank算法示例 29 2.4 小结 31 3 基础知识 32 3.1 Scala—Spark的原生编程语言 33 3.1.1 Scala的理念:简洁和表现力 33 3.1.2 函数式编程 34 3.1.3 类型推断 38 3.1.4 类的声明 39 3.1.5 map和 reduce 41 3.1.6 一切皆是“函数” 42 3.1.7 与 Java的互操作性 44 3.2 Spark 44 3.2.1 分布式内存数据: RDD 44 3.2.2 延迟求值 47 3.2.3 集群要求和术语解释 49 3.2.4 序列化 50 3.2.5 常用的 RDD操作 50 3.2.6 Spark和 SBT初步 54 3.3 图术语解释 55 3.3.1 基础 55 3.3.2 RDF图和属性图 58 3.3.3 邻接矩阵 59 3.3.4 图查询系统 59 3.4 小结 60 第2部分 连接顶点 4 GraphX 基础 65 4.1 顶点对象与边对象 65 4.2 mapping操作 71 4.2.1 简单的图转换 71 4.2.2 Map/Reduce 73 4.2.3 迭代的 Map/Reduce 77 4.3 序列化/反序列化 79 4.3.1 读 /写二进制格式的数据 79 4.3.2 JSON格式 81 4.3.3 Gephi可视化软件的 GEXF格式 85 4.4 图生成 86 4.4.1 确定的图 86 4.4.2 随机图 88 4.5 Pregel API 90 4.6 小结 96 5 内置图算法 97 5.1 找出重要的图节点:网页排名 98 5.1.1 PageRank算法解释 98 5.1.2 在 GraphX中使用 PageRank 99 5.1.3 个性化的 PageRank 102 5.2 衡量连通性:三角形数 103 5.2.1 三角形关系的用法 103 5.2.2 Slashdot朋友和反对者的用户关系示例 104 5.3 查找最少的跳跃:最短路径 106 5.4 找到孤岛人群:连通组件 107 5.4.1 预测社交圈子 108 5.5 受欢迎的回馈:增强连通组件 114 5.6 社区发现算法:标签传播 115 5.7 小结 117 6 其他有用的图算法118 6.1 你自己的GPS:有权值的最短路径 119 6.2 旅行推销员问题:贪心算法 124 6.3 路径规划工具:最小生成树 127 6.3.1 基于 Word2Vec的推导分类法和最小生成树 131 6.4 小结 135 7 机器学习 136 7.1 监督、无监督、半监督学习 137 7.2 影片推荐: SVDPlusPlus. 139 7.2.1 公式解释 146 7.3 在MLlib中使用GraphX 146 7.3.1 主题聚类:隐含狄利克雷分布 147 7.3.2 垃圾信息检测: LogisticRegressionWithSGD 156 7.3.3 使用幂迭代聚类进行图像分割(计算机视觉) 160 7.4 穷人(简化版)的训练数据:基于图的半监督学习 165 7.4.1 K近邻图构建 168 7.4.2 半监督学习标签传播算法 175 7.5 小结 180 第3部分 更多内容 8 缺失的算法 183 8.1 缺失的基本图操作 184 8.1.1 通用意义上的子图 184 8.1.2 图合并 185 8.2 读取RDF图文件 189 8.2.1 顶点匹配以及图构建 189 8.2.2 使用 IndexedRDD和 RDD HashMap来提升性能 191 8.3 穷人(简化版)的图同构:找到Wikipedia缺失的信息 197 8.4 全局聚类系数:连通性比较 202 8.5 小结 205 9 性能和监控 207 9.1 监控Spark应用 208 9.1.1 Spark如何运行应用 208 9.1.2 用 Spark监控来了解你的应用的运行时信息 211 9.1.3 history server 221 9.2 Spark配置 223 9.2.1 充分利用全部 CPU资源 226 9.3 Spark性能调优 227 9.3.1 用缓存和持久化来加速 Spark 227 9.3.2 checkpointing 230 9.3.3 通过序列化降低内存压力 232 9.4 图分区 233 9.5 小结 235 10 更多语言以及工具 237 10.1 在GraphX中使用除Scala外的其他语言 238 10.1.1 在 GraphX中使用 Java 7 238 10.1.2 在 GraphX中使用 Java 8 245 10.1.3 未来 GraphX是否会支持 Python或者 R 245 10.2 其他可视化工具:Apache Zeppelin 和 d3.js 245 10.3 类似一个数据库:Spark Job Server 248 10.3.1 示例:查询 Slashdot好友的分离程度 250 10.3.2 更多使用 Spark Job Server的例子 253 10.4 通过GraphFrames在Spark的图上使用SQL 254 10.4.1 GraphFrames和 GraphX的互操作性 255 10.4.2 使用 SQL进行便捷、高性能的操作 257 10.4.3 使用 Cypher语言的子集来进行顶点搜索 258 10.4.4 稍微复杂一些的 YAGO图同构搜索 260 10.5 小结 264 附录A 安装Spark 266 附录B Gephi可视化软件 271 附录C 更多资源 275 附录D 本书中的Scala小贴士 278 资源截图:
陌佑
百度云
百度云

让云落地 云计算服务模式(SAAS、PAAS和IAAS)设计决策

资源名称:让云落地  云计算服务模式(SAAS、PAAS和IAAS)设计决策 内容简介: 云计算落地已成事实。从前几年的概念普及,到如今越来越多的企业将业务迁移至云上,云计算正在改变整个社会的信息资源使用观念和方式。云计算还在不断成长,技术细节也在不断变化之中。对于使用者而言,能够基于自身的业务、技术和组织需求等各方面情况,选择正确的云服务模式,是成功使用云计算最关键的技术决策之一。 《让云落地:云计算服务模式(SaaS、PaaS和IaaS)设计决策》共有 16 章,作者有意避开了那些与产品或供应商相关的细节,侧重于架构师及架构涉及各方应当解决的各种挑战,或者说如何以适当的解决方案来解决业务问题;通过对具体问题的分析和案例讲解,向读者提供了大量可供参考的设计决策,并对所有云架构中都必须应对的重点领域进行了强调说明。 对于每一位想要或正在实施云计算项目的首席技术官、企业架构师、产品经理和技术决策者,《让云落地:云计算服务模式(SaaS、PaaS和IaaS)设计决策》都是必读之作。 资源目录: 第1章 为什么是云计算,为什么是现在 1 1.1 云计算的进化 4 1.2 进入云 9 1.3 初创企业案例研究:Instagram,一夜之间,从0到10亿美元 10 1.4 成熟公司案例研究:Netflix,从本地向云端迁移 11 1.5 政府案例研究: NOAA、电子邮件,以及云端协作 13 1.6 非营利案例研究:奥巴马竞选运动,在线6个月,峰值仅几天 14 1.7 总结 14 第2章 云服务模式 17 2.1 基础设施即服务 17 2.2 平台即服务 20 2.3 软件即服务 23 2.4 部署模式 24 2.5 总结 29 第3章 云计算的错误实践 31 3.1 迁移至云端时避免失败 31 3.2 将应用迁移至云端 32 3.3 不切实际的期望 36 3.4 云安全的错误认知 39 3.5 只选最喜欢的,不选最合适的 42 3.6 服务中断及停业场景 43 3.7 低估组织变革带来的影响 45 3.8 技术不足 47 3.9 对客户需求的错误认识 50 3.10 出乎意料的成本 51 3.11 总结 54 第4章 先从架构开始 56 4.1 5W1H的重要性 57 4.2 由业务架构开始 58 4.3 识别问题(原因) 64 4.4 评估用户特征(何人) 65 4.5 明确业务和技术需求(什么) 66 4.6 将服务消费者的体验可视化(何地) 67 4.7 明确项目约束条件(何时及什么要求) 70 4.8 了解当前的状况约束(如何) 71 4.9 总结 74 第5章 选择合适的云服务模式 75 5.1 考虑何时选择云服务模式 76 5.2 何时使用SaaS 80 5.3 何时使用PaaS 85 5.4 何时使用IaaS 89 5.5 常见的云使用案例 93 5.6 总结 95 第6章 云的关键:RESTful服务 96 6.1 为什么是REST 98 6.2 将遗留系统迁移至云端面临的挑战 101 6.3 总结 103 第7章 云中审计 104 7.1 数据和云安全 105 7.2 审计云应用 106 7.3 云中的法规 108 7.4 审计的设计策略 112 7.5 总结 115 第8章 云的数据考虑 116 8.1 数据特性 116 8.2 多租户或单租户 123 8.3 选择数据存储类型 127 8.4 总结 131 第9章 云中的安全设计 133 9.1 云中数据的真相 134 9.2 安全的程度 136 9.3 每种云服务模式下的责任 140 9.4 安全策略 146 9.5 焦点领域 148 9.6 总结 160 第10章 创建集中化的日志策略 161 10.1 日志文件使用 162 10.2 日志记录要求 163 10.3 总结 169 第11章 SLA管理 170 11.1 影响SLA的因素 170 11.2 界定SLA 175 11.3 管理供应商SLA 177 11.4 总结 181 第12章 监控策略 183 12.1 积极主动的监控vs. 消极被动的监控 183 12.2 需要监控的内容有哪些 184 12.3 分类别的监控策略 187 12.4 按云服务等级进行监控 194 12.5 总结 197 第13章 灾难恢复计划 198 13.1 什么是故障时间成本 199 13.2 IaaS的灾难恢复策略 201 13.3 主要数据中心的灾难恢复 203 13.4 PaaS的灾难恢复策略 209 13.5 SaaS的灾难恢复策略 210 13.6 混合云的灾难恢复 212 13.7 总结 214 第14章 使用DevOps文化来更快、更可靠地交付软件 215 14.1 发展DevOps心态 216 14.2 自动化基础设施 218 14.3 自动化部署 220 14.4 设计功能标记 221 14.5 测量、监控和试验 222 14.6 持续集成和持续交付 222 14.7 总结 225 第15章 评估云模式对组织的影响 227 15.1 企业模式vs. 弹性云模式 229 15.2 IT影响 230 15.3 商业影响 232 15.4 组织变革规划 236 15.5 真实世界的变革 240 15.6 总结 240 第16章 最后的思考 242 16.1 云在快速进化 243 16.2 云文化 245 16.3 新的商业模式 246 16.4 PaaS是游戏规则改变者 248 16.5 总结 25 资源截图:
陌佑
百度云
百度云

CloudStack入门指南

资源名称:CloudStack入门指南 内容简介: 本书是国内第一本系统介绍CloudStack的专业书籍。   本书从历史发展、架构设计、安装配置、基本功能、开发入门等角度对CloudStack进行了全面的介绍。作为云计算IaaS平台,尽管CloudStack的安装非常简单,但其规划和安装对保证CloudStack系统稳定运行而言至关重要,很多用户正是在此部分遇到了大量问题,所以本书在安装部分下了较大笔墨,规划了一个简单、通用的场景,并对实际配置过程进行了详细介绍。   本书以深入浅出的方式介绍了CloudStack,能够为计划使用IaaS将现有IT设施迁移到云上的公司、数据中心及系统集成行业的相关人员进行系统选型和对比提供帮助。对于那些对CloudStack没有深入了解及在安装和使用上遇到困难的技术工程师、售前及售后支持工程师、学生等人员,本书能够为他们学习正确的CloudStack的安装和使用步骤,以及对CloudStack进行全面、系统的认识提供帮助。   本书是国内第一本系统介绍CloudStack的专业书籍。   本书从历史发展、架构设计、安装配置、基本功能、发门等角度对CloudStack行了全面的介绍。作为云计算IaaS平台,尽管CloudStack的安装非常简单,但其规划和安装对保证CloudStack系统稳定运行而言至关重要,很多用户正是在此部分遇到了大量问题,所以本书在安装部分下了较大笔墨,规划了一个简单、通用的场景,并对实际配置过程行了详细介绍。   本书以深浅出的方式介绍了CloudStack,能够为计划使用IaaS将现有IT设施迁移到云上的公司、数据中心及系统集成行业的相关人员行系统选型和对比提供帮助。对于那些对CloudStack没有深了解及在安装和使用上遇到困难的技术工程师、售前及售后支持工程师、学生等人员,本书能够为他们学习正确的CloudStack的安装和使用步骤,以及对CloudStack行全面、系统的认识提供帮助。 资源目录: 第1章 CloudStack简介............................................................................. 1 1.1 CloudStack的历史与发展...........................................................................................2 1.1.1 CloudStack的历史...........................................................................................2 1.1.2 CloudStack生态圈...........................................................................................3 1.1.3 CloudStack的路线规划...................................................................................4 1.2 如何加入CloudStack社区...........................................................................................5 1.2.1 CloudStack社区有哪些资源...........................................................................5 1.2.2 如何使用邮件列表.........................................................................................6 1.2.3 如何成为Commitor......................................................................................10 1.2.4 使用Transifex翻译Apache CloudStack文档..................................................12 1.2.5 小结...............................................................................................................19 1.3 CloudStack中国用户组.............................................................................................20 1.4 Apache基金会与Apache 2.0协议..............................................................................22 第2章 CloudStack架构........................................................................... 31 2.1 CloudStack的功能与特点.........................................................................................32 2.2 CloudStack系统的主要组成部分.............................................................................36 2.3 CloudStack的架构.....................................................................................................44 第3章 CloudStack的网络功能............................................................... 49 3.1 网络即服务...............................................................................................................50 3.2 网络类型...................................................................................................................51 3.2.1 公共网络.......................................................................................................51 3.2.2 来宾网络.......................................................................................................52 3.2.3 管理网络.......................................................................................................52 3.2.4 存储网络.......................................................................................................52 3.2.5 本地链路网络...............................................................................................53 3.3 虚拟路由器...............................................................................................................53 3.4 基础网络...................................................................................................................55 3.4.1 基础网络概述...............................................................................................55 3.4.2 安全组...........................................................................................................55 3.4.3 参考架构.......................................................................................................58 3.5 高级网络...................................................................................................................59 3.5.1 高级网络概述...............................................................................................59 3.5.2 高级网络服务...............................................................................................60 3.5.3 参考架构.......................................................................................................63 3.5.4 共享型来宾网络...........................................................................................64 3.5.5 VPC简介.......................................................................................................66 第4章 CloudStack的安装与配置........................................................... 71 4.1 CloudStack系统的安装与规划.................................................................................72 4.1.1 基本网络架构的配置信息............................................................................72 4.1.2 高级网络架构的配置信息............................................................................75 4.1.3 交换机的规划与配置...................................................................................78 4.1.4 安装时需要的其他信息................................................................................80 4.2 CloudStack管理节点的安装.....................................................................................80 4.2.1 CentOS下管理节点的安装方法...................................................................81 4.2.2 Ubuntu下管理节点的安装......................................................................... 102 4.2.3 检查并设置全局变量参数.......................................................................... 114 4.2.4 小结.............................................................................................................119 4.3 配置存储节点.........................................................................................................119 4.3.1 操作系统的配置.........................................................................................120 4.3.2 安装和配置NFS服务..................................................................................126 4.3.3 上传系统虚拟机模板.................................................................................130 4.4 安装和配置XenServer计算节点............................................................................. 131 4.4.1 XenServer计算节点的安装与配置............................................................. 132 4.4.2 安装支持CloudStack的软件包................................................................... 137 4.4.3 申请及激活XenServer许可证..................................................................... 138 4.4.4 小结.............................................................................................................140 4.5 安装和配置KVM计算节点.................................................................................... 140 4.5.1 安装KVM前的准备工作............................................................................141 4.5.2 CentOS下KVM的安装和配置方法............................................................ 142 4.5.3 在Ubuntu环境下安装和配置KVM............................................................ 160 4.5.4 小结.............................................................................................................166 4.6 安装和配置vSphere计算节点................................................................................. 166 4.6.1 安装vSphere套件........................................................................................167 4.6.2 配置ESXi网络.............................................................................................168 4.6.3 在vCenter中创建数据中心和群集............................................................. 173 4.6.4 小结.............................................................................................................176 第5章 CloudStack区域的创建与配置................................................. 177 第6章 CloudStack的基本使用............................................................. 265 第7章 CloudStack开发者入门............................................................. 395 资源截图:
陌佑
百度云
百度云
⬅️ 1...18121813181418151816...2920

添加微信,反馈问题

微信及时反馈问题,方便沟通,请备注 ❤️

搜索榜单

1

骚老板资源网整站源码 打包数据高达2GB

1654

2

绿色风格网络公司源码 php网络建站公司源码

1070

3

(自适应手机版)响应式餐饮美食企业网站源码 餐饮品牌连锁机构织梦模板

1034

4

雷速问卷调查系统(疫情上报系统) v7.08

913

5

Zblog仿918回忆模特写真网带整站数据图库系统源码

875

6

一款笑话类网站源码 简约清爽的织梦笑话网站模板

807

最新资源

1

网狐电玩系列/乐游电玩城/免微信免短信登陆

2

湖南地方玩法好玩互娱纯源码

3

最新更新网狐旗舰大联盟+UI工程

4

傲玩系列客户端通用加解密工具

5

优米H5电玩城组件/多语言/带84个游戏/后台带控+搭建视频教程

6

网狐系列猫娱乐新UI蜡笔小新金币组件

友情链接:
免费APISSL在线检测在线pingAPI版本项目seo教程免费下载狗凯源码网 查看更多
网站地图 法律声明
本站所存储的源码数据均为转载,不提供在线播放和下载服务。本站为非盈利性,不收取费用,所有内容不用于商业行为,仅供学习交流使用。如有侵权,请联系15001904@qq.com
  • 联系微信,反馈问题

  • 点此立刻反馈