资源搜
资源搜
👀 联系夏柔
🔥 投稿源码
资源搜

资源搜

  • 全部
  • 123盘
  • 阿里盘
  • 百度云
  • 迅雷
  • 夸克
  • 115
  • 蓝奏云
  • 其他
已收录34127条资源,仅供学习交流,请在24h内删除资源!

OpenStack云计算平台管理

资源名称:OpenStack云计算平台管理   资源目录: 深入浅出OpenStack云平台管理(nova-computernetwork)1深入浅出OpenStack云平台管理(nova-computernetwork)2深入浅出OpenStack云平台管理(nova-computernetwork)3深入浅出OpenStack云平台管理(nova-computernetwork)4深入浅出OpenStack云平台管理(nova-computernetwork)5深入浅出OpenStack云平台管理(nova-computernetwork)6   资源截图:
陌佑
百度云
百度云

大数据Spark企业级实战

资源名称:大数据Spark企业级实战 内容简介: Spark是当今大数据领域最活跃、最热门、高效的大数据通用计算平台,是Apache软件基金会下所有开源项目中三大开源项目之一。   在“One Stack to rule them all”理念的指引下,Spark基于RDD成功地构建起了大数据处理的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、Graph Processing等大数据计算模型统一到一个技术堆栈中,开发者使用一致的API操作Spark中的所有功能;更为重要的是Spark的Spark SQL、MLLib、GraphX、Spark Streaming等四大子框架之间可以在内存中完美的无缝集成并可以互相操作彼此的数据,这不仅打造了Spark在当今大数据计算领域其他任何计算框架都无可匹敌的优势,更使得Spark正在加速成为大数据处理中心的计算平台。   《大数据Spark企业级实战》详细解析了企业级Spark开发所需的几乎所有技术内容,涵盖Spark的架构设计、Spark的集群搭建、Spark内核的解析、Spark SQL、MLLib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多语言编程、Spark常见问题及调优等,并且结合Spark源码细致的解析了Spark内核和四大子框架,最后在附录中提供了的Spark的开发语言Scala快速入门实战内容,学习完此书即可胜任绝大多数的企业级Spark开发需要。   《大数据Spark企业级实战》从零起步,完全从企业处理大数据业务场景的角度出发,基于实战代码来组织内容,对于一名大数据爱好者来说,《大数据Spark企业级实战》内容可以帮助您一站式地完成从零起步到进行Spark企业级开发所需要的全部核心内容和实战需要。 资源目录: 第1章 Spark编程模型 1.1 Spark:一体化、多元化的高速 大数据通用计算平台和库 1.1.1 为什么需要使用Spark 1.1.2 Spark技术生态系统简介 1.2 Spark大数据处理框架 1.2.1 Spark速度为何如此之快 1.2.2 RDD:分布式函数式编程 1.3 Spark子框架解析 1.3.1 图计算框架Spark GraphX 1.3.2 实时流处理框架 (Spark Streaming) 1.3.3 交互式SQL处理框架 Spark SQL 1.3.4 机器学习框架 (Spark MLlib) 第2章 构建Spark分布式集群 2.1 搭建Hadoop单机版本和伪 分布式开发环境 2.1.1 开发Hadoop需要的基本 软件 2.1.2 安装每个软件 2.1.3 配置Hadoop单机模式并 运行Wordcount示例 2.1.4 配置Hadoop伪分布模式 并运行Wordcount示例 2.2 搭建 Hadoop分布式集群 2.2.1 在VMWare 中准备第二、 第三台运行Ubuntu系统的 机器 2.2.2 按照配置伪分布式模式 的方式配置新创建运行 Ubuntu系统的机器 2.2.3 配置Hadoop分布式集群 环境 2.2.4 测试Hadoop分布式集群 环境 2.3 Spark集群的动手搭建 2.3.1 Spark集群需要的软件 2.3.2 安装每个软件 2.3.3 启动并查看集群的状况 2.4 构建Hadoop单机版本和伪 分布式环境 2.4.1 通过Spark的shell测试 Spark的工作 2.4.2 使用Spark的cache机制 观察一下效率的提升 第3章 Spark开发环境及其测试 3.1 搭建和设置IDEA开发环境 3.1.1 构建Spark的IDE开发 环境 3.1.2 配置Spark的IDE开发 环境 3.2 测试IDEA环境 3.3 实战:在IDEA中开发代码, 并运行在Spark集群中 第4章 Spark RDD与编程API 实战 4.1 深度解析Spark RDD 4.2 Transformation Operations 动手实战 4.3 Action Operations动手实战 4.4 Spark API综合实战 第5章 Spark运行模式深入解析 5.1 Spark运行模式概述 5.1.1 Spark的运行模式列表 5.1.2 Spark的基本工作流程 5.2 Standalone模式 5.2.1 部署及程序运行 5.2.2 内部实现原理 5.3 Yarn-Cluster模式 5.3.1 部署及程序运行 5.3.2 内部实现原理 5.4 Yarn-Client模式 5.4.1 部署及运行程序 5.4.2 内部实现原理 第6章 Spark内核解析 6.1 Spark内核初探 6.1.1 Spark内核核心术语解析 6.1.2 Spark集群概览 6.1.3 Spark核心组件 6.1.4 Spark任务调度系统初见 6.2 Spark内核核心源码解读 6.2.1 SparkContext核心源码 解析初体验 6.2.2 TaskSceduler启动源码 解析初体验 6.2.3 DAGScheduler源码解读 初体验 6.2.4 Spark的Web监控页面 6.3 以RDD的count操作为例触发 Job全生命周期源码研究 6.4 Akka驱动下的Driver、 Master、Worker 6.4.1 Driver中的AppClient 源码解析 6.4.2 AppClient注册Master 6.4.3 Worker中Executor启动 过程源代码解析 第7章 GraphX大规模图计算与 图挖掘实战 7.1 Spark GraphX概览 7.2 Spark GraphX设计实现的 核心原理 7.3 Table operator和Graph Operator 7.4 Vertices、edges、triplets 7.5 以最原始的方式构建graph 7.6 动手编写第一个Graph代码 实例并进行Vertices、edges、 triplets操作 7.7 在Spark集群上使用文件中 的数据加载成为graph并进 行操作 7.8 在Spark集群上掌握比较重 要的图操作 7.9 Spark GraphX图算法 7.10 淘宝对Spark GraphX的大 规模使用 第8章 Spark SQL原理与实战 8.1 为什么使用Spark SQL 8.1.1 Spark SQL的发展历程 8.1.2 Spark SQL的性能 8.2 Spark SQL运行架构 8.2.1 Tree和Rule 8.2.2 sqlContext的运行过程 8.2.3 hiveContext的运行过程 8.2.4 catalyst优化器 8.3 解析Spark SQL组件 8.3.1 LogicalPlan 8.3.2 SqlParser 8.3.3 Analyzer 8.3.4 Optimizer 8.4 深入了解Spark SQL运行 的计划 8.4.1 hive/console的安装过程 和原理 8.4.2 常用操作 8.4.3 不同数据源的运行计划 8.4.4 不同查询的运行计划 8.4.5 查询的优化 8.5 搭建测试环境 8.5.1 搭建虚拟集群(Hadoop1、 Hadoop2、Hadoop3) 8.5.2 搭建客户端 8.5.3 文件数据的准备工作 8.5.4 Hive数据的准备工作 8.6 Spark SQL之基础应用 8.6.1 sqlContext的基础应用 8.6.2 hiveContext的基础应用 8.6.3 混合使用 8.6.4 缓存的使用 8.6.5 DSL的使用 8.7 ThriftServer和CLI 8.7.1 令人惊讶的CLI 8.7.2 ThriftServer 8.8 Spark SQL之综合应用 8.8.1 店铺分类 8.8.2 PageRank 8.9 Spark SQL之调优 8.9.1 并行性 8.9.2 高效的数据格式 8.9.3 内存的使用 8.9.4 合适的Task 8.9.5 其他的一些建议 第9章 Machine Learning on Spark 9.1 Spark MLlib机器学习 9.1.1 机器学习快速入门 9.1.2 Spark MLlib介绍 9.1.3 Spark MLlib架构解析 9.1.4 Spark Mllib核心解析 9.2 MLlib经典算法解析和案例 实战 9.2.1 Linear Regression解析和 实战 9.2.2 K-Means解析和实战 9.2.3 协同过滤算法分析和案例 实战 9.3 MLLib其他常用算法解析 和代码实战 9.3.1 Basic Statics解析和实战 9.3.2 MLlib朴素贝叶斯解析和 实战 9.3.3 MLlib决策树解析和实战 第10章 Tachyon文件系统 10.1 Tachyon文件系统概述 10.1.1 Tachyon文件系统简介 10.1.2 HDFS与Tachyon 10.1.3 Tachyon设计原理 10.2 Tachyon入门 10.2.1 Tachyon部署 10.2.2 Tachyon API的使用 10.2.3 在MapReduce、Spark 上使用Tachyon 10.3 Tachyon深度解析 10.3.1 Tachyon整体设计概述 10.3.2 Tachyon Master启动流 程分析 10.3.3 Tachyon Worker启动流 程分析 10.3.4 客户端读写文件源码分析 10.4 Tachyon配置参数一览 10.5 小结 第11章 Spark Streaming原理 与实战 11.1 Spark Streaming原理 11.1.1 原理和运行场景 11.1.2 编程模型DStream 11.1.3 持久化、容错和优化 11.2 Spark Streaming实战 11.2.1 源码解析 11.2.2 Spark Streaming实战案例 第12章 Spark多语言编程 12.1 Spark多语言编程的特点 12.2 Spark编程模型 12.3 深入Spark多语言编程 12.4 Spark多语言编程综合实例 第13章 R语言的分布式编程 之SparkR 13.1 R语言快速入门 13.1.1 R语言是什么 13.1.2 R语言的特点 13.1.3 R语言的安装 13.1.4 R的核心概念 13.1.5 R动手实战 13.2 使用SparkR 13.2.1 SparkR的安装 13.2.2 使用SparkR编写 WordCount 13.2.3 使用SparkR的更多 代码示例 第14章 Spark性能调优和 最佳实践 14.1 Spark性能调优 14.1.1 Spark性能优化的12大 问题及其解决方法 14.1.2 Spark内存优化 14.1.3 RDD分区 14.1.4 Spark性能优化实例 14.2 Spark性能调优细节 14.2.1 broadcast和accumulator 14.2.2 reduce 和 reduceByKey 14.2.3 深入reduceByKey 第15章 Spark源码解析 15.1 BlockManager源码解析 15.2 Cache源码解析 15.3 Checkpoint源码解析 附录A 动手实战Scala三部曲 第一部 动手体验Scala 第二部 动手实战Scala面向 对象编程 第三部 动手实战Scala函数式编程 资源截图:
陌佑
百度云
百度云

Hadoop基础教程

资源名称:Hadoop基础教程 内容简介: 《Hadoop基础教程》包括三个主要部分:第1~5章讲述了Hadoop的核心机制及Hadoop的工作模式;第6~7章涵盖了Hadoop更多可操作的内容;第8~11章介绍了Hadoop与其他产品和技术的组合使用。《Hadoop基础教程》目的在于帮助读者了解什么是Hadoop,Hadoop是如何工作的,以及如何使用Hadoop从数据中提取有价值的信息,并用它解决大数据问题。   《Hadoop基础教程》适用于有软件开发经验的技术人员。 资源目录: 第1章 绪论  1.1 大数据处理  1.1.1 数据的价值  1.1.2 受众较少  1.1.3 一种不同的方法  1.1.4 Hadoop  1.2 基于Amazon Web Services的云计算  1.2.1 云太多了  1.2.2 第三种方法  1.2.3 不同类型的成本  1.2.4 AWS:Amazon的弹性架构  1.2.5 本书内容  1.3 小结  第2章 安装并运行Hadoop  2.1 基于本地Ubuntu主机的Hadoop系统  2.2 实践环节:检查是否已安装JDK  2.3 实践环节:下载Hadoop  2.4 实践环节:安装SSH  2.5 实践环节:使用Hadoop计算圆周率  2.6 实践环节:配置伪分布式模式  2.7 实践环节:修改HDFS的根目录  2.8 实践环节:格式化NameNode  2.9 实践环节:启动Hadoop  2.10 实践环节:使用HDFS  2.11 实践环节:MapReduce的经典入门程序——字数统计  2.12 使用弹性MapReduce  2.13 实践环节:使用管理控制台在EMR运行WordCount  2.13.1 使用EMR的其他方式  2.13.2 AWS生态系统  2.14 本地Hadoop与EMR Hadoop的对比  2.15 小结  第3章 理解MapReduce  3.1 键值对  3.1.1 具体含义  3.1.2 为什么采用键/值数据  3.1.3 MapReduce作为一系列键/值变换  3.2 MapReduce的Hadoop Java API  3.3 编写MapReduce程序  3.4 实践环节:设置classpath  3.5 实践环节:实现WordCount  3.6 实践环节:构建JAR文件  3.7 实践环节:在本地Hadoop集群运行WordCount  3.8 实践环节:在EMR上运行WordCount  3.8.1 0.20之前版本的Java MapReduce API  3.8.2 Hadoop提供的mapper和reducer实现  3.9 实践环节:WordCount的简易方法  3.10 查看WordCount的运行全貌  3.10.1 启动  3.10.2 将输入分块  3.10.3 任务分配  3.10.4 任务启动  3.10.5 不断监视JobTracker  3.10.6 mapper的输入  3.10.7 mapper的执行  3.10.8 mapper的输出和reducer的输入  3.10.9 分块  3.10.10 可选分块函数  3.10.11 reducer类的输入  3.10.12 reducer类的执行  3.10.13 reducer类的输出  3.10.14 关机  3.10.15 这就是MapReduce的全部  3.10.16 也许缺了combiner  3.11 实践环节:使用combiner编写WordCount  3.12 实践环节:更正使用combiner的WordCount  3.13 Hadoop专有数据类型  3.13.1 Writable和Writable-Comparable接口  3.13.2 wrapper类介绍  3.14 实践环节:使用Writable包装类  3.15 输入/输出  3.15.1 文件、split和记录  3.15.2 InputFormat和RecordReader  3.15.3 Hadoop提供的InputFormat  3.15.4 Hadoop提供的RecordReader  3.15.5 OutputFormat和Record-Writer  3.15.6 Hadoop提供的OutputFormat  3.15.7 别忘了Sequence files  3.16 小结  第4章 开发MapReduce程序  4.1 使用非Java语言操作Hadoop  4.1.1 Hadoop Streaming工作原理  4.1.2 使用Hadoop Streaming的原因  4.2 实践环节:使用Streaming实现Word-Count  4.3 分析大数据集  4.3.1 获取UFO目击事件数据集  4.3.2 了解数据集  4.4 实践环节:统计汇总UFO数据  4.5 实践环节:统计形状数据  4.6 实践环节:找出目击事件的持续时间与UFO形状的关系  4.7 实践环节:在命令行中执行形状/时间分析  4.8 实践环节:使用ChainMapper进行字段验证/分析  4.9 实践环节:使用Distributed Cache改进地点输出  4.10 计数器、状态和其他输出  4.11 实践环节:创建计数器、任务状态和写入日志  4.12 小结  第5章 高级MapReduce技术  5.1 初级、高级还是中级  5.2 多数据源联结  5.2.1 不适合执行联结操作的情况  5.2.2 map端联结与reduce端联结的对比  5.2.3 匹配账户与销售信息  5.3 实践环节:使用MultipleInputs实现reduce端联结  5.3.1 实现map端联结  5.3.2 是否进行联结  5.4 图算法  5.4.1 Graph 101  5.4.2 图和MapReduce  5.4.3 图的表示方法  5.5 实践环节:图的表示  5.6 实践环节:创建源代码  5.7 实践环节:第一次运行作业  5.8 实践环节:第二次运行作业  5.9 实践环节:第三次运行作业  5.10 实践环节:第四次也是最后一次运行作业  5.10.1 运行多个作业  5.10.2 关于图的终极思考  5.11 使用语言无关的数据结构  5.11.1 候选技术  5.11.2 Avro简介  5.12 实践环节:获取并安装Avro  5.13 实践环节:定义模式  5.14 实践环节:使用Ruby创建Avro源数据  5.15 实践环节:使用Java语言编程操作Avro数据  5.16 实践环节:在MapReduce中统计UFO形状  5.17 实践环节:使用Ruby检查输出数据  5.18 实践环节:使用Java检查输出数据  5.19 小结  第6章 故障处理  6.1 故障  6.1.1 拥抱故障  6.1.2 至少不怕出现故障  6.1.3 严禁模仿  6.1.4 故障类型  6.1.5 Hadoop节点故障  6.2 实践环节:杀死DataNode进程  6.3 实践环节:复制因子的作用  6.4 实践环节:故意造成数据块丢失  6.5 实践环节:杀死TaskTracker进程  6.6 实践环节:杀死JobTracker  6.7 实践环节:杀死NameNode进程  6.8 实践环节:引发任务故障  6.9 数据原因造成的任务故障  6.10 实践环节:使用skip模式处理异常数据  6.11 小结  第7章 系统运行与维护  7.1 关于EMR的说明  7.2 Hadoop配置属性  7.3 实践环节:浏览默认属性  7.3.1 附加的属性元素  7.3.2 默认存储位置  7.3.3 设置Hadoop属性的几种方式  7.4 集群设置  7.4.1 为集群配备多少台主机  7.4.2 特殊节点的需求  7.4.3 不同类型的存储系统  7.4.4 Hadoop的网络配置  7.5 实践环节:查看默认的机柜配置  7.6 实践环节:报告每台主机所在机柜  7.7 集群访问控制  7.8 实践环节:展示Hadoop的默认安全机制  7.9 管理NameNode  7.10 实践环节:为fsimage文件新增一个存储路径  7.11 实践环节:迁移到新的NameNode主机  7.12 管理HDFS  7.12.1 数据写入位置  7.12.2 使用平衡器  7.13 MapReduce管理  7.13.1 通过命令行管理作业  7.13.2 作业优先级和作业调度  7.14 实践环节:修改作业优先级并结束作业运行  7.15 扩展集群规模  7.15.1 提升本地Hadoop集群的计算能力  7.15.2 提升EMR作业流的计算能力  7.16 小结  第8章 Hive:数据的关系视图  8.1 Hive概述  8.1.1 为什么使用Hive  8.1.2 感谢Facebook  8.2 设置Hive  8.2.1 准备工作  8.2.2 下载Hive  8.3 实践环节:安装Hive  8.4 使用Hive  8.5 实践环节:创建UFO数据表  8.6 实践环节:在表中插入数据  8.7 实践环节:验证表  8.8 实践环节:用正确的列分隔符重定义表  8.9 实践环节:基于现有文件创建表  8.10 实践环节:执行联结操作  8.11 实践环节:使用视图  8.12 实践环节:导出查询结果  8.13 实践环节:制作UFO目击事件分区表  8.13.1 分桶、归并和排序  8.13.2 用户自定义函数  8.14 实践环节:新增用户自定义函数  8.14.1 是否进行预处理  8.14.2 Hive和Pig的对比  8.14.3 未提到的内容  8.15 基于Amazon Web Services的Hive  8.16 实践环节:在EMR上分析UFO数据  8.16.1 在开发过程中使用交互式作业流  8.16.2 与其他AWS产品的集成  8.17 小结  第9章 与关系数据库协同工作  9.1 常见数据路径  9.1.1 Hadoop用于存储档案  9.1.2 使用Hadoop进行数据预处理  9.1.3 使用Hadoop作为数据输入工具  9.1.4 数据循环  9.2 配置MySQL  9.3 实践环节:安装并设置MySQL  9.4 实践环节:配置MySQL允许远程连接  9.5 实践环节:建立员工数据库  9.6 把数据导入Hadoop  9.6.1 使用MySQL工具手工导入  9.6.2 在mapper中访问数据库  9.6.3 更好的方法:使用Sqoop  9.7 实践环节:下载并配置Sqoop  9.8 实践环节:把MySQL的数据导入HDFS  9.9 实践环节:把MySQL数据导出到Hive  9.10 实践环节:有选择性的导入数据  9.11 实践环节:使用数据类型映射  9.12 实践环节:通过原始查询导入数据  9.13 从Hadoop导出数据  9.13.1 在reducer中把数据写入关系数据库  9.13.2 利用reducer输出SQL数据文件  9.13.3 仍是最好的方法  9.14 实践环节:把Hadoop数据导入MySQL  9.15 实践环节:把Hive数据导入MySQL  9.16 实践环节:改进mapper并重新运行数据导出命令  9.17 在AWS上使用Sqoop  9.18 小结  第10章 使用Flume收集数据  10.1 关于AWS的说明  10.2 无处不在的数据  10.2.1 数据类别  10.2.2 把网络流量导入Hadoop  10.3 实践环节:把网络服务器数据导入Hadoop  10.3.1 把文件导入Hadoop  10.3.2 潜在的问题  10.4 Apache Flume简介  10.5 实践环节:安装并配置Flume  10.6 实践环节:把网络流量存入日志文件  10.7 实践环节:把日志输出到控制台  10.8 实践环节:把命令的执行结果写入平面文件  10.9 实践环节:把远程文件数据写入本地平面文件  10.9.1 信源、信宿和信道  10.9.2 Flume配置文件  10.9.3 一切都以事件为核心  10.10 实践环节:把网络数据写入HDFS  10.11 实践环节:加入时间戳  10.12 实践环节:多层Flume网络  10.13 实践环节:把事件写入多个信宿  10.13.1 选择器的类型  10.13.2 信宿故障处理  10.13.3 使用简单元件搭建复杂系统  10.14 更高的视角  10.14.1 数据的生命周期  10.14.2 集结数据  10.14.3 调度  10.15 小结  第11章 展望未来  11.1 全书回顾  11.2 即将到来的Hadoop变革  11.3 其他版本的Hadoop软件包  11.4 其他Apache项目  11.4.1 HBase  11.4.2 Oozie  11.4.3 Whir  11.4.4 Mahout  11.4.5 MRUnit  11.5 其他程序设计模式  11.5.1 Pig  11.5.2 Cascading  11.6 AWS资源  11.6.1 在EMR上使用HBase  11.6.2 SimpleDB  11.6.3 DynamoDB  11.7 获取信息的渠道  11.7.1 源代码  11.7.2 邮件列表和论坛  11.7.3 LinkedIn群组  11.7.4 Hadoop用户群  11.7.5 会议  11.8 小结  随堂测验答案  资源截图:
陌佑
百度云
百度云

Apache Spark源码剖析

资源名称:Apache Spark源码剖析 内容简介: 《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。 《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。 《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值;对于那些想从源码学习而又不知如何入手的读者,也不失为一种借鉴。 资源目录: 第一部分Spark概述1 第1章初识Spark 3 1.1 大数据和Spark 3 1.1.1 大数据的由来4 1.1.2 大数据的分析4 1.1.3 Hadoop 5 1.1.4 Spark简介6 1.2 与Spark的第一次亲密接触7 1.2.1 环境准备7 1.2.2 下载安装Spark 8 1.2.3 Spark下的WordCount 8 第二部分Spark核心概念13 第2章Spark整体框架 15 2.1 编程模型15 2.1.1 RDD 17 2.1.2 Operation 17 2.2 运行框架18 2.2.1 作业提交18 2.2.2 集群的节点构成18 2.2.3 容错处理19 2.2.4 为什么是Scala 19 2.3 源码阅读环境准备19 2.3.1 源码下载及编译19 2.3.2 源码目录结构21 2.3.3 源码阅读工具21 2.3.4 本章小结22 第3章SparkContext初始化 23 3.1 spark-shell 23 3.2 SparkContext的初始化综述27 3.3 Spark Repl综述30 3.3.1 Scala Repl执行过程31 3.3.2 Spark Repl 32 第4章Spark作业提交 33 4.1 作业提交33 4.2 作业执行38 4.2.1 依赖性分析及Stage划分39 4.2.2 Actor Model和Akka 46 4.2.3 任务的创建和分发47 4.2.4 任务执行53 4.2.5 Checkpoint和Cache 62 4.2.6 WebUI和Metrics 62 4.3 存储机制71 4.3.1 Shuffle结果的写入和读取71 4.3.2 Memory Store 80 4.3.3 存储子模块启动过程分析81 4.3.4 数据写入过程分析82 4.3.5 数据读取过程分析84 4.3.6 TachyonStore 88 第5章部署方式分析 91 5.1 部署模型91 5.2 单机模式local 92 5.3 伪集群部署local-cluster 93 5.4 原生集群Standalone Cluster 95 5.4.1 启动Master 96 5.4.2 启动Worker 97 5.4.3 运行spark-shell 102 5.4.4 容错性分析106 5.5 Spark On YARN 112 5.5.1 YARN的编程模型112 5.5.2 YARN中的作业提交112 5.5.3 Spark On YARN实现详解113 5.5.4 SparkPi on YARN 122 第三部分Spark Lib 129 第6章Spark Streaming 131 6.1 Spark Streaming整体架构131 6.1.1 DStream 132 6.1.2 编程接口133 6.1.3 Streaming WordCount 134 6.2 Spark Streaming执行过程135 6.2.1 StreamingContext初始化过程136 6.2.2 数据接收141 6.2.3 数据处理146 6.2.4 BlockRDD 155 6.3 窗口操作158 6.4 容错性分析159 6.5 Spark Streaming vs. Storm 165 6.5.1 Storm简介165 6.5.2 Storm和Spark Streaming对比168 6.6 应用举例168 6.6.1 搭建Kafka Cluster 168 6.6.2 KafkaWordCount 169 第7章SQL 173 7.1 SQL语句的通用执行过程分析175 7.2 SQL On Spark的实现分析178 7.2.1 SqlParser 178 7.2.2 Analyzer 184 7.2.3 Optimizer 191 7.2.4 SparkPlan 192 7.3 Parquet 文件和JSON数据集196 7.4 Hive简介197 7.4.1 Hive 架构197 7.4.2 HiveQL On MapReduce执行过程分析199 7.5 HiveQL On Spark详解200 7.5.1 Hive On Spark环境搭建206 7.5.2 编译支持Hadoop 2.x的Spark 211 7.5.3 运行Hive On Spark测试用例213 第8章GraphX 215 8.1 GraphX简介215 8.1.1 主要特点216 8.1.2 版本演化216 8.1.3 应用场景217 8.2 分布式图计算处理技术介绍218 8.2.1 属性图218 8.2.2 图数据的存储与分割219 8.3 Pregel计算模型220 8.3.1 BSP 220 8.3.2 像顶点一样思考220 8.4 GraphX图计算框架实现分析223 8.4.1 基本概念223 8.4.2 图的加载与构建226 8.4.3 图数据存储与分割227 8.4.4 操作接口228 8.4.5 Pregel在GraphX中的源码实现230 8.5 PageRank 235 8.5.1 什么是PageRank 235 8.5.2 PageRank核心思想235 第9章MLLib 239 9.1 线性回归239 9.1.1 数据和估计240 9.1.2 线性回归参数求解方法240 9.1.3 正则化245 9.2 线性回归的代码实现246 9.2.1 简单示例246 9.2.2 入口函数train 247 9.2.3 最优化算法optimizer 249 9.2.4 权重更新update 256 9.2.5 结果预测predict 257 9.3 分类算法257 9.3.1 逻辑回归258 9.3.2 支持向量机260 9.4 拟牛顿法261 9.4.1 数学原理261 9.4.2 代码实现265 9.5 MLLib与其他应用模块间的整合268 第四部分附录271 附录A Spark源码调试 273 附录B 源码阅读技巧 283 资源截图:
陌佑
百度云
百度云

全数据时代的炼金师

资源名称:全数据时代的炼金师 内容简介: 从大数据对于现代社会的冲和影响、调查数据在社会决策中的地位演变、大数据崛起的过程以及所带来的社会影响和意义、数据融合的机制和力量、数据融合和共生的意义以及在现实社会中的应用、全数据模式及其社会意义和价值6个方面来行系统性的研究。探讨大数据和调查数据在现实社会中的妙用,便于人们全面认识各种类型数据的基本特征以及数据融合的作用和力量,提高人们对于数据利用的能力。 资源目录: 其他 内容提要 序一 序二 第一章 大数据的冲击 第一节 数据的起源与发展 一、从历史看数据 二、古人的智慧 三、托夫勒的预言 四、社会测量运动 五、人口与普查 六、大数据的啼声 第二节 科技的力量 一、迷人的二进制 二、从水库到数据库 三、互联网为王 第三节 大变革的时代 一、从大数据到大思维 二、获得“满意解” 三、走向平民化 小结 第二章 调查与数据 第一节 人口的学问 一、瘟疫的阴影 二、人口即战略 三、从云端到普及 四、人口与地理 第二节 学术与调查 一、学问的起源 二、争鸣与共享 三、本土化 第三节 商业与调查 一、走出象牙塔 二、洞察力 三、网络的催化 四、后发优势 小结 第三章 大数据与炼金术 第一节 公共大数据 一、一次意外的试验 二、游戏的名字叫数据 三、政府的推动 第二节 大数据与大范式 一、人体的秘密 二、一个乐观年代 三、大数据神话的诞生 第三节 大数据探微 一、因关联而不同 二、“化繁为简”的力量 三、神奇的惊叹号 小结 第四章 数据炼金策略 第一节 三大基本策略 一、新算法策略 二、多元化策略 三、替代化策略 第二节 策略与反应 一、以其矛攻其盾 二、小的也是美的 三、“盲点”的价值 四、华生的洞见 第三节 策略与应用 一、“垃圾进,垃圾出”? 二、麦克纳马拉的困惑 三、埃德塞尔症 小结 第五章 数据炼金实践 第一节 数据与决策 一、数据超载的困惑 二、数据修炼 三、数据融合 四、数据的辩证法 第二节 数据仪表板 一、航空业的应用 二、数据的可视化 三、数据链管理 第三节 数据生态圈 一、数据共生 二、数据互生 三、数据重生 小结 第六章 全数据时代的炼金配方 第一节 突破“数据孤岛” 一、数据的开放 二、数据的共享 三、数据链接的力量 第二节 全数据模型 一、数据与阴阳 二、小数据的妙用 三、大数据的溢出 第三节 全数据红利 一、数据“烧烤” 二、数据突围 三、全数据中的大潮流 小结 参考文献 后记 资源截图:
陌佑
百度云
百度云

Storm技术内幕与大数据实践

资源名称:Storm技术内幕与大数据实践 内容简介:  《Storm技术内幕与大数据实践》内容主要围绕实时大数据系统的各个方面展开,从实时平台总体介绍到集群源码、运维监控、实时系统扩展、以用户画像为主的数据平台,最后到推荐、广告、搜索等具体的大数据应用。书中提到的不少问题是实际生产环境中因为数据量增长而遇到的一些真实问题,对即将或正在运用实时系统处理大数据问题的团队会有所帮助。 资源目录: 第1章 绪论   1.1 Storm的基本组件    1.1.1 集群组成    1.1.2 核心概念    1.1.3 Storm的可靠性    1.1.4 Storm的特性   1.2 其他流式处理框架    1.2.1 Apache S4    1.2.2 Spark Streaming    1.2.3 流计算和Storm的应用  第2章 实时平台介绍   2.1 实时平台架构介绍   2.2 Kafka架构    2.2.1 Kafka的基本术语和概念    2.2.2 Kafka在实时平台中的应用    2.2.3 消息的持久化和顺序读写    2.2.4 sendfile系统调用和零复制    2.2.5 Kafka的客户端    2.2.6 Kafka的扩展   2.3 大众点评实时平台    2.3.1 相关数据    2.3.2 实时平台简介    2.3.3 Blackhole   2.4 1号店实时平台  第3章 Storm集群部署和配置   3.1 Storm的依赖组件   3.2 Storm的部署环境   3.3 部署Storm服务    3.3.1 部署ZooKeeper    3.3.2 部署Storm    3.3.3 配置Storm   3.4 启动Storm   3.5 Storm的守护进程   3.6 部署Storm的其他节点   3.7 提交Topology  第4章 Storm内部剖析   4.1 Storm客户端   4.2 Nimbus    4.2.1 启动Nimbus服务    4.2.2 Nimbus服务的执行过程    4.2.3 分配Executor    4.2.4 调度器    4.2.5 默认调度器DefaultScheduler    4.2.6 均衡调度器EvenScheduler   4.3 Supervisor    4.3.1 ISupervisor接口    4.3.2 Supervisor的共享数据    4.3.3 Supervisor的执行过程   4.4 Worker    4.4.1 Worker中的数据流    4.4.2 创建Worker的过程   4.5 Executor    4.5.1 Executor的创建    4.5.2 创建Spout的Executor    4.5.3 创建Bolt的Executor   4.6 Task    4.6.1 Task的上下文对象    4.6.2 Task的创建   4.7 Storm中的统计    4.7.1 stats框架    4.7.2 metric框架   4.8 Ack框架    4.8.1 Ack的原理    4.8.2 Acker Bolt   4.9 Storm总体架构  第5章 Storm运维和监控   5.1 主机信息监控   5.1 日志和监控   5.2 Storm UI和NimbusClient   5.3 Storm Metric的使用   5.4 Storm ZooKeeper的目录   5.5 Storm Hook的使用  第6章 Storm的扩展   6.1 Storm UI的扩展    6.1.1 Storm UI原生功能    6.1.2 Storm UI新功能需求    6.1.3 Storm的Thrift接口   6.2 资源隔离    6.2.1 CGroup测试    6.2.2 基于CGroup的资源隔离的实现  第7章 Storm开发   7.1 简单示例   7.2 调试和日志   7.3 Storm Trident   7.4 Strom DRPC  第8章 基于Storm的实时数据平台   8.1 Hadoop到Storm的代码迁移经验   8.2 实时用户画像    8.2.1 简单实时画像    8.2.2 实时画像优化    8.2.3 实时画像的毫秒级更新   8.3 其他场景画像   8.4 画像的兴趣度模型构建   8.5 外部画像融合经验分享   8.6 交互式查询和分析用户画像   8.7 实时产品和店铺信息更新  第9章 大数据应用案例   9.1 实时DAU计算   9.2 实时个性化推荐    9.2.1 推荐系统介绍    9.2.2 实时推荐系统的方法    9.2.3 基于Storm的实时推荐系统   9.3 广告投放的精准化    9.3.1 点击率预测    9.3.2 搜索引擎营销    9.3.3 精准化营销与千人千面   9.4 实时意图和搜索    9.4.1 用户意图预测    9.4.2 搜索比价    9.4.3 搜索排序  第10章 Storm使用经验和性能优化   10.1 使用经验    10.1.1 使用rebalance命令动态调整并发度    10.1.2 使用tick消息做定时器    10.1.3 使用组件的并行度代替线程池    10.1.4 不要用DRPC批量处理大数据    10.1.5 不要在Spout中处理耗时的操作    10.1.6 log4j的使用技巧    10.1.7 注意fieldsGrouping的数据均衡性    10.1.8 优先使用localOrShuffleGrouping    10.1.9 设置合理的MaxSpoutPending值    10.1.10 设置合理的Worker数    10.1.11 平衡吞吐量和时效性   10.2 性能优化    10.2.1 找到Topology的性能瓶颈    10.2.2 GC参数优化    10.3 性能优化原则   附录A Kafka原理   附录B 将Storm源码导入Eclipse 资源截图:
陌佑
百度云
百度云

可视化数据挖掘:数据可视化和数据挖掘的技术与工具

资源名称:可视化数据挖掘:数据可视化和数据挖掘的技术与工具  内容简介: 本书描述了可视化数据挖掘技术,以及可视化数据挖掘技术能够解决的商业问题。在介绍了业务问题和基本原理后,以一个完整的实例逐步讲解如何利用可视化数据挖掘技术实施商业智能项目的方法。 资源目录: 第1章 数据可视化和可视化数据挖掘介绍 第2章 步骤1:验证和规划数据可视化和数据挖掘项目 第3章 步骤2:识别关键的业务问题 第4章 步骤3:选择业务数据集 第5章 步骤4:转换业务数据集 第6章 步骤5:验证业务数据集 第7章 步骤6:选择可视化或挖掘工具 第8章 步骤7:分析可视化或者挖掘工具 第9章 步骤8:验证和展示可视化或挖掘模型 第10章 可视化数据挖掘的未来 资源截图:
陌佑
百度云
百度云

大数据挖掘:系统方法与实例分析

资源名称:大数据挖掘:系统方法与实例分析 内容简介: 本书是大数据挖掘领域的扛鼎之作,由全球科学计算领域的领导者MathWorks(MATLAB公司)官方的资深数据挖掘专家撰写,MathWorks官方及多位专家联袂推荐。 它从技术、方法、案例和*佳实践4个维度对如何系统、深入掌握大数据挖掘提供了详尽的讲解。 技术:不仅讲解了大数据挖掘的原理、过程、工具,还讲解了大数据的准备、处理、与探索; 方法:既深入地讲解了关联规则方法、回归方法、分类方法、聚类方法、预测方法、诊断方法等6大类数据挖掘主体方法,又重点讲解了时间序列方法和智能优化方法两种数据挖掘中常用的方法; 案例:详细地再现了来自银行、证券、机械、矿业、生命科学和社会科学等6大领域的经典案例,不仅有案例的实现过程,而且还有案例原理和预备知识的的讲解; 首先总结了数据挖掘中确定挖掘、应用技术以及如何平衡的艺术,然后总结了数据挖掘的项目管理和团队管理的艺术。 资源目录: 第一篇基础篇 第1章绪论 1.1 大数据与数据挖掘 1.1.1 何为大数据 1.1.2 大数据的价值 1.1.3 大数据与数据挖掘的关系 1.2 数据挖掘的概念和原理 1.2.1 什么是数据挖掘 1.2.2 数据挖掘的原理 1.3 数据挖掘的内容 1.3.1 关联 1.3.2 回归 1.3.3 分类 1.3.4 聚类 1.3.5 预测 1.3.6 诊断 1.4 数据挖掘的应用领域 1.4.1 零售业 1.4.2 银行业 1.4.3 证券业 1.4.4 能源业 1.4.5 医疗行业 1.4.6 通信行业 1.4.7 汽车行业 1.4.8 公共事业 1.5 大数据挖掘的要点 1.6 小结 参考文献 第2章数据挖掘的过程及工具 2.1 数据挖掘过程概述 2.2 挖掘目标的定义 2.3 数据的准备 2.4 数据的探索 2.5 模型的建立 2.6 模型的评估 2.7 模型的部署 2.8 工具的比较与选择 2.9 小结 参考文献 第3章 MATLAB数据挖掘快速入门 3.1 MATLAB快速入门 3.1.1 MATLAB概要 3.1.2 MATLAB的功能 3.1.3 快速入门案例 3.1.4 入门后的提高 3.2 MATLAB常用技巧 3.2.1 常用标点的功能 3.2.2 常用操作指令 3.2.3 指令编辑操作键 3.2.4 MATLAB数据类型 3.3 MATLAB开发模式 3.3.1 命令行模式 3.3.2 脚本模式 3.3.3 面向对象模式 3.3.4 三种模式的配合 3.4 MATLAB数据挖掘引例 3.5 MATLAB集成数据挖掘工具 3.5.1 分类学习机简介 3.5.2 交互探索算法的方式 3.5.3 MATLAB分类学习机应用实例 3.6 小结 第二篇技术篇 第4章数据的准备 4.1 数据的收集 4.1.1 认识数据 4.1.2 数据挖掘的数据源 4.1.3 数据抽样 4.1.4 金融行业的数据源 4.1.5 从雅虎获取交易数据 4.1.6 从大智慧获取财务数据 4.1.7 从Wind获取高质量数据 4.2 数据质量分析 4.2.1 数据质量分析的必要性 4.2.2 数据质量分析的目地 4.2.3 数据质量分析的内容 4.2.4 数据质量分析方法 4.2.5 数据质量分析的结果及应用 4.3 数据预处理 4.3.1 为什么需要数据预处理 4.3.2 数据预处理的方法 4.3.3 数据清洗 4.3.4 数据集成 4.3.5 数据归约 4.3.6 数据变换 4.4 小结 参考文献 第5章数据的探索 5.1 衍生变量 5.1.1 衍生变量的定义 5.1.2 变量衍生的原则和方法 5.1.3 常用的股票衍生变量 5.1.4 评价型衍生变量 5.1.5 衍生变量数据收集与集成 5.2 数据的统计 5.2.1 基本描述性统计 5.2.2 分布描述性统计 5.3 数据可视化 5.3.1 基本可视化方法 5.3.2 数据分布形状可视化 5.3.3 数据关联情况可视化 5.3.4 数据分组可视化 5.4 样本选择 5.4.1 样本选择的方法 5.4.2 样本选择应用实例 5.5 数据降维 5.5.1 主成分分析(PCA)基本原理 5.5.2 PCA应用案例:企业综合实力排序 5.5.3 相关系数降维 5.6 小结 参考文献 第6章关联规则方法 6.1 关联规则概要 6.1.1 关联规则提出背景 6.1.2 关联规则的基本概念 6.1.3 关联规则的分类 6.1.4 关联规则挖掘常用算法 6.2 Apriori算法 6.2.1 Apriori算法基本思想 6.2.2 Apriori算法步骤 6.2.3 Apriori算法实例 6.2.4 Apriori算法程序实现 6.2.5 算法的优缺点 6.3 FP-Growth算法 6.3.1 FP-Growt算法步骤 6.3.2 FP-Growt算法实例 6.3.3 FP-Growt算法优缺点 6.4 应用实例:行业关联选股法 6.5 小结 参考文献 第7章数据回归方法 7.1 一元回归 7.1.1 一元线性回归 7.1.2 一元非线性回归 7.1.3 一元多项式回归 7.2 多元回归 7.2.1 多元线性回归 7.2.2 多元多项式回归 7.3 逐步归回 7.3.1 逐步回归基本思想 7.3.2 逐步回归步骤 7.3.3 逐步回归的MATLAB方法 7.4 Logistic回归 7.4.1 Logistic模型 7.4.2 Logistic回归实例 7.5 应用实例:多因子选股模型的实现 7.5.1 多因子模型基本思想 7.5.2 多因子模型的实现 7.6 小结 参考文献 第8章分类方法 8.1 分类方法概要 8.1.1 分类的概念 8.1.2 分类的原理 8.1.3 常用的分类方法 8.2 K-近邻(KNN) 8.2.1 K-近邻原理 8.2.2 K-近邻实例 8.2.3 K-近邻特点 8.3 贝叶斯分类 8.3.1 贝叶斯分类原理 8.3.2 朴素贝叶斯分类原理 8.3.3 朴素贝叶斯分类实例 8.3.4 朴素贝叶斯特点 8.4 神经网络 8.4.1 神经网络原理 8.4.2 神经网络实例 8.4.3 神经网络特点 8.5 逻辑斯蒂(Logistic) 8.5.1 逻辑斯蒂原理 8.5.2 逻辑斯蒂实例 8.5.3 逻辑斯蒂特点 8.6 判别分析 8.6.1 判别分析原理 8.6.2 判别分析实例 8.6.3 判别分析特点 8.7 支持向量机(SVM) 8.7.1 SVM基本思想 8.7.2 理论基础 8.7.3 支持向量机实例 8.7.4 支持向量机特点 8.8 决策树 8.8.1 决策树的基本概念 8.8.2 决策树的构建步骤 8.8.3决策树实例 8.8.4 决策树特点 8.9 分类的评判 8.9.1 正确率 8.9.2 ROC曲线 8.10 应用实例:分类选股法 8.10.1 案例背景 8.10.2 实现方法 8.11 延伸阅读:其他分类方法 8.12 小结 参考文献 第9章聚类方法 9.1 聚类方法概要 9.1.1 聚类的概念 9.1.2 类的度量方法 9.1.3 聚类方法的应用场景 9.1.4 聚类方法分类 9.2 K-means方法 9.2.1 K-means原理和步骤 9.2.2 K-means实例1:自主编程 9.2.3 K-means实例2:集成函数 9.2.4 K-means特点 9.3 层次聚类 9.3.1 层次聚类原理和步骤 9.3.2 层次聚类实例 9.3.3 层次聚特点 9.4 神经网络聚类 9.4.1 神经网络聚类原理和步骤 9.4.2 神经网络聚类实例 9.4.3 神经网络聚类特点 9.5 模糊C-均值(FCM)方法 9.5.1 FCM原理和步骤 8.5.2 FCM应用实例 9.5.3 FCM算法特点 9.6 高斯混合聚类方法 9.6.1 高斯混合聚类原理和步骤 9.6.2 高斯聚类实例 9.6.3 高斯聚类特点 9.7 类别数的确定方法 9.7.1 原理 9.7.2 实例 9.8 应用实例:股票聚类分池 9.8.1 聚类目标和数据描述 9.8.2 实现过程 9.8.3 结果及分析 9.9 延伸阅读 9.9.1 目前聚类分析研究的主要内容 9.9.2 SOM智能聚类算法 9.10 小结 参考文献 第10章预测方法 10.1 预测方法概要 10.1.1 预测的概念 10.1.2 预测的基本原理 10.1.3 预测的准确度评价及影响因素 10.1.4 常用的预测方法 10.2 灰色预测 10.2.1 灰色预测原理 10.2.2 灰色预测的实例 10.3 马尔科夫预测 10.3.1 马尔科夫预测原理 10.3.2 马尔科夫过程的特性 10.3.3 马尔科夫预测实例 10.4 应用实例:大盘走势预测 10.4.1 数据的选取及模型的建立 10.4.2 预测过程 10.4.3 预测结果与分析 10.5 小结 参考文献 第11章诊断方法 11.1 离群点诊断概要 11.1.1 离群点诊断的定义 11.1.2 离群点诊断的作用 11.1.3 离群点诊断方法分类 11.2 基于统计的离群点诊断 11.2.1 理论基础 11.2.2 应用实例 11.2.3 优点与缺点 11.3 基于距离的离群点诊断 11.3.1 理论基础 11.3.2 应用实例 11.3.3 优点与缺点 11.4 基于密度的离群点挖掘 11.4.1 理论基础 11.4.2 应用实例 11.4.3 优点与缺点 11.5 基于聚类的离群点挖掘 11.5.1 理论基础 11.5.2 应用实例 11.5.3 优点与缺点 11.6 应用实例:离群点诊断股票买卖择时 11.7 延伸阅读:新兴的离群点挖掘方法 11.7.1 基于关联的离群点挖掘 11.7.2 基于粗糙集的离群点挖掘 11.7.3 基于人工神经网络的离群点挖掘 11.8 小结 参考文献 第12章时间序列方法 12.1 时间序列基本概念 12.1.1 时间序列的定义 12.1.2 时间序列的组成因素 12.1.3 时间序列的分类 12.1.4 时间序列分析方法 12.2 平稳时间序列分析方法 12.2.1 移动平均法 12.2.2 指数平滑法 12.3 季节指数预测法 12.3.1 季节性水平模型 12.3.2 季节性趋势模型 12.4 时间序列模型 12.4.1 ARMA模型 12.4.2 ARIMA模型 12.4.3 ARCH模型 12.4.4 GARCH模型 12.5 应用实例:基于时间序列的股票预测 12.6 小结 参考文献 第13章智能优化方法 13.1 智能优化方法概要 13.1.1 智能优化方法的概念 13.1.2 常用的智能优化方法 13.2 遗传算法 13.2.1 遗传算法的原理 13.2.2 遗传算法的步骤 13.2.3 遗传算法实例 13.2.4 遗传算法的特点 13.3 模拟退火算法 13.3.1 模拟退火算法的原理 13.3.2 模拟退火算法步骤 13.3.3 模拟退火算法实例 13.3.4 模拟退火算法的特点 13.4 延伸阅读:其它智能方法 13.4.1 粒子群算法 13.4.2 蚁群算法 13.5 小结 参考文献 第三篇项目篇 第14章数据挖掘在银行信用评分中的应用 14.1 概述 14.1.1 信用评分的概念 14.1.2 信用评分的意义 14.1.3 个人信用评分的影响因素 14.1.4 信用评分的方法 14.2 DM法信用评分实施过程 14.2.1 数据的准备 14.2.2 数据预处理 14.2.3 logistics模型 14.2.4 神经网络模型 14.3 AHP信用评分方法 14.3.1 AHP法简介 14.3.2 AHP法信用评分实例 14.4 延伸阅读:企业信用评级 14.5 小结 第15章数据挖掘在量化选股中的应用 15.1 量化选股概述 15.1.1 量化选股定义 15.1.2 量化选股实现过程 15.1.3 量化选股的分类 15.2 数据的处理及探索 15.2.1 获取股票日交易数据 15.2.2 计算指标 15.2.3 数据标准化 15.2.4 变量筛选 15.3 模型的建立及评估 15.3.1 股票预测的基本思想 15.3.2 模型的训练及评价 15.4 组合投资的优化 15.4.1 组合投资的理论基础 15.4.2 组合投资的实现 15.5 量化选股的实施 15.6 小结 参考文献 第16章数据挖掘在工业故障诊断中的应用 16.1 故障诊断概述 16.1.1 故障诊断的概念 16.1.2 故障诊断的方法 16.1.3 数据挖掘技术的故障诊断原理 16.2 DM设备故障诊断实例 16.2.1 加载数据 16.2.2 探索数据 16.2.3 设置训练样本的测试样本 16.2.4 决策树方法训练模型 16.2.5 集成决策树方法训练模型 16.3 小结 第17章数据挖掘技术在矿业工程中的应用 17.1 概述 17.1.1 矿业工程的内容 17.1.2 矿业工程的数据及特征 17.1.3 数据挖掘技术在矿业工程中的作用 17.2 矿业工程数据挖掘实例:提纯预测 17.2.1 数据的集成 17.2.2 采用插值方式处理缺失值 17.2.3 设置建模数据及验证方式 17.2.4 多元线性回归模型 17.3 小结 参考文献 第18章数据挖掘技术在生命科学中的应用 18.1 概述 18.1.1 生命科学的研究内容 18.1.2 生命科学中大数据的特征 18.1.3 数据挖掘技术在生命科学中的作用 18.2 生命科学数据挖掘实例:基因表达模式挖掘 18.2.1 加载数据 18.2.2 数据初探 18.2.3 数据清洗 18.2.4 层次聚类 18.2.5 K-means聚类 18.3 小结 参考文献 第19章数据挖掘在社会科学研究中的应用 19.1 概述 19.1.1 社会学研究的内容 19.1.2 社会学研究的方法 19.1.3 数据挖掘在社会科学研究中的应用情况 19.2 社会科学挖掘实例:人类行为研究 19.2.1 加载数据 19.2.2 数据可视化 19.2.3 神经网络 19.2.4 混淆矩阵评价分类器 19.2.5 ROC法评价分类器 19.2.6 变量优选 19.2.7 用优选的变量训练网络 19.3 小结 第四篇理念篇 第20章数据挖掘的艺术 20.1 确定数据挖掘目标的艺术 20.1.1 数据挖掘中的商业意识 20.1.2 商业意识到数据挖掘目标 20.1.3 商业意识的培养 20.2 应用技术的艺术 20.2.1 技术服务于业务的艺术 20.2.2 算法选择的艺术 20.2.3 与机器配合的艺术 20.3 数据挖掘中平衡的艺术 20.3.1 客观与主观的平衡 20.3.2 数据量的平衡 20.4 理性对待大数据时代 20.4.1 发展大数据应避免的误区 20.4.2 正确认识大数据的价值 20.4.3 正面大数据应用面临的挑战 20.5 小结 参考文献 第21章数据挖掘的项目管理和团队管理 21.1 数据挖掘项目实施之道 21.1.1 确定可行的目标 21.1.2 遵守数据挖掘流程 21.1.3 项目的质量控制 21.1.4 项目效率 21.1.5 成本控制 21.1.6 数据挖掘过程改进 21.2 数据挖掘团队的组建 21.2.1 数据挖掘项目团队的构成 21.2.2 团队负责人 21.3 数据挖掘团队的管理 21.3.1 团队管理的目标与策略 21.3.2 规范化的管理 21.4 优秀数据挖掘人才的修炼 21.4.1 专业知识与技术 21.4.2 快速获取知识的技能 21.4.3 提高表达能力 21.4.4 提高管理能力 21.4.5 培养对数据挖掘的热情 21.5 小结 资源截图:
陌佑
百度云
百度云

深入理解Hadoop.第2版

资源名称:深入理解Hadoop.第2版  内容简介: 本书作者基于对Hadoop系统的实践,深入浅出地对Hadoop进行了详细的讲解,包含大量的实例和技巧,可帮助有一定基础的开发者快速掌握分布式系统。主要内容包括:第1章~第4章讲解大数据系统的基本概念、Hadoop系统的关键概念,以及进行Hadoop平台管理的关键概念要素。第5章~第7章是本书的重点,深入分析了MapReduce框架,不仅包括MapReduce框架的API,还介绍MapReduce框架的更复杂概念及其设计理念。第8章~第14章介绍Hadoop生态系统,包括支持MapReduce程序的单元测试和集成测试框架、Hadoop系统的监控和日志系统、Hive框架、Pig和Crunch框架、HCatalog框架、Hadoop日志流处理、HBase等。第15章~第17章介绍了数据科学基本概念及应用、云计算实例、分布式下载服务实例等。 资源目录: 译者序 作者简介 前言 第1章为什么会有大数据1 第2章Hadoop中的概念13 第3章初识Hadoop框架34 第4章Hadoop系统管理51 第5章MapReduce开发基础78 第6章MapReduce开发进阶111 第7章 Hadoop输入/输出155 第8章 测试Hadoop程序186 第9章Hadoop的监控203 第10章使用Hadoop构建数据仓库215 第11章使用Pig进行数据处理238 第12章HCatalog和企业级Hadoop266 第13章使用Hadoop分析日志277 第14章使用HBase构建实时系统286 第15章Hadoop与数据科学317 第16章Hadoop与云计算334 第17章构建YARN应用程序349 附录A安装Hadoop 附录B使用Maven和Eclipse 附录CApache Ambari 资源截图:
陌佑
百度云
百度云

高可用性的HDFS——Hadoop分布式文件系统深度实践

资源名称:高可用性的HDFS——Hadoop分布式文件系统深度实践 内容简介: 《高可用性的hdfs—hadoop分布式文件系统深度实践》专注于hadoop分布式文件系统(hdfs)的主流ha解决方案,内容包括:hdfs元数据解析、hadoop元数据备份方案、hadoopbackup node方案、avatarnode解决方案以及最新的ha解决方案cloudrea ha namenode等。其中有关backupnode方案及avatarnode方案的内容是本书重点,尤其是对avatarnode方案从运行机制到异常处理方案的步骤进行了详尽介绍,同时还总结了各种异常情况下avatarnode的各种处理方案。   《高可用性的hdfs—hadoop分布式文件系统深度实践》从代码入手并结合情景分析、案例解说对hdfs的元数据以及主流的hdfsha解决方案的运行机制进行了深入剖析,力求使读者在解决问题时做到心中有数,不仅知其然还知其所以然。   本书光盘包含本书部分操作的视频教程以及所有源代码、脚本等开发文件。   《高可用性的hdfs—hadoop分布式文件系统深度实践》读者主要为云计算相关领域的研发人员、云计算系统管理维护人员,也适合作为高校研究生和高年级本科生的专业课辅助教材。 资源目录: 第1章 hdfs ha及解决方案  1.1 hdfs系统架构  1.2 ha定义  1.3 hdfs ha原因分析及应对措施  1.3.1 可靠性  1.3.2 可维护性  1.4 现有hdfs ha解决方案  1.4.1 hadoop的元数据备份方案  1.4.2 hadoop的secondarynamenode方案  1.4.3 hadoop的checkpoint ode方案  1.4.4 hadoop的backupnode方案  1.4.5 drdb方案  1.4.6 facebook的avatarnode方案  1.5 方案优缺点比较 第2章 hdfs元数据解析  2.1 概述  2.2 内存元数据结构  2.2.1 inode  2.2.2 block    2.2.3 blockinfo和datanodedescriptor  2.2.4 小结  2.2.5 代码分析——元数据结构  2.3 磁盘元数据文件  2.4 format情景分析  2.5 元数据应用场景分析 第3章 hadoop的元数据备份方案  3.1 运行机制分析  3.1.1 namenode启动加载元数据情景分析  3.1.2 元数据更新及日志写入情景分析  3.1.3 checkpoint过程情景分析  3.1.4 元数据可靠性机制  3.1.5 元数据一致性机制  3.2 使用说明 第4章 hadoop的backup node方案  4.1 backup node概述  4.1.1 系统架构  4.1.2 使用原则  4.1.3 优缺点  4.2 运行机制分析  4.2.1 启动流程  4.2.2 元数据操作情景分析  4.2.3 日志池(journal spool)机制  4.2.4 故障切换机制  4.3 实验方案说明  4.4 构建实验环境  4.4.1 网络拓扑  4.4.2 系统安装及配置  4.4.3 安装jdk  4.4.4 虚拟机集群架设  4.4.5 namenode安装及配置  4.4.6 backup node安装及配置  4.4.7 data node安装及配置  4.4.8 clients安装及配置  4.5 异常解决方案  4.5.1 异常情况分析  4.5.2 namenode配置  4.5.3 backup node配置  4.5.4 data node配置  4.5.5 namenode宕机切换实验  4.5.6 namenode宕机读写测试   第5章 avatarnode运行机制  5.1 方案说明  5.1.1 系统架构  5.1.2 思路分析  5.1.3 性能数据  5.2 元数据分析  5.2.1 类fsnamesystem  5.2.2 类fsdirectory  5.2.3 avatarnode的磁盘元数据文件  5.3 avatarnode primary启动过程  5.4 avatarnode standby启动过程  5.4.1 avatarnode的构造方法  5.4.2 standby线程的run()方法  5.4.3 ingest线程的run()方法  5.4.4 ingest线程的ingestfsedits ()方法  5.4.5 standby线程的docheckpoint()方法  5.5 用户操作情景分析  5.5.1 创建目录情景分析  5.5.2 创建文件情景分析  5.6 avatarnode standby故障切换过程  5.7 元数据一致性保证机制  5.7.1 元数据目录树信息  5.7.2 data node与block数据块映射信息  5.8 block更新同步问题  5.8.1 问题描述  5.8.2 结论  5.8.3 源码分析 第6章 avatarnode使用  6.1 方案说明  6.1.1 网络拓扑  6.1.2 操作系统安装及配置  6.2 使用avatar打补丁版本  6.2.1 hadoop源码联机build  6.2.2 hadoop源码本地build  6.2.3 nfs服务器构建  6.2.4 avatar分发与部署  6.2.5 primary(namenode0)节点配置  6.2.7 data node节点配置  6.2.8 client节点配置  6.2.9 创建目录  6.2.10 挂载nfs  6.2.11 启动ucarp  6.2.12 格式化  6.2.13 系统启动  6.2.14 检查  6.2.15 namenode失效切换写文件实验  6.2.16 namenode失效切换读文件实验  6.3 avatar facebook版本的使用  6.3.1 hadoop facebook版本安装  6.3.2 节点配置  6.3.3 启动hdfs  6.3.4 namenode失效切换 第7章 avatarnode异常解决方案  7.1 测试环境  7.2 primary失效  7.2.1 解决方案  7.2.2 写操作实验步骤  7.2.3 改进写操作机制  7.2.4 读操作实验步骤  7.2.5 小结  7.3 standby失效  7.4 nfs失效(数据未损坏)  7.4.1 解决方案  7.4.2 写操作实验步骤  7.4.3 读操作实验步骤  7.4.4 小结  7.5 nfs失效(数据已损坏)  7.5.1 解决方案  7.5.2 写操作实验步骤  7.5.3 读操作实验步骤  7.5.4 小结  7.6 primary先失效,nfs后失效(数据未损坏)  7.6.1 解决方案  7.6.2 写操作实验步骤  7.6.3 读操作实验步骤  7.6.4 小结  7.7 primary先失效(数据未损坏),nfs后失效(数据损坏)  7.7.1 解决方案  7.7.2 写操作实验步骤  7.7.3 读操作实验步骤  7.7.4 小结  7.8 nfs先失效(数据未损坏),primary后失效  7.8.1 解决方案  7.8.2 写操作实验步骤  7.8.3 读操作实验步骤  7.8.4 小结  7.9 nfs先失效(数据损坏),primary后失效(数据损坏)  7.9.1 解决方案  7.9.2 写操作实验步骤  7.9.3 读操作实验步骤  7.9.4 小结  7.10 实验结论 第8章 cloudera ha namenode使用  8.1 ha namenode说明  8.2 cdh4b1版本hdfs集群配置  8.2.1 虚拟机安装  8.2.2 nn1配置  8.2.3 dn1~dn3配置  8.2.4 hdfs集群构建  8.3 ha namenode配置  8.3.1 nn1配置  8.3.2 其他节点配置  8.4 ha namenode使用  8.4.1 启动ha hdfs集群  8.4.2 第1次failover  8.4.3 模拟写操作  8.4.4 模拟active name node失效,第2次failover  8.3.5 模拟新的standby namenode加入  8.5 小结 资源截图:
陌佑
百度云
百度云
⬅️ 1...20392040204120422043...3148

添加微信,反馈问题

微信及时反馈问题,方便沟通,请备注 ❤️

搜索榜单

1

骚老板资源网整站源码 打包数据高达2GB

1690

2

绿色风格网络公司源码 php网络建站公司源码

1092

3

(自适应手机版)响应式餐饮美食企业网站源码 餐饮品牌连锁机构织梦模板

1049

4

雷速问卷调查系统(疫情上报系统) v7.08

936

5

Zblog仿918回忆模特写真网带整站数据图库系统源码

894

6

一款笑话类网站源码 简约清爽的织梦笑话网站模板

819

最新资源

1

网狐电玩系列/乐游电玩城/免微信免短信登陆

2

湖南地方玩法好玩互娱纯源码

3

最新更新网狐旗舰大联盟+UI工程

4

傲玩系列客户端通用加解密工具

5

优米H5电玩城组件/多语言/带84个游戏/后台带控+搭建视频教程

6

网狐系列猫娱乐新UI蜡笔小新金币组件

友情链接:
免费APISSL在线检测在线pingAPI版本项目seo教程免费下载狗凯源码网 查看更多
网站地图 法律声明
本站所存储的源码数据均为转载,不提供在线播放和下载服务。本站为非盈利性,不收取费用,所有内容不用于商业行为,仅供学习交流使用。如有侵权,请联系15001904@qq.com
  • 联系微信,反馈问题

  • 点此立刻反馈