在线网盘资源搜索下载资源搜

Spark MLlib机器学习实践（第2版）

资源名称：Spark MLlib机器学习实践（第2版）内容简介： Spark作为新兴的、应用范围*为广泛的大数据处理开源框架引起了广泛的关注，它吸引了大量程序设计和开发人员进行相关内容的学习与开发，其中MLlib是Spark框架使用的核心。本书是一本细致介绍Spark MLlib程序设计的图书，入门简单，示例丰富。本书分为13章，从Spark基础安装和配置开始，依次介绍MLlib程序设计基础、MLlib的数据对象构建、MLlib中RDD使用介绍，各种分类、聚类、回归等数据处理方法，*后还通过一个完整的实例，回顾了前面的学习内容，并通过代码实现了一个完整的分析过程。本书理论内容由浅而深，采取实例和理论相结合的方式，讲解细致直观，适合Spark MLlib初学者、大数据分析和挖掘人员，也适合高校和培训学习相关专业的师生教学参考。资源目录：第1章星星之火 1 1.1 大数据时代 1 1.2 大数据分析时代 2 1.3 简单、优雅、有效——这就是Spark3 1.4 核心——MLlib 4 1.5 星星之火，可以燎原 6 1.6 小结 6 第2章 Spark安装和开发环境配置 7 2.1 Windows单机模式Spark安装和配置 7 2.1.1 Windows 7安装Java 7 2.1.2 Windows 7安装Scala 10 2.1.3 Intellij IDEA下载和安装 13 2.1.4 Intellij IDEA中Scala插件的安装 14 2.1.5 HelloJava——使用Intellij IDEA创建Java程序 18 2.1.6 HelloScala——使用Intellij IDEA创建Scala程序 21 2.1.7 最后一脚——Spark单机版安装 26 2.2 经典的WordCount29 2.2.1 Spark实现WordCount 29 2.2.2 MapReduce实现WordCount 31 2.3 小结 34 第3章 RDD详解 35 3.1 RDD是什么 35 3.1.1 RDD名称的秘密 35 3.1.2 RDD特性 36 3.1.3 与其他分布式共享内存的区别 37 3.1.4 RDD缺陷 37 3.2 RDD工作原理 38 3.2.1 RDD工作原理图 38 3.2.2 RDD的相互依赖 38 3.3 RDD应用API详解 39 3.3.1 使用aggregate方法对给定的数据集进行方法设定 39 3.3.2 提前计算的cache方法 42 3.3.3 笛卡尔操作的cartesian方法 43 3.3.4 分片存储的coalesce方法 44 3.3.5 以value计算的countByValue方法 45 3.3.6 以key计算的countByKey方法 45 3.3.7 除去数据集中重复项的distinct方法 46 3.3.8 过滤数据的filter方法 47 3.3.9 以行为单位操作数据的flatMap方法 47 3.3.10 以单个数据为目标进行操作的map方法 48 3.3.11 分组数据的groupBy方法 48 3.3.12 生成键值对的keyBy方法 49 3.3.13 同时对两个数据进行处理的reduce方法 50 3.3.14 对数据进行重新排序的sortBy方法 51 3.3.15 合并压缩的zip方法 52 3.4 小结 53 第4章 MLlib基本概念 54 4.1 MLlib基本数据类型 54 4.1.1 多种数据类型 54 4.1.2 从本地向量集起步 55 4.1.3 向量标签的使用 56 4.1.4 本地矩阵的使用 58 4.1.5 分布式矩阵的使用 59 4.2 MLlib数理统计基本概念 62 4.2.1 基本统计量 62 4.2.2 统计量基本数据 63 4.2.3 距离计算 64 4.2.4 两组数据相关系数计算 65 4.2.5 分层抽样 67 4.2.6 假设检验 69 4.2.7 随机数 70 4.3 小结 71 第5章协同过滤算法 72 5.1 协同过滤 72 5.1.1 协同过滤概述 72 5.1.2 基于用户的推荐 73 5.1.3 基于物品的推荐 74 5.1.4 协同过滤算法的不足 75 5.2 相似度度量 75 5.2.1 基于欧几里得距离的相似度计算 75 5.2.2 基于余弦角度的相似度计算 76 5.2.3 欧几里得相似度与余弦相似度的比较 77 5.2.4 第一个例子——余弦相似度实战 77 5.3 MLlib中的交替最小二乘法（ALS算法） 80 5.3.1 最小二乘法（LS算法）详解 81 5.3.2 MLlib中交替最小二乘法（ALS算法）详解 82 5.3.3 ALS算法实战 83 5.4 小结 85 第6章 MLlib线性回归理论与实战 86 6.1 随机梯度下降算法详解 86 6.1.1 道士下山的故事 87 6.1.2 随机梯度下降算法的理论基础 88 6.1.3 随机梯度下降算法实战 88 6.2 MLlib回归的过拟合 89 6.2.1 过拟合产生的原因 90 6.2.2 lasso回归与岭回归 91 6.3 MLlib线性回归实战 91 6.3.1 MLlib线性回归基本准备 91 6.3.2 MLlib线性回归实战：商品价格与消费者收入之间的关系 94 6.3.3 对拟合曲线的验证 95 6.4 小结 97 第7章 MLlib分类实战 98 7.1 逻辑回归详解 98 7.1.1 逻辑回归不是回归算法 98 7.1.2 逻辑回归的数学基础 99 7.1.3 一元逻辑回归示例 100 7.1.4 多元逻辑回归示例 101 7.1.5 MLlib逻辑回归验证 103 7.1.6 MLlib逻辑回归实例：肾癌的转移判断 104 7.2 支持向量机详解 106 7.2.1 三角还是圆 106 7.2.2 支持向量机的数学基础 108 7.2.3 支持向量机使用示例 109 7.2.4 使用支持向量机分析肾癌转移 110 7.3 朴素贝叶斯详解 111 7.3.1 穿裤子的男生or女生 111 7.3.2 贝叶斯定理的数学基础和意义 112 7.3.3 朴素贝叶斯定理 113 7.3.4 MLlib朴素贝叶斯使用示例 114 7.3.5 MLlib朴素贝叶斯实战：“僵尸粉”的鉴定 115 7.4 小结 117 第8章决策树与保序回归 118 8.1 决策树详解 118 8.1.1 水晶球的秘密 119 8.1.2 决策树的算法基础：信息熵 119 8.1.3 决策树的算法基础——ID3算法 121 8.1.4 MLlib中决策树的构建 122 8.1.5 MLlib中决策树示例 123 8.1.6 随机雨林与梯度提升算法（GBT） 125 8.2 保序回归详解 127 8.2.1 何为保序回归 128 8.2.2 保序回归示例 128 8.3 小结 129 第9章 MLlib中聚类详解 130 9.1 聚类与分类 130 9.1.1 什么是分类 130 9.1.2 什么是聚类 131 9.2 MLlib中的Kmeans算法 131 9.2.1 什么是kmeans算法 131 9.2.2 MLlib中Kmeans算法示例 133 9.2.3 Kmeans算法中细节的讨论 134 9.3 高斯混合聚类 135 9.3.1 从高斯分布聚类起步 135 9.3.2 混合高斯聚类 137 9.3.3 MLlib高斯混合模型使用示例 137 9.4 快速迭代聚类 138 9.4.1 快速迭代聚类理论基础 138 9.4.2 快速迭代聚类示例 139 9.5 小结 140 第10章 MLlib中关联规则 141 10.1 Apriori频繁项集算法 141 10.1.1 啤酒与尿布 141 10.1.2 经典的Apriori算法 142 10.1.3 Apriori算法示例 144 10.2 FP-growth算法 145 10.2.1 Apriori算法的局限性 145 10.2.2 FP-growth算法 145 10.2.3 FP树示例 148 10.3 小结 149 第11章数据降维 150 11.1 奇异值分解（SVD） 150 11.1.1 行矩阵（RowMatrix）详解 150 11.1.2 奇异值分解算法基础 151 11.1.3 MLlib中奇异值分解示例 152 11.2 主成分分析（PCA） 153 11.2.1 主成分分析（PCA）的定义 154 11.2.2 主成分分析（PCA）的数学基础 154 11.2.3 MLlib中主成分分析（PCA）示例 155 11.3 小结 156 第12章特征提取和转换 157 12.1 TF-IDF 157 12.1.1 如何查找所要的新闻 157 12.1.2 TF-IDF算法的数学计算 158 12.1.3 MLlib中TF-IDF示例 159 12.2 词向量化工具 160 12.2.1 词向量化基础 160 12.2.2 词向量化使用示例 161 12.3 基于卡方检验的特征选择 162 12.3.1 “吃货”的苦恼 162 12.3.2 MLlib中基于卡方检验的特征选择示例 163 12.4 小结 164 第13章 MLlib实战演练——鸢尾花分析166 13.1 建模说明 166 13.1.1 数据的描述与分析目标 166 13.1.2 建模说明 168 13.2 数据预处理和分析 171 13.2.1 微观分析——均值与方差的对比分析 171 13.2.2 宏观分析——不同种类特性的长度计算 174 13.2.3 去除重复项——相关系数的确定 176 13.3 长与宽之间的关系——数据集的回归分析 180 13.3.1 使用线性回归分析长与宽之间的关系 180 13.3.2 使用逻辑回归分析长与宽之间的关系 183 13.4 使用分类和聚类对鸢尾花数据集进行处理 184 13.4.1 使用聚类分析对数据集进行聚类处理 184 13.4.2 使用分类分析对数据集进行分类处理 187 13.5 最终的判定——决策树测试 188 13.5.1 决定数据集的归类——决策树 188 13.5.2 决定数据集归类的分布式方法——随机雨林 190 13.6 小结 191 资源截图：

陌佑

百度云

OpenStack运维指南

资源名称：OpenStack运维指南内容简介：本书分两部分，全面介绍如何构建基于参考架构的OpenStack云系统和执行日常管理任务。**部分全面介绍如何充分发挥OpenStack强大的灵活性，通过各种正确决策造**配置，主要内容涉及架构示例、自动部署与配置、云控制器设计与云系统管理、计算节、扩展与隔离、存储决策和网络设计。第二部分讲解OpenStack云系统的日常操作，主要内容包括OpenStack控制面板、项目和用户管理、面向用户的运维、故障与调试、网络排障、日志功能与监控、备份与恢复、定制化、通过OpenStack社区获得支持、高级配置以及如何升级。本书分两部分，全面介绍如何构建基于参考架构的OpenStack云系统和执行日常管理任务。**部分全面介绍如何充分发挥OpenStack强大的灵活性，通过各种正确决策造**配置，主要内容涉及架构示例、自动部署与配置、云控制器设计与云系统管理、计算节、扩展与隔离、存储决策和网络设计。第二部分讲解OpenStack云系统的日常操作，主要内容包括OpenStack控制面板、项目和用户管理、面向用户的运维、故障与调试、网络排障、日志功能与监控、备份与恢复、定制化、通过OpenStack社区获得支持、高级配置以及如何升级。资源目录：前言　　xiii 第一部分　架构第1章　架构示例　　3 1.1　架构示例：传统网络模型（nova）　　3 1.1.1　概述　　4 1.1.2　详细描述　　6 1.1.3　可选的扩展　　8 1.2　架构示例：OpenStack网络服务　　8 1.2.1　概述　　8 1.2.2　详细描述　　10 1.2.3　组件配置示例　　16 1.3　关于架构的最后几句话　　19 第2章　准备及部署　　20 2.1　自动化部署　　20 2.1.1　磁盘分区及RAID　　21 2.1.2　网络配置　　23 2.2　自动化配置　　23 2.3　远程管理　　23 2.4　关于准备和部署OpenStack的最后几句话　　24 2.5　总结　　24 第3章　云控制器设计和云系统管理　　25 3.1　硬件注意事项　　26 3.2　服务的分隔　　27 3.3　数据库　　28 3.4　消息队列　　28 3.5　向导服务　　28 3.6　应用程序接口（API）　　29 3.7　扩展　　29 3.8　调度　　29 3.9　镜像　　30 3.10　控制面板　　30 3.11　认证及授权　　31 3.12　网络相关注意事项　　31 第4章　计算节点　　32 4.1　选择CPU　　32 4.2　选择超级管理程序　　33 4.3　实例存储解决方案　　33 4.3.1　非计算节点存储：共享文件系统　　34 4.3.2　计算节点存储：共享文件系统　　35 4.3.3　计算节点存储：非共享文件系统　　35 4.3.4　动态迁移的问题　　35 4.3.5　文件系统的选择　　36 4.4　过量分配　　36 4.5　日志记录　　37 4.6　网络连接　　37 4.7　总结　　37 第5章　扩展　　38 5.1　起点　　38 5.2　添加云控制器节点　　40 5.3　隔离云系统　　40 5.3.1　nova单元和区域　　41 5.3.2　可用域和主机集合　　41 5.4　可扩展的硬件　　43 5.4.1　硬件采购　　43 5.4.2　容量规划　　44 5.4.3　老化测试　　44 第6章　存储决策　　45 6.1　临时性存储　　45 6.2　持久性存储　　45 6.2.1　对象存储　　45 6.2.2　块存储　　47 6.3　OpenStack存储概念　　47 6.4　选择存储后端　　48 6.5　结论　　51 第7章　网络设计　　52 7.1　管理网络　　52 7.2　公共地址选项　　53 7.3　IP地址规划　　53 7.4　网络拓扑　　54 7.4.1　OpenStack虚拟机内部的VLAN配置　　55 7.4.2　多网卡分配　　56 7.4.3　多主机和单主机网络　　56 7.5　网络服务　　56 7.5.1　NTP　　56 7.5.2　DNS　　56 7.6　总结　　57 第二部分　运维第8章　了解全局　　61 8.1　使用OpenStack控制面板进行管理　　61 8.2　命令行工具　　61 8.2.1　安装工具软件　　62 8.2.2　管理的命令行工具　　62 8.2.3　获得凭据　　63 8.2.4　检查API调用　　64 8.2.5　服务器和服务　　66 8.2.6　计算节点诊断　　67 8.3　网络检查　　68 8.4　用户和项目　　69 8.5　正在运行的实例　　70 8.6　总结　　71 第9章　管理项目和用户　　72 9.1　项目还是租户　　72 9.2　管理项目　　73 9.3　配额　　74 9.3.1　设置镜像配额　　74 9.3.2　设置计算服务配额　　75 9.3.3　设置对象存储配额　　77 9.3.4　设置块存储配额　　79 9.4　用户管理　　80 9.5　创建新用户　　80 9.6　将用户与项目关联　　81 9.6.1　授权定制化　　83 9.6.2　用户间的干扰　　84 9.7　总结　　85 第10章　面向用户的运维　　86 10.1　镜像　　86 10.1.1　添加镜像　　86 10.1.2　在项目间共享镜像　　87 10.1.3　删除镜像　　87 10.1.4　其他命令行界面选项　　88 10.1.5　镜像服务和数据库　　88 10.1.6　镜像服务数据库查询示例　　88 10.2　flavor　　88 10.2.1　私有flavor　　89 10.2.2　如何修改现存的flavor　　90 10.3　安全组　　90 10.3.1　通用的安全组配置　　90 10.3.2　终端用户的安全组配置　　91 10.4　块存储　　93 10.5　实例　　94 10.5.1　启动实例　　94 10.5.2　实例启动失败　　95 10.5.3　使用实例特有的数据　　96 10.6　关联安全组　　98 10.7　浮动IP　　98 10.8　添加块存储　　99 10.9　制作快照　　100 10.10　数据库中的实例　　102 10.11　祝你好运！　　103 第11章　维护、故障和调试　　104 11.1　云控制器和存储代理的故障及维护　　104 11.1.1　计划中的维护　　104 11.1.2　重启云控制器或存储代理　　104 11.1.3　重启云控制器或存储代理之后　　105 11.1.4　云控制器彻底故障　　105 11.2　计算节点的故障和维护　　106 11.2.1　计划中的维护　　106 11.2.2　计算节点重启之后　　106 11.2.3　虚拟机实例　　107 11.2.4　检测并从故障实例中恢复数据　　107 11.2.5　卷　　110 11.2.6　计算节点彻底故障　　110 11.2.7　/var/lib/nova/instances　　 111 11.3　存储节点故障和维护　　112 11.3.1　重启存储节点　　112 11.3.2　关闭存储节点　　112 11.3.3　更换一块Swift 磁盘　　112 11.4　处理彻底故障　　113 11.5　配置管理　　114 11.6　使用硬件　　114 11.6.1　添加计算节点　　114 11.6.2　添加对象存储节点　　115 11.6.3　替换组件　　115 11.7　数据库　　115 11.7.1　数据库连接　　115 11.7.2　性能与优化　　116 11.8　HDWMY　　116 11.8.1　每小时　　116 11.8.2　每天　　116 11.8.3　每星期　　116 11.8.4　每个月　　117 11.8.5　每季度　　117 11.8.6　每半年　　117 11.9　确定哪个组件已被破坏　　117 11.9.1　跟踪日志　　117 11.9.2　CLI上运行的守护进程　　118 11.10　卸载　　119 第12章　网络排障　　120 12.1　使用“ip a”检查网络接口状态　　120 12.2　云中的nova-network流量虚拟化　　121 12.3　云中的OpenStack网络服务流量虚拟化　　122 12.4　找出网络路径中的故障　　128 12.4.1　tcpdump　　128 12.4.2　iptables　　129 12.5　nova-network在数据库中的网络配置　　130 12.6　用nova-network排查DHCP故障　　131 12.7　DNS故障排查　　134 12.8　Open vSwitch故障排查　　135 12.9　处理网络命名空间　　136 12.10　总结　　137 第13章　日志和监控　　138 13.1　日志在哪里　　138 13.2　阅读日志　　139 13.3　跟踪实例的请求　　140 13.4　添加自定义日志语句　　141 13.5　RabbitMQ Web管理界面或rabbitmqctl　　141 13.6　集中化日志管理　　142 13.6.1　rsyslog客户端配置　　142 13.6.2　rsyslog服务器端配置　　143 13.7　StackTach　　144 13.8　监控　　144 13.8.1　进程监控　　144 13.8.2　资源告警　　145 13.8.3　用Ceilometer来测量和遥测　　146 13.8.4　OpenStack特有的资源　　146 13.8.5　智能告警　　148 13.8.6　趋势分析　　149 13.9　总结　　150 第14章　备份和恢复　　151 14.1　备份什么　　151 14.2　数据库备份　　152 14.3　文件系统备份　　152 14.3.1　计算服务　　152 14.3.2　镜像目录和发送　　153 14.3.3　身份服务　　153 14.3.4　块存储　　153 14.3.5　对象存储　　153 14.4　恢复备份　　153 14.5　总结　　154 第15章　定制化　　155 15.1　创建OpenStack开发环境　　156 15.2　定制对象存储（swfit）中间件　　158 15.3　定制OpenStack计算服务（nova）调度器　　164 15.4　定制控制面板（Horizon）　　169 15.5　总结　　169 第16章　OpenStack上游　　170 16.1　获得帮助　　170 16.2　报告bug　　171 16.2.1　确认和划分优先级　　172 16.2.2　修复bug　　173 16.2.3　修复被接受后　　173 16.3　加入OpenStack社区　　173 16.4　如何为文档作贡献　　174 16.5　安全信息　　174 16.6　查找额外的信息　　175 第17章　高级配置　　176 17.1　不同驱动间的区别　　176 17.2　执行周期性任务　　177 17.3　谈谈具体的配置　　178 17.3.1　计算服务、组网和存储的安全配置　　178 17.3.2　高可用性　　178 17.3.3　启用IPv6支持　　178 17.3.4　计算服务的周期性任务频率　　178 17.3.5　对象存储的地理注意事项　　178 第18章　升级　　180 18.1　升级之前的测试环境　　180 18.2　准备回滚　　181 18.3　升级　　181 18.4　如何从Grizzly升级到Havana：Ubuntu　　182 18.4.1　对用户的影响　　182 18.4.2　升级的注意事项　　182 18.4.3　做备份　　183 18.4.4　管理仓库　　183 18.4.5　升级配置文件　　183 18.4.6　在控制器节点上升级软件包　　185 18.4.7　在控制器节点上停止服务、升级数据库模式，并重启服务　　186 18.4.8　在计算节点上升级软件包和重启服务　　187 18.4.9　在块存储节点上升级软件包和重启服务　　187 18.5　如何从Grizzly升级到Havana：Red Hat Enterprise Linux和其衍生版　　188 18.5.1　对用户的影响　　188 18.5.2　升级的注意事项　　188 18.5.3　做备份　　188 18.5.4　管理仓库　　189 18.5.5　升级配置文件　　189 18.5.6　在控制器节点上升级软件包　　191 18.5.7　在控制器节点上停止服务，升级数据库模式，并重启服务　　192 18.5.8　在计算节点上升级软件包和重启服务　　193 18.5.9　在块存储节点上升级软件包和重启服务　　193 18.6　清理和最终的配置文件升级　　194 18.7　回滚一次失败的升级　　194 附录A　用例　　198 附录B　云中秘事　　202 附录C　使用路线图　　212 附录D　Icehouse预览　　218 附录E　参考资源　　227 术语表　　229 资源截图：

陌佑

百度云

资源搜

大数据时代的算法：机器学习、人工智能及其典型实例

大数据大创新-阿里巴巴云上数据中台之道

Hadoop YARN权威指南

OpenStack高可用集群（下册）：部署与运维

数据科学与大数据分析

BIG DATA大数据系统构建：可扩展实时数据系统构建原理与最佳实践

大数据科学

Spark MLlib机器学习实践（第2版）

OpenStack运维指南

Spark大数据分析实战