资源搜
资源搜
👀 联系夏柔
🔥 投稿源码
资源搜

资源搜

  • 全部
  • 123盘
  • 阿里盘
  • 百度云
  • 迅雷
  • 夸克
  • 115
  • 蓝奏云
  • 其他
已收录34127条资源,仅供学习交流,请在24h内删除资源!

大数据时代的算法:机器学习、人工智能及其典型实例

资源名称:大数据时代的算法:机器学习、人工智能及其典型实例 内容简介: 《大数据时代的算法:机器学习、人工智能及其典型实例》介绍在互联网行业中经常涉及的算法,包括排序算法、查找算法、资源分配算法、路径分析算法、相似度分析算法,以及与机器学习相关的算法,包括数据分类算法、聚类算法、预测与估算算法、决策算法、关联规则分析算法及推荐算法。《大数据时代的算法:机器学习、人工智能及其典型实例》涉及的相关算法均为解决实际问题中的主流算法,对于工作和学习都有实际参考意义。 《大数据时代的算法:机器学习、人工智能及其典型实例》是一本算法领域内的技术参考书籍,涵盖数十种算法,通过由浅入深的介绍基础算法和机器学习算法相关理论和应用,阐述了各个算法的应用场景及算法复杂度,使读者对算法的理解不只是停留在表面,还从应用的角度提供了大量实例,使读者能够快速、高效进阶各类算法,并能够熟练应用到将来的工作实践中。 资源目录: 第1章 算法基础 1 1.1 基础算法分析类型 1 1.1.1 分治法 1 1.1.2 动态规划法 2 1.1.3 回溯法 3 1.1.4 分支限界法 4 1.1.5 贪心法 4 1.2 算法性能分析 5 1.3 概率论与数理统计基础 6 1.4 距离计算 8 1.4.1 欧氏距离 8 1.4.2 马氏距离 9 1.4.3 曼哈顿距离 9 1.4.4 切比雪夫距离 9 1.4.5 闵氏距离 9 1.4.6 海明距离 10 1.5 排序算法 10 1.5.1 快速排序 11 1.5.2 归并排序 11 1.5.3 堆排序 13 1.5.4 基数排序 15 1.5.5 外排序 16 1.6 字符压缩编码 17 1.6.1 哈夫曼编码 17 1.6.2 香农-范诺编码 21 1.7 本章小结 24 第2章 数据查找与资源分配算法 25 2.1 数值查找算法 25 2.1.1 二分搜索算法 25 2.1.2 分块查找算法 27 2.1.3 哈希查找算法 28 2.2 字符串查找算法 30 2.2.1 Knuth-Morris-Pratt算法 31 2.2.2 Boyer-Moore算法 34 2.2.3 Sunday算法 37 2.3 海量数据中的查找 39 2.3.1 基于布隆过滤器查找 39 2.3.2 倒排索引查找 41 2.4 银行家算法 43 2.5 背包问题 44 2.5.1 0-1背包问题 45 2.5.2 部分背包问题 46 2.6 本章小结 47 第3章 路径分析算法 49 3.1 基于Dijkstra算法的路径分析 49 3.1.1 应用示例:极地探险 49 3.1.2 基于Dijkstra的最短路径规划 50 3.2 基于Floyd算法的路径分析 53 3.2.1 应用示例:任意两个城市之间的最短路径 53 3.2.2 Floyd原理 54 3.2.3 基于Floyd算法计算两个城市最短距离 56 3.3 基于A*算法的路径搜索 58 3.3.1 应用实例:绕过障碍区到达目的地 58 3.3.2 A*算法与最短距离计算 59 3.4 基于维特比算法的概率路径 61 3.4.1 应用实例:推断天气状态 61 3.4.2 维特比算法思想 62 3.4.3 计算天气状态 62 3.5 最长公共子序列问题 64 3.5.1 概要 64 3.5.2 最长公共子串 64 3.5.3 最长公共子序列原理 66 3.5.4 实例:求两字符串的最长公共子序列 66 3.6 本章小结 68 第4章 相似度分析算法 69 4.1 应用实例:海量网页相似度分析 69 4.2 基于Jaccard相似系数的相似度计算 70 4.2.1 计算流程 70 4.2.2 狭义Jaccard相似系数 71 4.2.3 广义Jaccard相似系数 71 4.3 基于MinHash的相似性算法 71 4.3.1 与Jaccard相似性关系 71 4.3.2 计算网页文本相似性过程 72 4.4 向量空间模型 73 4.4.1 词袋模型 73 4.4.2 TF-IDF算法 74 4.5 基于余弦相似性算法的相似度分析 76 4.5.1 原理基础 76 4.5.2 公式解析 77 4.5.3 计算网页文本相似性过程 77 4.6 基于语义主题模型的相似度算法 78 4.7 基于SimHash算法的指纹码 80 4.7.1 SimHash引入 81 4.7.2 SimHash的计算流程 81 4.7.3 计算重复信息 83 4.8 相似度算法的差异性 84 4.9 本章小结 85 第5章 数据分类算法 86 5.1 基于朴素贝叶斯分类器 86 5.1.1 有监督分类与无监督分类 87 5.1.2 应用实例:识别车厘子与樱桃 88 5.1.3 分类流程归纳 91 5.1.4 应用扩展:垃圾邮件识别 92 5.1.5 常用评价指标 96 5.2 基于AdaBoost分类器 100 5.2.1 AdaBoost概述 100 5.2.2 AdaBoost算法具体流程 101 5.2.3 AdaBoost算法的应用实例 102 5.2.4 AdaBoost算法的优点 105 5.3 基于支持向量机的分类器 105 5.3.1 线性可分与线性不可分 106 5.3.2 感知器 107 5.3.3 支持向量机 108 5.4 基于K邻近算法的分类器 109 5.4.1 应用实例:电影观众兴趣发现 109 5.4.2 核心思想 109 5.4.3 电影观众兴趣发现 110 5.5 本章小结 113 第6章 数据聚类算法 115 6.1 基于系统聚类法 115 6.1.1 概述 116 6.1.2 最短距离法 117 6.1.3 重心聚类法 119 6.1.4 动态聚类法 120 6.2 基于K-Means聚类算法 122 6.2.1 应用实例:新闻聚类 122 6.2.2 逻辑流程 123 6.2.3 实现新闻聚类分析 124 6.2.4 K-Means++ 128 6.2.5 K-中心点聚类算法 129 6.2.6 ISODATA聚类算法 130 6.3 基于密度的DBSCAN算法 131 6.4 基于BIRCH算法的聚类分析 133 6.4.1 聚类特征 133 6.4.2 聚类特征树 134 6.5 聚类与分类差异 135 6.6 本章小结 136 第7章 数据预测与估算算法 137 7.1 产生式模型与判别式模型 137 7.2 基于最大似然估计的预测 138 7.3 基于线性回归的估算 140 7.3.1 概要 140 7.3.2 最小二乘法 141 7.4 基于最大期望算法分析 143 7.5 基于隐马尔科夫模型预测 144 7.5.1 应用实例:高温天气与行为概率 144 7.5.2 原理分析 145 7.5.3 高温天气与行为概率 147 7.6 基于条件随机场的序列预测 151 7.6.1 应用实例 151 7.6.2 原理分析 151 7.6.3 条件随机场的优缺点 153 7.7 本章小结 154 第8章 数据决策分析算法 155 8.1 基于ID3算法的决策分析 156 8.1.1 信息量 156 8.1.2 信息熵 156 8.1.3 信息增益 157 8.1.4 ID3算法流程 157 8.1.5 ID3算法的应用 157 8.2 基于C4.5算法的分类决策树 159 8.2.1 概要 159 8.2.2 应用实例 159 8.3 基于分类回归树的决策划分 161 8.3.1 概要 162 8.3.2 应用实例:决策划分 163 8.3.3 剪枝 164 8.4 基于随机森林的决策分类 168 8.4.1 随机森林的特点 169 8.4.2 随机森林的构造方法 169 8.4.3 应用实例:决定车厘子的售价层次 170 8.5 本章小结 172 第9章 数据关联规则分析算法 174 9.1 基于Apriori算法的关联项分析 174 9.1.1 应用实例:超市的货架摆放问题 175 9.1.2 基本概要 175 9.1.3 算法原理 176 9.1.4 有效摆放货架 176 9.2 基于FP-Growth算法的关联性分析 179 9.2.1 构建FP树 179 9.2.2 频繁项分析 181 9.2.3 与Apripri算法比较 184 9.3 基于Eclat算法的频繁项集挖掘 184 9.4 本章小结 185 第10章 数据推荐算法 187 10.1 概要 187 10.1.1 推荐算法发展 188 10.1.2 协同过滤推荐 189 10.2 基于Item-Based协同过滤推荐 190 10.2.1 Item-Based基本思想 190 10.2.2 Slope One实例:基于评分推荐 190 10.3 基于User-Based协同过滤推荐 193 10.3.1 应用实例:根据人群的推荐 194 10.3.2 User-Based与Item-Based对比 197 10.4 基于潜在因子算法的推荐 198 10.4.1 应用实例:新闻推荐 198 10.4.2 流行度与推荐 200 10.5 推荐算法与效果评价 201 10.6 本章小结 203 资源截图:
陌佑
百度云
百度云

大数据大创新-阿里巴巴云上数据中台之道

资源名称:大数据大创新-阿里巴巴云上数据中台之道 内容简介: 在Alibaba集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。《大数据之路——Alibaba大数据实践》就是在此背景下完成的。本书中讲到的Alibaba大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。本书由Alibaba数据技术及产品部组织并完成写作,是Alibaba分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信本书中的实践和思考对同行会有很大的启发和借鉴意义。 资源目录: 第1章 总述 1 第1篇 数据技术篇 第2章 日志采集 8 2.1 浏览器的页面日志采集 8 2.1.1 页面浏览日志采集流程 9 2.1.2 页面交互日志采集 14 2.1.3 页面日志的服务器端清洗和预处理 15 2.2 无线客户端的日志采集 16 2.2.1 页面事件 17 2.2.2 控件点击及其他事件 18 2.2.3 特殊场景 19 2.2.4 H5 & Native日志统一 20 2.2.5 设备标识 22 2.2.6 日志传输 23 2.3 日志采集的挑战 24 2.3.1 典型场景 24 2.3.2 大促保障 26 第3章 数据同步 29 3.1 数据同步基础 29 3.1.1 直连同步 30 3.1.2 数据文件同步 30 3.1.3 数据库日志解析同步 31 3.2 阿里数据仓库的同步方式 35 3.2.1 批量数据同步 35 3.2.2 实时数据同步 37 3.3 数据同步遇到的问题与解决方案 39 3.3.1 分库分表的处理 39 3.3.2 高效同步和批量同步 41 3.3.3 增量与全量同步的合并 42 3.3.4 同步性能的处理 43 3.3.5 数据漂移的处理 45 第4章 离线数据开发 48 4.1 数据开发平台 48 4.1.1 统一计算平台 49 4.1.2 统一开发平台 53 4.2 任务调度系统 58 4.2.1 背景 58 4.2.2 介绍 59 4.2.3 特点及应用 65 第5章 实时技术 68 5.1 简介 69 5.2 流式技术架构 71 5.2.1 数据采集 72 5.2.2 数据处理 74 5.2.3 数据存储 78 5.2.4 数据服务 80 5.3 流式数据模型 80 5.3.1 数据分层 80 5.3.2 多流关联 83 5.3.3 维表使用 84 5.4 大促挑战&保障 86 5.4.1 大促特征 86 5.4.2 大促保障 88 第6章 数据服务 91 6.1 服务架构演进 91 6.1.1 DWSOA 92 6.1.2 OpenAPI 93 6.1.3 SmartDQ 94 6.1.4 统一的数据服务层 96 6.2 技术架构 97 6.2.1 SmartDQ 97 6.2.2 iPush 100 6.2.3 Lego 101 6.2.4 uTiming 102 6.3 最佳实践 103 6.3.1 性能 103 6.3.2 稳定性 111 第7章 数据挖掘 116 7.1 数据挖掘概述 116 7.2 数据挖掘算法平台 117 7.3 数据挖掘中台体系 119 7.3.1 挖掘数据中台 120 7.3.2 挖掘算法中台 122 7.4 数据挖掘案例 123 7.4.1 用户画像 123 7.4.2 互联网反作弊 125 第2篇 数据模型篇 第8章 大数据领域建模综述 130 8.1 为什么需要数据建模 130 8.2 关系数据库系统和数据仓库 131 8.3 从OLTP和OLAP系统的区别看模型方法论的选择 132 8.4 典型的数据仓库建模方法论 132 8.4.1 ER模型 132 8.4.2 维度模型 133 8.4.3 Data Vault模型 134 8.4.4 Anchor模型 135 8.5 阿里巴巴数据模型实践综述 136 第9章 阿里巴巴数据整合及管理体系 138 9.1 概述 138 9.1.1 定位及价值 139 9.1.2 体系架构 139 9.2 规范定义 140 9.2.1 名词术语 141 9.2.2 指标体系 141 9.3 模型设计 148 9.3.1 指导理论 148 9.3.2 模型层次 148 9.3.3 基本原则 150 9.4 模型实施 152 9.4.1 业界常用的模型实施过程 152 9.4.2 OneData实施过程 154 第10章 维度设计 159 10.1 维度设计基础 159 10.1.1 维度的基本概念 159 10.1.2 维度的基本设计方法 160 10.1.3 维度的层次结构 162 10.1.4 规范化和反规范化 163 10.1.5 一致性维度和交叉探查 165 10.2 维度设计高级主题 166 10.2.1 维度整合 166 10.2.2 水平拆分 169 10.2.3 垂直拆分 170 10.2.4 历史归档 171 10.3 维度变化 172 10.3.1 缓慢变化维 172 10.3.2 快照维表 174 10.3.3 极限存储 175 10.3.4 微型维度 178 10.4 特殊维度 180 10.4.1 递归层次 180 10.4.2 行为维度 184 10.4.3 多值维度 185 10.4.4 多值属性 187 10.4.5 杂项维度 188 第11章 事实表设计 190 11.1 事实表基础 190 11.1.1 事实表特性 190 11.1.2 事实表设计原则 191 11.1.3 事实表设计方法 193 11.2 事务事实表 196 11.2.1 设计过程 196 11.2.2 单事务事实表 200 11.2.3 多事务事实表 202 11.2.4 两种事实表对比 206 11.2.5 父子事实的处理方式 208 11.2.6 事实的设计准则 209 11.3 周期快照事实表 210 11.3.1 特性 211 11.3.2 实例 212 11.3.3 注意事项 217 11.4 累积快照事实表 218 11.4.1 设计过程 218 11.4.2 特点 221 11.4.3 特殊处理 223 11.4.4 物理实现 225 11.5 三种事实表的比较 227 11.6 无事实的事实表 228 11.7 聚集型事实表 228 11.7.1 聚集的基本原则 229 11.7.2 聚集的基本步骤 229 11.7.3 阿里公共汇总层 230 11.7.4 聚集补充说明 234 第3篇 数据管理篇 第12章 元数据 236 12.1 元数据概述 236 12.1.1 元数据定义 236 12.1.2 元数据价值 237 12.1.3 统一元数据体系建设 238 12.2 元数据应用 239 12.2.1 Data Profile 239 12.2.2 元数据门户 241 12.2.3 应用链路分析 241 12.2.4 数据建模 242 12.2.5 驱动ETL开发 243 第13章 计算管理 245 13.1 系统优化 245 13.1.1 HBO 246 13.1.2 CBO 249 13.2 任务优化 256 13.2.1 Map倾斜 257 13.2.2 Join倾斜 261 13.2.3 Reduce倾斜 269 第14章 存储和成本管理 275 14.1 数据压缩 275 14.2 数据重分布 276 14.3 存储治理项优化 277 14.4 生命周期管理 278 14.4.1 生命周期管理策略 278 14.4.2 通用的生命周期管理矩阵 280 14.5 数据成本计量 283 14.6 数据使用计费 284 第15章 数据质量 285 15.1 数据质量保障原则 285 15.2 数据质量方法概述 287 15.2.1 消费场景知晓 289 15.2.2 数据加工过程卡点校验 292 15.2.3 风险点监控 295 15.2.4 质量衡量 299 第4篇 数据应用篇 第16章 数据应用 304 16.1 生意参谋 305 16.1.1 背景概述 305 16.1.2 功能架构与技术能力 307 16.1.3 商家应用实践 310 16.2 对内数据产品平台 313 16.2.1 定位 313 16.2.2 产品建设历程 314 16.2.3 整体架构介绍 317 附录A 本书插图索引 320 资源截图:
陌佑
百度云
百度云

Hadoop YARN权威指南

资源名称:Hadoop YARN权威指南 内容简介: 《Hadoop YARN权威指南》由YARN的创建和开发团队亲笔撰写,Altiscale的CEO作序鼎力推荐,是使用Hadoop YARN建立分布式、大数据应用的权威指南。书中利用多个实例,详细介绍Hadoop YARN的安装和管理,以帮助用户使用YARN进行应用开发,并在YARN上运行除了MapReduce之外的新框架。 《Hadoop YARN权威指南》共12章,第1章讲述Apache Hadoop YARN产生和发展的历史;第2章讲解在单台机器(工作站、服务器或笔记本电脑)上快速安装Hadoop 2.0;第3章介绍Apache Hadoop YARN资源管理器;第4章简要介绍YARN组件的功能,帮助读者开始深入了解YARN;第5章详细讲解YARN的安装方法,包括一个基于脚本的手动安装,以及使用Apache Ambari基于GUI的安装;第6章讲述对YARN集群的管理,涉及一些基本的YARN管理场景,介绍如何利用Nagios和Ganglia监控集群,论述对JVM的监视,并介绍Ambari的管理界面;第7章深入探究YARN的架构,向读者展示YARN的内部工作原因;第8章深入讨论Capacity调度器;第9章描述基于现有MapReduce的应用程序如何继续工作以及利用YARN的优势;第10章通过创建一个JBoss Application Server集群的过程,讲述如何构建一个YARN应用程序;第11章描述建立在YARN上的典型示例程序distributed shell的使用和内部情况;第12章总结运行在YARN上的新兴开源框架。最后提供6个附录,包括补充内容和代码下载、YARN的安装脚本、YARN管理脚本、Nagios模块、资源及其他信息、HDFS快速参考。 资源目录: 译者序 推荐序一 推荐序二 前 言 第1章 Apache Hadoop YARN:简明历史及基本原理  第2章 Apache Hadoop YARN安装快速入门  第3章 Apache Hadoop YARN的核心概念 第4章 YARN组件的功能概述  第5章 安装Apache Hadoop YARN  第6章 Apache Hadoop YARN的管理 第7章 Apache Hadoop YARN的架构指南 第8章 YARN中的Capacity调度器  第9章 Apache Hadoop YARN下的MapReduce  第10章 Apache Hadoop YARN应用程序范例 第11章 使用Apache Hadoop YARN Distributed-Shell 第12章 Apache Hadoop YARN框架  附录A 补充内容和代码下载 附录B YARN的安装脚本  附录C YARN的管理脚本  附录D Nagios模块  附录E 资源及附加资料  附录F HDFS快速参考  资源截图:
陌佑
百度云
百度云

OpenStack高可用集群(下册):部署与运维

资源名称:OpenStack高可用集群(下册):部署与运维 内容简介: 这是一部从原理、架构、部署、运维4个方面系统、深入讲解如何构建高可用OpenStack集群的著作,在理论和实践两个维度为构建构建高可用OpenStack集群提供了完整的解决方案。本书从OpenStack终端用户的角色出发,以面向生产系统的OpenStack高可用集群建设为主线,对OpenStack高可用集群的原理和架构进行了深入剖析,对部署和运维OpenStack高可用集群所依赖的各个技术栈和核心组件进行了详细讲解。此外,书中还对Ceph和Docker等技术与OpenStack的结合应用进行了详细讲解,尤其是Kolla项目的介绍,是本书的一大技术特色。 资源目录: 序1 序2 序3 序4 前言 架构篇 第1章 云计算架构设计及业务系统高可用2 1.1 企业为何要进行云计算建设2 1.1.1 政策导向与IT发展的必然2 1.1.2 业务导向与IT弹性需求4 1.1.3 技术导向与IT自动化4 1.1.4 成本导向与TCO6 1.2 企业如何决策公有云与私有云8 1.2.1 云计算部署模式对比8 1.2.2 如何决策私有云与公有云10 1.3 云计算架构设计与进阶路线13 1.3.1 云计算生态模型13 1.3.2 云计算架构基本模型15 1.3.3 通用云计算参考架构16 1.3.4 云计算实施进阶路线20 1.4 业务系统高可用性概述22 1.4.1 业务系统高可用性23 1.4.2 业务系统容灾恢复24 1.5 传统IT架构高可用设计26 1.5.1 传统数据中心HADR设计原则26 1.5.2 故障划分与HADR高可用实现27 1.6 云环境下的高可用设计29 1.6.1 云计算HADR架构设计原则30 1.6.2 云计算HADR架构设计实现33 1.7 本章小结36 第2章 OpenStack高可用集群架构概述37 2.1 OpenStack高可用集群功能组件37 2.1.1 集群控制节点38 2.1.2 集群计算节点39 2.1.3 集群存储节点40 2.1.4 集群网络节点41 2.1.5 集群负载均衡器43 2.1.6 集群网络拓扑44 2.2 OpenStack高可用集群服务组件47 2.2.1 认证服务Keystone47 2.2.2 镜像服务Glance50 2.2.3 计算服务Nova52 2.2.4 块存储服务Cinder54 2.2.5 网络服务Neutron57 2.2.6 控制面板Horizon59 2.2.7 其他OpenStack服务60 2.3 Redhat OpenStack高可用部署架构63 2.3.1 Redhat OpenStack高可用集群部署架构63 2.3.2 Redhat OpenStack高可用集群服务规划67 2.4 Mirantis OpenStack高可用部署架构71 2.4.1 Mirantis OpenStack高可用集群部署架构72 2.4.2 Mirantis OpenStack自定义高可用集群架构76 2.5 其他厂商OpenStack高可用部署架构介绍及对比分析79 2.5.1 Juniper Networks OpenStack高可用部署方案80 2.5.2 HPE OpenStack高可用部署方案81 2.5.3 TCP Cloud OpenStack高可用部署方案83 2.5.4 Paypal OpenStack高可用部署方案84 2.5.5 Oracle OpenStack高可用部署方案87 2.5.6 OpenStack高可用部署方案对比分析87 2.6 本章小结89 原理篇 第3章 集群资源管理系统92 3.1 Pacemaker概述93 3.2 Pacemaker集群分类95 3.3 Pacemaker集群架构97 3.4 Pacemaker内部组件98 3.5 Pacemaker集群配置信息管理99 3.5.1 Pacemaker集群状态信息100 3.5.2 Pacemaker集群配置信息101 3.6 Pacemaker集群管理工具PCS108 3.6.1 PCS命令行工具108 3.6.2 PCS用户接口界面110 3.7 Pacemaker集群资源管理113 3.7.1 集群资源代理113 3.7.2 集群资源约束118 3.7.3 集群资源类型120 3.7.4 集群资源规则124 3.8 本章小结126 第4章 集群负载均衡系统127 4.1 Keepalived概述与配置128 4.1.1 Keepalived及LVS概述128 4.1.2 Keepalived工作原理133 4.1.3 Keepalived调度算法136 4.1.4 Keepalived路由方式137 4.1.5 Keepalived配置与使用138 4.2 HAProxy概述与配置144 4.2.1 HAProxy概述144 4.2.2 HAProxy配置146 4.2.3 HAProxy监控页面151 4.2.4 HAProxy配置参考154 4.3 本章小结158 第5章 集群消息队列系统159 5.1 AMQP概述160 5.2 RabbitMQ概述161 5.3 RabbitMQ工作原理167 5.4 RabbitMQ基本配置169 5.5 RabbitMQ集群基础170 5.5.1 RabbitMQ集群概述170 5.5.2 RabbitMQ的集群配置171 5.6 RabbitMQ集群管理174 5.6.1 RabbitMQ集群节点启停174 5.6.2 RabbitMQ的集群节点移除175 5.7 RabbitMQ的集群队列镜像177 5.8 基于Pacemaker的高可用Rabbit-MQ集群181 5.8.1 Active/Passive模式的Rabbit-MQ集群181 5.8.2 Active/Active模式的Rabbit-MQ集群182 5.9 RabbitMQ在OpenStack中的应用分析187 5.10 本章小结192 第6章 集群缓存系统193 6.1 Memcache缓存系统193 6.1.1 Memcache缓存概述193 6.1.2 Memcache的工作原理194 6.1.3 Memcache的功能特点196 6.1.4 Memcache集群概述197 6.1.5 Memcache集群高可用201 6.2 Redis缓存系统204 6.2.1 Redis缓存概述204 6.2.2 Redis数据交换205 6.2.3 Redis数据持久化206 6.2.4 Redis数据高可用207 6.2.5 Redis高可用配置209 6.2.6 Redis集群概述216 6.2.7 Redis在OpenStack中的应用218 6.3 本章小结219 第7章 集群数据库系统221 7.1 关系型数据库—MariaDB221 7.1.1 MySQL概述221 7.1.2 MariaDB概述224 7.1.3 MariaDB安装配置225 7.1.4 MariaDB高可用方案233 7.1.5 MariaDB Galera Cluster概述236 7.1.6 MariaDB Galera Cluster配置239 7.2 非关系型数据库—MongoDB249 7.2.1 NoSQL概述249 7.2.2 MongoDB概述251 7.2.3 MongoDB安装配置254 7.2.4 MongoDB Replica Set概述258 7.2.5 MongoDB Replica Set部署260 7.3 本章小结265 第8章 OpenStack计算服务267 8.1 OpenStack项目概述267 8.1.1 OpenStack项目概要267 8.1.2 OpenStack版 资源截图:
陌佑
百度云
百度云

数据科学与大数据分析

资源名称:数据科学与大数据分析 内容简介: 数据科学与大数据分析在当前是炙手可热的概念,关注的是如何通过分析海量数据来洞悉隐藏于数据背后的见解。本书是数据科学领域为数不多的实用性技术图书,它通过详细剖析数据分析生命周期的各个阶段来讲解用于发现、分析、可视化、表示数据的相关方法和技术。《数据科学与大数据分析——数据的发现 分析 可视化与表示》总共分为12章,主要内容包括大数据分析的简单介绍,数据分析生命周期的各个阶段,使用R语言进行基本的数据分析,以及高级的分析理论和方法,主要涉及数据的聚类、关联规则、回归、分类、时间序列分析、文本分析等方法。此外,本书还涵盖了用来进行高级数据分析所使用的技术和工具,比如MapReduce和Hadoop、数据库内分析等。《数据科学与大数据分析——数据的发现 分析 可视化与表示》内容详细,示例丰富,侧重于理论与练习的结合,因此比较适合对大数据分析、数据科学感兴趣的人员阅读,有志于成为数据科学家的读者也可以从本书中获益。 资源目录: 第1章 大数据分析介绍 1 1.1 大数据概述 2 1.1.1 数据结构 4 1.1.2 数据存储的分析视角 9 1.2 分析的实践状态 10 1.2.1 商业智能 VS 数据科学 11 1.2.2 当前分析架构 12 1.2.3 大数据的驱动力 14 1.2.4 新的大数据生态系统和新的分析方法 15 1.3 新的大数据生态系统中的关键角色 17 1.4 大数据分析案例 20 1.5 总结 21 1.6 练习 21 参考书目 21 第2章 数据分析生命周期 23 2.1 数据分析生命周期概述 24 2.1.1 一个成功分析项目的关键角色 24 2.1.2 数据分析生命周期的背景和概述 26 2.2 第1阶段:发现 28 2.2.1 学习业务领域 29 2.2.2 资源 29 2.2.3 设定问题 30 2.2.4 确定关键利益相关者 30 2.2.5 采访分析发起人 31 2.2.6 形成初始假设 32 2.2.7 明确潜在数据源 32 2.3 第2阶段:数据准备 33 2.3.1 准备分析沙箱 34 2.3.2 执行ETLT 35 2.3.3 研究数据 36 2.3.4 数据治理 37 2.3.5 调查和可视化 37 2.3.6 数据准备阶段的常用工具 38 2.4 第3阶段:模型规划 39 2.4.1 数据探索和变量选择 40 2.4.2 模型的选择 41 2.4.3 模型设计阶段的常用工具 42 2.5 第4阶段:模型建立 42 2.5.1 模型构建阶段中的常用工具 44 2.6 第5阶段:沟通结果 45 2.7 第6阶段:实施 46 2.8 案例研究:全球创新网络和分析(GINA) 49 2.8.1 第1阶段:发现 50 2.8.2 第2阶段:数据准备 51 2.8.3 第3阶段:模型规划 51 2.8.4 第4阶段:模型建立 51 2.8.5 第5阶段:沟通结果 53 2.8.6 第6阶段:实施 54 2.9 总结 55 2.10 练习 55 参考书目 55 第3章 使用R进行基本数据分析 57 第4章 高级分析理论与方法:聚类 107 第5章 高级分析理论与方法:关联规则 124 第6章 高级分析理论与方法:回归 147 第7章 高级分析理论与方法:分类 175 第8章 高级分析理论与方法:时间序列分析 212 第9章 高级分析理论与方法:文本分析 232 第10章 高级分析技术与工具:MapReduce和Hadoop 267 第11章 高级分析技术与工具:数据库内分析 297 第12章 结尾 324 资源截图:
陌佑
百度云
百度云

BIG DATA大数据系统构建:可扩展实时数据系统构建原理与最佳实践

资源名称:BIG DATA大数据系统构建:可扩展实时数据系统构建原理与最佳实践 内容简介: 随着社交网络、网络分析和智能型电子商务的兴起,传统的数据库系统显然已无法满足海量数据的管理需求。 作为一种新的处理模式,大数据系统应运而生,它使用多台机器并行工作,能够对海量数据进行存储、处理、分析,进而帮助用户从中提取对优化流程、实现高增长率的有用信息,做更为精准有效的决策。 但不可忽略的是,它也引入了大多数开发者并不熟悉的、困扰传统架构的复杂性问题。 本书将教你充分利用集群硬件优势的Lambda架构,以及专门用来捕获和分析网络规模数据的新工具,来创建这些系统。它将描述一个可扩展的、易于理解大数据系统的方法——可以由小团队构建并运行。本书共18章,除了介绍基本概念,其他章节采用“理论+示例”的方式来阐释相关概念,并使用现实世界中的工具加以论证。其中,第1章介绍了数据系统的原理,给出了Lambda架构的概述,并概述了构建任何数据系统的广义方法。第2~9章集中阐述Lambda架构的批处理层。第10章和第11章集中阐述服务层,让读者了解只批量写入的特定数据库——这些数据库比传统数据库更简单,它们具有出色的性能,并具备可操作性、稳健性等特点。第12~17章集中阐述速度层,让读者更明确地了解NoSQL数据库、流处理和管理增量计算的复杂性。 第18章通过综合回顾Lambda架构的相关知识,帮助读者了解增量批处理、基本Lambda架构的变种,以及如何充分利用资源。 资源目录: 译 者 序 前  言 关于本书 致  谢 第1章 大数据的新范式1 第一部分 批处理层 第2章 大数据的数据模型24 第3章 大数据的数据模型:示例44 第4章 批处理层的数据存储51 第5章 批处理层的数据存储:示例62 第6章 批处理层79 第7章 批处理层:示例104 第8章 批处理层示例:架构和算法131 第9章 批处理层示例:实现147 第二部分 服务层 第10章 服务层概述168 第11章 服务层:示例184 第三部分 速度层 第12章 实时视图194 第13章 实时视图:示例206 第14章 队列和流处理211 第15章 队列和流处理:示例227 第16章 微批量流处理239 第17章 微批量流处理:示例253 第18章 深入Lambda架构268 资源截图:
陌佑
百度云
百度云

大数据科学

资源名称:大数据科学 资源截图:
陌佑
百度云
百度云

Spark MLlib机器学习实践(第2版)

资源名称:Spark MLlib机器学习实践(第2版) 内容简介: Spark作为新兴的、应用范围*为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相关内容的学习与开发,其中MLlib是Spark框架使用的核心。本书是一本细致介绍Spark MLlib程序设计的图书,入门简单,示例丰富。 本书分为13章,从Spark基础安装和配置开始,依次介绍MLlib程序设计基础、MLlib的数据对象构建、MLlib中RDD使用介绍,各种分类、聚类、回归等数据处理方法,*后还通过一个完整的实例,回顾了前面的学习内容,并通过代码实现了一个完整的分析过程。 本书理论内容由浅而深,采取实例和理论相结合的方式,讲解细致直观,适合Spark MLlib初学者、大数据分析和挖掘人员,也适合高校和培训学习相关专业的师生教学参考。 资源目录: 第1章  星星之火 1 1.1  大数据时代 1 1.2  大数据分析时代 2 1.3  简单、优雅、有效——这就是Spark3 1.4  核心——MLlib 4 1.5  星星之火,可以燎原 6 1.6  小结 6 第2章  Spark安装和开发环境配置 7 2.1 Windows单机模式Spark安装和配置 7 2.1.1 Windows 7安装Java 7 2.1.2 Windows 7安装Scala 10 2.1.3 Intellij IDEA下载和安装 13 2.1.4 Intellij IDEA中Scala插件的安装 14 2.1.5 HelloJava——使用Intellij IDEA创建Java程序 18 2.1.6 HelloScala——使用Intellij IDEA创建Scala程序 21 2.1.7 最后一脚——Spark单机版安装 26 2.2  经典的WordCount29 2.2.1 Spark实现WordCount 29 2.2.2 MapReduce实现WordCount 31 2.3  小结 34 第3章  RDD详解 35 3.1 RDD是什么 35 3.1.1 RDD名称的秘密 35 3.1.2 RDD特性 36 3.1.3 与其他分布式共享内存的区别 37 3.1.4 RDD缺陷 37 3.2 RDD工作原理 38 3.2.1 RDD工作原理图 38 3.2.2 RDD的相互依赖 38 3.3 RDD应用API详解 39 3.3.1 使用aggregate方法对给定的数据集进行方法设定 39 3.3.2 提前计算的cache方法 42 3.3.3 笛卡尔操作的cartesian方法 43 3.3.4 分片存储的coalesce方法 44 3.3.5 以value计算的countByValue方法 45 3.3.6 以key计算的countByKey方法 45 3.3.7 除去数据集中重复项的distinct方法 46 3.3.8 过滤数据的filter方法 47 3.3.9 以行为单位操作数据的flatMap方法 47 3.3.10 以单个数据为目标进行操作的map方法 48 3.3.11 分组数据的groupBy方法 48 3.3.12 生成键值对的keyBy方法 49 3.3.13 同时对两个数据进行处理的reduce方法 50 3.3.14 对数据进行重新排序的sortBy方法 51 3.3.15 合并压缩的zip方法 52 3.4  小结 53 第4章  MLlib基本概念 54 4.1 MLlib基本数据类型 54 4.1.1 多种数据类型 54 4.1.2 从本地向量集起步 55 4.1.3 向量标签的使用 56 4.1.4 本地矩阵的使用 58 4.1.5 分布式矩阵的使用 59 4.2 MLlib数理统计基本概念 62 4.2.1 基本统计量 62 4.2.2 统计量基本数据 63 4.2.3 距离计算 64 4.2.4 两组数据相关系数计算 65 4.2.5 分层抽样 67 4.2.6 假设检验 69 4.2.7 随机数 70 4.3  小结 71 第5章  协同过滤算法 72 5.1  协同过滤 72 5.1.1 协同过滤概述 72 5.1.2 基于用户的推荐 73 5.1.3 基于物品的推荐 74 5.1.4 协同过滤算法的不足 75 5.2  相似度度量 75 5.2.1 基于欧几里得距离的相似度计算 75 5.2.2 基于余弦角度的相似度计算 76 5.2.3 欧几里得相似度与余弦相似度的比较 77 5.2.4 第一个例子——余弦相似度实战 77 5.3 MLlib中的交替最小二乘法(ALS算法) 80 5.3.1 最小二乘法(LS算法)详解 81 5.3.2 MLlib中交替最小二乘法(ALS算法)详解 82 5.3.3 ALS算法实战 83 5.4  小结 85 第6章  MLlib线性回归理论与实战 86 6.1  随机梯度下降算法详解 86 6.1.1 道士下山的故事 87 6.1.2 随机梯度下降算法的理论基础 88 6.1.3 随机梯度下降算法实战 88 6.2 MLlib回归的过拟合 89 6.2.1 过拟合产生的原因 90 6.2.2 lasso回归与岭回归 91 6.3 MLlib线性回归实战 91 6.3.1 MLlib线性回归基本准备 91 6.3.2 MLlib线性回归实战:商品价格与消费者收入之间的关系 94 6.3.3 对拟合曲线的验证 95 6.4  小结 97 第7章  MLlib分类实战 98 7.1  逻辑回归详解 98 7.1.1 逻辑回归不是回归算法 98 7.1.2 逻辑回归的数学基础 99 7.1.3 一元逻辑回归示例 100 7.1.4 多元逻辑回归示例 101 7.1.5 MLlib逻辑回归验证 103 7.1.6 MLlib逻辑回归实例:肾癌的转移判断 104 7.2  支持向量机详解 106 7.2.1 三角还是圆 106 7.2.2 支持向量机的数学基础 108 7.2.3 支持向量机使用示例 109 7.2.4 使用支持向量机分析肾癌转移 110 7.3  朴素贝叶斯详解 111 7.3.1 穿裤子的男生or女生 111 7.3.2 贝叶斯定理的数学基础和意义 112 7.3.3 朴素贝叶斯定理 113 7.3.4 MLlib朴素贝叶斯使用示例 114 7.3.5 MLlib朴素贝叶斯实战:“僵尸粉”的鉴定 115 7.4  小结 117 第8章  决策树与保序回归 118 8.1  决策树详解 118 8.1.1 水晶球的秘密 119 8.1.2 决策树的算法基础:信息熵 119 8.1.3 决策树的算法基础——ID3算法 121 8.1.4 MLlib中决策树的构建 122 8.1.5 MLlib中决策树示例 123 8.1.6 随机雨林与梯度提升算法(GBT) 125 8.2  保序回归详解 127 8.2.1 何为保序回归 128 8.2.2 保序回归示例 128 8.3  小结 129 第9章  MLlib中聚类详解 130 9.1  聚类与分类 130 9.1.1 什么是分类 130 9.1.2 什么是聚类 131 9.2  MLlib中的Kmeans算法 131 9.2.1 什么是kmeans算法 131 9.2.2 MLlib中Kmeans算法示例 133 9.2.3 Kmeans算法中细节的讨论 134 9.3  高斯混合聚类 135 9.3.1 从高斯分布聚类起步 135 9.3.2 混合高斯聚类 137 9.3.3 MLlib高斯混合模型使用示例 137 9.4  快速迭代聚类 138 9.4.1 快速迭代聚类理论基础 138 9.4.2 快速迭代聚类示例 139 9.5  小结 140 第10章  MLlib中关联规则 141 10.1 Apriori频繁项集算法 141 10.1.1 啤酒与尿布 141 10.1.2 经典的Apriori算法 142 10.1.3 Apriori算法示例 144 10.2 FP-growth算法 145 10.2.1 Apriori算法的局限性 145 10.2.2 FP-growth算法 145 10.2.3 FP树示例 148 10.3 小结 149 第11章  数据降维 150 11.1 奇异值分解(SVD) 150 11.1.1 行矩阵(RowMatrix)详解 150 11.1.2 奇异值分解算法基础 151 11.1.3 MLlib中奇异值分解示例 152 11.2 主成分分析(PCA) 153 11.2.1 主成分分析(PCA)的定义 154 11.2.2 主成分分析(PCA)的数学基础 154 11.2.3 MLlib中主成分分析(PCA)示例 155 11.3 小结 156 第12章  特征提取和转换 157 12.1 TF-IDF 157 12.1.1 如何查找所要的新闻 157 12.1.2 TF-IDF算法的数学计算 158 12.1.3 MLlib中TF-IDF示例 159 12.2 词向量化工具 160 12.2.1 词向量化基础 160 12.2.2 词向量化使用示例 161 12.3 基于卡方检验的特征选择 162 12.3.1 “吃货”的苦恼 162 12.3.2 MLlib中基于卡方检验的特征选择示例 163 12.4 小结 164 第13章  MLlib实战演练——鸢尾花分析166 13.1 建模说明 166 13.1.1 数据的描述与分析目标 166 13.1.2 建模说明 168 13.2 数据预处理和分析 171 13.2.1 微观分析——均值与方差的对比分析 171 13.2.2 宏观分析——不同种类特性的长度计算 174 13.2.3 去除重复项——相关系数的确定 176 13.3 长与宽之间的关系——数据集的回归分析 180 13.3.1 使用线性回归分析长与宽之间的关系 180 13.3.2 使用逻辑回归分析长与宽之间的关系 183 13.4 使用分类和聚类对鸢尾花数据集进行处理 184 13.4.1 使用聚类分析对数据集进行聚类处理 184 13.4.2 使用分类分析对数据集进行分类处理 187 13.5 最终的判定——决策树测试 188 13.5.1 决定数据集的归类——决策树 188 13.5.2 决定数据集归类的分布式方法——随机雨林 190 13.6 小结 191 资源截图:
陌佑
百度云
百度云

OpenStack运维指南

资源名称:OpenStack运维指南 内容简介: 本书分两部分,全面介绍如何构建基于参考架构的OpenStack云系统和执行日常管理任务。**部分全面介绍如何充分发挥OpenStack强大的灵活性,通过各种正确决策造**配置,主要内容涉及架构示例、自动部署与配置、云控制器设计与云系统管理、计算节、扩展与隔离、存储决策和网络设计。第二部分讲解OpenStack云系统的日常操作,主要内容包括OpenStack控制面板、项目和用户管理、面向用户的运维、故障与调试、网络排障、日志功能与监控、备份与恢复、定制化、通过OpenStack社区获得支持、高级配置以及如何升级。 本书分两部分,全面介绍如何构建基于参考架构的OpenStack云系统和执行日常管理任务。**部分全面介绍如何充分发挥OpenStack强大的灵活性,通过各种正确决策造**配置,主要内容涉及架构示例、自动部署与配置、云控制器设计与云系统管理、计算节、扩展与隔离、存储决策和网络设计。第二部分讲解OpenStack云系统的日常操作,主要内容包括OpenStack控制面板、项目和用户管理、面向用户的运维、故障与调试、网络排障、日志功能与监控、备份与恢复、定制化、通过OpenStack社区获得支持、高级配置以及如何升级。 资源目录: 前言  xiii 第一部分 架构 第1章 架构示例  3 1.1 架构示例:传统网络模型(nova)  3 1.1.1 概述  4 1.1.2 详细描述  6 1.1.3 可选的扩展  8 1.2 架构示例:OpenStack网络服务  8 1.2.1 概述  8 1.2.2 详细描述  10 1.2.3 组件配置示例  16 1.3 关于架构的最后几句话  19 第2章 准备及部署  20 2.1 自动化部署  20 2.1.1 磁盘分区及RAID  21 2.1.2 网络配置  23 2.2 自动化配置  23 2.3 远程管理  23 2.4 关于准备和部署OpenStack的最后几句话  24 2.5 总结  24 第3章 云控制器设计和云系统管理  25 3.1 硬件注意事项  26 3.2 服务的分隔  27 3.3 数据库  28 3.4 消息队列  28 3.5 向导服务  28 3.6 应用程序接口(API)  29 3.7 扩展  29 3.8 调度  29 3.9 镜像  30 3.10 控制面板  30 3.11 认证及授权  31 3.12 网络相关注意事项  31 第4章 计算节点  32 4.1 选择CPU  32 4.2 选择超级管理程序  33 4.3 实例存储解决方案  33 4.3.1 非计算节点存储:共享文件系统  34 4.3.2 计算节点存储:共享文件系统  35 4.3.3 计算节点存储:非共享文件系统  35 4.3.4 动态迁移的问题  35 4.3.5 文件系统的选择  36 4.4 过量分配  36 4.5 日志记录  37 4.6 网络连接  37 4.7 总结  37 第5章 扩展  38 5.1 起点  38 5.2 添加云控制器节点  40 5.3 隔离云系统  40 5.3.1 nova单元和区域  41 5.3.2 可用域和主机集合  41 5.4 可扩展的硬件  43 5.4.1 硬件采购  43 5.4.2 容量规划  44 5.4.3 老化测试  44 第6章  存储决策  45 6.1 临时性存储  45 6.2 持久性存储  45 6.2.1 对象存储  45 6.2.2 块存储  47 6.3 OpenStack存储概念  47 6.4 选择存储后端  48 6.5 结论  51 第7章 网络设计  52 7.1 管理网络  52 7.2 公共地址选项  53 7.3 IP地址规划  53 7.4 网络拓扑  54 7.4.1 OpenStack虚拟机内部的VLAN配置  55 7.4.2 多网卡分配  56 7.4.3 多主机和单主机网络  56 7.5 网络服务  56 7.5.1 NTP  56 7.5.2 DNS  56 7.6 总结  57 第二部分 运维 第8章 了解全局  61 8.1 使用OpenStack控制面板进行管理  61 8.2 命令行工具  61 8.2.1 安装工具软件  62 8.2.2 管理的命令行工具  62 8.2.3 获得凭据  63 8.2.4 检查API调用  64 8.2.5 服务器和服务  66 8.2.6 计算节点诊断  67 8.3 网络检查  68 8.4 用户和项目  69 8.5 正在运行的实例  70 8.6 总结  71 第9章 管理项目和用户  72 9.1 项目还是租户  72 9.2 管理项目  73 9.3 配额  74 9.3.1 设置镜像配额  74 9.3.2 设置计算服务配额  75 9.3.3 设置对象存储配额  77 9.3.4 设置块存储配额  79 9.4 用户管理  80 9.5 创建新用户  80 9.6 将用户与项目关联  81 9.6.1 授权定制化  83 9.6.2 用户间的干扰  84 9.7 总结  85 第10章 面向用户的运维  86 10.1 镜像  86 10.1.1 添加镜像  86 10.1.2 在项目间共享镜像  87 10.1.3 删除镜像  87 10.1.4 其他命令行界面选项  88 10.1.5 镜像服务和数据库  88 10.1.6 镜像服务数据库查询示例  88 10.2 flavor  88 10.2.1 私有flavor  89 10.2.2 如何修改现存的flavor  90 10.3 安全组  90 10.3.1 通用的安全组配置  90 10.3.2 终端用户的安全组配置  91 10.4 块存储  93 10.5 实例  94 10.5.1 启动实例  94 10.5.2 实例启动失败  95 10.5.3 使用实例特有的数据  96 10.6 关联安全组  98 10.7 浮动IP  98 10.8 添加块存储  99 10.9 制作快照  100 10.10 数据库中的实例  102 10.11 祝你好运!  103 第11章 维护、故障和调试  104 11.1 云控制器和存储代理的故障及维护  104 11.1.1 计划中的维护  104 11.1.2 重启云控制器或存储代理  104 11.1.3 重启云控制器或存储代理之后  105 11.1.4 云控制器彻底故障  105 11.2 计算节点的故障和维护  106 11.2.1 计划中的维护  106 11.2.2 计算节点重启之后  106 11.2.3 虚拟机实例  107 11.2.4 检测并从故障实例中恢复数据  107 11.2.5 卷  110 11.2.6 计算节点彻底故障  110 11.2.7 /var/lib/nova/instances   111 11.3 存储节点故障和维护  112 11.3.1 重启存储节点  112 11.3.2 关闭存储节点  112 11.3.3 更换一块Swift 磁盘  112 11.4 处理彻底故障  113 11.5 配置管理  114 11.6 使用硬件  114 11.6.1 添加计算节点  114 11.6.2 添加对象存储节点  115 11.6.3 替换组件  115 11.7 数据库  115 11.7.1 数据库连接  115 11.7.2 性能与优化  116 11.8 HDWMY  116 11.8.1 每小时  116 11.8.2 每天  116 11.8.3 每星期  116 11.8.4 每个月  117 11.8.5 每季度  117 11.8.6 每半年  117 11.9 确定哪个组件已被破坏  117 11.9.1 跟踪日志  117 11.9.2 CLI上运行的守护进程  118 11.10 卸载  119 第12章 网络排障  120 12.1 使用“ip a”检查网络接口状态  120 12.2 云中的nova-network流量虚拟化  121 12.3 云中的OpenStack网络服务流量虚拟化  122 12.4 找出网络路径中的故障  128 12.4.1 tcpdump  128 12.4.2 iptables  129 12.5 nova-network在数据库中的网络配置  130 12.6 用nova-network排查DHCP故障  131 12.7 DNS故障排查  134 12.8 Open vSwitch故障排查  135 12.9 处理网络命名空间  136 12.10 总结  137 第13章 日志和监控  138 13.1 日志在哪里  138 13.2 阅读日志  139 13.3 跟踪实例的请求  140 13.4 添加自定义日志语句  141 13.5 RabbitMQ Web管理界面或rabbitmqctl  141 13.6 集中化日志管理  142 13.6.1 rsyslog客户端配置  142 13.6.2 rsyslog服务器端配置  143 13.7 StackTach  144 13.8 监控  144 13.8.1 进程监控  144 13.8.2 资源告警  145 13.8.3 用Ceilometer来测量和遥测  146 13.8.4 OpenStack特有的资源  146 13.8.5 智能告警  148 13.8.6 趋势分析  149 13.9 总结  150 第14章 备份和恢复  151 14.1 备份什么  151 14.2 数据库备份  152 14.3 文件系统备份  152 14.3.1 计算服务  152 14.3.2 镜像目录和发送  153 14.3.3 身份服务  153 14.3.4 块存储  153 14.3.5 对象存储  153 14.4 恢复备份  153 14.5 总结  154 第15章 定制化  155 15.1 创建OpenStack开发环境  156 15.2 定制对象存储(swfit)中间件  158 15.3 定制OpenStack计算服务(nova)调度器  164 15.4 定制控制面板(Horizon)  169 15.5 总结  169 第16章 OpenStack上游  170 16.1 获得帮助  170 16.2 报告bug  171 16.2.1 确认和划分优先级  172 16.2.2 修复bug  173 16.2.3 修复被接受后  173 16.3 加入OpenStack社区  173 16.4 如何为文档作贡献  174 16.5 安全信息  174 16.6 查找额外的信息  175 第17章 高级配置  176 17.1 不同驱动间的区别  176 17.2 执行周期性任务  177 17.3 谈谈具体的配置  178 17.3.1 计算服务、组网和存储的安全配置  178 17.3.2 高可用性  178 17.3.3 启用IPv6支持  178 17.3.4 计算服务的周期性任务频率  178 17.3.5 对象存储的地理注意事项  178 第18章 升级  180 18.1 升级之前的测试环境  180 18.2 准备回滚  181 18.3 升级  181 18.4 如何从Grizzly升级到Havana:Ubuntu  182 18.4.1 对用户的影响  182 18.4.2 升级的注意事项  182 18.4.3 做备份  183 18.4.4 管理仓库  183 18.4.5 升级配置文件  183 18.4.6 在控制器节点上升级软件包  185 18.4.7 在控制器节点上停止服务、升级数据库模式,并重启服务  186 18.4.8 在计算节点上升级软件包和重启服务  187 18.4.9 在块存储节点上升级软件包和重启服务  187 18.5 如何从Grizzly升级到Havana:Red Hat Enterprise Linux和其衍生版  188 18.5.1 对用户的影响  188 18.5.2 升级的注意事项  188 18.5.3 做备份  188 18.5.4 管理仓库  189 18.5.5 升级配置文件  189 18.5.6 在控制器节点上升级软件包  191 18.5.7 在控制器节点上停止服务,升级数据库模式,并重启服务  192 18.5.8 在计算节点上升级软件包和重启服务  193 18.5.9 在块存储节点上升级软件包和重启服务  193 18.6 清理和最终的配置文件升级  194 18.7 回滚一次失败的升级  194 附录A 用例  198 附录B 云中秘事  202 附录C 使用路线图  212 附录D Icehouse预览  218 附录E 参考资源  227 术语表  229 资源截图:
陌佑
百度云
百度云

Spark大数据分析实战

资源名称:Spark大数据分析实战  内容简介: 本书一共11章:其中第1~3章,主要介绍了Spark的基本概念、编程模型、开发与部署的方法;第4~11章,详细详解了热点新闻分析系统、基于云平台的日志数据分析、情感分析系统、搜索引擎链接分析系统等的应用与算法等核心知识点。 资源目录: 前 言 第1章 Spark简介 1 1.1 初识Spark 1 1.2 Spark生态系统BDAS 3 1.3 Spark架构与运行逻辑 4 1.4 弹性分布式数据集 6 1.4.1 RDD简介 6 1.4.2 RDD算子分类 8 1.5 本章小结 17 第2章 Spark开发与环境配置 18 2.1 Spark应用开发环境配置 18 2.1.1 使用Intellij开发Spark程序 18 2.1.2 使用SparkShell进行交互式数据分析 23 2.2 远程调试Spark程序 24 2.3 Spark编译 26 2.4 配置Spark源码阅读环境 29 2.5 本章小结 29 第3章 BDAS简介 30 3.1 SQL on Spark 30 3.1.1 为什么使用Spark SQL 31 3.1.2 Spark SQL架构分析 32 3.2 Spark Streaming 35 3.2.1 Spark Streaming简介 35 3.2.2 Spark Streaming架构 38 3.2.3 Spark Streaming原理剖析 38 3.3 GraphX 45 3.3.1 GraphX简介 45 3.3.2 GraphX的使用简介 45 3.3.3 GraphX体系结构 48 3.4 MLlib 50 3.4.1 MLlib简介 50 3.4.2 MLlib中的聚类和分类 52 3.5 本章小结 57 第4章 Lamda架构日志分析流水线 58 4.1 日志分析概述 58 4.2 日志分析指标 61 4.3 Lamda架构 62 4.4 构建日志分析数据流水线 64 4.4.1 用Flume进行日志采集 64 4.4.2 用Kafka将日志汇总 68 4.4.3 用Spark Streaming进行实时日志分析 70 4.4.4 Spark SQL离线日志分析 75 4.4.5 用Flask将日志KPI可视化 78 4.5 本章小结 81 第5章 基于云平台和用户日志的推荐系统 82 5.1 Azure云平台简介 82 5.1.1 Azure网站模型 83 5.1.2 Azure数据存储 84 5.1.3 Azure Queue消息传递 84 5.2 系统架构 85 5.3 构建Node.js应用 86 5.3.1 创建Azure Web应用 87 5.3.2 构建本地Node.js网站 90 5.3.3 发布应用到云平台 90 5.4 数据收集与预处理 91 5.4.1 通过JS收集用户行为日志 92 5.4.2 用户实时行为回传到Azure Queue 94 5.5 Spark Streaming实时分析用户日志 96 5.5.1 构建Azure Queue的Spark Streaming Receiver 96 5.5.2 Spark Streaming实时处理Azure Queue日志 97 5.5.3 Spark Streaming数据存储于Azure Table 98 5.6 MLlib离线训练模型 99 5.6.1 加载训练数据 99 5.6.2 使用rating RDD训练ALS模型 100 5.6.3 使用ALS模型进行电影推荐 101 5.6.4 评估模型的均方差 101 5.7 本章小结 102 第6章 Twitter情感分析 103 6.1 系统架构 103 6.2 Twitter数据收集 104 6.2.1 设置 104 6.2.2 Spark Streaming接收并输出Tweet 109 6.3 数据预处理与Cassandra存储 111 6.3.1 添加SBT依赖 111 6.3.2 创建Cassandra Schema 112 6.3.3 数据存储于Cassandra 112 6.4 Spark Streaming热点Twitter分析 113 6.5 Spark Streaming在线情感分析 115 6.6 Spark SQL进行Twitter分析 118 6.6.1 读取Cassandra数据 118 6.6.2 查看JSON数据模式 118 6.6.3 Spark SQL分析Twitter 119 6.7 Twitter可视化 123 6.8 本章小结 125 第7章 热点新闻分析系统 126 7.1 新闻数据分析 126 7.2 系统架构 126 7.3 爬虫抓取网络信息 127 7.3.1 Scrapy简介 127 7.3.2 创建基于Scrapy的新闻爬虫 128 7.3.3 爬虫分布式化 133 7.4 新闻文本数据预处理 134 7.5 新闻聚类 135 7.5.1 数据转换为向量(向量空间模型VSM) 135 7.5.2 新闻聚类 136 7.5.3 词向量同义词查询 138 7.5.4 实时热点新闻分析 138 7.6 Spark Elastic Search构建全文检索引擎 139 7.6.1 部署Elastic Search 139 7.6.2 用Elastic Search索引MongoDB数据 141 7.6.3 通过Elastic Search检索数据 143 7.7 本章小结 145 第8章 构建分布式的协同过滤推荐系统 146 8.1 推荐系统简介 146 8.2 协同过滤介绍 147 8.2.1 基于用户的协同过滤算法User-based CF 148 8.2.2 基于项目的协同过滤算法Item-based CF 149 8.2.3 基于模型的协同过滤推荐Model-based CF 150 8.3 基于Spark的矩阵运算实现协同过滤算法 152 8.3.1 Spark中的矩阵类型 152 8.3.2 Spark中的矩阵运算 153 8.3.3 实现User-based协同过滤的示例 153 8.3.4 实现Item-based协同过滤的示例 154 8.3.5 基于奇异值分解实现Model-based协同过滤的示例 155 8.4 基于Spark的MLlib实现协同过滤算法 155 8.4.1 MLlib的推荐算法工具 155 8.4.2 MLlib协同过滤推荐示例 156 8.5 案例:使用MLlib协同过滤实现电影推荐 157 8.5.1 MovieLens数据集 157 8.5.2 确定ZUI佳的协同过滤模型参数 158 8.5.3 利用ZUI佳模型进行电影推荐 160 8.6 本章小结 161 第9章 基于Spark的社交网络分析 162 9.1 社交网络介绍 162 9.1.1 社交网络的类型 162 9.1.2 社交网络的相关概念 163 9.2 社交网络中社团挖掘算法 164 9.2.1 聚类分析和K均值算法简介 165 9.2.2 社团挖掘的衡量指标 165 9.2.3 基于谱聚类的社团挖掘算法 166 9.3 Spark中的K均值算法 168 9.3.1 Spark中与K均值有关的对象和方法 168 9.3.2 Spark下K均值算法示例 168 9.4 案例:基于Spark的Facebook社团挖掘 169 9.4.1 SNAP社交网络数据集介绍 169 9.4.2 基于Spark的社团挖掘实现 170 9.5 社交网络中的链路预测算法 172 9.5.1 分类学习简介 172 9.5.2 分类器的评价指标 173 9.5.3 基于Logistic回归的链路预测算法 174 9.6 Spark MLlib中的Logistic回归 174 9.6.1 分类器相关对象 174 9.6.2 模型验证对象 175 9.6.3 基于Spark的Logistic回归示例 175 9.7 案例:基于Spark的链路预测算法 177 9.7.1 SNAP符号社交网络Epinions数据集 177 9.7.2 基于Spark的链路预测算法 177 9.8 本章小结 179 第10章 基于Spark的大规模新闻主题分析 180 10.1 主题模型简介 180 10.2 主题模型LDA 181 10.2.1 LDA模型介绍 181 10.2.2 LDA的训练算法 183 10.3 Spark中的LDA模型 185 10.3.1 MLlib对LDA的支持 185 10.3.2 Spark中LDA模型训练示例 186 10.4 案例:Newsgroups新闻的主题分析 189 10.4.1 Newsgroups数据集介绍 190 10.4.2 交叉验证估计新闻的主题个数 190 10.4.3 基于主题模型的文本聚类算法 193 10.4.4 基于主题模型的文本分类算法 195 10.5 本章小结 196 第11章 构建分布式的搜索引擎 197 11.1 搜索引擎简介 197 11.2 搜索排序概述 198 11.3 查询无关模型PageRank 199 11.4 基于Spark的分布式PageRank实现 200 11.4.1 PageRank的MapReduce实现 200 11.4.2 Spark的分布式图模型GraphX 203 11.4.3 基于GraphX的PageRank实现 203 11.5 案例:GoogleWeb Graph的PageRank计算 204 11.6 查询相关模型Ranking SVM 206 11.7 Spark中支持向量机的实现 208 11.7.1 Spark中的支持向量机模型 208 11.7.2 使用Spark测试数据演示支持向量机的训练 209 11.8 案例:基于MSLR数据集的查询排序 211 11.8.1 Microsoft Learning to Rank数据集介绍 211 11.8.2 基于Spark的Ranking SVM实现 212 11.9 本章小结 213 资源截图:
陌佑
百度云
百度云
⬅️ 1...18171818181918201821...2920

添加微信,反馈问题

微信及时反馈问题,方便沟通,请备注 ❤️

搜索榜单

1

骚老板资源网整站源码 打包数据高达2GB

1654

2

绿色风格网络公司源码 php网络建站公司源码

1070

3

(自适应手机版)响应式餐饮美食企业网站源码 餐饮品牌连锁机构织梦模板

1034

4

雷速问卷调查系统(疫情上报系统) v7.08

913

5

Zblog仿918回忆模特写真网带整站数据图库系统源码

875

6

一款笑话类网站源码 简约清爽的织梦笑话网站模板

807

最新资源

1

网狐电玩系列/乐游电玩城/免微信免短信登陆

2

湖南地方玩法好玩互娱纯源码

3

最新更新网狐旗舰大联盟+UI工程

4

傲玩系列客户端通用加解密工具

5

优米H5电玩城组件/多语言/带84个游戏/后台带控+搭建视频教程

6

网狐系列猫娱乐新UI蜡笔小新金币组件

友情链接:
免费APISSL在线检测在线pingAPI版本项目seo教程免费下载狗凯源码网 查看更多
网站地图 法律声明
本站所存储的源码数据均为转载,不提供在线播放和下载服务。本站为非盈利性,不收取费用,所有内容不用于商业行为,仅供学习交流使用。如有侵权,请联系15001904@qq.com
  • 联系微信,反馈问题

  • 点此立刻反馈