资源搜
资源搜
👀 联系夏柔
🔥 投稿源码
资源搜

资源搜

  • 全部
  • 123盘
  • 阿里盘
  • 百度云
  • 迅雷
  • 夸克
  • 115
  • 蓝奏云
  • 其他
已收录34127条资源,仅供学习交流,请在24h内删除资源!

BIG DATA大数据系统构建:可扩展实时数据系统构建原理与最佳实践

资源名称:BIG DATA大数据系统构建:可扩展实时数据系统构建原理与最佳实践 内容简介: 随着社交网络、网络分析和智能型电子商务的兴起,传统的数据库系统显然已无法满足海量数据的管理需求。 作为一种新的处理模式,大数据系统应运而生,它使用多台机器并行工作,能够对海量数据进行存储、处理、分析,进而帮助用户从中提取对优化流程、实现高增长率的有用信息,做更为精准有效的决策。 但不可忽略的是,它也引入了大多数开发者并不熟悉的、困扰传统架构的复杂性问题。 本书将教你充分利用集群硬件优势的Lambda架构,以及专门用来捕获和分析网络规模数据的新工具,来创建这些系统。它将描述一个可扩展的、易于理解大数据系统的方法——可以由小团队构建并运行。本书共18章,除了介绍基本概念,其他章节采用“理论+示例”的方式来阐释相关概念,并使用现实世界中的工具加以论证。其中,第1章介绍了数据系统的原理,给出了Lambda架构的概述,并概述了构建任何数据系统的广义方法。第2~9章集中阐述Lambda架构的批处理层。第10章和第11章集中阐述服务层,让读者了解只批量写入的特定数据库——这些数据库比传统数据库更简单,它们具有出色的性能,并具备可操作性、稳健性等特点。第12~17章集中阐述速度层,让读者更明确地了解NoSQL数据库、流处理和管理增量计算的复杂性。 第18章通过综合回顾Lambda架构的相关知识,帮助读者了解增量批处理、基本Lambda架构的变种,以及如何充分利用资源。 资源目录: 译 者 序 前  言 关于本书 致  谢 第1章 大数据的新范式1 第一部分 批处理层 第2章 大数据的数据模型24 第3章 大数据的数据模型:示例44 第4章 批处理层的数据存储51 第5章 批处理层的数据存储:示例62 第6章 批处理层79 第7章 批处理层:示例104 第8章 批处理层示例:架构和算法131 第9章 批处理层示例:实现147 第二部分 服务层 第10章 服务层概述168 第11章 服务层:示例184 第三部分 速度层 第12章 实时视图194 第13章 实时视图:示例206 第14章 队列和流处理211 第15章 队列和流处理:示例227 第16章 微批量流处理239 第17章 微批量流处理:示例253 第18章 深入Lambda架构268 资源截图:
陌佑
百度云
百度云

大数据科学

资源名称:大数据科学 资源截图:
陌佑
百度云
百度云

Spark MLlib机器学习实践(第2版)

资源名称:Spark MLlib机器学习实践(第2版) 内容简介: Spark作为新兴的、应用范围*为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相关内容的学习与开发,其中MLlib是Spark框架使用的核心。本书是一本细致介绍Spark MLlib程序设计的图书,入门简单,示例丰富。 本书分为13章,从Spark基础安装和配置开始,依次介绍MLlib程序设计基础、MLlib的数据对象构建、MLlib中RDD使用介绍,各种分类、聚类、回归等数据处理方法,*后还通过一个完整的实例,回顾了前面的学习内容,并通过代码实现了一个完整的分析过程。 本书理论内容由浅而深,采取实例和理论相结合的方式,讲解细致直观,适合Spark MLlib初学者、大数据分析和挖掘人员,也适合高校和培训学习相关专业的师生教学参考。 资源目录: 第1章  星星之火 1 1.1  大数据时代 1 1.2  大数据分析时代 2 1.3  简单、优雅、有效——这就是Spark3 1.4  核心——MLlib 4 1.5  星星之火,可以燎原 6 1.6  小结 6 第2章  Spark安装和开发环境配置 7 2.1 Windows单机模式Spark安装和配置 7 2.1.1 Windows 7安装Java 7 2.1.2 Windows 7安装Scala 10 2.1.3 Intellij IDEA下载和安装 13 2.1.4 Intellij IDEA中Scala插件的安装 14 2.1.5 HelloJava——使用Intellij IDEA创建Java程序 18 2.1.6 HelloScala——使用Intellij IDEA创建Scala程序 21 2.1.7 最后一脚——Spark单机版安装 26 2.2  经典的WordCount29 2.2.1 Spark实现WordCount 29 2.2.2 MapReduce实现WordCount 31 2.3  小结 34 第3章  RDD详解 35 3.1 RDD是什么 35 3.1.1 RDD名称的秘密 35 3.1.2 RDD特性 36 3.1.3 与其他分布式共享内存的区别 37 3.1.4 RDD缺陷 37 3.2 RDD工作原理 38 3.2.1 RDD工作原理图 38 3.2.2 RDD的相互依赖 38 3.3 RDD应用API详解 39 3.3.1 使用aggregate方法对给定的数据集进行方法设定 39 3.3.2 提前计算的cache方法 42 3.3.3 笛卡尔操作的cartesian方法 43 3.3.4 分片存储的coalesce方法 44 3.3.5 以value计算的countByValue方法 45 3.3.6 以key计算的countByKey方法 45 3.3.7 除去数据集中重复项的distinct方法 46 3.3.8 过滤数据的filter方法 47 3.3.9 以行为单位操作数据的flatMap方法 47 3.3.10 以单个数据为目标进行操作的map方法 48 3.3.11 分组数据的groupBy方法 48 3.3.12 生成键值对的keyBy方法 49 3.3.13 同时对两个数据进行处理的reduce方法 50 3.3.14 对数据进行重新排序的sortBy方法 51 3.3.15 合并压缩的zip方法 52 3.4  小结 53 第4章  MLlib基本概念 54 4.1 MLlib基本数据类型 54 4.1.1 多种数据类型 54 4.1.2 从本地向量集起步 55 4.1.3 向量标签的使用 56 4.1.4 本地矩阵的使用 58 4.1.5 分布式矩阵的使用 59 4.2 MLlib数理统计基本概念 62 4.2.1 基本统计量 62 4.2.2 统计量基本数据 63 4.2.3 距离计算 64 4.2.4 两组数据相关系数计算 65 4.2.5 分层抽样 67 4.2.6 假设检验 69 4.2.7 随机数 70 4.3  小结 71 第5章  协同过滤算法 72 5.1  协同过滤 72 5.1.1 协同过滤概述 72 5.1.2 基于用户的推荐 73 5.1.3 基于物品的推荐 74 5.1.4 协同过滤算法的不足 75 5.2  相似度度量 75 5.2.1 基于欧几里得距离的相似度计算 75 5.2.2 基于余弦角度的相似度计算 76 5.2.3 欧几里得相似度与余弦相似度的比较 77 5.2.4 第一个例子——余弦相似度实战 77 5.3 MLlib中的交替最小二乘法(ALS算法) 80 5.3.1 最小二乘法(LS算法)详解 81 5.3.2 MLlib中交替最小二乘法(ALS算法)详解 82 5.3.3 ALS算法实战 83 5.4  小结 85 第6章  MLlib线性回归理论与实战 86 6.1  随机梯度下降算法详解 86 6.1.1 道士下山的故事 87 6.1.2 随机梯度下降算法的理论基础 88 6.1.3 随机梯度下降算法实战 88 6.2 MLlib回归的过拟合 89 6.2.1 过拟合产生的原因 90 6.2.2 lasso回归与岭回归 91 6.3 MLlib线性回归实战 91 6.3.1 MLlib线性回归基本准备 91 6.3.2 MLlib线性回归实战:商品价格与消费者收入之间的关系 94 6.3.3 对拟合曲线的验证 95 6.4  小结 97 第7章  MLlib分类实战 98 7.1  逻辑回归详解 98 7.1.1 逻辑回归不是回归算法 98 7.1.2 逻辑回归的数学基础 99 7.1.3 一元逻辑回归示例 100 7.1.4 多元逻辑回归示例 101 7.1.5 MLlib逻辑回归验证 103 7.1.6 MLlib逻辑回归实例:肾癌的转移判断 104 7.2  支持向量机详解 106 7.2.1 三角还是圆 106 7.2.2 支持向量机的数学基础 108 7.2.3 支持向量机使用示例 109 7.2.4 使用支持向量机分析肾癌转移 110 7.3  朴素贝叶斯详解 111 7.3.1 穿裤子的男生or女生 111 7.3.2 贝叶斯定理的数学基础和意义 112 7.3.3 朴素贝叶斯定理 113 7.3.4 MLlib朴素贝叶斯使用示例 114 7.3.5 MLlib朴素贝叶斯实战:“僵尸粉”的鉴定 115 7.4  小结 117 第8章  决策树与保序回归 118 8.1  决策树详解 118 8.1.1 水晶球的秘密 119 8.1.2 决策树的算法基础:信息熵 119 8.1.3 决策树的算法基础——ID3算法 121 8.1.4 MLlib中决策树的构建 122 8.1.5 MLlib中决策树示例 123 8.1.6 随机雨林与梯度提升算法(GBT) 125 8.2  保序回归详解 127 8.2.1 何为保序回归 128 8.2.2 保序回归示例 128 8.3  小结 129 第9章  MLlib中聚类详解 130 9.1  聚类与分类 130 9.1.1 什么是分类 130 9.1.2 什么是聚类 131 9.2  MLlib中的Kmeans算法 131 9.2.1 什么是kmeans算法 131 9.2.2 MLlib中Kmeans算法示例 133 9.2.3 Kmeans算法中细节的讨论 134 9.3  高斯混合聚类 135 9.3.1 从高斯分布聚类起步 135 9.3.2 混合高斯聚类 137 9.3.3 MLlib高斯混合模型使用示例 137 9.4  快速迭代聚类 138 9.4.1 快速迭代聚类理论基础 138 9.4.2 快速迭代聚类示例 139 9.5  小结 140 第10章  MLlib中关联规则 141 10.1 Apriori频繁项集算法 141 10.1.1 啤酒与尿布 141 10.1.2 经典的Apriori算法 142 10.1.3 Apriori算法示例 144 10.2 FP-growth算法 145 10.2.1 Apriori算法的局限性 145 10.2.2 FP-growth算法 145 10.2.3 FP树示例 148 10.3 小结 149 第11章  数据降维 150 11.1 奇异值分解(SVD) 150 11.1.1 行矩阵(RowMatrix)详解 150 11.1.2 奇异值分解算法基础 151 11.1.3 MLlib中奇异值分解示例 152 11.2 主成分分析(PCA) 153 11.2.1 主成分分析(PCA)的定义 154 11.2.2 主成分分析(PCA)的数学基础 154 11.2.3 MLlib中主成分分析(PCA)示例 155 11.3 小结 156 第12章  特征提取和转换 157 12.1 TF-IDF 157 12.1.1 如何查找所要的新闻 157 12.1.2 TF-IDF算法的数学计算 158 12.1.3 MLlib中TF-IDF示例 159 12.2 词向量化工具 160 12.2.1 词向量化基础 160 12.2.2 词向量化使用示例 161 12.3 基于卡方检验的特征选择 162 12.3.1 “吃货”的苦恼 162 12.3.2 MLlib中基于卡方检验的特征选择示例 163 12.4 小结 164 第13章  MLlib实战演练——鸢尾花分析166 13.1 建模说明 166 13.1.1 数据的描述与分析目标 166 13.1.2 建模说明 168 13.2 数据预处理和分析 171 13.2.1 微观分析——均值与方差的对比分析 171 13.2.2 宏观分析——不同种类特性的长度计算 174 13.2.3 去除重复项——相关系数的确定 176 13.3 长与宽之间的关系——数据集的回归分析 180 13.3.1 使用线性回归分析长与宽之间的关系 180 13.3.2 使用逻辑回归分析长与宽之间的关系 183 13.4 使用分类和聚类对鸢尾花数据集进行处理 184 13.4.1 使用聚类分析对数据集进行聚类处理 184 13.4.2 使用分类分析对数据集进行分类处理 187 13.5 最终的判定——决策树测试 188 13.5.1 决定数据集的归类——决策树 188 13.5.2 决定数据集归类的分布式方法——随机雨林 190 13.6 小结 191 资源截图:
陌佑
百度云
百度云

OpenStack运维指南

资源名称:OpenStack运维指南 内容简介: 本书分两部分,全面介绍如何构建基于参考架构的OpenStack云系统和执行日常管理任务。**部分全面介绍如何充分发挥OpenStack强大的灵活性,通过各种正确决策造**配置,主要内容涉及架构示例、自动部署与配置、云控制器设计与云系统管理、计算节、扩展与隔离、存储决策和网络设计。第二部分讲解OpenStack云系统的日常操作,主要内容包括OpenStack控制面板、项目和用户管理、面向用户的运维、故障与调试、网络排障、日志功能与监控、备份与恢复、定制化、通过OpenStack社区获得支持、高级配置以及如何升级。 本书分两部分,全面介绍如何构建基于参考架构的OpenStack云系统和执行日常管理任务。**部分全面介绍如何充分发挥OpenStack强大的灵活性,通过各种正确决策造**配置,主要内容涉及架构示例、自动部署与配置、云控制器设计与云系统管理、计算节、扩展与隔离、存储决策和网络设计。第二部分讲解OpenStack云系统的日常操作,主要内容包括OpenStack控制面板、项目和用户管理、面向用户的运维、故障与调试、网络排障、日志功能与监控、备份与恢复、定制化、通过OpenStack社区获得支持、高级配置以及如何升级。 资源目录: 前言  xiii 第一部分 架构 第1章 架构示例  3 1.1 架构示例:传统网络模型(nova)  3 1.1.1 概述  4 1.1.2 详细描述  6 1.1.3 可选的扩展  8 1.2 架构示例:OpenStack网络服务  8 1.2.1 概述  8 1.2.2 详细描述  10 1.2.3 组件配置示例  16 1.3 关于架构的最后几句话  19 第2章 准备及部署  20 2.1 自动化部署  20 2.1.1 磁盘分区及RAID  21 2.1.2 网络配置  23 2.2 自动化配置  23 2.3 远程管理  23 2.4 关于准备和部署OpenStack的最后几句话  24 2.5 总结  24 第3章 云控制器设计和云系统管理  25 3.1 硬件注意事项  26 3.2 服务的分隔  27 3.3 数据库  28 3.4 消息队列  28 3.5 向导服务  28 3.6 应用程序接口(API)  29 3.7 扩展  29 3.8 调度  29 3.9 镜像  30 3.10 控制面板  30 3.11 认证及授权  31 3.12 网络相关注意事项  31 第4章 计算节点  32 4.1 选择CPU  32 4.2 选择超级管理程序  33 4.3 实例存储解决方案  33 4.3.1 非计算节点存储:共享文件系统  34 4.3.2 计算节点存储:共享文件系统  35 4.3.3 计算节点存储:非共享文件系统  35 4.3.4 动态迁移的问题  35 4.3.5 文件系统的选择  36 4.4 过量分配  36 4.5 日志记录  37 4.6 网络连接  37 4.7 总结  37 第5章 扩展  38 5.1 起点  38 5.2 添加云控制器节点  40 5.3 隔离云系统  40 5.3.1 nova单元和区域  41 5.3.2 可用域和主机集合  41 5.4 可扩展的硬件  43 5.4.1 硬件采购  43 5.4.2 容量规划  44 5.4.3 老化测试  44 第6章  存储决策  45 6.1 临时性存储  45 6.2 持久性存储  45 6.2.1 对象存储  45 6.2.2 块存储  47 6.3 OpenStack存储概念  47 6.4 选择存储后端  48 6.5 结论  51 第7章 网络设计  52 7.1 管理网络  52 7.2 公共地址选项  53 7.3 IP地址规划  53 7.4 网络拓扑  54 7.4.1 OpenStack虚拟机内部的VLAN配置  55 7.4.2 多网卡分配  56 7.4.3 多主机和单主机网络  56 7.5 网络服务  56 7.5.1 NTP  56 7.5.2 DNS  56 7.6 总结  57 第二部分 运维 第8章 了解全局  61 8.1 使用OpenStack控制面板进行管理  61 8.2 命令行工具  61 8.2.1 安装工具软件  62 8.2.2 管理的命令行工具  62 8.2.3 获得凭据  63 8.2.4 检查API调用  64 8.2.5 服务器和服务  66 8.2.6 计算节点诊断  67 8.3 网络检查  68 8.4 用户和项目  69 8.5 正在运行的实例  70 8.6 总结  71 第9章 管理项目和用户  72 9.1 项目还是租户  72 9.2 管理项目  73 9.3 配额  74 9.3.1 设置镜像配额  74 9.3.2 设置计算服务配额  75 9.3.3 设置对象存储配额  77 9.3.4 设置块存储配额  79 9.4 用户管理  80 9.5 创建新用户  80 9.6 将用户与项目关联  81 9.6.1 授权定制化  83 9.6.2 用户间的干扰  84 9.7 总结  85 第10章 面向用户的运维  86 10.1 镜像  86 10.1.1 添加镜像  86 10.1.2 在项目间共享镜像  87 10.1.3 删除镜像  87 10.1.4 其他命令行界面选项  88 10.1.5 镜像服务和数据库  88 10.1.6 镜像服务数据库查询示例  88 10.2 flavor  88 10.2.1 私有flavor  89 10.2.2 如何修改现存的flavor  90 10.3 安全组  90 10.3.1 通用的安全组配置  90 10.3.2 终端用户的安全组配置  91 10.4 块存储  93 10.5 实例  94 10.5.1 启动实例  94 10.5.2 实例启动失败  95 10.5.3 使用实例特有的数据  96 10.6 关联安全组  98 10.7 浮动IP  98 10.8 添加块存储  99 10.9 制作快照  100 10.10 数据库中的实例  102 10.11 祝你好运!  103 第11章 维护、故障和调试  104 11.1 云控制器和存储代理的故障及维护  104 11.1.1 计划中的维护  104 11.1.2 重启云控制器或存储代理  104 11.1.3 重启云控制器或存储代理之后  105 11.1.4 云控制器彻底故障  105 11.2 计算节点的故障和维护  106 11.2.1 计划中的维护  106 11.2.2 计算节点重启之后  106 11.2.3 虚拟机实例  107 11.2.4 检测并从故障实例中恢复数据  107 11.2.5 卷  110 11.2.6 计算节点彻底故障  110 11.2.7 /var/lib/nova/instances   111 11.3 存储节点故障和维护  112 11.3.1 重启存储节点  112 11.3.2 关闭存储节点  112 11.3.3 更换一块Swift 磁盘  112 11.4 处理彻底故障  113 11.5 配置管理  114 11.6 使用硬件  114 11.6.1 添加计算节点  114 11.6.2 添加对象存储节点  115 11.6.3 替换组件  115 11.7 数据库  115 11.7.1 数据库连接  115 11.7.2 性能与优化  116 11.8 HDWMY  116 11.8.1 每小时  116 11.8.2 每天  116 11.8.3 每星期  116 11.8.4 每个月  117 11.8.5 每季度  117 11.8.6 每半年  117 11.9 确定哪个组件已被破坏  117 11.9.1 跟踪日志  117 11.9.2 CLI上运行的守护进程  118 11.10 卸载  119 第12章 网络排障  120 12.1 使用“ip a”检查网络接口状态  120 12.2 云中的nova-network流量虚拟化  121 12.3 云中的OpenStack网络服务流量虚拟化  122 12.4 找出网络路径中的故障  128 12.4.1 tcpdump  128 12.4.2 iptables  129 12.5 nova-network在数据库中的网络配置  130 12.6 用nova-network排查DHCP故障  131 12.7 DNS故障排查  134 12.8 Open vSwitch故障排查  135 12.9 处理网络命名空间  136 12.10 总结  137 第13章 日志和监控  138 13.1 日志在哪里  138 13.2 阅读日志  139 13.3 跟踪实例的请求  140 13.4 添加自定义日志语句  141 13.5 RabbitMQ Web管理界面或rabbitmqctl  141 13.6 集中化日志管理  142 13.6.1 rsyslog客户端配置  142 13.6.2 rsyslog服务器端配置  143 13.7 StackTach  144 13.8 监控  144 13.8.1 进程监控  144 13.8.2 资源告警  145 13.8.3 用Ceilometer来测量和遥测  146 13.8.4 OpenStack特有的资源  146 13.8.5 智能告警  148 13.8.6 趋势分析  149 13.9 总结  150 第14章 备份和恢复  151 14.1 备份什么  151 14.2 数据库备份  152 14.3 文件系统备份  152 14.3.1 计算服务  152 14.3.2 镜像目录和发送  153 14.3.3 身份服务  153 14.3.4 块存储  153 14.3.5 对象存储  153 14.4 恢复备份  153 14.5 总结  154 第15章 定制化  155 15.1 创建OpenStack开发环境  156 15.2 定制对象存储(swfit)中间件  158 15.3 定制OpenStack计算服务(nova)调度器  164 15.4 定制控制面板(Horizon)  169 15.5 总结  169 第16章 OpenStack上游  170 16.1 获得帮助  170 16.2 报告bug  171 16.2.1 确认和划分优先级  172 16.2.2 修复bug  173 16.2.3 修复被接受后  173 16.3 加入OpenStack社区  173 16.4 如何为文档作贡献  174 16.5 安全信息  174 16.6 查找额外的信息  175 第17章 高级配置  176 17.1 不同驱动间的区别  176 17.2 执行周期性任务  177 17.3 谈谈具体的配置  178 17.3.1 计算服务、组网和存储的安全配置  178 17.3.2 高可用性  178 17.3.3 启用IPv6支持  178 17.3.4 计算服务的周期性任务频率  178 17.3.5 对象存储的地理注意事项  178 第18章 升级  180 18.1 升级之前的测试环境  180 18.2 准备回滚  181 18.3 升级  181 18.4 如何从Grizzly升级到Havana:Ubuntu  182 18.4.1 对用户的影响  182 18.4.2 升级的注意事项  182 18.4.3 做备份  183 18.4.4 管理仓库  183 18.4.5 升级配置文件  183 18.4.6 在控制器节点上升级软件包  185 18.4.7 在控制器节点上停止服务、升级数据库模式,并重启服务  186 18.4.8 在计算节点上升级软件包和重启服务  187 18.4.9 在块存储节点上升级软件包和重启服务  187 18.5 如何从Grizzly升级到Havana:Red Hat Enterprise Linux和其衍生版  188 18.5.1 对用户的影响  188 18.5.2 升级的注意事项  188 18.5.3 做备份  188 18.5.4 管理仓库  189 18.5.5 升级配置文件  189 18.5.6 在控制器节点上升级软件包  191 18.5.7 在控制器节点上停止服务,升级数据库模式,并重启服务  192 18.5.8 在计算节点上升级软件包和重启服务  193 18.5.9 在块存储节点上升级软件包和重启服务  193 18.6 清理和最终的配置文件升级  194 18.7 回滚一次失败的升级  194 附录A 用例  198 附录B 云中秘事  202 附录C 使用路线图  212 附录D Icehouse预览  218 附录E 参考资源  227 术语表  229 资源截图:
陌佑
百度云
百度云

Spark大数据分析实战

资源名称:Spark大数据分析实战  内容简介: 本书一共11章:其中第1~3章,主要介绍了Spark的基本概念、编程模型、开发与部署的方法;第4~11章,详细详解了热点新闻分析系统、基于云平台的日志数据分析、情感分析系统、搜索引擎链接分析系统等的应用与算法等核心知识点。 资源目录: 前 言 第1章 Spark简介 1 1.1 初识Spark 1 1.2 Spark生态系统BDAS 3 1.3 Spark架构与运行逻辑 4 1.4 弹性分布式数据集 6 1.4.1 RDD简介 6 1.4.2 RDD算子分类 8 1.5 本章小结 17 第2章 Spark开发与环境配置 18 2.1 Spark应用开发环境配置 18 2.1.1 使用Intellij开发Spark程序 18 2.1.2 使用SparkShell进行交互式数据分析 23 2.2 远程调试Spark程序 24 2.3 Spark编译 26 2.4 配置Spark源码阅读环境 29 2.5 本章小结 29 第3章 BDAS简介 30 3.1 SQL on Spark 30 3.1.1 为什么使用Spark SQL 31 3.1.2 Spark SQL架构分析 32 3.2 Spark Streaming 35 3.2.1 Spark Streaming简介 35 3.2.2 Spark Streaming架构 38 3.2.3 Spark Streaming原理剖析 38 3.3 GraphX 45 3.3.1 GraphX简介 45 3.3.2 GraphX的使用简介 45 3.3.3 GraphX体系结构 48 3.4 MLlib 50 3.4.1 MLlib简介 50 3.4.2 MLlib中的聚类和分类 52 3.5 本章小结 57 第4章 Lamda架构日志分析流水线 58 4.1 日志分析概述 58 4.2 日志分析指标 61 4.3 Lamda架构 62 4.4 构建日志分析数据流水线 64 4.4.1 用Flume进行日志采集 64 4.4.2 用Kafka将日志汇总 68 4.4.3 用Spark Streaming进行实时日志分析 70 4.4.4 Spark SQL离线日志分析 75 4.4.5 用Flask将日志KPI可视化 78 4.5 本章小结 81 第5章 基于云平台和用户日志的推荐系统 82 5.1 Azure云平台简介 82 5.1.1 Azure网站模型 83 5.1.2 Azure数据存储 84 5.1.3 Azure Queue消息传递 84 5.2 系统架构 85 5.3 构建Node.js应用 86 5.3.1 创建Azure Web应用 87 5.3.2 构建本地Node.js网站 90 5.3.3 发布应用到云平台 90 5.4 数据收集与预处理 91 5.4.1 通过JS收集用户行为日志 92 5.4.2 用户实时行为回传到Azure Queue 94 5.5 Spark Streaming实时分析用户日志 96 5.5.1 构建Azure Queue的Spark Streaming Receiver 96 5.5.2 Spark Streaming实时处理Azure Queue日志 97 5.5.3 Spark Streaming数据存储于Azure Table 98 5.6 MLlib离线训练模型 99 5.6.1 加载训练数据 99 5.6.2 使用rating RDD训练ALS模型 100 5.6.3 使用ALS模型进行电影推荐 101 5.6.4 评估模型的均方差 101 5.7 本章小结 102 第6章 Twitter情感分析 103 6.1 系统架构 103 6.2 Twitter数据收集 104 6.2.1 设置 104 6.2.2 Spark Streaming接收并输出Tweet 109 6.3 数据预处理与Cassandra存储 111 6.3.1 添加SBT依赖 111 6.3.2 创建Cassandra Schema 112 6.3.3 数据存储于Cassandra 112 6.4 Spark Streaming热点Twitter分析 113 6.5 Spark Streaming在线情感分析 115 6.6 Spark SQL进行Twitter分析 118 6.6.1 读取Cassandra数据 118 6.6.2 查看JSON数据模式 118 6.6.3 Spark SQL分析Twitter 119 6.7 Twitter可视化 123 6.8 本章小结 125 第7章 热点新闻分析系统 126 7.1 新闻数据分析 126 7.2 系统架构 126 7.3 爬虫抓取网络信息 127 7.3.1 Scrapy简介 127 7.3.2 创建基于Scrapy的新闻爬虫 128 7.3.3 爬虫分布式化 133 7.4 新闻文本数据预处理 134 7.5 新闻聚类 135 7.5.1 数据转换为向量(向量空间模型VSM) 135 7.5.2 新闻聚类 136 7.5.3 词向量同义词查询 138 7.5.4 实时热点新闻分析 138 7.6 Spark Elastic Search构建全文检索引擎 139 7.6.1 部署Elastic Search 139 7.6.2 用Elastic Search索引MongoDB数据 141 7.6.3 通过Elastic Search检索数据 143 7.7 本章小结 145 第8章 构建分布式的协同过滤推荐系统 146 8.1 推荐系统简介 146 8.2 协同过滤介绍 147 8.2.1 基于用户的协同过滤算法User-based CF 148 8.2.2 基于项目的协同过滤算法Item-based CF 149 8.2.3 基于模型的协同过滤推荐Model-based CF 150 8.3 基于Spark的矩阵运算实现协同过滤算法 152 8.3.1 Spark中的矩阵类型 152 8.3.2 Spark中的矩阵运算 153 8.3.3 实现User-based协同过滤的示例 153 8.3.4 实现Item-based协同过滤的示例 154 8.3.5 基于奇异值分解实现Model-based协同过滤的示例 155 8.4 基于Spark的MLlib实现协同过滤算法 155 8.4.1 MLlib的推荐算法工具 155 8.4.2 MLlib协同过滤推荐示例 156 8.5 案例:使用MLlib协同过滤实现电影推荐 157 8.5.1 MovieLens数据集 157 8.5.2 确定ZUI佳的协同过滤模型参数 158 8.5.3 利用ZUI佳模型进行电影推荐 160 8.6 本章小结 161 第9章 基于Spark的社交网络分析 162 9.1 社交网络介绍 162 9.1.1 社交网络的类型 162 9.1.2 社交网络的相关概念 163 9.2 社交网络中社团挖掘算法 164 9.2.1 聚类分析和K均值算法简介 165 9.2.2 社团挖掘的衡量指标 165 9.2.3 基于谱聚类的社团挖掘算法 166 9.3 Spark中的K均值算法 168 9.3.1 Spark中与K均值有关的对象和方法 168 9.3.2 Spark下K均值算法示例 168 9.4 案例:基于Spark的Facebook社团挖掘 169 9.4.1 SNAP社交网络数据集介绍 169 9.4.2 基于Spark的社团挖掘实现 170 9.5 社交网络中的链路预测算法 172 9.5.1 分类学习简介 172 9.5.2 分类器的评价指标 173 9.5.3 基于Logistic回归的链路预测算法 174 9.6 Spark MLlib中的Logistic回归 174 9.6.1 分类器相关对象 174 9.6.2 模型验证对象 175 9.6.3 基于Spark的Logistic回归示例 175 9.7 案例:基于Spark的链路预测算法 177 9.7.1 SNAP符号社交网络Epinions数据集 177 9.7.2 基于Spark的链路预测算法 177 9.8 本章小结 179 第10章 基于Spark的大规模新闻主题分析 180 10.1 主题模型简介 180 10.2 主题模型LDA 181 10.2.1 LDA模型介绍 181 10.2.2 LDA的训练算法 183 10.3 Spark中的LDA模型 185 10.3.1 MLlib对LDA的支持 185 10.3.2 Spark中LDA模型训练示例 186 10.4 案例:Newsgroups新闻的主题分析 189 10.4.1 Newsgroups数据集介绍 190 10.4.2 交叉验证估计新闻的主题个数 190 10.4.3 基于主题模型的文本聚类算法 193 10.4.4 基于主题模型的文本分类算法 195 10.5 本章小结 196 第11章 构建分布式的搜索引擎 197 11.1 搜索引擎简介 197 11.2 搜索排序概述 198 11.3 查询无关模型PageRank 199 11.4 基于Spark的分布式PageRank实现 200 11.4.1 PageRank的MapReduce实现 200 11.4.2 Spark的分布式图模型GraphX 203 11.4.3 基于GraphX的PageRank实现 203 11.5 案例:GoogleWeb Graph的PageRank计算 204 11.6 查询相关模型Ranking SVM 206 11.7 Spark中支持向量机的实现 208 11.7.1 Spark中的支持向量机模型 208 11.7.2 使用Spark测试数据演示支持向量机的训练 209 11.8 案例:基于MSLR数据集的查询排序 211 11.8.1 Microsoft Learning to Rank数据集介绍 211 11.8.2 基于Spark的Ranking SVM实现 212 11.9 本章小结 213 资源截图:
陌佑
百度云
百度云

大数据治理与安全从理论到开源实践

资源名称:大数据治理与安全从理论到开源实践 内容简介: 作为大数据前沿的新兴领域,市面上大数据安全与治理的相关书籍屈指可数。本书在介绍大数据学术界新动态与大数据行业生产实践的同时,对大数据安全与治理的新理论与实践内容做了详尽的阐述。本书分为两部分:第壹篇(理论篇),介绍大数据治理与安全的理论、方法和技术挑战等;第二篇(开源实现篇),介绍开源社区各类开源项目,将研究与实践的内容根据不同组件分类。 资源目录: 前 言 第一篇 理论篇 第1章 大数据治理技术2 1.1 概述2 1.1.1 大数据治理的基本概念2 1.1.2 大数据治理的意义和重要作用5 1.2 框架7 1.2.1 大数据治理框架概述7 1.2.2 大数据治理的原则9 1.2.3 大数据治理的范围11 1.2.4 大数据治理的实施与评估14 第2章 大数据安全、隐私保护和审计技术19 2.1 大数据安全19 2.1.1 大数据安全的意义和重要作用19 2.1.2 大数据安全面临的问题与挑战21 2.1.3 大数据安全防护技术23 2.2 大数据隐私保护26 2.2.1 大数据隐私保护的意义和重要作用26 2.2.2 大数据隐私保护面临的问题与挑战28 2.2.3 大数据隐私保护技术31 2.3 大数据治理审计34 2.3.1 大数据治理审计概述34 2.3.2 大数据治理审计内容37 2.3.3 大数据治理审计方法和技术39 2.3.4 大数据治理审计流程43 第二篇 开源实现篇 第3章 大数据治理之Apache Falcon48 3.1 Apache Falcon概述48 3.1.1 Apache Falcon技术概况49 3.1.2 Apache Falcon发展近况50 3.1.3 Apache Falcon技术优势50 3.1.4 Apache Falcon架构51 3.2 Apache Falcon的使用53 3.2.1 Oozie的安装与配置56 3.2.2 Falcon的安装与配置61 3.2.3 实体XML的创建与声明63 3.3 Apache Falcon场景设计与实现74 3.3.1 数据管道74 3.3.2 结构化数据导入分布式文件系统82 3.3.3 结构化数据库与数据仓库的交互89 3.3.4 跨集群数据传输104 3.3.5 数据镜像109 3.3.6 数据仓库中的数据操作113 3.4 Apache Falcon优化与性能分析118 3.4.1 Apache Falcon控制流118 3.4.2 分布式部署119 3.4.3 安全模式120 3.4.4 Apache Falcon优化122 3.5 Apache Falcon应用举例123 3.5.1 InMobi基于Falcon的数据治理123 3.5.2 Expedia基于Falcon的数据治理125 3.6 本章小结126 第4章 大数据治理之Apache Atlas127 4.1 Apache Atlas概述127 4.1.1 Apache Atlas技术概况127 4.1.2 Apache Atlas发展近况130 4.1.3 Apache Atlas技术优势133 4.1.4 Apache Atlas架构136 4.2 Apache Atlas的配置与使用143 4.2.1 安装配置Apache Atlas143 4.2.2 添加或修改Atlas Web UI的登录账户158 4.2.3 配置Hive通过Hive HOOK导入数据159 4.2.4 配置Sqoop通过Sqoop HOOK导入数据163 4.2.5 配置Storm通过Storm HOOK导入数据167 4.2.6 配置Falcon通过Falcon HOOK导入数据173 4.3 Apache Atlas的场景设计176 4.3.1 Atlas总场景介绍176 4.3.2 Atlas非实时数据场景178 4.3.3 Atlas实时数据场景183 4.3.4 Hive数据表操作183 4.4 Apache Atlas优化与性能分析190 4.5 本章小结193 第5章 大数据安全之Apache Ranger194 5.1 Apache Ranger概述194 5.1.1 Ranger技术概况194 5.1.2 Ranger发展史及近况196 5.1.3 Ranger的特点和作用197 5.1.4 Ranger架构199 5.1.5 Ranger应用场景200 5.2 Apache Ranger的安全认证配置201 5.2.1 Ranger安装与部署201 5.2.2 安全及访问权限控制机制206 5.2.3 Ranger集成HDFS的安全认证机制与配置208 5.2.4 Ranger集成YARN的安全认证机制与配置213 5.2.5 Ranger集成Hive的安全认证机制与配置217 5.2.6 Ranger集成HBase的安全认证机制与配置221 5.2.7 Ranger集成Kafka的安全认证机制与配置228 5.2.8 Ranger集成Atlas的安全认证机制与配置235 5.2.9 Ranger集成Storm的安全认证机制与配置238 5.2.10 Ranger集成Solr的安全认证机制与配置246 5.3 Apache Ranger的功能配置254 5.3.1 Tag同步验证254 5.3.2 各类Policy验证255 5.4 Apache Ranger优化与性能分析262 5.5 本章小结263 第6章 大数据安全之Apache Sentry265 6.1 Apache Sentry 概述265 6.1.1 Apache Sentry技术概况265 6.1.2 Apache Sentry发展近况267 6.1.3 Apache Sentry技术优势269 6.1.4 Apache Sentry架构272 6.2 Apache Sentry的安装与配置274 6.2.1 先决条件274 6.2.2 Impala的安装与调试274 6.2.3 Apache Sentry的安装和配置282 6.2.4 Apache Sentry与Impala的集成286 6.3 Apache Sentry场景设计之Sentry对Impala的控制288 6.3.1 场景数据准备288 6.3.2 基于文件存储元数据的场景验证288 6.3.3 基于数据库存储元数据的场景验证292 6.4 Apache Sentry场景设计之Sentry对Hive的控制296 6.4.1 Hive与Sentry的集成配置296 6.4.2 准备实验数据298 6.4.3 基于文件存储方式的数据表操作298 6.4.4 基于数据库存储方式的数据表操作301 6.5 本章小结305 第7章 大数据安全之Kerberos认证306 7.1 Kerberos概述306 7.1.1 Kerberos技术概况306 7.1.2 Kerberos发展史及近况307 7.1.3 Kerberos架构308 7.1.4 Kerberos的认证流程309 7.1.5 Kerberos的风险与缺陷311 7.1.6 Kerberos应用举例312 7.2 Kerberos使用操作说明314 7.2.1 名词解释314 7.2.2 KDC 资源截图:
陌佑
百度云
百度云

Spark大数据商业实战三部曲:内核解密|商业案例|性能调优

资源名称:Spark大数据商业实战三部曲:内核解密|商业案例|性能调优 内容简介: 《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》基于Spark 2.2.X,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,以Spark内核解密为基石,分为上篇、中篇、下篇,对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码,从一个动手实战案例入手,循序渐进地全面解析了Spark 2.2新特性及Spark内核源码;中篇选取Spark开发中*有代表的经典学习案例,深入浅出地介绍,在案例中综合应用Spark的大数据技术;下篇性能调优内容基本完全覆盖了Spark在生产环境下的所有调优技术。 资源目录: 上篇  内核解密 第1章  电光石火间体验Spark 2.2开发实战... 2 1.1  通过RDD实战电影点评系统入门及源码阅读... 2 1.1.1  Spark核心概念图解... 2 1.1.2  通过RDD实战电影点评系统案例... 4 1.2  通过DataFrame和DataSet实战电影点评系统... 7 1.2.1  通过DataFrame实战电影点评系统案例... 7 1.2.2  通过DataSet实战电影点评系统案例... 10 1.3  Spark 2.2源码阅读环境搭建及源码阅读体验... 11 第2章  Spark 2.2技术及原理... 14 2.1  Spark 2.2综述... 14 2.1.1  连续应用程序... 14 2.1.2  新的API 15 2.2  Spark 2.2 Core. 16 2.2.1  第二代Tungsten引擎... 16 2.2.2  SparkSession. 16 2.2.3  累加器API 17 2.3  Spark 2.2 SQL. 19 2.3.1  Spark SQL. 20 2.3.2  DataFrame和Dataset API 20 2.3.3  Timed Window.. 21 2.4  Spark 2.2 Streaming. 21 2.4.1  Structured Streaming. 21 2.4.2  增量输出模式... 23 2.5  Spark 2.2 MLlib. 27 2.5.1  基于DataFrame的Machine Learning API 28 2.5.2  R的分布式算法... 28 2.6  Spark 2.2 GraphX.. 29 第3章  Spark的灵魂:RDD和DataSet 30 3.1  为什么说RDD和DataSet是Spark的灵魂... 30 3.1.1  RDD的定义及五大特性剖析... 30 3.1.2  DataSet的定义及内部机制剖析... 34 3.2  RDD弹性特性七个方面解析... 36 3.3  RDD依赖关系... 43 3.3.1  窄依赖解析... 43 3.3.2  宽依赖解析... 45 3.4  解析Spark中的DAG逻辑视图... 46 3.4.1  DAG生成的机制... 46 3.4.2  DAG逻辑视图解析... 47 3.5  RDD内部的计算机制... 49 3.5.1  Task解析... 49 3.5.2  计算过程深度解析... 49 3.6  Spark RDD容错原理及其四大核心要点解析... 57 3.6.1  Spark RDD容错原理... 57 3.6.2  RDD容错的四大核心要点... 57 3.7  Spark RDD中Runtime流程解析... 59 3.7.1  Runtime架构图... 59 3.7.2  生命周期... 60 3.8  通过WordCount实战解析Spark RDD内部机制... 70 3.8.1  Spark WordCount动手实践... 70 3.8.2  解析RDD生成的内部机制... 72 3.9  基于DataSet的代码到底是如何一步步转化成为RDD的... 78 第4章  Spark Driver启动内幕剖析... 81 4.1  Spark Driver Program剖析... 81 4.1.1  Spark Driver Program.. 81 4.1.2  SparkContext深度剖析... 81 4.1.3  SparkContext源码解析... 82 4.2  DAGScheduler解析... 96 4.2.1  DAG的定义... 96 4.2.2  DAG的实例化... 97 4.2.3  DAGScheduler划分Stage的原理... 98 4.2.4  DAGScheduler划分Stage的具体算法... 99 4.2.5  Stage内部Task获取最佳位置的算法... 113 4.3  TaskScheduler解析... 116 4.3.1  TaskScheduler原理剖析... 116 4.3.2  TaskScheduler源码解析... 117 4.4  SchedulerBackend解析... 132 4.4.1  SchedulerBackend原理剖析... 132 4.4.2  SchedulerBackend源码解析... 132 4.4.3  Spark程序的注册机制... 133 4.4.4  Spark程序对计算资源Executor的管理... 134 4.5  打通Spark系统运行内幕机制循环流程... 135 4.6  本章总结... 145 第5章  Spark集群启动原理和源码详解... 146 5.1  Master启动原理和源码详解... 146 5.1.1  Master启动的原理详解... 146 5.1.2  Master启动的源码详解... 147 5.1.3  Master HA双机切换... 157 5.1.4  Master的注册机制和状态管理解密... 163 5.2  Worker启动原理和源码详解... 170 5.2.1  Worker启动的原理流程... 170 5.2.2  Worker启动的源码详解... 174 5.3  ExecutorBackend启动原理和源码详解... 178 5.3.1  ExecutorBackend接口与Executor的关系... 178 5.3.2  ExecutorBackend的不同实现... 179 5.3.3  ExecutorBackend中的通信... 181 5.3.4  ExecutorBackend的异常处理... 183 5.4  Executor中任务的执行... 184 5.4.1  Executor中任务的加载... 184 5.4.2  Executor中的任务线程池... 185 5.4.3  任务执行失败处理... 186 5.4.4  揭秘TaskRunner 188 5.5  Executor执行结果的处理方式... 189 5.6  本章总结... 197 第6章  Spark Application提交给集群的原理和源码详解... 198 6.1  Spark Application到底是如何提交给集群的... 198 6.1.1  Application提交参数配置详解... 198 6.1.2  Application提交给集群原理详解... 199 6.1.3  Application提交给集群源码详解... 201 6.2  Spark Application是如何向集群申请资源的... 211 6.2.1  Application申请资源的两种类型详解... 211 6.2.2  Application申请资源的源码详解... 213 6.3  从Application提交的角度重新审视Driver 219 6.3.1  Driver到底是什么时候产生的... 220 6.3.2  Driver和Master交互原理解析... 238 6.3.3  Driver和Master交互源码详解... 244 6.4  从Application提交的角度重新审视Executor 249 6.4.1  Executor到底是什么时候启动的... 249 6.4.2  Executor如何把结果交给Application. 254 6.5  Spark 1.6 RPC内幕解密:运行机制、源码详解、Netty与Akka等... 254 6.6  本章总结... 267 第7章  Shuffle原理和源码详解... 268 7.1  概述... 268 7.2  Shuffle的框架... 269 7.2.1  Shuffle的框架演进... 269 7.2.2  Shuffle的框架内核... 270 7.2.3  Shuffle框架的源码解析... 272 7.2.4  Shuffle数据读写的源码解析... 275 7.3  Hash Based Shuffle. 281 7.3.1  概述... 281 7.3.2  Hash Based Shuffle内核... 282 7.3.3  Hash Based Shuffle数据读写的源码解析... 285 7.4  Sorted Based Shuffle. 290 7.4.1  概述... 292 7.4.2  Sorted Based Shuffle内核... 293 7.4.3  Sorted Based Shuffle数据读写的源码解析... 294 7.5  Tungsten Sorted Based Shuffle. 302 7.5.1  概述... 302 7.5.2  Tungsten Sorted Based Shuffle内核... 302 7.5.3  Tungsten Sorted Based Shuffle数据读写的源码解析... 303 7.6  Shuffle与Storage 模块间的交互... 309 7.6.1  Shuffle注册的交互... 310 7.6.2  Shuffle写数据的交互... 314 7.6.3  Shuffle读数据的交互... 315 7.6.4  BlockManager架构原理、运行流程图和源码解密... 315 7.6.5  BlockManager解密进阶:BlockManager初始化和注册解密、BlockManager- Master工作解密、BlockTransferService解密、本地数据读写解密、远程数据读写解密... 324 7.7  本章总结... 341 第8章  Job工作原理和源码详解... 342 8.1  Job到底在什么时候产生... 342 8.1.1  触发Job的原理和源码解析... 342 8.1.2  触发Job的算子案例... 344 8.2  Stage划分内幕... 345 8.2.1  Stage划分原理详解... 345 8.2.2  Stage划分源码详解... 346 8.3  Task全生命周期详解... 346 8.3.1  Task的生命过程详解... 347 8.3.2  Task在Driver和Executor中交互的全生命周期原理和源码详解... 348 8.4  ShuffleMapTask和ResultTask处理结果是如何被Driver管理的... 364 8.4.1  ShuffleMapTask执行结果和Driver的交互原理及源码详解... 364 8.4.2  ResultTask执行结果与Driver的交互原理及源码详解... 370 第9章  Spark中Cache和checkpoint原理和源码详解... 372 9.1  Spark中Cache原理和源码详解... 372 9.1.1  Spark中Cache原理详解... 372 9.1.2  Spark中Cache源码详解... 372 9.2  Spark中checkpoint原理和源码详解... 381 9.2.1  Spark中checkpoint原理详解... 381 9.2.2  Spark中checkpoint源码详解... 381 第10章  Spark中Broadcast和Accumulator原理和源码详解... 391 10.1  Spark中Broadcast原理和源码详解... 391 10.1.1  Spark中Broadcast原理详解... 391 10.1.2  Spark中Broadcast源码详解... 393 10.2  Spark中Accumulator原理和源码详解... 396 10.2.1  Spark中Accumulator原理详解... 396 10.2.2  Spark中Accumulator源码详解... 396 第11章  Spark与大数据其他经典组件整合原理与实战... 399 11.1  Spark组件综合应用... 399 11.2  Spark与Alluxio整合原理与实战... 400 11.2.1  Spark与Alluxio整合原理... 400 11.2.2  Spark与Alluxio整合实战... 401 11.3  Spark与Job Server整合原理与实战... 403 11.3.1  Spark与Job Server整合原理... 403 11.3.2  Spark与Job Server整合实战... 404 11.4  Spark与Redis整合原理与实战... 406 11.4.1  Spark与Redis整合原理... 406 11.4.2  Spark与Redis整合实战... 407 中篇  商业案例 第12章  Spark商业案例之大数据电影点评系统应用案例... 412 12.1  通过RDD实现分析电影的用户行为信息... 412 12.1.1  搭建IDEA开发环境... 412 12.1.2  大数据电影点评系统中电影数据说明... 425 12.1.3  电影点评系统用户行为分析统计实战... 428 12.2  通过RDD实现电影流行度分析... 431 12.3  通过RDD分析各种类型的最喜爱电影TopN及性能优化技巧... 433 12.4  通过RDD分析电影点评系统仿QQ和微信等用户群分析及广播 背后机制解密... 436 12.5  通过RDD分析电影点评系统实现Java和Scala版本的二次排序系统... 439 12.5.1  二次排序自定义Key值类实现(Java)... 440 12.5.2  电影点评系统二次排序功能实现(Java)... 442 12.5.3  二次排序自定义Key值类实现(Scala)... 445 12.5.4  电影点评系统二次排序功能实现(Scala)... 446 12.6  通过Spark SQL中的SQL语句实现电影点评系统用户行为分析... 447 12.7  通过Spark SQL下的两种不同方式实现口碑最佳电影分析... 451 12.8  通过Spark SQL下的两种不同方式实现最流行电影分析... 456 12.9  通过DataFrame分析最受男性和女性喜爱电影TopN.. 457 12.10  纯粹通过DataFrame分析电影点评系统仿QQ和微信、淘宝等用户群... 460 12.11  纯粹通过DataSet对电影点评系统进行流行度和不同年龄阶段兴趣分析等... 462 12.11.1  通过DataSet实现某特定电影观看者中男性和女性不同年龄的人数... 463 12.11.2  通过DataSet方式计算所有电影中平均得分最高 (口碑最好)的电影TopN.. 464 12.11.3  通过DataSet方式计算所有电影中粉丝或者观看人数最多(最流行电影)的电影TopN   465 12.11.4  纯粹通过DataSet的方式实现所有电影中最受男性、女性喜爱的 电影Top10. 466 12.11.5  纯粹通过DataSet的方式实现所有电影中QQ或者微信核心目标 用户最喜爱电影TopN分析... 467 12.11.6  纯粹通过DataSet的方式实现所有电影中淘宝核心目标用户最喜爱电影TopN分析    469 12.12  大数据电影点评系统应用案例涉及的核心知识点原理、源码及案例代码... 470 12.12.1  知识点:广播变量Broadcast内幕机制... 470 12.12.2  知识点:SQL全局临时视图及临时视图... 473 12.12.3  大数据电影点评系统应用案例完整代码... 474 12.13  本章总结... 496 资源截图:
陌佑
百度云
百度云

大数据架构师指南

资源名称:大数据架构师指南 内容简介: 如果你是一名IT工程师,CTO希望你在一周内提交一份公司未来IT系统基础架构的初步建议; 如果你是一位IT营销人员,客户需要你在一周内向他汇报未来大数据系统的大致技术方向; …… 在这个信息严重过剩的时代,一周内从浩渺的技术细节的海洋中抓住关键的技术脉络,并进一步提出有一定理论依据的技术思考,这几乎是不可能完成的任务。 您是否想过阅读一本关于大数据的图书帮助解决如上问题? 浩如烟海的大数据领域图书可以大致归纳为三类:第一类是描述大数据的应用前景与社会意义;第二类是研讨大数据作为一个大型IT系统的系统架构与技术架构;第三类是研讨大数据领域的具体技术,例如HADOOP相关的编程等。 对于需要快速掌握大数据系统技术脉络,或者是需要对未来IT系统做系统思考的技术工作者来说,最需要的是第二类图书所提供的系统化知识。但目前业界大数据相关的书籍与资料,大多是第一类与第三类,第二类非常稀少,以至于某些希望开展大数据课程教学的高校难以找到合适的教材与参考数据。通过阅读本书,您将可以迅速建立大数据技术架构相关的知识与脉络,而不是迷失在浩如烟海的知识细节中。 本书的目的就是为了帮助读者在最短的时间内,系统地把握大数据相关的技术框架,建立系统架构级别的技术思考能力与原则。本书适用于企业的IT与大数据的从业人员,IT与大数据相关的销售人员,企业的首席技术官(CTO)、首席信息官(CIO),由于本书在大数据知识具备系统性,也可以作为高校大数据方面课程的教材或辅导书。 资源目录: 第一部分 大数据架构师入门 第1章 大数据概述 3 1.1 什么是大数据 4 1.2 大数据的本质 6 1.3 大数据技术当前状态 8 1.4 大数据的技术发展趋势 11 第2章 大数据项目常见场景 13 2.1 实验型部署场景 14 2.2 中小型部署场景 16 2.3 大型部署场景 19 第3章 大数据方案关键因素 23 3.1 数据存储规模与数据类型 24 3.2 数据来源与数据质量 25 3.3 业务特征 26 3.4 经济可行性 27 3.5 运维管理要求 28 3.6 安全性要求 29 3.7 部署要求 31 3.8 系统边界 32 3.9 约束条件 34 3.10 要点回顾 34 第二部分 大数据架构师基础 第4章 Hadoop基础组件 39 4.1 Hadoop简介 40 4.2 Hadoop版本演进 41 4.3 Hadoop2.0生态系统简介 42 4.4 Hadoop分布式文件系统HDFS 43 4.5 Hadoop统一资源管理框架YARN 48 4.6 Hadoop分布式计算框架MapReduce 52 4.7 Hadoop分布式集群管理系统ZooKeeper 57 第5章 Hadoop其他常用组件 61 5.1 Hadoop数据仓库工具Hive 62 5.2 Hadoop分布式数据库 HBase 65 5.3 Hadoop实时流处理引擎 Storm 70 5.4 Hadoop交互式查询引擎 Impala 74 5.5 其他常用组件 78 第6章 Spark内存计算框架 83 6.1 内存计算与Spark 84 6.2 Spark的主要概念 86 6.3 Spark核心组件介绍 96 6.4 Spark与Hadoop之间的关系 100 6.5 要点回顾 104 第7章大数据中间件层 105 7.1 中间件层简介 106 7.2 中间件层产品介绍 107 7.3 中间件层的应用 121 7.4 中间件层的发展 124 7.5 要点回顾 128 第8章大数据分析 129 8.1 数据时代 131 8.2 先进分析 133 8.3 架构与平台 136 8.4 数据分析流程 140 8.5 要点回顾 143 第9章可视化技术 145 9.1 可视化技术引言 146 9.2 什么是数据可视化 147 9.3 数据可视化设计 151 9.4 数据可视化的发展趋势 160 9.5 要点回顾 161 第10章大数据安全 163 10.1 安全体系 164 10.2 大数据系统安全 168 10.3 要点回顾 180 第11章大数据管理 181 11.1 数据管理的范围和定义 182 11.2 开源软件的管理能力 183 11.3 国内主流管理 187 11.4 大数据管理展望 195 11.5 要点回顾 195 第三部分大数据架构师实践 第12章大数据项目实践 199 12.1 大数据项目架构关键步骤 201 12.2 架构师实践思考 213 第13章大数据部署实践 217 13.1 中兴通讯DAP大数据平台功能和架构 218 13.2 DAP平台特点 219 13.3 某银行成功案例 220 第四部分 大数据架构师拓展 第14章分布式系统与大数据的关系 229 14.1 分布式系统概述 230 14.2 分布式系统关键协议和算法概述 237 14.3 分布式系统和大数据 241 第 15 章数据库系统与大数据的关系 245 15.1 数据库系统的历史 246 15.2 各类系统求同存异 258 15.3 大数据的发展展望 259 第16章云计算与大数据的关系 261 16.1 虚拟化概述 262 16.2 OpenStack云管理架构实现 267 16.3 大数据基于云计算IAAS部署的探讨 274 后记 277 资源截图:
陌佑
百度云
百度云

OpenStack部署实践

资源名称:OpenStack部署实践 内容简介: 本书讲述了OpenStack 相关的内容,其内容来自各种部署实验与实践。书中首先介绍了PXE 和网络相关的内容,接着介绍了nova-network 安装模式、Quantum 安装模式、Quantum GRE 模式等,然后讨论了Cinder 部件、中央存储与虚拟机运态迁移、云服务的开放EC2 接口、RabbitMQ 的集群冗余架构等,最后简述了云监控系统Ceilometer、HEAT 组件以及Trove。 本书适合OpenStack 技术人员阅读。 资源目录: 第1章 OpenStack基本操作系统环境的PXE自动部署  1 1.1  PXE、kickstart与preseed简介  2 1.1.1  PXE简介  2 1.1.2  kickstart与preseed简介  2 1.2  PXE服务器的准备  3 1.2.1  选择Ubuntu操作系统  3 1.2.2  Ubuntu操作系统的基本安装与更新  3 1.3  复制Ubuntu和CentOS操作系统文件  6 1.3.1  复制Ubuntu操作系统全目录、内核与启动镜像文件  6 1.3.2  复制CentOS操作系统全目录、内核与启动镜像文件  7 1.4  PXE客户端操作系统的选择与引导过程  7 1.4.1  创建PXE客户端导示文件  7 1.4.2  选择安装配置文件  8 1.5  CentOS宿主机的kickstart配置文件  9 1.6  OpenStack计算节点的主机preseed配置文件  13 1.7  常见问题与处理  25 1.8  小结  26 1.9  参考资源  26 第2章 OpenStack与网络  27 2.1  网卡管理工具ethtool  27 2.1.1  安装与使用ethtool  28 2.1.2  网卡子接口  29 2.1.3  网卡信息文件  30 2.1.4  OpenStack:运用网卡子接口模拟多网卡  31 2.2  网桥及网桥管理工具bridge-utils  31 2.2.1  安装与使用bridge-utils  32 2.2.2  理解网桥的IP地址与虚拟机的IP地址  33 2.2.3  Ubuntu系统下网桥的配置文件  34 2.2.4  CentOS系统下网桥的配置文件  34 2.2.5  将虚拟机与某个网桥连接  34 2.3  虚拟局域网VLAN  35 2.3.1  VLAN协议802.1Q  35 2.3.2  接入端口与中继端口  36 2.3.3  VLAN管理工具vconfig  36 2.4  主机多网卡静态路由配置  38 2.5  Open vSwitch简介与实验  39 2.5.1  Open vSwitch简介  39 2.5.2  安装Open vSwitch  39 2.5.3  使用ovs-vsctl管理OVS  42 2.5.4  OVS的数据库配置与网络配置文件的关系  44 2.5.5  VLAN的设置及VLAN接口IP地址  45 2.5.6  OVS支持OpenFlow的SDN模式  45 2.6  构建OpenStack云中的网络GRE  46 2.6.1  VLAN的局限  46 2.6.2  GRE隧道在OpenStack中应用的不足  47 2.6.3  VXLAN的优势  47 2.6.4  Open vSwitch对VXLAN的不足  47 2.7  Linux内核的VXLAN功能实验记录  48 2.7.1  实验环境及目标  48 2.7.2  配置与测试VXLAN  49 2.7.3  测试与结果  51 2.8  Linux内核VXLAN与Open vSwitch的结合  51 2.9  小结  52 2.10  参考资源  52 第3章 OpenStack nova-network多主机部署  53 3.1  nova-network多点多主机部署简介  53 3.1.1  基础环境准备  54 3.1.2  多点多主机nova-network安装环境  55 3.1.3  控制节点主机A的准备工作  56 3.2  OpenStack控制服务组件安装与配置  58 3.2.1  OpenStack控制服务组件简介  58 3.2.2  MySQL服务器安装与配置  59 3.2.3  RabbitMQ服务器安装与配置  60 3.2.4  Keystone服务器安装与配置  61 3.2.5  Glance服务器安装与配置  70 3.2.6  Nova API节点安装与配置  74 3.2.7  Horizon服务器安装与配置  78 3.3  元数据及dnsmasq服务  80 3.3.1  元数据服务与代理  80 3.3.2  nova-network与dnsmasq  82 3.4  OpenStack计算节点安装与配置  83 3.4.1  网络及时间服务配置  83 3.4.2  配置G版的下载源  84 3.4.3  安装软件包  84 3.4.4  配置文件及启动服务  84 3.4.5  验证服务  86 3.5  创建与管理虚拟机  87 3.5.1  查看云系统的各服务状态  87 3.5.2  为系统租户创建网络  87 3.5.3  查看镜像  88 3.5.4  查看flavor  88 3.5.5  创建管理秘钥  89 3.5.6  创建安全组及防火墙规则  89 3.5.7  创建虚拟机  90 3.6  常见问题与处理  91 3.7  小结  95 第4章 OpenStack中小企业应用部署  96 4.1  中小企业与OpenStack  96 4.2  适于中小企业的nova-network FlatDHCP模式  97 4.3  OpenStack公共云架构IP地址分配及流量模式  98 4.4  OpenStack企业内部应用的调整要求  98 4.4.1  nova-network的IP地址管理及流量模式  99 4.4.2  nova-network的IP地址管理及流量模式的调整  101 4.4.3  中小企业多点多主机nova-network部署  101 4.5  企业内多网段与虚拟机多网卡  102 4.6  常见问题与处理  104 4.7  小结  104 第5章 OpenStack Quantum VLAN部署模式  105 5.1  OpenStack控制服务虚拟机服务器的安装与配置  105 5.2  Quantum VLAN部署模式  107 5.3  Quantum服务与各代理间的协作关系  108 5.4  Quantum服务器的安装与配置  109 5.4.1  网络配置  109 5.4.2  软件包安装  110 5.4.3  生成Quantum数据库及Keystone服务及端点  110 5.4.4  配置文件  111 5.4.5  验证安装  112 5.5  网络节点的安装与配置  112 5.5.1  基础操作系统准备工作  112 5.5.2  软件包安装及配置  114 5.5.3  Open vSwitch虚拟交换机的安装与配置  114 5.5.4  Quantum代理的安装与配置  116 5.5.5  验证安装  119 5.6  计算节点的安装与配置  119 5.6.1  基础操作系统准备  119 5.6.2  KVM软件包安装与配置  121 5.6.3  Open vSwitch软件包安装与配置  121 5.6.4  Quantum代理的安装与配置  122 5.6.5  nova-compute-kvm的安装与配置  123 5.7  Quantum VLAN网络的创建与使用  125 5.7.1  在Quantum下创建网络  125 5.7.2  创建外部网络  125 5.7.3  通过命令行创建指定VLAN号码的租户网络  126 5.7.4  通过Horizon创建自动分配VLAN号码的租户网络  126 5.7.5  通过命令行创建租户路由器  128 5.7.6  通过Horizon配置租户路由器  129 5.7.7  查看网络、子网、路由器  130 5.8  小结  131 第6章 满足中型企业的OpenStack部署模式  132 6.1  多主机nova-network VLAN部署模式简介  132 6.2  多主机nova-network VLAN模式安装与配置  133 6.2.1  计算节点的VLAN组件安装  133 6.2.2  nova.conf的配置调整  134 6.2.3  网络交换机的调整  134 6.2.4  VLAN模式下的实践操作  134 6.3  多主机nova-network VLAN模式在企业应用中的不足  138 6.4  多主机nova-network VLAN企业应用模式建议  140 6.5  Quantum VLAN 标准部署模式  141 6.6  Quantum VLAN标准部署模式在企业应用的不足  142 6.7  Quantum VLAN中型企业应用模式建议  143 6.8  Quantum VLAN企业应用模式相关配置调整  144 6.8.1  Quantum 服务器的配置文件调整  144 6.8.2  网络节点相关配置文件调整  144 6.8.3  计算节点VLAN模式相关配置调整  147 6.8.4  Quantum VLAN企业应用模式下的实践操作  148 6.9  小结  150 第7章 大型企业的OpenStack GRE部署模式  151 7.1  多命名空间技术与大型企业组织架构  151 7.2  OpenStack-Quantum GRE部署模式  153 7.3  Quantum GRE模式安装及配置  154 7.3.1  Quantum 服务器相关配置与调整  154 7.3.2  网络节点相关配置与服务调整  155 7.3.3  计算节点GRE模式相关配置与服务调整  160 7.4  实践操作  162 7.4.1  创建各租户共用的公共外部网络  162 7.4.2  为某个租户创建网络、子网与路由器  163 7.4.3  为租户增加第二个内部IP网段  166 7.4.4  为虚拟机分配一个公网IP地址  169 7.4.5  查看租户的网络命名空间信息  169 7.4.6  多租户IP地址重叠  170 7.5  大型企业应用OpenStack GRE模式面临的问题  171 7.6  大型企业应用OpenStack GRE模式应用建议  171 7.6.1  集中式网络服务部署结构  171 7.6.2  分布式网络服务部署结构  172 7.7  小结  173 第8章 OpenStack卷服务——Cinder  174 8.1  Cinder的安装与配置  174 8.1.1  在Keystone中增加Cinder用户、服务及端点  174 8.1.2  创建Cinder数据库  176 8.1.3  配置Cinder安装源并更新系统  176 8.1.4  安装Cinder软件包  176 8.1.5  创建Cinder数据库表  176 8.1.6  配置/etc/cinder/api-paste.ini文件  177 8.1.7  启动Cinder服务  178 8.1.8  验证服务安装  178 8.1.9  编辑相应的Cinder配置文件,使用Nexenta  179 8.1.10  nova.conf中Cinder相关的配置  180 8.2  NexentaStor简介及安装  180 8.2.1  Nexenta的硬件准备  180 8.2.2  Nexenta的安装  180 8.3  Cinder操作  181 8.3.1  创建卷  181 8.3.2  创建从卷启动的虚拟机  182 8.3.3  问题与处理  183 8.4  Cinder使用NFS后台存储提供卷服务  183 8.4.1  Nexenta NFS服务端设定  183 8.4.2  通过Cinder服务创建NFS服务器挂接点  184 8.4.3  配置Cinder用户使其具备执行mount命令的权限  184 8.4.4  配置cinder.conf使用NFS驱动  185 8.5  Ceph与Cinder的集成  186 8.5.1  Ceph简介  186 8.5.2  Ceph与Cinder集成的实验环境  188 8.5.3  Ceph基本安装  188 8.5.4  Ceph MON和MDS服务配置  191 8.5.5  Ceph osd00、osd01安装及配置  191 8.5.6  客户端挂载Ceph文件系统  194 8.5.7  使用RBD工具创建卷  194 8.6  Cinder配置后台Ceph提供卷服务  195 8.6.1  安装Ceph RADOS软件  195 8.6.2  配置cinder.conf  195 8.6.3  创建与查看卷  196 8.7  挂接多个后端卷存储  196 8.8  小结  200 8.9  参考资源  200 第9章 OpenStack中央存储及虚拟机动态迁移  201 9.1  虚拟机NFS中央存储模式  202 9.1.1  Nexenta的NFS服务准备  202 9.1.2  计算节点NFS客户端的安装与配置  203 9.2  虚拟机动态迁移  204 9.2.1  准备要求  204 9.2.2  调整libvirt服务及nova.conf的配置  205 9.2.3  动态迁移实验  206 9.3  NFS系统的不足及pNFS的发展  207 9.3.1  NFS的不足  207 9.3.2  pNFS的发展  208 9.4  分布式文件系统MFS  208 9.4.1  MFS的架构简介  209 9.4.2  MFS的安装与配置  210 9.4.3  实验环境  210 9.4.4  MFS主服务器的安装  210 9.4.5  MFS元数据日志服务器的安装  213 9.4.6  MFS存储服务器的安装  215 9.4.7  MFS客户端的安装  219 9.4.8  MFS功能测试  221 9.4.9  OpenStack计算节点集成MFS中央存储  224 9.5  小结  225 9.6  参考资源  225 第10章 OpenStack EC2接口与Quota分配  226 10.1  EC2与Euca2ools  226 10.2  EC2服务器的安装与配置  227 10.2.1  在Keystone中创建EC2用户名与服务端点  227 10.2.2  安装nova-cert软件包并启动服务  228 10.2.3  验证安装  228 10.3  安装Euca2ools客户端软件  228 10.3.1  软件安装  229 10.3.2  获得用户的Euca2ools相关密钥  229 10.3.3  融合EC2与Nova的环境变量  230 10.3.4  Euca2ools的操作  230 10.4  OpenStack的资源配额  231 10.5  小结  233 第11章 OpenStack Web管理界面与云虚拟桌面  234 11.1  OpenStack Web管理界面VNC架构  234 11.2  VNC Web管理界面的建立过程  235 11.3  nova-novncproxy的安装与配置  236 11.3.1  nova-novncproxy的安装  236 11.3.2  Nova API节点的nova.conf配置  236 11.3.3  计算节点的nova.conf配置  236 11.4  重负载下VNC的处理架构调整实验  236 11.5  企业内部云的虚拟桌面  237 11.5.1  VNC客户端直接连接计算节点的虚拟机  238 11.5.2  了解计算节点上运行的虚拟机及端口号  239 11.5.3  VNC的不足  240 11.5.4  开源、开放的虚拟桌面协议Spice  240 11.6  小结  242 第12章 OpenStack RabbitMQ冗余处理  243 12.1  关于RabbitMQ  243 12.2  关于Erlang  244 12.3  RabbitMQ集群特点  244 12.4  RabbitMQ磁盘节点与内存节点  245 12.5  RabbitMQ消息队列镜像  245 12.6  RabbitMQ集群队列镜像冗余模式  246 12.7  RabbitMQ集群镜像队列模式配置  247 12.7.1  基本环境  247 12.7.2  修改两台机器的/etc/hosts主机名文件  248 12.7.3  更新RabbitMQ源  248 12.7.4  安装rabbitmq-server  248 12.7.5  激活RabbitMQ Web管理  248 12.7.6  创建集群  250 12.7.7  增加规则创建镜像队列  252 12.8  RabbitMQ与OpenStack系统联合测试  253 12.8.1  关闭CCrabbitmqC后计算节点的log表现  254 12.8.2  关闭CCrabbitmqC后CCrabbitmqD上的队列表现  256 12.8.3  重新启动CCrabbitmqC后CCrabbitmqD上的队列表现  257 12.8.4  测试结果  258 12.9  小结  258 12.10  参考资源  258 第13章 OpenStack的新组件  259 13.1  OpenStack监控组件Ceilometer  259 13.2  OpenStack虚拟机定制化Heat  261 13.3  OpenStack数据库组件Trove  262 13.4  从存储的角度看OpenStack H版的特点  262 13.4.1  Cinder卷存储功能强化,且支持更多商业存储  263 13.4.2  强化了对Ceph作为统一的后端存储的支持  263 13.4.3  增加了对GlusterFS、Sheepdog的支持  263 13.4.4  更好地支持多OpenStack云中心架构  264 资源截图:
陌佑
百度云
百度云

Spark大数据分析核心概念技术及实践

资源名称:Spark大数据分析核心概念技术及实践 内容简介: 本书是大数据和Spark方面的一本简明易懂的手册。它将祝你学习如何用Spark来完成很多大数据分析人物。它覆盖了高效利用spark所需要的一切内容。作者首先介绍Scala语法,然后介绍作为基石的Spark Core,再对Spark的各大组件Streaming、SQL、Mlib、GraphX进行详细介绍,最后讲解Spark集群管理。书中不仅给出了丰富的示例代码,还对Spark的核心概念和基本原理进行了较为全面的介绍,然你不仅知其然且知其所以然。通过本书,你可以快速上手Spark,把Spark应用到实践中。 资源截图:
陌佑
百度云
百度云
⬅️ 1...20462047204820492050...3148

添加微信,反馈问题

微信及时反馈问题,方便沟通,请备注 ❤️

搜索榜单

1

骚老板资源网整站源码 打包数据高达2GB

1686

2

绿色风格网络公司源码 php网络建站公司源码

1092

3

(自适应手机版)响应式餐饮美食企业网站源码 餐饮品牌连锁机构织梦模板

1049

4

雷速问卷调查系统(疫情上报系统) v7.08

936

5

Zblog仿918回忆模特写真网带整站数据图库系统源码

894

6

一款笑话类网站源码 简约清爽的织梦笑话网站模板

819

最新资源

1

网狐电玩系列/乐游电玩城/免微信免短信登陆

2

湖南地方玩法好玩互娱纯源码

3

最新更新网狐旗舰大联盟+UI工程

4

傲玩系列客户端通用加解密工具

5

优米H5电玩城组件/多语言/带84个游戏/后台带控+搭建视频教程

6

网狐系列猫娱乐新UI蜡笔小新金币组件

友情链接:
免费APISSL在线检测在线pingAPI版本项目seo教程免费下载狗凯源码网 查看更多
网站地图 法律声明
本站所存储的源码数据均为转载,不提供在线播放和下载服务。本站为非盈利性,不收取费用,所有内容不用于商业行为,仅供学习交流使用。如有侵权,请联系15001904@qq.com
  • 联系微信,反馈问题

  • 点此立刻反馈