资源搜
资源搜
👀 联系夏柔
🔥 投稿源码
资源搜

资源搜

  • 全部
  • 123盘
  • 阿里盘
  • 百度云
  • 迅雷
  • 夸克
  • 115
  • 蓝奏云
  • 其他
已收录34127条资源,仅供学习交流,请在24h内删除资源!

大数据安全

资源名称:大数据安全 资源截图:
陌佑
百度云
百度云

PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署

资源名称:PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署 内容简介: 本文从Spark的基本特点出发,借助大量例子详细介绍了如何使用Python调用Spark新特性、处理结构化及非结构化数据、使用PySpark中基本可用数据类型、生成机器学习模型、进行图像操作以及阅读串流数据等新兴技术内容。 资源目录: 译者序 序 前言 关于作者 第1章 了解Spark 1 1.1 什么是Apache Spark 1 1.2 Spark作业和API 2 1.2.1 执行过程 2 1.2.2 弹性分布式数据集 3 1.2.3 DataFrame 4 1.2.4 Dataset 5 1.2.5 Catalyst优化器 5 1.2.6 钨丝计划 5 1.3 Spark 2.0的架构 6 1.3.1 统一Dataset和DataFrame 7 1.3.2 SparkSession介绍 8 1.3.3 Tungsten Phase 2 8 1.3.4 结构化流 10 1.3.5 连续应用 10 1.4 小结 11 第2章 弹性分布式数据集 12 2.1 RDD的内部运行方式 12 2.2 创建RDD 13 2.2.1 Schema 14 2.2.2 从文件读取 14 2.2.3 Lambda表达式 15 2.3 全局作用域和局部作用域 16 2.4 转换 17 2.4.1 .map(...)转换 17 2.4.2 .filter(...)转换 18 2.4.3 .flatMap(...)转换 18 2.4.4 .distinct(...)转换 18 2.4.5 .sample(...)转换 19 2.4.6 .leftOuterJoin(...)转换 19 2.4.7 .repartition(...)转换 20 2.5 操作 20 2.5.1 .take(...)方法 21 2.5.2 .collect(...)方法 21 2.5.3 .reduce(...)方法 21 2.5.4 .count(...)方法 22 2.5.5 .saveAsTextFile(...)方法 22 2.5.6 .foreach(...)方法 23 2.6 小结 23 第3章 DataFrame 24 3.1 Python到RDD之间的通信 24 3.2 Catalyst优化器刷新 25 3.3 利用DataFrame加速PySpark 27 3.4 创建DataFrame 28 3.4.1 生成自己的JSON数据 29 3.4.2 创建一个DataFrame 29 3.4.3 创建一个临时表 30 3.5 简单的DataFrame查询 31 3.5.1 DataFrame API查询 32 3.5.2 SQL查询 32 3.6 RDD的交互操作 33 3.6.1 使用反射来推断模式 33 3.6.2 编程指定模式 34 3.7 利用DataFrame API查询 35 3.7.1 行数 35 3.7.2 运行筛选语句 35 3.8 利用SQL查询 36 3.8.1 行数 36 3.8.2 利用where子句运行筛选语句 36 3.9 DataFrame场景——实时飞行性能 38 3.9.1 准备源数据集 38 3.9.2 连接飞行性能和机场 39 3.9.3 可视化飞行性能数据 40 3.10 Spark数据集(Dataset)API 41 3.11 小结 42 第4章 准备数据建模 43 4.1 检查重复数据、未观测数据和异常数据(离群值) 43 4.1.1 重复数据 43 4.1.2 未观测数据 46 4.1.3 离群值 50 4.2 熟悉你的数据 51 4.2.1 描述性统计 52 4.2.2 相关性 54 4.3 可视化 55 4.3.1 直方图 55 4.3.2 特征之间的交互 58 4.4 小结 60 第5章  MLlib介绍 61 5.1 包概述 61 5.2 加载和转换数据 62 5.3 了解你的数据 65 5.3.1 描述性统计 66 5.3.2 相关性 67 5.3.3 统计测试 69 5.4 创建最终数据集 70 5.4.1 创建LabeledPoint形式的RDD 70 5.4.2 分隔培训和测试数据 71 5.5 预测婴儿生存机会 71 5.5.1 MLlib中的逻辑回归 71 5.5.2 只选择最可预测的特征 72 5.5.3 MLlib中的随机森林 73 5.6 小结 74 第6章 ML包介绍 75 6.1 包的概述 75 6.1.1 转换器 75 6.1.2 评估器 78 6.1.3 管道 80 6.2 使用ML预测婴儿生存几率 80 6.2.1 加载数据 80 6.2.2 创建转换器 81 6.2.3 创建一个评估器 82 6.2.4 创建一个管道 82 6.2.5 拟合模型 83 6.2.6 评估模型的性能 84 6.2.7 保存模型 84 6.3 超参调优 85 6.3.1 网格搜索法 85 6.3.2 Train-validation 划分 88 6.4 使用PySpark ML的其他功能 89 6.4.1 特征提取 89 6.4.2 分类 93 6.4.3 聚类 95 6.4.4 回归 98 6.5 小结 99 第7章 GraphFrames 100 7.1 GraphFrames介绍 102 7.2 安装GraphFrames 102 7.2.1 创建库 103 7.3 准备你的航班数据集 105 7.4 构建图形 107 7.5 执行简单查询 108 7.5.1 确定机场和航班的数量 108 7.5.2 确定这个数据集中的最长延误时间 108 7.5.3 确定延误和准点/早到航班的数量对比 109 7.5.4 哪一班从西雅图出发的航班最有可能出现重大延误 109 7.5.5 西雅图出发到哪个州的航班最有可能出现重大延误 110 7.6 理解节点的度 110 7.7 确定最大的中转机场 112 7.8 理解Motif 113 7.9 使用PageRank确定机场排名 114 7.10 确定最受欢迎的直飞航班 115 7.11 使用广度优先搜索 116 7.12 使用D3将航班可视化 118 7.13 小结 119 第8章 TensorFrames 120 8.1 深度学习是什么 120 8.1.1 神经网络和深度学习的必要性 123 8.1.2 特征工程是什么 125 8.1.3 桥接数据和算法 125 8.2 TensorFlow是什么 127 8.2.1 安装PIP 129 8.2.2 安装TensorFlow 129 8.2.3 使用常量进行矩阵乘法 130 8.2.4 使用placeholder进行矩阵乘法 131 8.2.5 讨论 132 8.3 TensorFrames介绍 133 8.4 TensorFrames快速入门 134 8.4.1 配置和设置 134 8.4.2 使用TensorFlow向已有列添加常量 136 8.4.3 Blockwise reducing操作示例 137 8.5 小结 139 第9章 使用Blaze实现混合持久化 资源截图:
陌佑
百度云
百度云

驾驭大数据

资源名称:驾驭大数据 内容简介: 本书提供了处理大数据和在企业中培养创新和探索文化所需的工具、流程和方法,描绘了一个易于实施的行动计划,以帮助企业发现新的商业机会,实现新的业务流程,并做出更明智的决策。 本书重点介绍了如何驾驭大数据浪潮,并详细地介绍了什么是大数据,大数据为什么重要,以及如何应用大数据。本书还从具体实用的角度,介绍了用于分析和操作大数据的工具、技术和方法;以及从人才和企业文化的角度,介绍了如何使分析专家、分析团队以及所需的分析原则更加高效,如何通过分析创新中心使得分析更加具有创造力,以及如何改变分析文化。 本书适合对数据处理、数据挖掘、数据分析感兴趣的技术人员和决策者阅读。 资源目录: 第一部分 大数据的兴起 第1章 什么是大数据,大数据为什么重要 第2章 网络数据:原始的大数据 第3章 典型大数据源及其价值 第二部分 驾驭大数据:技术、流程以及方法 第4章 分析可扩展性的演进 第5章 分析流程的演进 第6章 分析工具与方法的演进 第三部分 驾驭大数据:人和方法 第7章 如何提供优质分析 第8章 如何成为优秀的分析专家 第9章 如何打造优秀的分析团队 第四部分 整合:分析文化 第10章 促进分析创新 第11章 营造创新和探索的文化氛围 结论:再敢想一些 资源截图:
陌佑
百度云
百度云

大数据 技术与应用实践指南 第2版

资源名称:大数据 技术与应用实践指南 第2版 内容简介: 大数据是互联网、移动应用、社交网络和物联网等技术发展的必然趋势,大数据应用成为当前最为热门的信息技术应用领域。《大数据:技术与应用实践指南(第2版)》由浅入深,首先概述性地分析了大数据的发展背景、基本概念,从业务的角度分析了大数据应用的主要业务价值和业务需求,在此基础上介绍大数据的技术架构和关键技术,结合应用实践,详细阐述了传统信息系统与大数据平台的整合策略,大数据应用实践的流程和方法,并介绍了主要的大数据应用产品和解决方案。最后,对大数据面临的挑战和未来的趋势进行了展望。 《大数据:技术与应用实践指南(第2版)》既具有技术深度,又具有很强的可操作性,提供了一个系统性、架构性的大数据应用实践指南,纲要性地指导大数据应用实践,推动大数据技术在各个行业的广泛应用。 资源目录: 第1章 大数据的概念和发展背景 1 1.1 大数据的发展背景 1 1.2 大数据的概念和特征 4 1.2.1 大数据的概念 4 1.2.2 大数据的特征 4 1.3 大数据的产生 5 1.3.1 数据产生由企业内部向企业外部扩展 5 1.3.2 数据产生从Web 1.0向Web 2.0、从互联网向移动互联网扩展 6 1.3.3 数据产生从计算机/互联网(IT)向物联网(IOT)扩展 7 1.4 数据的量级 7 1.4.1 数据大小的量级 7 1.4.2 大数据的量级 8 1.5 大量不同的数据类型 8 1.5.1 按照数据结构分类 9 1.5.2 按照产生主体分类 12 1.5.3 按照数据作用方式分类 13 1.6 大数据的速度 14 1.7 大数据的应用价值 14 1.8 大数据的挑战 15 1.8.1 业务视角不同带来的挑战 15 1.8.2 技术架构不同带来的挑战 15 1.8.3 管理策略不同带来的挑战 16 第2章 大数据应用的业务需求 17 2.1 大数据应用的业务流程 17 2.1.1 产生数据 18 2.1.2 聚集数据 18 2.1.3 分析数据 19 2.1.4 利用数据 19 2.2 大数据应用的业务价值 19 2.2.1 发现大数据的潜在价值 20 2.2.2 发现动态行为数据的价值 20 2.2.3 实现大数据整合创新的价值 20 2.3 各行业大数据应用的个性需求 21 2.3.1 互联网与电子商务行业 21 2.3.2 零售业 26 2.3.3 金融业 28 2.3.4 政府 31 2.3.5 医疗业 34 2.3.6 能源业 35 2.3.7 制造业 37 2.3.8 电信运营业 38 2.3.9 交通业 40 2.4 企业级大数据应用的共性需求 42 2.4.1 客户分析 42 2.4.2 绩效分析 46 2.4.3 欺诈和风险评估 47 2.5 以银行客户分析为例,分析一个大数据的应用场景 48 第3章 大数据应用的总体架构和关键技术 51 3.1 总体架构 51 3.1.1 业务目标 51 3.1.2 架构设计原则 52 3.1.3 总体架构参考模型 55 3.1.4 总体架构的特点 58 3.2 大数据存储和处理技术 59 3.2.1 Hadoop:分布式存储和计算平台 59 3.2.2 HDFS:分布式文件系统 65 3.2.3 MapReduce:分布式计算框架 72 3.2.4 NoSQL:分布式数据库 98 3.2.5 MPP:大规模并行处理系统 113 3.2.6 Spark:轻量级的分布式内存计算系统 117 3.2.7 S4和Storm:流计算框架 126 3.2.8 大数据存储和处理技术的比较分析 132 3.3 大数据查询和分析技术 133 3.3.1 Hive:基本的Hadoop查询和分析 134 3.3.2 Hive 2.0:Hive的优化和升级 144 3.3.3 实时互动的SQL:Impala和drill 147 3.3.4 基于PostgreSQL的SQL on Hadoop 153 3.4 大数据高级分析和可视化技术 154 3.4.1 传统数据仓库与联机分析处理技术 154 3.4.2 大数据对传统分析的挑战 157 3.4.3 大数据挖掘与高级分析 157 3.4.4 大数据挖掘与高级分析库 162 3.4.5 非结构化复杂数据分析 163 3.4.6 实时预测分析 170 3.4.7 开源可视化工具:R语言 177 3.4.8 可视化技术 185 3.5 以银行客户分析为例的大数据应用体系架构 194 第4章 大数据与企业级应用的整合策略 196 4.1 大数据传输、接入、整合和流程管理平台 197 4.1.1 数据传输 197 4.1.2 数据接入 203 4.1.3 数据整合 207 4.1.4 流程管理 208 4.2 大数据与存储架构的整合 212 4.2.1 传统存储架构比较 212 4.2.2 大数据平台的存储架构的选择 214 4.2.3 集群存储的发展 214 4.2.4 基于HDFS的集群存储 216 4.2.5 固态硬盘(SSD)对内存计算的支持 218 4.2.6 软件定义存储(SDS) 218 4.2.7 超融合架构(HCI) 220 4.3 大数据与网络架构的发展 220 4.3.1 统一的以太网结构 222 4.3.2 软件定义网络(SDN) 223 4.3.3 网络功能虚拟化(NFV) 226 4.4 大数据与虚拟化技术的整合 228 4.5 大数据与Docker技术 230 4.5.1 Docker概述 230 4.5.2 Docker原理与总体架构 231 4.5.3 Docker与应用程序开发与管理 237 4.6 大数据与云计算 240 4.7 大数据安全 242 4.8 以银行客户分析为例,分析一个大数据的平台整合 244 第5章 大数据应用的实践方法与案例 246 5.1 实践方法论 246 5.1.1 业务需求定义 247 5.1.2 数据应用现状分析与标杆比较 248 5.1.3 大数据应用架构规划和设计 249 5.1.4 大数据技术切入与实施 250 5.1.5 大数据试用和评估 251 5.1.6 大数据应用推广 252 5.2 技术应用案例 252 5.2.1 Amazon和Google 252 5.2.2 Yahoo 255 5.2.3 Amazon 257 5.2.4 Facebook 259 5.2.5 Twitter 263 5.2.6 淘宝网 264 5.3 以银行客户分析为例的实施案例分析 266 5.3.1 银行基于大数据的客户分析的业务需求 266 5.3.2 银行基于大数据的客户分析的现状与标杆比较 267 5.3.3 银行基于大数据的客户分析的应用架构规划与设计 269 5.3.4 银行基于大数据的数据分析的实施、试点和推广 269 第6章 大数据应用的主流解决方案 270 6.1 产业链 270 6.1.1 国际大数据产业生态 270 6.1.2 国内大数据产业生态 273 6.2 主流厂商解决方案 274 6.2.1 Cloundera 275 6.2.2 Hortonworks 276 6.2.3 MapR 277 6.2.4 IBM 278 6.2.5 Oracle 280 6.2.6 EMC 281 6.2.7 Intel 282 6.2.8 SAP 283 6.2.9 Teradata 285 第7章 大数据应用的未来挑战和趋势 286 7.1 隐私保护 286 7.1.1 法律保护 287 7.1.2 技术保护 289 7.1.3 理念革新 290 7.2 技术标准 291 7.2.1 ISO大数据标准化进展 291 7.2.2 大数据基准和基准测试 293 7.2.3 大数据处理分析标准套件 296 7.3 大数据治理 296 7.3.1 数据治理框架 297 7.3.2 数据质量管理 298 7.3.3 大数据的组织、角色和责任 299 7.4 适应商业社会的未来趋势 300 7.4.1 从产品推销向数据营销的转变 300 7.4.2 从流程驱动到分析驱动的转变 300 7.4.3 从私有资源到公共服务的转变 301 资源截图:
陌佑
百度云
百度云

Hadoop MapReduce实战手册

资源名称:Hadoop MapReduce实战手册  内容简介: 这是一本学习Hadoop MapReduce的一站式指南,完整介绍了Hadoop生态体系,包括Hadoop平台安装、部署、运维等,Hadoop生态系统成员Hive、Pig、HBase、Mahout等。最重要的是,书中包含丰富的示例和多样的实际应用场景,以一种简单而直接的方式呈现了90个实战攻略,并给出一步步的指导。本书从获取Hadoop并在集群中运行讲起,依次介绍了高级HDFS,高级Hadoop MapReduce管理,开发复杂的Hadoop MapReduce应用程序,Hadoop的生态系统,统计分析,搜索与索引,聚类、推荐和寻找关联,海量文本数据处理,云部署等内容。 资源目录: 第1章 搭建Hadoop并在集群中运行 1 1.1 简介 1 1.2 在你的机器上安装Hadoop 2 1.3 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它 3 1.4 给WordCount MapReduce程序增加combiner步骤 8 1.5 安装HDFS 9 1.6 使用HDFS监控UI 14 1.7 HDFS的基本命令行文件操作 15 1.8 在分布式集群环境中设置Hadoop 17 1.9 在分布式集群环境中运行WordCount程序 22 1.10 使用MapReduce监控UI 24 第2章 HDFS进阶 26 2.1 简介 26 2.2 HDFS基准测试 27 2.3 添加一个新的DataNode 28 2.4 DataNode下架 30 2.5 使用多个磁盘/卷以及限制HDFS的磁盘使用情况 32 2.6 设置HDFS块大小 33 2.7 设置文件冗余因子 34 2.8 使用HDFS的Java API 35 2.9 使用HDFS的C API(libhdfs) 40 2.10 挂载HDFS(Fuse-DFS) 45 2.11 在HDFS中合并文件 48 第3章 高级Hadoop MapReduce运维 49 3.1 简介 49 3.2 调优集群部署的Hadoop配置 49 3.3 运行基准测试来验证Hadoop的安装 52 3.4 复用Java虚拟机以提高性能 54 3.5 容错和推测执行 54 3.6 调试脚本——分析任务失败 55 3.7 设置失败百分比以及跳过不良记录 59 3.8 共享用户的Hadoop集群——使用公平调度器和其他调度器 61 3.9 Hadoop的安全性——整合使用Kerberos 62 3.10 使用Hadoop的工具接口 69 第4章 开发复杂的Hadoop MapReduce应用程序 72 4.1 简介 72 4.2 选择合适的Hadoop数据类型 73 4.3 实现自定义的Hadoop Writable数据类型 75 4.4 实现自定义Hadoop key类型 79 4.5 从mapper中输出不同值类型的数据 83 4.6 为输入数据格式选择合适的Hadoop InputFormat 87 4.7 添加新的输入数据格式的支持——实现自定义的InputFormat 90 4.8 格式化MapReduce计算的结果——使用Hadoop的OutputFormat 94 4.9 Hadoop的中间(map到reduce)数据分区 96 4.10 将共享资源传播和分发到MapReduce作业的任务中——Hadoop DistributedCache 98 4.11 在Hadoop上使用传统应用程序——Hadoop Streaming 103 4.12 添加MapReduce作业之间的依赖关系 106 4.13 用于报告自定义指标的Hadoop计数器 108 第5章 Hadoop生态系统 110 5.1 简介 110 5.2 安装HBase 111 5.3 使用Java客户端API随机存取数据 114 5.4 基于HBase(表输入/输出)运行MapReduce作业 116 5.5 安装Pig 120 5.6 运行第一条Pig命令 121 5.7 使用Pig执行集合操作(join,union)与排序 123 5.8 安装Hive 125 5.9 使用Hive运行SQL风格的查询 127 5.10 使用Hive执行join 129 5.11 安装Mahout 132 5.12 使用Mahout运行K-means 133 5.13 可视化K-means结果 136 第6章 分析 138 6.1 简介 138 6.2 使用MapReduce的简单分析 139 6.3 使用MapReduce执行Group-By 143 6.4 使用MapReduce计算频率分布和排序 146 6.5 使用GNU Plot绘制Hadoop计算结果 148 6.6 使用MapReduce计算直方图 151 6.7 使用MapReduce计算散点图 154 6.8 用Hadoop解析复杂的数据集 158 6.9 使用MapReduce连接两个数据集 164 第7章 搜索和索引 170 7.1 简介 170 7.2 使用Hadoop MapReduce生成倒排索引 170 7.3 使用Apache Nutch构建域内网络爬虫 175 7.4 使用Apache Solr索引和搜索网络文档 180 7.5 配置Apache HBase作为Apache Nutch的后端数据存储 182 7.6 在Hadoop集群上部署Apache HBase 185 7.7 使用Hadoop/HBase集群构建Apache Nutch全网爬虫服务 188 7.8 用于索引和搜索的ElasticSearch 191 7.9 生成抓取网页的内链图 193 第8章 聚类、推荐和关系发现 197 8.1 简介 197 8.2 基于内容的推荐 198 8.3 层次聚类 204 8.4 对亚马逊销售数据集进行聚类操作 208 8.5 基于协同过滤的推荐 212 8.6 使用朴素贝叶斯分类器的分类 216 8.7 使用Adwords平衡算法给广告分配关键字 222 第9章 海量文本数据处理 231 9.1 简介 231 9.2 使用Hadoop Streaming和Python预处理数据(抽取、清洗和格式转换) 231 9.3 使用Hadoop Streaming进行数据去重 235 9.4 使用importtsv和批量加载工具把大型数据集加载到Apache HBase数据存储中 237 9.5 创建用于文本数据的TF向量和TF-IDF向量 242 9.6 聚类文本数据 246 9.7 使用隐含狄利克雷分布(LDA)发现主题 249 9.8 使用Mahout的朴素贝叶斯分类器分类文件 252 第10章 云端部署——在云上使用Hadoop 255 10.1 简介 255 10.2 使用亚马逊弹性MapReduce运行Hadoop MapReduce计算 256 10.3 使用亚马逊EC2竞价实例来执行EMR作业流以节约开支 259 10.4 使用EMR执行Pig脚本 261 10.5 使用EMR执行Hive脚本 263 10.6 使用命令行界面创建亚马逊EMR作业流 267 10.7 使用EMR在亚马逊EC2云上部署Apache HBase集群 270 10.8 使用EMR引导操作来配置亚马逊EMR作业的虚拟机 275 10.9 使用Apache Whirr在云环境中部署Apache Hadoop集群 277 10.10 使用Apache Whirr在云环境中部署Apache HBase集群 281 资源截图:
陌佑
百度云
百度云

Hadoop硬实战

资源名称:Hadoop硬实战  内容简介: Hadoop 是一个开源的MapReduce 平台,设计运行在大型分布式集群环境中,为开发者进行数据存储、管理以及分析提供便利的方法。《Hadoop硬实战》详细讲解了Hadoop 和MapReduce 的基本概念,并收集了85 个问题及其解决方案。在关键问题领域对基础概念和实战方法做了权衡。 《Hadoop硬实战》适合使用Hadoop 进行数据存储、管理和分析的技术人员使用。 资源目录: 前言 ...............................................................................................................XV 致谢 ............................................................................................................XVII 关于本书 ..................................................................................................... XIX 第1 部分 背景和基本原理...............................................1 1 跳跃中的Hadoop....................................................................................... 3 1.1 什么是Hadoop ................................................................................................. 4 1.1.1 Hadoop 的核心组件 ............................................................................ 5 1.1.2 Hadoop 生态圈 .................................................................................... 9 1.1.3 物理架构 ............................................................................................ 10 1.1.4 谁在使用Hadoop .............................................................................. 12 1.1.5 Hadoop 的局限性 .............................................................................. 13 1.2 运行Hadoop ................................................................................................... 14 1.2.1 下载并安装Hadoop .......................................................................... 14 1.2.2 Hadoop 的配置 .................................................................................. 15 1.2.3 CLI 基本命令 ..................................................................................... 17 1.2.4 运行MapReduce 作业 ....................................................................... 18 1.3 本章小结 ........................................................................................................ 24 第2 部分 数据逻辑....................................................... 25 2 将数据导入导出Hadoop.........................................................27 2.1 导入导出的关键要素 .................................................................................... 29 2.2 将数据导入Hadoop ....................................................................................... 30 2.2.1 将日志文件导入Hadoop .................................................................. 31 技术点1 使用Flume 将系统日志文件导入HDFS ............................. 33 2.2.2 导入导出半结构化和二进制文件 .................................................... 42 技术点2 自动复制文件到HDFS 的机制 ............................................ 43 技术点3 使用Oozie 定期执行数据导入活动 ..................................... 48 2.2.3 从数据库中拉数据 ............................................................................ 52 技术点4 使用MapReduce 将数据导入数据库 ................................... 53 技术点5 使用Sqoop 从MySQL 导入数据 ......................................... 58 2.2.4 HBase ................................................................................................. 68 技术点6 HBase 导入HDFS ................................................................. 68 技术点7 将HBase 作为MapReduce 的数据源 .................................. 70 2.3 将数据导出Hadoop ....................................................................................... 73 2.3.1 将数据导入本地文件系统 ................................................................ 73 技术点8 自动复制HDFS 中的文件 .................................................... 73 2.3.2 数据库 ................................................................................................ 74 技术点9 使用Sqoop 将数据导入MySQL .......................................... 75 2.3.3 Hbase .................................................................................................. 78 技术点10 将数据从HDFS 导入HBase .............................................. 78 技术点11 使用HBase 作为MapReduce 的数据接收器 .................... 79 2.4 本章小结 ........................................................................................................ 81 3 数据序列化——处理文本文件及其他格式的文件........................83 3.1 了解MapReduce 中的输入和输出 ............................................................... 84 3.1.1 数据输入 ............................................................................................ 85 3.1.2 数据输出 ............................................................................................ 89 3.2 处理常见的序列化格式 ................................................................................ 91 3.2.1 XML ................................................................................................... 91 技术点12 MapReduce 和XML ............................................................ 91 3.2.2 JSON ................................................................................................... 95 技术点13 MapReduce 和JSON ........................................................... 95 3.3 大数据的序列化格式 .................................................................................... 99 3.3.1 比较SequenceFiles、Protocol Buffers、Thrift 和 Avro .................. 99 3.3.2 Sequence File .................................................................................... 101 技术点14 处理SequenceFile .............................................................. 103 3.3.3 Protocol Buffers ................................................................................ 109 技术点15 整合Protocol Buffers 和MapReduce ............................... 110 3.3.4 Thrift ................................................................................................. 117 技术点16 使用Thrift .......................................................................... 117 3.3.5 Avro .................................................................................................. 119 技术点17 MapReduce 的下一代数据序列化技术 ............................ 120 3.4 自定义文件格式 .......................................................................................... 127 3.4.1 输入输出格式 .................................................................................. 127 技术点18 输入和输出格式为CSV 的文件 ...................................... 128 3.4.2 output committing 的重要性 ........................................................... 136 3.5 本章小结 ...................................................................................................... 136 第3 部分 大数据模式..................................................137 . . 第4 部分 数据科学.......................................................251 . 第5 部分 驯服大象......................................................333 . 附录A 相关技术..................................................................... 443 附录B Hadoop 内置的数据导入导出工具.................................. 471 附录C HDFS 解剖................................................................. 486 附录D 优化MapReduce 合并框架............................................ 493 索引.......................................................................................... 503 资源截图:
陌佑
百度云
百度云

大数据概论

资源名称:大数据概论  内容简介: 本书主要介绍大数据概论,内容包括大数据概述、科学研究第四范式、分布系统设计的CAP理论、NoSQL数据库、复杂网络、MapReduce分布编程模型、大数据存储、大数据分析、大数据挖掘、大数据可视化、大数据安全、大数据机器学习、大数据推荐技术,以及数据科学与数据思维。全书对上述内容概念性地介绍,语言精练、内容全面。 资源截图:
陌佑
百度云
百度云

触手可及的大数据分析工具:Tableau案例集

资源名称:触手可及的大数据分析工具:Tableau案例集 内容简介: 《触手可及的大数据分析工具:Tableau案例集》对Tableau的产品、优势、Tableau 9.0的新特性及其功能做了全面的介绍,并且从15个不同行业的案例入手,让你在阅读本书后能够从一个新手成长为能够创建出复杂仪表板的高手。 《触手可及的大数据分析工具:Tableau案例集》分为五个部分共14章:Tableau使用概述、新手上路、成功晋级、高手秘籍以及实际应用。 Tableau使用概述包含四章,分别从为何要进行数据可视化、Tableau的发展历程、Tableau的产品介绍、Tableau 9.0的新特性、Tableau的应用优势以及如何利用Tableau进行数据连接和了解工作区几个方面做了详尽的阐述。 新手上路包含两章,该部分以各行业案例为依托,带你从Tableau的排序、筛选、分层和分组、参数和函数等方面来全面了解Tableau 9.0的新功能。 成功晋级包含四章,分别从不同行业的案例入手介绍Tableau的高级功能。 高手秘籍包含三章,该部分介绍如何利用Tableau中的颜色和形状进行异常值检测、如何利用背景图像进行货架分析以及如何使用Tableau中的超级链接使用WMS地图服务和动态调用外部网页。 实际应用自成一章包含八个数据可视化分析实例,全面展示Tableau进行数据可视化分析的各种技术细节和实用技巧。 《触手可及的大数据分析工具:Tableau案例集》对于初次接触Tableau软件的读者会有很大帮助,书中对Tableau创建可视化视图的每一步操作都有详尽的说明。如果你是Tableau软件的老用户,《触手可及的大数据分析工具:Tableau案例集》中不同行业案例的可视化分析和展现方式也会给你带来全新的思路和视角。 资源目录: 第1部分 Tableau使用概述 第1章数据可视化2 1.1 用数据讲故事2 1.2 数据不只是数字3 1.3 在数据中寻找什么3 1.4 本章小结5 第2章 Tableau概述6 2.1 Tableau的发展历程6 2.2 Tableau产品简介7 2.2.1 Tableau Desktop7 2.2.2 Tableau Server9 2.2.3 Tableau Online9 2.2.4 Tableau Reader9 2.2.5 Tableau Public9 2.3 Tableau 9.0版本新特性10 2.4 本章小结16 第3章 Tableau应用优势17 3.1 简单易用17 3.2 极速高效18 3.3 美观交互的视图与界面20 3.4 轻松实现数据融合22 3.5 简便的管理23 3.6 灵活的配置23 3.7 本章小结24 第4章 Tableau功能介绍25 4.1 数据连接25 4.1.1 数据文件连接25 4.1.2 数据库连接27 4.2 了解Tableau工作区29 4.3 本章小结39 第2部分新手上路 第5章创作第一个仪表板42 5.1 排序42 5.2 分层与分组46 5.2.1 分层46 5.2.2 分组50 5.3 参数设置52 5.4 语法操作55 5.4.1 主要功能函数简介55 5.4.2 快速表计算简介62 5.5 可视化67 5.5.1 地图67 5.5.2 条形图73 5.5.3 线形图77 5.5.4 饼图79 5.5.5 复合图80 5.5.6 嵌套条形图81 5.5.7 动态图84 5.5.8 热图86 5.5.9 突显表89 5.5.10 散点图90 5.5.11 气泡图93 5.5.12 甘特图93 5.5.13 标靶图95 5.5.14 盒须图98 5.5.15 瀑布图100 5.5.16 直方图101 5.5.17 帕累托图103 5.5.18 填充气泡图107 5.5.19 文字云110 5.5.20 树地图111 5.6 设计动态仪表板113 5.6.1 新建一个仪表板113 5.6.2 创建动作118 5.6.3 使用仪表板的注意事项123 5.7 作品分享方案123 5.8 本章小结131 第6章实战演练132 6.1 教育水平评估132 6.1.1 学校教育水平评估132 6.1.2 城市教育水平评估139 6.2 网站内容评估146 6.3 投资分析151 6.4 本章小结164 第3部分成功晋级 第7章巧用地图166 7.1 索偿分析166 7.2 估值分析171 7.3 本章小结175 第8章美化趋势图176 8.1 欺诈检测176 8.2 生产分析179 8.3 资源组合分析189 8.4 本章小结195 第9章设计动态仪表板196 9.1 继任规划196 9.2 资产监控201 9.3 本章小结206 第10章客户细分207 10.1 网站客户细分207 10.2 零售业客户细分212 10.3 游戏客户洞察217 10.4 本章小结226 第4部分高手秘籍 第11章生“动”形“象”228 11.1 识别与预测228 11.2 门户创建243 11.3 网络广告投放分析250 11.4 本章小结260 第12章设计个性化背景261 12.1 NBA赛事分析261 12.2 货架图分析265 12.3 本章小结275 第13章超级链接276 13.1 使用Web地图服务277 13.2 淘宝网店数据分析281 13.3 本章小结290 第5部分实际应用 第14章实际应用案例分析292 14.1 中国楼市降温的分析292 14.2 中国最美八条骑行路线的展示311 14.3 中国教育水平发展指标历史数据统计报告321 14.4 空难信息统计337 14.5 Tableau官网各版块访问情况365 14.6 2014年巴西世界杯小组赛各球队球员数据统计373 14.7 2014年太平洋台风季分析391 14.8 制作“伦敦巴士线路数据”视图406 附A录 Tableau安装415 附B录 Tableau函数汇总419 资源截图:
陌佑
百度云
百度云

Hadoop技术内幕_深入解析HADOOP_COMMON和HDFS架构设计与实现原理

资源名称:Hadoop技术内幕_深入解析HADOOP_COMMON和HDFS架构设计与实现原理 内容简介: 《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和MapReduce的架构设计与实现原理进行了极为详细的分析。《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》由腾讯数据平台的资深Hadoop专家、X-RIME的作者亲自执笔,对Common和HDFS的源代码进行了分析,旨在为Hadoop的优化、定制和扩展提供原理性的指导。除此之外,《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》还从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法,以及Java语言的编码技巧、编程规范和对设计模式的精妙运用进行了总结和分析,对提高读者的分布式技术能力和Java编程能力都非常有帮助。《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》适合Hadoop的二次开发人员、应用开发工程师、运维工程师阅读。 全书共9章,分为三部分:第一部分(第1章)主要介绍了Hadoop源代码的获取和源代码阅读环境的搭建;第二部分(第2~5章)对Hadoop公共工具Common的架构设计和实现原理进行了深入分析,包含Hadoop的配置信息处理、面向海量数据处理的序列化和压缩机制、Hadoop的远程过程调用,以及满足Hadoop上各类应用访问数据的Hadoop抽象文件系统和部分具体文件系统等内容;第三部分(第6~9章)对Hadoop的分布式文件系统HDFS的架构设计和实现原理进行了详细的分析,这部分内容采用了总分总的结构,第6章对HDFS的各个实体和实体间接口进行了分析;第7章和第8章分别详细地研究了数据节点和名字节点的实现原理,并通过第9章对客户端的解析,回顾了HDFS各节点间的配合,完整地介绍了一个大规模数据存储系统的实现。 资源目录: 前 言 第一部分 环境准备 第1章 源代码环境准备/ 2 1.1 什么是Hadoop / 2 1.1.1 Hadoop简史/ 2 1.1.2 Hadoop的优势/ 3 1.1.3 Hadoop生态系统/ 4 1.2 准备源代码阅读环境/ 8 1.2.1 安装与配置JDK / 8 1.2.2 安装Eclipse / 9 1.2.3 安装辅助工具Ant/ 12 1.2.4 安装类UNIX Shell环境Cygwin / 13 1.3 准备Hadoop源代码/ 15 1.3.1 下载Hadoop / 15 1.3.2 创建Eclipse项目/ 16 1.3.3 Hadoop源代码组织/ 18 1.4 小结/ 19 第二部分 Common的实现 第2章 Hadoop配置信息处理/ 22 2.1 配置文件简介/ 22 2.1.1 Windows操作系统的配置文件/ 22 2.1.2 Java配置文件/ 23 2.2 Hadoop Configuration详解/ 24 2.2.1 Hadoop配置文件的格式/ 24 2.2.2 Configuration的成员变量/ 26 2.2.3 资源加载/ 27 2.2.4 使用get*和set*访问/设置配置项/ 32 2.3 Configurable接口/ 34 2.4 小结/ 35 第3章 序列化与压缩/ 36 3.1 序列化/ 36 3.1.1 Java内建序列化机制/ 36 3.1.2 Hadoop序列化机制/ 38 3.1.3 Hadoop序列化机制的特征/ 39 3.1.4 Hadoop Writable机制/ 39 3.1.5 典型的Writable类详解/ 41 3.1.6 Hadoop序列化框架/ 48 3.2 压缩/ 49 3.2.1 Hadoop压缩简介/ 50 3.2.2 Hadoop压缩API应用实例/ 51 3.2.3 Hadoop压缩框架/ 52 3.2.4 Java本地方法/ 61 3.2.5 支持Snappy压缩/ 65 3.3 小结/ 69 第4章 Hadoop远程过程调用/ 70 4.1 远程过程调用基础知识/ 70 4.1.1 RPC原理/ 70 4.1.2 RPC机制的实现/ 72 4.1.3 Java远程方法调用/ 73 4.2 Java动态代理/ 78 4.2.1 创建代理接口/ 78 4.2.2 调用转发/ 80 4.2.3 动态代理实例/ 81 4.3 Java NIO/ 84 4.3.1 Java基本套接字/ 84 4.3.2 Java NIO基础/ 86 4.3.3 Java NIO实例:回显服务器/ 93 4.4 Hadoop中的远程过程调用/ 96 4.4.1 利用Hadoop IPC构建简单的分布式系统/ 96 4.4.2 Hadoop IPC的代码结构/ 100 4.5 Hadoop IPC连接相关过程/ 104 4.5.1 IPC连接成员变量/ 104 4.5.2 建立IPC连接/ 106 4.5.3 数据分帧和读写/ 111 4.5.4 维护IPC连接/ 114 4.5.5 关闭IPC连接/ 116 4.6 Hadoop IPC方法调用相关过程/ 118 4.6.1 Java接口与接口体/ 119 4.6.2 IPC方法调用成员变量/ 121 4.6.3 客户端方法调用过程/ 123 4.6.4 服务器端方法调用过程/ 126 4.7 Hadoop IPC上的其他辅助过程/ 135 4.7.1 RPC.getProxy()和RPC.stopProxy() / 136 4.7.2 RPC.getServer()和Server的启停/ 138 4.8 小结/ 141 第5章 Hadoop文件系统/ 142 5.1 文件系统/ 142 5.1.1 文件系统的用户界面/ 142 5.1.2 文件系统的实现/ 145 5.1.3 文件系统的保护控制/ 147 5.2 Linux文件系统/ 150 5.2.1 Linux本地文件系统/ 150 5.2.2 虚拟文件系统/ 153 5.2.3 Linux文件保护机制/ 154 5.2.4 Linux文件系统API/ 155 5.3 分布式文件系统/ 159 5.3.1 分布式文件系统的特性/ 159 5.3.2 基本NFS体系结构/ 160 5.3.3 NFS支持的文件操作/ 160 5.4 Java文件系统/ 162 5.4.1 Java文件系统API / 162 5.4.2 URI和URL / 164 5.4.3 Java输入/输出流/ 166 5.4.4 随机存取文件/ 169 5.5 Hadoop抽象文件系统/ 170 5.5.1 Hadoop文件系统API / 170 5.5.2 Hadoop输入/输出流/ 175 5.5.3 Hadoop文件系统中的权限/ 179 5.5.4 抽象文件系统中的静态方法/ 180 5.5.5 Hadoop文件系统中的协议处理器/ 184 5.6 Hadoop具体文件系统/ 188 5.6.1 FileSystem层次结构/ 189 5.6.2 RawLocalFileSystem的实现/ 191 5.6.3 ChecksumFileSystem的实现/ 196 5.6.4 RawInMemoryFileSystem的实现/ 210 5.7 小结/ 213 第三部分 Hadoop分布式文件系统 第6章 HDFS概述/ 216 6.1 初识HDFS / 216 6.1.1 HDFS主要特性/ 216 6.1.2 HDFS体系结构/ 217 6.1.3 HDFS源代码结构/ 221 6.2 基于远程过程调用的接口/ 223 6.2.1 与客户端相关的接口/ 224 6.2.2 HDFS各服务器间的接口/ 236 6.3 非远程过程调用接口/ 244 6.3.1 数据节点上的非IPC接口/ 245 6.3.2 名字节点和第二名字节点上的非IPC接口/ 252 6.4 HDFS主要流程/ 254 6.4.1 客户端到名字节点的文件与目录操作/ 254 6.4.2 客户端读文件/ 256 6.4.3 客户端写文件/ 257 6.4.4 数据节点的启动和心跳/ 258 6.4.5 第二名字节点合并元数据/ 259 6.5 小结/ 261 第7章 数据节点实现/ 263 7.1 数据块存储/ 263 7.1.1 数据节点的磁盘目录文件结构/ 263 7.1.2 数据节点存储的实现/ 266 7.1.3 数据节点升级/ 269 7.1.4 文件系统数据集的工作机制/ 276 7.2 流式接口的实现/ 285 7.2.1 DataXceiverServer和DataXceiver / 286 7.2.2 读数据/ 289 7.2.3 写数据/ 298 7.2.4 数据块替换、数据块拷贝和读数据块检验信息/ 313 7.3 作为整体的数据节点/ 314 7.3.1 数据节点和名字节点的交互/ 314 7.3.2 数据块扫描器/ 319 7.3.3 数据节点的启停/ 321 7.4 小结/ 326 第8章 名字节点实现/ 327 8.1 文件系统的目录树/ 327 8.1.1 从i-node到INode/ 327 8.1.2 命名空间镜像和编辑日志/ 333 8.1.3 第二名字节点/ 351 8.1.4 FSDirectory的实现/ 361 8.2 数据块和数据节点管理/ 365 8.2.1 数据结构/ 366 8.2.2 数据节点管理/ 378 8.2.3 数据块管理/ 392 8.3 远程接口ClientProtocol的实现/ 412 8.3.1 文件和目录相关事务/ 412 8.3.2 读数据使用的方法/ 415 8.3.3 写数据使用的方法/ 419 8.3.4 工具dfsadmin依赖的方法/ 443 8.4 名字节点的启动和停止/ 444 8.4.1 安全模式/ 444 8.4.2 名字节点的启动/ 449 8.4.3 名字节点的停止/ 454 8.5 小结/ 454 第9章 HDFS客户端/ 455 9.1 认识DFSClient / 455 9.1.1 DFSClient的构造和关闭/ 455 9.1.2 文件和目录、系统管理相关事务/ 457 9.1.3 删除HDFS文件/目录的流程/ 459 9.2 输入流/ 461 9.2.1 读数据前的准备:打开文件/ 463 9.2.2 读数据/ 465 9.2.3 关闭输入流/ 475 9.2.4 读取HDFS文件数据的流程/ 475 9.3 输出流/ 478 9.3.1 写数据前的准备:创建文件/ 481 9.3.2 写数据:数据流管道的建立/ 482 9.3.3 写数据:数据包的发送/ 486 9.3.4 写数据:数据流管道出错处理/ 493 9.3.5 写数据:租约更新/ 496 9.3.6 写数据:DFSOutputStream.sync()的作用/ 497 9.3.7 关闭输出流/ 499 9.3.8 向HDFS文件写入数据的流程/ 500 9.4 DistributedFileSystem的实现/ 506 9.5 HDFS常用工具/ 508 9.5.1 FsShell / 508 9.5.2 DFSAdmin / 510 9.6 小结/ 511 资源截图:
陌佑
百度云
百度云

Hadoop构建数据仓库实践

资源名称:Hadoop构建数据仓库实践 作者简介: 王雪迎,毕业于中国地质大学计算机专业,高级工程师,拥有20年数据库、数据仓库相关技术经验。曾先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。 资源目录: 第1章 数据仓库简介 1.1 什么是数据仓库 1 1.1.1 数据仓库的定义 1 1.1.2 建立数据仓库的原因 3 1.2 操作型系统与分析型系统 5 1.2.1 操作型系统 5 1.2.2 分析型系统 8 1.2.3 操作型系统和分析型系统对比 9 1.3 数据仓库架构 10 1.3.1 基本架构 10 1.3.2 主要数据仓库架构 12 1.3.3 操作数据存储 16 1.4 抽取-转换-装载 17 1.4.1 数据抽取 17 1.4.2 数据转换 19 1.4.3 数据装载 20 1.4.4 开发ETL系统的方法 21 1.4.5 常见ETL工具 21 1.5 数据仓库需求 22 1.5.1 基本需求 22 1.5.2 数据需求 23 1.6 小结 24 第2章 数据仓库设计基础 2.1 关系数据模型 25 2.1.1 关系数据模型中的结构 25 2.1.2 关系完整性 28 2.1.3 规范化 30 2.1.4 关系数据模型与数据仓库 33 2.2 维度数据模型 34 2.2.1 维度数据模型建模过程 35 2.2.2 维度规范化 36 2.2.3 维度数据模型的特点 37 2.2.4 星型模式 38 2.2.5 雪花模式 40 2.3 Data Vault模型 42 2.3.1 Data Vault模型简介 42 2.3.2 Data Vault模型的组成部分 43 2.3.3 Data Vault模型的特点 44 2.3.4 Data Vault模型的构建 44 2.3.5 Data Vault模型实例 46 2.4 数据集市 49 2.4.1 数据集市的概念 50 2.4.2 数据集市与数据仓库的区别 50 2.4.3 数据集市设计 50 2.5 数据仓库实施步骤 51 2.6 小结 54 第3章 Hadoop生态圈与数据仓库 3.1 大数据定义 55 3.2 Hadoop简介 56 3.2.1 Hadoop的构成 57 3.2.2 Hadoop的主要特点 58 3.2.3 Hadoop架构 58 3.3 Hadoop基本组件 59 3.3.1 HDFS 60 3.3.2 MapReduce 65 3.3.3 YARN 72 3.4 Hadoop生态圈的其他组件 77 3.5 Hadoop与数据仓库 81 3.5.1 关系数据库的可扩展性瓶颈 82 3.5.2 CAP理论 84 3.5.3 Hadoop数据仓库工具 85 3.6 小结 88 第4章 安装Hadoop 4.1 Hadoop主要发行版本 89 4.1.1 Cloudera Distribution for Hadoop(CDH) 89 4.1.2 Hortonworks Data Platform(HDP) 90 4.1.3 MapR Hadoop 90 4.2 安装Apache Hadoop 91 4.2.1 安装环境 91 4.2.2 安装前准备 92 4.2.3 安装配置Hadoop 93 4.2.4 安装后配置 97 4.2.5 初始化及运行 97 4.3 配置HDFS Federation 99 4.4 离线安装CDH及其所需的服务 104 4.4.1 CDH安装概述 104 4.4.2 安装环境 106 4.4.3 安装配置 106 4.4.4 Cloudera Manager许可证管理 114 4.5 小结 115 第5章 Kettle与Hadoop 5.1 Kettle概述 117 5.2 Kettle连接Hadoop 119 5.2.1 连接HDFS 119 5.2.2 连接Hive 124 5.3 导出导入Hadoop集群数据 128 5.3.1 把数据从HDFS抽取到RDBMS 128 5.3.2 向Hive表导入数据 132 5.4 执行Hive的HiveQL语句 134 5.5 MapReduce转换示例 135 5.6 Kettle提交Spark作业 143 5.6.1 安装Spark 143 5.6.2 配置Kettle向Spark集群提交作业 146 5.7 小结 149 第6章 建立数据仓库示例模型 6.1 业务场景 150 6.2 Hive相关配置 152 6.2.1 选择文件格式 152 6.2.2 支持行级更新 159 6.2.3 Hive事务支持的限制 164 6.3 Hive表分类 164 6.4 向Hive表装载数据 169 6.5 建立数据库表 174 6.6 装载日期维度数据 179 6.7 小结 180 第7章 数据抽取 7.1 逻辑数据映射 182 7.2 数据抽取方式 185 7.3 导出成文本文件 191 7.4 分布式查询 196 7.5 使用Sqoop抽取数据 200 7.5.1 Sqoop简介 200 7.5.2 CDH 5.7.0中的Sqoop 203 7.5.3 使用Sqoop抽取数据 203 7.5.4 Sqoop优化 207 7.6 小结 208 第8章 数据转换与装载 8.1 数据清洗 210 8.2 Hive简介 214 8.2.1 Hive的体系结构 215 8.2.2 Hive的工作流程 216 8.2.3 Hive服务器 218 8.2.4 Hive客户端 221 8.3 初始装载 231 8.4 定期装载 236 8.5 Hive优化 246 8.6 小结 254 第9章 定期自动执行ETL作业 9.1 crontab 256 9.2 Oozie简介 260 9.2.1 Oozie的体系结构 260 9.2.2 CDH 5.7.0中的Oozie 262 9.3 建立定期装载工作流 262 9.4 建立协调器作业定期自动执行工作流 271 9.5 Oozie优化 275 9.6 小结 276 第10章 维度表技术 10.1 增加列 278 10.2 维度子集 285 10.3 角色扮演维度 292 10.4 层次维度 298 10.4.1 固定深度的层次 299 10.4.2 递归 302 10.4.3 多路径层次 310 10.4.4 参差不齐的层次 312 10.5 退化维度 313 10.6 杂项维度 316 10.7 维度合并 323 10.8 分段维度 329 10.9 小结 335 第11章 事实表技术 11.1 事实表概述 336 11.2 周期快照 337 11.3 累积快照 343 11.4 无事实的事实表 349 11.5 迟到的事实 354 11.6 累积度量 360 11.7 小结 366 第12章 联机分析处理 12.1 联机分析处理简介 367 12.1.1 概念 367 12.1.2 分类 368 12.1.3 性能 371 12.2 Impala简介 371 12.3 Hive、SparkSQL、Impala比较 377 12.3.1 Spark SQL简介 377 12.3.2 Hive、Spark SQL、Impala比较 379 12.3.3 Hive、Spark SQL、Impala性能对比 382 12.4 联机分析处理实例 387 12.5 Apache Kylin与OLAP 399 12.5.1 Apache Kylin架构 399 12.5.2 Apache Kylin安装 401 12.6 小结 407 第13章 数据可视化 13.1 数据可视化简介 408 13.2 Hue简介 410 13.2.1 Hue功能快速预览 411 13.2.2 配置元数据存储 412 13.3 Zeppelin简介 415 13.3.1 Zeppelin架构 415 13.3.2 Zeppelin安装配置 416 13.3.3 在Zeppelin中添加MySQL翻译器 421 13.4 Hue、Zeppelin比较 425 13.5 数据可视化实例 426 13.6 小结 434 资源截图:
陌佑
百度云
百度云
⬅️ 1...20422043204420452046...3148

添加微信,反馈问题

微信及时反馈问题,方便沟通,请备注 ❤️

搜索榜单

1

骚老板资源网整站源码 打包数据高达2GB

1690

2

绿色风格网络公司源码 php网络建站公司源码

1092

3

(自适应手机版)响应式餐饮美食企业网站源码 餐饮品牌连锁机构织梦模板

1049

4

雷速问卷调查系统(疫情上报系统) v7.08

936

5

Zblog仿918回忆模特写真网带整站数据图库系统源码

894

6

一款笑话类网站源码 简约清爽的织梦笑话网站模板

819

最新资源

1

网狐电玩系列/乐游电玩城/免微信免短信登陆

2

湖南地方玩法好玩互娱纯源码

3

最新更新网狐旗舰大联盟+UI工程

4

傲玩系列客户端通用加解密工具

5

优米H5电玩城组件/多语言/带84个游戏/后台带控+搭建视频教程

6

网狐系列猫娱乐新UI蜡笔小新金币组件

友情链接:
免费APISSL在线检测在线pingAPI版本项目seo教程免费下载狗凯源码网 查看更多
网站地图 法律声明
本站所存储的源码数据均为转载,不提供在线播放和下载服务。本站为非盈利性,不收取费用,所有内容不用于商业行为,仅供学习交流使用。如有侵权,请联系15001904@qq.com
  • 联系微信,反馈问题

  • 点此立刻反馈