在线网盘资源搜索下载资源搜

云计算-概念、技术与架构

资源名称：云计算-概念、技术与架构内容简介：《概念、技术与架构》涉及云计算领域的各个方面，涵盖了很多基本概念，共包含五个部分，第一部分到第四部分主要涵盖了云计算基础、云计算机制、云计算架构以及云计算使用等内容，以云计算起源为出发点，介绍了云计算领域的基本概念。第五部分即附录给出了案例研究结论，介绍了工业标准组织、云计算机制与特性之间的对应关系、数据中心设施、云计算新兴技术，并给出了云提供合同和云商业案例模板。资源目录：出版者的话译者序推荐语序致谢关于作者关于序贡献者关于贡献者第1章　绪论 1.1　本书目标 1.2　本书未涵盖的内容 1.3　本书适用读者 1.4　本书组织结构 1.5　书写惯例 1.6　附加信息第2章　案例研究背景 2.1　案例研究1：ATN 2.2　案例研究2：DTGOV 2.3　案例研究3：Innovartus 第一部分　云计算基础第3章　理解云计算 3.1　起源与影响 3.1.1　简要历史 3.1.2　定义 3.1.3　商业驱动力 3.1.4　技术创新 3.2　基本概念与术语 3.2.1　云 3.2.2　IT资源 3.2.3　企业内部的 3.2.4　云用户与云提供者 3.2.5　可扩展性 3.2.6　云服务 3.2.7　云服务用户 3.3　目标与收益 3.3.1　降低的投资与成比例的开销 3.3.2　提高的可扩展性 3.3.3　提高的可用性和可靠性 3.4　风险与挑战 3.4.1　增加的安全漏洞 3.4.2　降低的运营管理控制 3.4.3　云提供者之间有限的可移植性 3.4.4　多地区法规遵循和法律问题第4章　基本概念与模型 4.1　角色与边界 4.1.1　云提供者 4.1.2　云用户 4.1.3　云服务拥有者 4.1.4　云资源管理者 4.1.5　其他角色 4.1.6　组织边界 4.1.7　信任边界 4.2　云特性 4.2.1　按需使用 4.2.2　泛在接入 4.2.3　多租户（和资源池） 4.2.4　弹性 4.2.5　可测量的使用 4.2.6　可恢复性 4.3　云交付模型 4.3.1　基础设施作为服务（IaaS） 4.3.2　平台作为服务（PaaS） 4.3.3　软件作为服务（SaaS） 4.3.4　云交付模型比较 4.3.5　云交付模型组合 4.4　云部署模型 4.4.1　公有云 4.4.2　社区云 4.4.3　私有云 4.4.4　混合云 4.4.5　其他云部署模型第5章　云使能技术 5.1　宽带网络和Internet架构 5.1.1　Internet服务提供者（ISP） 5.1.2　无连接分组交换（数据报网络） 5.1.3　基于路由器的互联 5.1.4　技术和商业考量 5.2　数据中心技术 5.2.1　虚拟化 5.2.2　标准化与模块化 5.2.3　自动化 5.2.4　远程操作与管理 5.2.5　高可用性 5.2.6　安全感知的设计、操作和管理 5.2.7　配套设施 5.2.8　计算硬件 5.2.9　存储硬件 5.2.10　网络硬件 5.2.11　其他考量 5.3　虚拟化技术 5.3.1　硬件无关性 5.3.2　服务器整合 5.3.3　资源复制 5.3.4　基于操作系统的虚拟化 5.3.5　基于硬件的虚拟化 5.3.6　虚拟化管理 5.3.7　其他考量 5.4　Web技术 5.4.1　基本Web技术 5.4.2　Web应用 5.5　多租户技术 5.6　服务技术 5.6.1　Web服务 5.6.2　REST服务 5.6.3　服务代理 5.6.4　服务中间件第6章　基本云安全 6.1　基本术语和概念 6.1.1　保密性 6.1.2　完整性 6.1.3　真实性 6.1.4　可用性 6.1.5　威胁 6.1.6　漏洞 6.1.7　风险 6.1.8　安全控制 6.1.9　安全机制 6.1.10　安全策略 6.2　威胁作用者 6.2.1　匿名攻击者 6.2.2　恶意服务作用者 6.2.3　授信的攻击者 6.2.4　恶意的内部人员 6.3　云安全威胁 6.3.1　流量窃听 6.3.2　恶意媒介 6.3.3　拒绝服务 6.3.4　授权不足 6.3.5　虚拟化攻击 6.3.6　信任边界重叠 6.4　其他考量 6.4.1　有缺陷的实现 6.4.2　安全策略不一致 6.4.3　合约 6.4.4　风险管理第二部分　云计算机制第7章　云基础设施机制 7.1　逻辑网络边界 7.2　虚拟服务器 7.3　云存储设备 7.3.1　云存储等级 7.3.2　网络存储接口 7.3.3　对象存储接口 7.3.4　数据库存储接口 7.4　云使用监控 7.4.1　监控代理 7.4.2　资源代理 7.4.3　轮询代理 7.5　资源复制 7.6　已就绪环境第8章　特殊云机制 8.1　自动伸缩监听器 8.2　负载均衡器 8.3　SLA监控器 8.4　按使用付费监控器 8.5　审计监控器 8.6　故障转移系统 8.6.1　主动-主动 8.6.2　主动-被动 8.7　虚拟机监控器 8.8　资源集群 8.9　多设备代理 8.10　状态管理数据库第9章　云管理机制 9.1　远程管理系统 9.2　资源管理系统 9.3　SLA管理系统 9.4　计费管理系统第10章　云安全机制 10.1　加密 10.1.1　对称加密 10.1.2　非对称加密 10.2　哈希 10.3　数字签名 10.4　公钥基础设施 10.5　身份与访问管理 10.6　单一登录 10.7　基于云的安全组 10.8　强化的虚拟服务器映像第三部分　云计算架构第11章　基本云架构 11.1　负载分布架构 11.2　资源池架构 11.3　动态可扩展架构 11.4　弹性资源容量架构 11.5　服务负载均衡架构 11.6　云爆发架构 11.7　弹性磁盘供给架构 11.8　冗余存储架构第12章　高级云架构 12.1　虚拟机监控器集群架构 12.2　负载均衡的虚拟服务器实例架构 12.3　不中断服务重定位架构 12.4　零宕机架构 12.5　云负载均衡架构 12.6　资源预留架构 12.7　动态故障检测与恢复架构 12.8　裸机供给架构 12.9　快速供给架构 12.10　存储负载管理架构第13章　特殊云架构 13.1　直接I/O访问架构 13.2　直接LUN访问架构 13.3　动态数据规范化架构 13.4　弹性网络容量架构 13.5　跨存储设备垂直分层架构 13.6　存储设备内部垂直数据分层架构 13.7　负载均衡的虚拟交换机架构 13.8　多路径资源访问架构 13.9　持久虚拟网络配置架构 13.10　虚拟服务器的冗余物理连接架构 13.11　存储维护窗口架构第四部分　使用云第14章　云交付模型考量 14.1　云交付模型：从云提供者的角度看 14.1.1　构建IaaS环境 14.1.2　装备PaaS环境 14.1.3　优化SaaS环境 14.2　云交付模型：从云用户的角度看 14.2.1　使用IaaS环境 14.2.2　使用PaaS环境 14.2.3　使用SaaS服务第15章　成本指标与定价模型 15.1　商业成本指标 15.1.1　前期成本与持续成本 15.1.2　附加成本 15.2　云使用成本指标 15.2.1　网络使用 15.2.2　服务器使用 15.2.3　云存储设备使用 15.2.4　云服务使用 15.3　成本管理考量 15.3.1　定价模型 15.3.2　其他考量第16章　服务质量指标与SLA 16.1　服务质量指标 16.1.1　服务可用性指标 16.1.2　服务可靠性指标 16.1.3　服务性能指标 16.1.4　服务可扩展性指标 16.1.5　服务弹性指标 16.2　SLA指导准则第五部分　附录附录A　案例研究结论附录B　工业标准组织附录C　机制与特性的对应关系附录D　数据中心设施（TIA-942）附录E　适应云的风险管理框架附录F　云供给合同附录G　云商业案例模板索引资源截图：

陌佑

百度云

视觉大数据基础与应用

资源名称：视觉大数据基础与应用内容简介：《视觉大数据基础与应用》是视频大数据处理领域的著作。为使读者全面了解海量视频分析与搜索的基础知识及应用方法，本书首先介绍海量视频概论、海量视频模型、海量视频管理和海量视频分析等相关基础知识，然后具体阐述面向大数据的大规模人脸搜索系统、面向高清卡口的车辆车牌与车标等信息搜索系统、暴力行为检测系统、可疑行为检测系统、海量视频摘要系统和海量视频管控平台等典型的海量视频分析与搜索实例，并将海量视频分析与搜索领域的新技术和新成果贯穿于全文的描述之中。《视觉大数据基础与应用》主要适用于从事海量视频分析与处理领域的应用开发和工程施工技术人员阅读。资源目录：第1章　海量视频概述 1.1　视觉大数据 1.2　关键技术 1.3　应用领域 1.4　挑战与发展第2章　海量视频模型 2.1　hsv颜色模型 2.2　肤色模型 2.3　形状模型 2.4　人体可变形模型 2.5　混合高斯模型 2.6　概率图模型 2.7　感兴趣区域模型（roi） 2.8　视觉显著性模型 2.9　多分辨率模型 2.10　视觉词袋模型 2.11　视频语义模型第3章　海量视频管理 3.1　视频数据库 3.1.1　海量视频数据 3.1.2　面向对象的海量视频数据库 3.2　集中式视频数据库 3.3　分布式视频数据库 3.3.1　基于hadoop的视频数据库 3.3.2　mapreduce模型 3.4　博世视频管理系统 3.5　微博视频管理系统 3.6　vod视频点播及管理系统第4章　海量视频分析 4.1　harris描述子 4.2　sift描述子 4.3　k均值聚类方法 4.4　k近邻法 4.5　svm方法 4.6　bp网络 4.7　多感知器模型 4.8　卷积神经网络（cnn） 4.9　adaboost方法 4.10　模拟退火方法 4.11　遗传方法第5章　大规模人脸搜索系统 5.1　概述 5.2　人脸检测 5.2.1　人脸检测方法分类 5.2.2　基于adaboost的人脸检测 5.3　人脸特征提取 5.3.1　pca方法 5.3.2　lda方法 5.3.3　kernel方法 5.4　人脸特征比对 5.4.1　典型的度量方法 5.4.2　典型的分类器 5.5　“大海捞针”人脸搜索系统 5.5.1　体系结构 5.5.2　关键技术 5.5.3　算法伪代码 5.5.4　性能评价 5.5.5　系统搜索效果第6章　高清卡口车辆信息搜索系统 6.1　车辆信息搜索 6.2　车牌搜索子系统 6.2.1　车牌搜索概述 6.2.2　车牌区域定位 6.2.3　车牌字符分割 6.2.4　索车牌字符识别 6.3　车标搜索子系统 6.3.1　车标定位 6.3.2　车标搜索第7章　暴力行为检测系统 7.1　暴力行为 7.2　暴力行为检测 7.2.1　系统框架 7.2.2　行为数据库 7.2.3　评价指标 7.3　基于对象层次的暴力行为检测系统 7.4　基于光流变化的暴力行为检测系统 7.5　基于运动着色的暴力行为检测系统第8章　可疑行为检测系统 8.1　可疑行为 8.2　可疑行为检测 8.3　基于轨迹特征的可疑行为检测系统 8.3.1　系统结构 8.3.2　人体目标检测 8.3.3　轨迹建模 8.3.4　轨迹特征提取 8.3.5　轨迹特征分类 8.4　基于运动方向的可疑行为检测系统 8.4.1　系统流程 8.4.2　背景边缘模型 8.4.3　前景帧判断 8.4.4　行为特征描述 8.4.5　svm分类 8.5　基于形状特征的可疑行为检测系统第9章　海量视频摘要系统 9.1　视频摘要 9.2　视频摘要过程 9.3　特征提取和表示 9.3.1　颜色特征提取 9.3.2　纹理特征提取 9.3.3　形状特征提取 9.3.4　运动特征提取 9.3.5　音频特征提取 9.4　典型系统第10章　海量视频管控平台 10.1　平台要求 10.2　平台架构 10.3　平台组成 10.4　平台服务器 10.5　平台功能 10.5.1　视频监控与回放 10.5.2　视图无缝融合功能 10.5.3　大规模人脸等目标监测 10.5.4　异常行为检测 10.5.5　海量视频摘要 10.5.6　高清卡口车辆信息搜索 10.6　平台应用资源截图：

陌佑

华为出品：分布式云数据中心的建设与管理

资源名称：华为出品：分布式云数据中心的建设与管理内容简介：目前，数量众多的数据中心给企业、政府机关带来了非常沉重的运维负担。业界流行的云计算技术还旨在解决单个数据中心内部的问题，无法解决多个数据中心之间资源共享、统一管理、提升业务服务质量的问题。华为分布式云数据中心（DistributedCloud Data Center，DC2）将传统的分散、分层、异构的传统数据中心架构，改造为全扁平式、点到点全互联、统一资源管理的分布式云数据中心架构，将多个不同地域、不同阶段、不同规模的数据中心所有资源通过逻辑集中，统一管理、统一呈现、统一运营，从而充分利用企业已有资源，支撑企业ICT服务能力高速发展。华为分布式云数据中心市场反应颇佳，已有多个国际性项目在操作，其中某国际著名的运营商有近90个数据中心的改造需求、非洲某国家要建立9个联动的数据中心。2013年，分布式云数据中心的发布新闻稿还在巴塞罗那电信展被展会官方引用。市场急需这样一本介绍分布式云数据中心的建设与管理的图书，为企业、政府机关解燃眉之急。资源目录：第1章云数据中心的历史和发展趋势 1.1 云计算给数据中心带来的变革和好处 1.2 云数据中心3.0：分布式云数据中心的定义 1.3 分布式云数据中心是数据中心发展的必然趋势第2章分布式云数据中心提供的关键服务与关键技术 2.1　分布式云数据中心总体架构 2.2 　DCaaS服务介绍 2.3　IaaS服务关键技术：数据中心云操作系统 2.4 NaaS服务关键技术：TRILL，VXLAN，SDN 2.5　MaaS服务关键技术：自动化和管理系统 2.6 管理解决方案第3章 IaaS的规划与建设 3.1　IaaS的规划 3.2　计算资源池的建设 3.3 存储资源池的建设第4章 NaaS的规划与建设 4.1 Naas的规划 4.2 网络资源池的建设应用举例 4.3 安全解决方案的建设第5章 MaaS的设计与建设 5.1 数据中心运维管理 5.2 分布式云数据中心运营管理系统第6章 FaaS的规划与建设 6.1 从土建到施工的蓝图 6.2 绿色机房的规划 6.3 绿色机房的建设要点第7章灾备解决方案的规划与建设 7.1　灾备解决方案规划 7.2 灾备解决方案的建设要点第8章传统数据中心的改造和整合 8.1　IT架构治理介绍 8.2　传统数据中心的改造和整合第9章分布式云数据中心的成功实践 9.1　某知名全球化电信运营商分布式云数据中心 9.2　华为分布式云数据中心建设经验 9.3　分析师对华为数据中心的评价附录参考文献资源截图：

陌佑

PySpark实战指南：利用Python和Spark构建数据密集型应用并规模化部署

资源名称：PySpark实战指南：利用Python和Spark构建数据密集型应用并规模化部署内容简介：本文从Spark的基本特点出发，借助大量例子详细介绍了如何使用Python调用Spark新特性、处理结构化及非结构化数据、使用PySpark中基本可用数据类型、生成机器学习模型、进行图像操作以及阅读串流数据等新兴技术内容。资源目录：译者序序前言关于作者第1章　了解Spark 1 1.1　什么是Apache Spark 1 1.2　Spark作业和API 2 1.2.1　执行过程 2 1.2.2　弹性分布式数据集 3 1.2.3　DataFrame 4 1.2.4　Dataset 5 1.2.5　Catalyst优化器 5 1.2.6　钨丝计划 5 1.3　Spark 2.0的架构 6 1.3.1　统一Dataset和DataFrame 7 1.3.2　SparkSession介绍 8 1.3.3　Tungsten Phase 2 8 1.3.4　结构化流 10 1.3.5　连续应用 10 1.4　小结 11 第2章　弹性分布式数据集 12 2.1　RDD的内部运行方式 12 2.2　创建RDD 13 2.2.1　Schema 14 2.2.2　从文件读取 14 2.2.3　Lambda表达式 15 2.3　全局作用域和局部作用域 16 2.4　转换 17 2.4.1　.map(...)转换 17 2.4.2　.filter(...)转换 18 2.4.3　.flatMap(...)转换 18 2.4.4　.distinct(...)转换 18 2.4.5　.sample(...)转换 19 2.4.6　.leftOuterJoin(...)转换 19 2.4.7　.repartition(...)转换 20 2.5　操作 20 2.5.1　.take(...)方法 21 2.5.2　.collect(...)方法 21 2.5.3　.reduce(...)方法 21 2.5.4　.count(...)方法 22 2.5.5　.saveAsTextFile(...)方法 22 2.5.6　.foreach(...)方法 23 2.6　小结 23 第3章　DataFrame 24 3.1　Python到RDD之间的通信 24 3.2　Catalyst优化器刷新 25 3.3　利用DataFrame加速PySpark 27 3.4　创建DataFrame 28 3.4.1　生成自己的JSON数据 29 3.4.2　创建一个DataFrame 29 3.4.3　创建一个临时表 30 3.5　简单的DataFrame查询 31 3.5.1　DataFrame API查询 32 3.5.2　SQL查询 32 3.6　RDD的交互操作 33 3.6.1　使用反射来推断模式 33 3.6.2　编程指定模式 34 3.7　利用DataFrame API查询 35 3.7.1　行数 35 3.7.2　运行筛选语句 35 3.8　利用SQL查询 36 3.8.1　行数 36 3.8.2　利用where子句运行筛选语句 36 3.9　DataFrame场景——实时飞行性能 38 3.9.1　准备源数据集 38 3.9.2　连接飞行性能和机场 39 3.9.3　可视化飞行性能数据 40 3.10　Spark数据集（Dataset）API 41 3.11　小结 42 第4章　准备数据建模 43 4.1　检查重复数据、未观测数据和异常数据（离群值） 43 4.1.1　重复数据 43 4.1.2　未观测数据 46 4.1.3　离群值 50 4.2　熟悉你的数据 51 4.2.1　描述性统计 52 4.2.2　相关性 54 4.3　可视化 55 4.3.1　直方图 55 4.3.2　特征之间的交互 58 4.4　小结 60 第5章　 MLlib介绍 61 5.1　包概述 61 5.2　加载和转换数据 62 5.3　了解你的数据 65 5.3.1　描述性统计 66 5.3.2　相关性 67 5.3.3　统计测试 69 5.4　创建最终数据集 70 5.4.1　创建LabeledPoint形式的RDD 70 5.4.2　分隔培训和测试数据 71 5.5　预测婴儿生存机会 71 5.5.1　MLlib中的逻辑回归 71 5.5.2　只选择最可预测的特征 72 5.5.3　MLlib中的随机森林 73 5.6　小结 74 第6章　ML包介绍 75 6.1　包的概述 75 6.1.1　转换器 75 6.1.2　评估器 78 6.1.3　管道 80 6.2　使用ML预测婴儿生存几率 80 6.2.1　加载数据 80 6.2.2　创建转换器 81 6.2.3　创建一个评估器 82 6.2.4　创建一个管道 82 6.2.5　拟合模型 83 6.2.6　评估模型的性能 84 6.2.7　保存模型 84 6.3　超参调优 85 6.3.1　网格搜索法 85 6.3.2　Train-validation 划分 88 6.4　使用PySpark ML的其他功能 89 6.4.1　特征提取 89 6.4.2　分类 93 6.4.3　聚类 95 6.4.4　回归 98 6.5　小结 99 第7章　GraphFrames 100 7.1　GraphFrames介绍 102 7.2　安装GraphFrames 102 7.2.1　创建库 103 7.3　准备你的航班数据集 105 7.4　构建图形 107 7.5　执行简单查询 108 7.5.1　确定机场和航班的数量 108 7.5.2　确定这个数据集中的最长延误时间 108 7.5.3　确定延误和准点/早到航班的数量对比 109 7.5.4　哪一班从西雅图出发的航班最有可能出现重大延误 109 7.5.5　西雅图出发到哪个州的航班最有可能出现重大延误 110 7.6　理解节点的度 110 7.7　确定最大的中转机场 112 7.8　理解Motif 113 7.9　使用PageRank确定机场排名 114 7.10　确定最受欢迎的直飞航班 115 7.11　使用广度优先搜索 116 7.12　使用D3将航班可视化 118 7.13　小结 119 第8章　TensorFrames 120 8.1　深度学习是什么 120 8.1.1　神经网络和深度学习的必要性 123 8.1.2　特征工程是什么 125 8.1.3　桥接数据和算法 125 8.2　TensorFlow是什么 127 8.2.1　安装PIP 129 8.2.2　安装TensorFlow 129 8.2.3　使用常量进行矩阵乘法 130 8.2.4　使用placeholder进行矩阵乘法 131 8.2.5　讨论 132 8.3　TensorFrames介绍 133 8.4　TensorFrames快速入门 134 8.4.1　配置和设置 134 8.4.2　使用TensorFlow向已有列添加常量 136 8.4.3　Blockwise reducing操作示例 137 8.5　小结 139 第9章　使用Blaze实现混合持久化资源截图：

陌佑

驾驭大数据

资源名称：驾驭大数据内容简介：本书提供了处理大数据和在企业中培养创新和探索文化所需的工具、流程和方法，描绘了一个易于实施的行动计划，以帮助企业发现新的商业机会，实现新的业务流程，并做出更明智的决策。本书重点介绍了如何驾驭大数据浪潮，并详细地介绍了什么是大数据，大数据为什么重要，以及如何应用大数据。本书还从具体实用的角度，介绍了用于分析和操作大数据的工具、技术和方法；以及从人才和企业文化的角度，介绍了如何使分析专家、分析团队以及所需的分析原则更加高效，如何通过分析创新中心使得分析更加具有创造力，以及如何改变分析文化。本书适合对数据处理、数据挖掘、数据分析感兴趣的技术人员和决策者阅读。资源目录：第一部分　大数据的兴起第1章　什么是大数据，大数据为什么重要第2章　网络数据：原始的大数据第3章　典型大数据源及其价值第二部分　驾驭大数据：技术、流程以及方法第4章　分析可扩展性的演进第5章　分析流程的演进第6章　分析工具与方法的演进第三部分　驾驭大数据：人和方法第7章　如何提供优质分析第8章　如何成为优秀的分析专家第9章　如何打造优秀的分析团队第四部分　整合：分析文化第10章　促进分析创新第11章　营造创新和探索的文化氛围结论：再敢想一些资源截图：

陌佑

大数据技术与应用实践指南第2版

资源名称：大数据技术与应用实践指南第2版内容简介：大数据是互联网、移动应用、社交网络和物联网等技术发展的必然趋势，大数据应用成为当前最为热门的信息技术应用领域。《大数据：技术与应用实践指南（第2版）》由浅入深，首先概述性地分析了大数据的发展背景、基本概念，从业务的角度分析了大数据应用的主要业务价值和业务需求，在此基础上介绍大数据的技术架构和关键技术，结合应用实践，详细阐述了传统信息系统与大数据平台的整合策略，大数据应用实践的流程和方法，并介绍了主要的大数据应用产品和解决方案。最后，对大数据面临的挑战和未来的趋势进行了展望。《大数据：技术与应用实践指南（第2版）》既具有技术深度，又具有很强的可操作性，提供了一个系统性、架构性的大数据应用实践指南，纲要性地指导大数据应用实践，推动大数据技术在各个行业的广泛应用。资源目录：第1章大数据的概念和发展背景 1 1.1 大数据的发展背景 1 1.2 大数据的概念和特征 4 1.2.1 大数据的概念 4 1.2.2 大数据的特征 4 1.3 大数据的产生 5 1.3.1 数据产生由企业内部向企业外部扩展 5 1.3.2 数据产生从Web 1.0向Web 2.0、从互联网向移动互联网扩展 6 1.3.3 数据产生从计算机/互联网（IT）向物联网（IOT）扩展 7 1.4 数据的量级 7 1.4.1 数据大小的量级 7 1.4.2 大数据的量级 8 1.5 大量不同的数据类型 8 1.5.1 按照数据结构分类 9 1.5.2 按照产生主体分类 12 1.5.3 按照数据作用方式分类 13 1.6 大数据的速度 14 1.7 大数据的应用价值 14 1.8 大数据的挑战 15 1.8.1 业务视角不同带来的挑战 15 1.8.2 技术架构不同带来的挑战 15 1.8.3 管理策略不同带来的挑战 16 第2章大数据应用的业务需求 17 2.1 大数据应用的业务流程 17 2.1.1 产生数据 18 2.1.2 聚集数据 18 2.1.3 分析数据 19 2.1.4 利用数据 19 2.2 大数据应用的业务价值 19 2.2.1 发现大数据的潜在价值 20 2.2.2 发现动态行为数据的价值 20 2.2.3 实现大数据整合创新的价值 20 2.3 各行业大数据应用的个性需求 21 2.3.1 互联网与电子商务行业 21 2.3.2 零售业 26 2.3.3 金融业 28 2.3.4 政府 31 2.3.5 医疗业 34 2.3.6 能源业 35 2.3.7 制造业 37 2.3.8 电信运营业 38 2.3.9 交通业 40 2.4 企业级大数据应用的共性需求 42 2.4.1 客户分析 42 2.4.2 绩效分析 46 2.4.3 欺诈和风险评估 47 2.5 以银行客户分析为例，分析一个大数据的应用场景 48 第3章大数据应用的总体架构和关键技术 51 3.1 总体架构 51 3.1.1 业务目标 51 3.1.2 架构设计原则 52 3.1.3 总体架构参考模型 55 3.1.4 总体架构的特点 58 3.2 大数据存储和处理技术 59 3.2.1 Hadoop：分布式存储和计算平台 59 3.2.2 HDFS：分布式文件系统 65 3.2.3 MapReduce：分布式计算框架 72 3.2.4 NoSQL：分布式数据库 98 3.2.5 MPP：大规模并行处理系统 113 3.2.6 Spark：轻量级的分布式内存计算系统 117 3.2.7 S4和Storm：流计算框架 126 3.2.8 大数据存储和处理技术的比较分析 132 3.3 大数据查询和分析技术 133 3.3.1 Hive：基本的Hadoop查询和分析 134 3.3.2 Hive 2.0：Hive的优化和升级 144 3.3.3 实时互动的SQL：Impala和drill 147 3.3.4 基于PostgreSQL的SQL on Hadoop 153 3.4 大数据高级分析和可视化技术 154 3.4.1 传统数据仓库与联机分析处理技术 154 3.4.2 大数据对传统分析的挑战 157 3.4.3 大数据挖掘与高级分析 157 3.4.4 大数据挖掘与高级分析库 162 3.4.5 非结构化复杂数据分析 163 3.4.6 实时预测分析 170 3.4.7 开源可视化工具：R语言 177 3.4.8 可视化技术 185 3.5 以银行客户分析为例的大数据应用体系架构 194 第4章大数据与企业级应用的整合策略 196 4.1 大数据传输、接入、整合和流程管理平台 197 4.1.1 数据传输 197 4.1.2 数据接入 203 4.1.3 数据整合 207 4.1.4 流程管理 208 4.2 大数据与存储架构的整合 212 4.2.1 传统存储架构比较 212 4.2.2 大数据平台的存储架构的选择 214 4.2.3 集群存储的发展 214 4.2.4 基于HDFS的集群存储 216 4.2.5 固态硬盘（SSD）对内存计算的支持 218 4.2.6 软件定义存储（SDS） 218 4.2.7 超融合架构（HCI） 220 4.3 大数据与网络架构的发展 220 4.3.1 统一的以太网结构 222 4.3.2 软件定义网络（SDN） 223 4.3.3 网络功能虚拟化（NFV） 226 4.4 大数据与虚拟化技术的整合 228 4.5 大数据与Docker技术 230 4.5.1 Docker概述 230 4.5.2 Docker原理与总体架构 231 4.5.3 Docker与应用程序开发与管理 237 4.6 大数据与云计算 240 4.7 大数据安全 242 4.8 以银行客户分析为例，分析一个大数据的平台整合 244 第5章大数据应用的实践方法与案例 246 5.1 实践方法论 246 5.1.1 业务需求定义 247 5.1.2 数据应用现状分析与标杆比较 248 5.1.3 大数据应用架构规划和设计 249 5.1.4 大数据技术切入与实施 250 5.1.5 大数据试用和评估 251 5.1.6 大数据应用推广 252 5.2 技术应用案例 252 5.2.1 Amazon和Google 252 5.2.2 Yahoo 255 5.2.3 Amazon 257 5.2.4 Facebook 259 5.2.5 Twitter 263 5.2.6 淘宝网 264 5.3 以银行客户分析为例的实施案例分析 266 5.3.1 银行基于大数据的客户分析的业务需求 266 5.3.2 银行基于大数据的客户分析的现状与标杆比较 267 5.3.3 银行基于大数据的客户分析的应用架构规划与设计 269 5.3.4 银行基于大数据的数据分析的实施、试点和推广 269 第6章大数据应用的主流解决方案 270 6.1 产业链 270 6.1.1 国际大数据产业生态 270 6.1.2 国内大数据产业生态 273 6.2 主流厂商解决方案 274 6.2.1 Cloundera 275 6.2.2 Hortonworks 276 6.2.3 MapR 277 6.2.4 IBM 278 6.2.5 Oracle 280 6.2.6 EMC 281 6.2.7 Intel 282 6.2.8 SAP 283 6.2.9 Teradata 285 第7章大数据应用的未来挑战和趋势 286 7.1 隐私保护 286 7.1.1 法律保护 287 7.1.2 技术保护 289 7.1.3 理念革新 290 7.2 技术标准 291 7.2.1 ISO大数据标准化进展 291 7.2.2 大数据基准和基准测试 293 7.2.3 大数据处理分析标准套件 296 7.3 大数据治理 296 7.3.1 数据治理框架 297 7.3.2 数据质量管理 298 7.3.3 大数据的组织、角色和责任 299 7.4 适应商业社会的未来趋势 300 7.4.1 从产品推销向数据营销的转变 300 7.4.2 从流程驱动到分析驱动的转变 300 7.4.3 从私有资源到公共服务的转变 301 资源截图：

陌佑

Hadoop MapReduce实战手册

资源名称：Hadoop MapReduce实战手册内容简介：这是一本学习Hadoop MapReduce的一站式指南，完整介绍了Hadoop生态体系，包括Hadoop平台安装、部署、运维等，Hadoop生态系统成员Hive、Pig、HBase、Mahout等。最重要的是，书中包含丰富的示例和多样的实际应用场景，以一种简单而直接的方式呈现了90个实战攻略，并给出一步步的指导。本书从获取Hadoop并在集群中运行讲起，依次介绍了高级HDFS，高级Hadoop MapReduce管理，开发复杂的Hadoop MapReduce应用程序，Hadoop的生态系统，统计分析，搜索与索引，聚类、推荐和寻找关联，海量文本数据处理，云部署等内容。资源目录：第1章搭建Hadoop并在集群中运行 1 1.1 简介 1 1.2 在你的机器上安装Hadoop 2 1.3 写WordCountMapReduce示例程序，打包并使用独立的Hadoop运行它 3 1.4 给WordCount MapReduce程序增加combiner步骤 8 1.5 安装HDFS 9 1.6 使用HDFS监控UI 14 1.7 HDFS的基本命令行文件操作 15 1.8 在分布式集群环境中设置Hadoop 17 1.9 在分布式集群环境中运行WordCount程序 22 1.10 使用MapReduce监控UI 24 第2章 HDFS进阶 26 2.1 简介 26 2.2 HDFS基准测试 27 2.3 添加一个新的DataNode 28 2.4 DataNode下架 30 2.5 使用多个磁盘/卷以及限制HDFS的磁盘使用情况 32 2.6 设置HDFS块大小 33 2.7 设置文件冗余因子 34 2.8 使用HDFS的Java API 35 2.9 使用HDFS的C API（libhdfs） 40 2.10 挂载HDFS（Fuse-DFS） 45 2.11 在HDFS中合并文件 48 第3章高级Hadoop MapReduce运维 49 3.1 简介 49 3.2 调优集群部署的Hadoop配置 49 3.3 运行基准测试来验证Hadoop的安装 52 3.4 复用Java虚拟机以提高性能 54 3.5 容错和推测执行 54 3.6 调试脚本——分析任务失败 55 3.7 设置失败百分比以及跳过不良记录 59 3.8 共享用户的Hadoop集群——使用公平调度器和其他调度器 61 3.9 Hadoop的安全性——整合使用Kerberos 62 3.10 使用Hadoop的工具接口 69 第4章开发复杂的Hadoop MapReduce应用程序 72 4.1 简介 72 4.2 选择合适的Hadoop数据类型 73 4.3 实现自定义的Hadoop Writable数据类型 75 4.4 实现自定义Hadoop key类型 79 4.5 从mapper中输出不同值类型的数据 83 4.6 为输入数据格式选择合适的Hadoop InputFormat 87 4.7 添加新的输入数据格式的支持——实现自定义的InputFormat 90 4.8 格式化MapReduce计算的结果——使用Hadoop的OutputFormat 94 4.9 Hadoop的中间（map到reduce）数据分区 96 4.10 将共享资源传播和分发到MapReduce作业的任务中——Hadoop DistributedCache 98 4.11 在Hadoop上使用传统应用程序——Hadoop Streaming 103 4.12 添加MapReduce作业之间的依赖关系 106 4.13 用于报告自定义指标的Hadoop计数器 108 第5章 Hadoop生态系统 110 5.1 简介 110 5.2 安装HBase 111 5.3 使用Java客户端API随机存取数据 114 5.4 基于HBase（表输入/输出）运行MapReduce作业 116 5.5 安装Pig 120 5.6 运行第一条Pig命令 121 5.7 使用Pig执行集合操作（join，union）与排序 123 5.8 安装Hive 125 5.9 使用Hive运行SQL风格的查询 127 5.10 使用Hive执行join 129 5.11 安装Mahout 132 5.12 使用Mahout运行K-means 133 5.13 可视化K-means结果 136 第6章分析 138 6.1 简介 138 6.2 使用MapReduce的简单分析 139 6.3 使用MapReduce执行Group-By 143 6.4 使用MapReduce计算频率分布和排序 146 6.5 使用GNU Plot绘制Hadoop计算结果 148 6.6 使用MapReduce计算直方图 151 6.7 使用MapReduce计算散点图 154 6.8 用Hadoop解析复杂的数据集 158 6.9 使用MapReduce连接两个数据集 164 第7章搜索和索引 170 7.1 简介 170 7.2 使用Hadoop MapReduce生成倒排索引 170 7.3 使用Apache Nutch构建域内网络爬虫 175 7.4 使用Apache Solr索引和搜索网络文档 180 7.5 配置Apache HBase作为Apache Nutch的后端数据存储 182 7.6 在Hadoop集群上部署Apache HBase 185 7.7 使用Hadoop/HBase集群构建Apache Nutch全网爬虫服务 188 7.8 用于索引和搜索的ElasticSearch 191 7.9 生成抓取网页的内链图 193 第8章聚类、推荐和关系发现 197 8.1 简介 197 8.2 基于内容的推荐 198 8.3 层次聚类 204 8.4 对亚马逊销售数据集进行聚类操作 208 8.5 基于协同过滤的推荐 212 8.6 使用朴素贝叶斯分类器的分类 216 8.7 使用Adwords平衡算法给广告分配关键字 222 第9章海量文本数据处理 231 9.1 简介 231 9.2 使用Hadoop Streaming和Python预处理数据（抽取、清洗和格式转换） 231 9.3 使用Hadoop Streaming进行数据去重 235 9.4 使用importtsv和批量加载工具把大型数据集加载到Apache HBase数据存储中 237 9.5 创建用于文本数据的TF向量和TF-IDF向量 242 9.6 聚类文本数据 246 9.7 使用隐含狄利克雷分布（LDA）发现主题 249 9.8 使用Mahout的朴素贝叶斯分类器分类文件 252 第10章云端部署——在云上使用Hadoop 255 10.1 简介 255 10.2 使用亚马逊弹性MapReduce运行Hadoop MapReduce计算 256 10.3 使用亚马逊EC2竞价实例来执行EMR作业流以节约开支 259 10.4 使用EMR执行Pig脚本 261 10.5 使用EMR执行Hive脚本 263 10.6 使用命令行界面创建亚马逊EMR作业流 267 10.7 使用EMR在亚马逊EC2云上部署Apache HBase集群 270 10.8 使用EMR引导操作来配置亚马逊EMR作业的虚拟机 275 10.9 使用Apache Whirr在云环境中部署Apache Hadoop集群 277 10.10 使用Apache Whirr在云环境中部署Apache HBase集群 281 资源截图：

陌佑

资源搜

大数据技术前沿

云计算-概念、技术与架构

Spark MLlib机器学习实践

视觉大数据基础与应用

华为出品：分布式云数据中心的建设与管理

大数据安全

PySpark实战指南：利用Python和Spark构建数据密集型应用并规模化部署

驾驭大数据

大数据技术与应用实践指南第2版

Hadoop MapReduce实战手册

资源搜

大数据技术前沿

云计算-概念、技术与架构

Spark MLlib机器学习实践

视觉大数据基础与应用

华为出品：分布式云数据中心的建设与管理

大数据安全

PySpark实战指南：利用Python和Spark构建数据密集型应用并规模化部署

驾驭大数据

大数据 技术与应用实践指南 第2版

Hadoop MapReduce实战手册

大数据技术与应用实践指南第2版