在线网盘资源搜索下载资源搜

Hadoop基础教程

资源名称：Hadoop基础教程内容简介：《Hadoop基础教程》包括三个主要部分：第1~5章讲述了Hadoop的核心机制及Hadoop的工作模式；第6~7章涵盖了Hadoop更多可操作的内容；第8~11章介绍了Hadoop与其他产品和技术的组合使用。《Hadoop基础教程》目的在于帮助读者了解什么是Hadoop，Hadoop是如何工作的，以及如何使用Hadoop从数据中提取有价值的信息，并用它解决大数据问题。　　《Hadoop基础教程》适用于有软件开发经验的技术人员。资源目录：第1章　绪论　 1.1　大数据处理　 1.1.1　数据的价值　 1.1.2　受众较少　 1.1.3　一种不同的方法　 1.1.4　Hadoop　 1.2　基于Amazon Web Services的云计算　 1.2.1　云太多了　 1.2.2　第三种方法　 1.2.3　不同类型的成本　 1.2.4　AWS：Amazon的弹性架构　 1.2.5　本书内容　 1.3　小结　第2章　安装并运行Hadoop　 2.1　基于本地Ubuntu主机的Hadoop系统　 2.2　实践环节：检查是否已安装JDK　 2.3　实践环节：下载Hadoop　 2.4　实践环节：安装SSH　 2.5　实践环节：使用Hadoop计算圆周率　 2.6　实践环节：配置伪分布式模式　 2.7　实践环节：修改HDFS的根目录　 2.8　实践环节：格式化NameNode　 2.9　实践环节：启动Hadoop　 2.10　实践环节：使用HDFS　 2.11　实践环节：MapReduce的经典入门程序——字数统计　 2.12　使用弹性MapReduce　 2.13　实践环节：使用管理控制台在EMR运行WordCount　 2.13.1　使用EMR的其他方式　 2.13.2　AWS生态系统　 2.14　本地Hadoop与EMR Hadoop的对比　 2.15　小结　第3章　理解MapReduce　 3.1　键值对　 3.1.1　具体含义　 3.1.2　为什么采用键/值数据　 3.1.3　MapReduce作为一系列键/值变换　 3.2　MapReduce的Hadoop Java API　 3.3　编写MapReduce程序　 3.4　实践环节：设置classpath　 3.5　实践环节：实现WordCount　 3.6　实践环节：构建JAR文件　 3.7　实践环节：在本地Hadoop集群运行WordCount　 3.8　实践环节：在EMR上运行WordCount　 3.8.1　0.20之前版本的Java MapReduce API　 3.8.2　Hadoop提供的mapper和reducer实现　 3.9　实践环节：WordCount的简易方法　 3.10　查看WordCount的运行全貌　 3.10.1　启动　 3.10.2　将输入分块　 3.10.3　任务分配　 3.10.4　任务启动　 3.10.5　不断监视JobTracker　 3.10.6　mapper的输入　 3.10.7　mapper的执行　 3.10.8　mapper的输出和reducer的输入　 3.10.9　分块　 3.10.10　可选分块函数　 3.10.11　reducer类的输入　 3.10.12　reducer类的执行　 3.10.13　reducer类的输出　 3.10.14　关机　 3.10.15　这就是MapReduce的全部　 3.10.16　也许缺了combiner　 3.11　实践环节：使用combiner编写WordCount　 3.12　实践环节：更正使用combiner的WordCount　 3.13　Hadoop专有数据类型　 3.13.1　Writable和Writable-Comparable接口　 3.13.2　wrapper类介绍　 3.14　实践环节：使用Writable包装类　 3.15　输入/输出　 3.15.1　文件、split和记录　 3.15.2　InputFormat和RecordReader　 3.15.3　Hadoop提供的InputFormat　 3.15.4　Hadoop提供的RecordReader　 3.15.5　OutputFormat和Record-Writer　 3.15.6　Hadoop提供的OutputFormat　 3.15.7　别忘了Sequence files　 3.16　小结　第4章　开发MapReduce程序　 4.1　使用非Java语言操作Hadoop　 4.1.1　Hadoop Streaming工作原理　 4.1.2　使用Hadoop Streaming的原因　 4.2　实践环节：使用Streaming实现Word-Count　 4.3　分析大数据集　 4.3.1　获取UFO目击事件数据集　 4.3.2　了解数据集　 4.4　实践环节：统计汇总UFO数据　 4.5　实践环节：统计形状数据　 4.6　实践环节：找出目击事件的持续时间与UFO形状的关系　 4.7　实践环节：在命令行中执行形状/时间分析　 4.8　实践环节：使用ChainMapper进行字段验证/分析　 4.9　实践环节：使用Distributed Cache改进地点输出　 4.10　计数器、状态和其他输出　 4.11　实践环节：创建计数器、任务状态和写入日志　 4.12　小结　第5章　高级MapReduce技术　 5.1　初级、高级还是中级　 5.2　多数据源联结　 5.2.1　不适合执行联结操作的情况　 5.2.2　map端联结与reduce端联结的对比　 5.2.3　匹配账户与销售信息　 5.3　实践环节：使用MultipleInputs实现reduce端联结　 5.3.1　实现map端联结　 5.3.2　是否进行联结　 5.4　图算法　 5.4.1　Graph 101　 5.4.2　图和MapReduce　 5.4.3　图的表示方法　 5.5　实践环节：图的表示　 5.6　实践环节：创建源代码　 5.7　实践环节：第一次运行作业　 5.8　实践环节：第二次运行作业　 5.9　实践环节：第三次运行作业　 5.10　实践环节：第四次也是最后一次运行作业　 5.10.1　运行多个作业　 5.10.2　关于图的终极思考　 5.11　使用语言无关的数据结构　 5.11.1　候选技术　 5.11.2　Avro简介　 5.12　实践环节：获取并安装Avro　 5.13　实践环节：定义模式　 5.14　实践环节：使用Ruby创建Avro源数据　 5.15　实践环节：使用Java语言编程操作Avro数据　 5.16　实践环节：在MapReduce中统计UFO形状　 5.17　实践环节：使用Ruby检查输出数据　 5.18　实践环节：使用Java检查输出数据　 5.19　小结　第6章　故障处理　 6.1　故障　 6.1.1　拥抱故障　 6.1.2　至少不怕出现故障　 6.1.3　严禁模仿　 6.1.4　故障类型　 6.1.5　Hadoop节点故障　 6.2　实践环节：杀死DataNode进程　 6.3　实践环节：复制因子的作用　 6.4　实践环节：故意造成数据块丢失　 6.5　实践环节：杀死TaskTracker进程　 6.6　实践环节：杀死JobTracker　 6.7　实践环节：杀死NameNode进程　 6.8　实践环节：引发任务故障　 6.9　数据原因造成的任务故障　 6.10　实践环节：使用skip模式处理异常数据　 6.11　小结　第7章　系统运行与维护　 7.1　关于EMR的说明　 7.2　Hadoop配置属性　 7.3　实践环节：浏览默认属性　 7.3.1　附加的属性元素　 7.3.2　默认存储位置　 7.3.3　设置Hadoop属性的几种方式　 7.4　集群设置　 7.4.1　为集群配备多少台主机　 7.4.2　特殊节点的需求　 7.4.3　不同类型的存储系统　 7.4.4　Hadoop的网络配置　 7.5　实践环节：查看默认的机柜配置　 7.6　实践环节：报告每台主机所在机柜　 7.7　集群访问控制　 7.8　实践环节：展示Hadoop的默认安全机制　 7.9　管理NameNode　 7.10　实践环节：为fsimage文件新增一个存储路径　 7.11　实践环节：迁移到新的NameNode主机　 7.12　管理HDFS　 7.12.1　数据写入位置　 7.12.2　使用平衡器　 7.13　MapReduce管理　 7.13.1　通过命令行管理作业　 7.13.2　作业优先级和作业调度　 7.14　实践环节：修改作业优先级并结束作业运行　 7.15　扩展集群规模　 7.15.1　提升本地Hadoop集群的计算能力　 7.15.2　提升EMR作业流的计算能力　 7.16　小结　第8章　Hive：数据的关系视图　 8.1　Hive概述　 8.1.1　为什么使用Hive　 8.1.2　感谢Facebook　 8.2　设置Hive　 8.2.1　准备工作　 8.2.2　下载Hive　 8.3　实践环节：安装Hive　 8.4　使用Hive　 8.5　实践环节：创建UFO数据表　 8.6　实践环节：在表中插入数据　 8.7　实践环节：验证表　 8.8　实践环节：用正确的列分隔符重定义表　 8.9　实践环节：基于现有文件创建表　 8.10　实践环节：执行联结操作　 8.11　实践环节：使用视图　 8.12　实践环节：导出查询结果　 8.13　实践环节：制作UFO目击事件分区表　 8.13.1　分桶、归并和排序　 8.13.2　用户自定义函数　 8.14　实践环节：新增用户自定义函数　 8.14.1　是否进行预处理　 8.14.2　Hive和Pig的对比　 8.14.3　未提到的内容　 8.15　基于Amazon Web Services的Hive　 8.16　实践环节：在EMR上分析UFO数据　 8.16.1　在开发过程中使用交互式作业流　 8.16.2　与其他AWS产品的集成　 8.17　小结　第9章　与关系数据库协同工作　 9.1　常见数据路径　 9.1.1　Hadoop用于存储档案　 9.1.2　使用Hadoop进行数据预处理　 9.1.3　使用Hadoop作为数据输入工具　 9.1.4　数据循环　 9.2　配置MySQL　 9.3　实践环节：安装并设置MySQL　 9.4　实践环节：配置MySQL允许远程连接　 9.5　实践环节：建立员工数据库　 9.6　把数据导入Hadoop　 9.6.1　使用MySQL工具手工导入　 9.6.2　在mapper中访问数据库　 9.6.3　更好的方法：使用Sqoop　 9.7　实践环节：下载并配置Sqoop　 9.8　实践环节：把MySQL的数据导入HDFS　 9.9　实践环节：把MySQL数据导出到Hive　 9.10　实践环节：有选择性的导入数据　 9.11　实践环节：使用数据类型映射　 9.12　实践环节：通过原始查询导入数据　 9.13　从Hadoop导出数据　 9.13.1　在reducer中把数据写入关系数据库　 9.13.2　利用reducer输出SQL数据文件　 9.13.3　仍是最好的方法　 9.14　实践环节：把Hadoop数据导入MySQL　 9.15　实践环节：把Hive数据导入MySQL　 9.16　实践环节：改进mapper并重新运行数据导出命令　 9.17　在AWS上使用Sqoop　 9.18　小结　第10章　使用Flume收集数据　 10.1　关于AWS的说明　 10.2　无处不在的数据　 10.2.1　数据类别　 10.2.2　把网络流量导入Hadoop　 10.3　实践环节：把网络服务器数据导入Hadoop　 10.3.1　把文件导入Hadoop　 10.3.2　潜在的问题　 10.4　Apache Flume简介　 10.5　实践环节：安装并配置Flume　 10.6　实践环节：把网络流量存入日志文件　 10.7　实践环节：把日志输出到控制台　 10.8　实践环节：把命令的执行结果写入平面文件　 10.9　实践环节：把远程文件数据写入本地平面文件　 10.9.1　信源、信宿和信道　 10.9.2　Flume配置文件　 10.9.3　一切都以事件为核心　 10.10　实践环节：把网络数据写入HDFS　 10.11　实践环节：加入时间戳　 10.12　实践环节：多层Flume网络　 10.13　实践环节：把事件写入多个信宿　 10.13.1　选择器的类型　 10.13.2　信宿故障处理　 10.13.3　使用简单元件搭建复杂系统　 10.14　更高的视角　 10.14.1　数据的生命周期　 10.14.2　集结数据　 10.14.3　调度　 10.15　小结　第11章　展望未来　 11.1　全书回顾　 11.2　即将到来的Hadoop变革　 11.3　其他版本的Hadoop软件包　 11.4　其他Apache项目　 11.4.1　HBase　 11.4.2　Oozie　 11.4.3　Whir　 11.4.4　Mahout　 11.4.5　MRUnit　 11.5　其他程序设计模式　 11.5.1　Pig　 11.5.2　Cascading　 11.6　AWS资源　 11.6.1　在EMR上使用HBase　 11.6.2　SimpleDB　 11.6.3　DynamoDB　 11.7　获取信息的渠道　 11.7.1　源代码　 11.7.2　邮件列表和论坛　 11.7.3　LinkedIn群组　 11.7.4　Hadoop用户群　 11.7.5　会议　 11.8　小结　随堂测验答案　资源截图：

陌佑

百度云

大数据挖掘：系统方法与实例分析

资源名称：大数据挖掘：系统方法与实例分析内容简介：本书是大数据挖掘领域的扛鼎之作，由全球科学计算领域的领导者MathWorks（MATLAB公司）官方的资深数据挖掘专家撰写，MathWorks官方及多位专家联袂推荐。它从技术、方法、案例和*佳实践4个维度对如何系统、深入掌握大数据挖掘提供了详尽的讲解。技术：不仅讲解了大数据挖掘的原理、过程、工具，还讲解了大数据的准备、处理、与探索；方法：既深入地讲解了关联规则方法、回归方法、分类方法、聚类方法、预测方法、诊断方法等6大类数据挖掘主体方法，又重点讲解了时间序列方法和智能优化方法两种数据挖掘中常用的方法；案例：详细地再现了来自银行、证券、机械、矿业、生命科学和社会科学等6大领域的经典案例，不仅有案例的实现过程，而且还有案例原理和预备知识的的讲解；首先总结了数据挖掘中确定挖掘、应用技术以及如何平衡的艺术，然后总结了数据挖掘的项目管理和团队管理的艺术。资源目录：第一篇基础篇第1章绪论 1.1 大数据与数据挖掘 1.1.1 何为大数据 1.1.2 大数据的价值 1.1.3 大数据与数据挖掘的关系 1.2 数据挖掘的概念和原理 1.2.1 什么是数据挖掘 1.2.2 数据挖掘的原理 1.3 数据挖掘的内容 1.3.1 关联 1.3.2 回归 1.3.3 分类 1.3.4 聚类 1.3.5 预测 1.3.6 诊断 1.4 数据挖掘的应用领域 1.4.1 零售业 1.4.2 银行业 1.4.3 证券业 1.4.4 能源业 1.4.5 医疗行业 1.4.6 通信行业 1.4.7 汽车行业 1.4.8 公共事业 1.5 大数据挖掘的要点 1.6 小结参考文献第2章数据挖掘的过程及工具 2.1 数据挖掘过程概述 2.2 挖掘目标的定义 2.3 数据的准备 2.4 数据的探索 2.5 模型的建立 2.6 模型的评估 2.7 模型的部署 2.8 工具的比较与选择 2.9 小结参考文献第3章 MATLAB数据挖掘快速入门 3.1 MATLAB快速入门 3.1.1 MATLAB概要 3.1.2 MATLAB的功能 3.1.3 快速入门案例 3.1.4 入门后的提高 3.2 MATLAB常用技巧 3.2.1 常用标点的功能 3.2.2 常用操作指令 3.2.3 指令编辑操作键 3.2.4 MATLAB数据类型 3.3 MATLAB开发模式 3.3.1 命令行模式 3.3.2 脚本模式 3.3.3 面向对象模式 3.3.4 三种模式的配合 3.4 MATLAB数据挖掘引例 3.5 MATLAB集成数据挖掘工具 3.5.1 分类学习机简介 3.5.2 交互探索算法的方式 3.5.3 MATLAB分类学习机应用实例 3.6 小结第二篇技术篇第4章数据的准备 4.1 数据的收集 4.1.1 认识数据 4.1.2 数据挖掘的数据源 4.1.3 数据抽样 4.1.4 金融行业的数据源 4.1.5 从雅虎获取交易数据 4.1.6 从大智慧获取财务数据 4.1.7 从Wind获取高质量数据 4.2 数据质量分析 4.2.1 数据质量分析的必要性 4.2.2 数据质量分析的目地 4.2.3 数据质量分析的内容 4.2.4 数据质量分析方法 4.2.5 数据质量分析的结果及应用 4.3 数据预处理 4.3.1 为什么需要数据预处理 4.3.2 数据预处理的方法 4.3.3 数据清洗 4.3.4 数据集成 4.3.5 数据归约 4.3.6 数据变换 4.4 小结参考文献第5章数据的探索 5.1 衍生变量 5.1.1 衍生变量的定义 5.1.2 变量衍生的原则和方法 5.1.3 常用的股票衍生变量 5.1.4 评价型衍生变量 5.1.5 衍生变量数据收集与集成 5.2 数据的统计 5.2.1 基本描述性统计 5.2.2 分布描述性统计 5.3 数据可视化 5.3.1 基本可视化方法 5.3.2 数据分布形状可视化 5.3.3 数据关联情况可视化 5.3.4 数据分组可视化 5.4 样本选择 5.4.1 样本选择的方法 5.4.2 样本选择应用实例 5.5 数据降维 5.5.1 主成分分析（PCA）基本原理 5.5.2 PCA应用案例：企业综合实力排序 5.5.3 相关系数降维 5.6 小结参考文献第6章关联规则方法 6.1 关联规则概要 6.1.1 关联规则提出背景 6.1.2 关联规则的基本概念 6.1.3 关联规则的分类 6.1.4 关联规则挖掘常用算法 6.2 Apriori算法 6.2.1 Apriori算法基本思想 6.2.2 Apriori算法步骤 6.2.3 Apriori算法实例 6.2.4 Apriori算法程序实现 6.2.5 算法的优缺点 6.3 FP-Growth算法 6.3.1 FP-Growt算法步骤 6.3.2 FP-Growt算法实例 6.3.3 FP-Growt算法优缺点 6.4 应用实例：行业关联选股法 6.5 小结参考文献第7章数据回归方法 7.1 一元回归 7.1.1 一元线性回归 7.1.2 一元非线性回归 7.1.3 一元多项式回归 7.2 多元回归 7.2.1 多元线性回归 7.2.2 多元多项式回归 7.3 逐步归回 7.3.1 逐步回归基本思想 7.3.2 逐步回归步骤 7.3.3 逐步回归的MATLAB方法 7.4 Logistic回归 7.4.1 Logistic模型 7.4.2 Logistic回归实例 7.5 应用实例：多因子选股模型的实现 7.5.1 多因子模型基本思想 7.5.2 多因子模型的实现 7.6 小结参考文献第8章分类方法 8.1 分类方法概要 8.1.1 分类的概念 8.1.2 分类的原理 8.1.3 常用的分类方法 8.2 K-近邻（KNN） 8.2.1 K-近邻原理 8.2.2 K-近邻实例 8.2.3 K-近邻特点 8.3 贝叶斯分类 8.3.1 贝叶斯分类原理 8.3.2 朴素贝叶斯分类原理 8.3.3 朴素贝叶斯分类实例 8.3.4 朴素贝叶斯特点 8.4 神经网络 8.4.1 神经网络原理 8.4.2 神经网络实例 8.4.3 神经网络特点 8.5 逻辑斯蒂（Logistic） 8.5.1 逻辑斯蒂原理 8.5.2 逻辑斯蒂实例 8.5.3 逻辑斯蒂特点 8.6 判别分析 8.6.1 判别分析原理 8.6.2 判别分析实例 8.6.3 判别分析特点 8.7 支持向量机（SVM） 8.7.1 SVM基本思想 8.7.2 理论基础 8.7.3 支持向量机实例 8.7.4 支持向量机特点 8.8 决策树 8.8.1 决策树的基本概念 8.8.2 决策树的构建步骤 8.8.3决策树实例 8.8.4 决策树特点 8.9 分类的评判 8.9.1 正确率 8.9.2 ROC曲线 8.10 应用实例：分类选股法 8.10.1 案例背景 8.10.2 实现方法 8.11 延伸阅读：其他分类方法 8.12 小结参考文献第9章聚类方法 9.1 聚类方法概要 9.1.1 聚类的概念 9.1.2 类的度量方法 9.1.3 聚类方法的应用场景 9.1.4 聚类方法分类 9.2 K-means方法 9.2.1 K-means原理和步骤 9.2.2 K-means实例1：自主编程 9.2.3 K-means实例2：集成函数 9.2.4 K-means特点 9.3 层次聚类 9.3.1 层次聚类原理和步骤 9.3.2 层次聚类实例 9.3.3 层次聚特点 9.4 神经网络聚类 9.4.1 神经网络聚类原理和步骤 9.4.2 神经网络聚类实例 9.4.3 神经网络聚类特点 9.5 模糊C-均值（FCM）方法 9.5.1 FCM原理和步骤 8.5.2 FCM应用实例 9.5.3 FCM算法特点 9.6 高斯混合聚类方法 9.6.1 高斯混合聚类原理和步骤 9.6.2 高斯聚类实例 9.6.3 高斯聚类特点 9.7 类别数的确定方法 9.7.1 原理 9.7.2 实例 9.8 应用实例：股票聚类分池 9.8.1 聚类目标和数据描述 9.8.2 实现过程 9.8.3 结果及分析 9.9 延伸阅读 9.9.1 目前聚类分析研究的主要内容 9.9.2 SOM智能聚类算法 9.10 小结参考文献第10章预测方法 10.1 预测方法概要 10.1.1 预测的概念 10.1.2 预测的基本原理 10.1.3 预测的准确度评价及影响因素 10.1.4 常用的预测方法 10.2 灰色预测 10.2.1 灰色预测原理 10.2.2 灰色预测的实例 10.3 马尔科夫预测 10.3.1 马尔科夫预测原理 10.3.2 马尔科夫过程的特性 10.3.3 马尔科夫预测实例 10.4 应用实例：大盘走势预测 10.4.1 数据的选取及模型的建立 10.4.2 预测过程 10.4.3 预测结果与分析 10.5 小结参考文献第11章诊断方法 11.1 离群点诊断概要 11.1.1 离群点诊断的定义 11.1.2 离群点诊断的作用 11.1.3 离群点诊断方法分类 11.2 基于统计的离群点诊断 11.2.1 理论基础 11.2.2 应用实例 11.2.3 优点与缺点 11.3 基于距离的离群点诊断 11.3.1 理论基础 11.3.2 应用实例 11.3.3 优点与缺点 11.4 基于密度的离群点挖掘 11.4.1 理论基础 11.4.2 应用实例 11.4.3 优点与缺点 11.5 基于聚类的离群点挖掘 11.5.1 理论基础 11.5.2 应用实例 11.5.3 优点与缺点 11.6 应用实例：离群点诊断股票买卖择时 11.7 延伸阅读：新兴的离群点挖掘方法 11.7.1 基于关联的离群点挖掘 11.7.2 基于粗糙集的离群点挖掘 11.7.3 基于人工神经网络的离群点挖掘 11.8 小结参考文献第12章时间序列方法 12.1 时间序列基本概念 12.1.1 时间序列的定义 12.1.2 时间序列的组成因素 12.1.3 时间序列的分类 12.1.4 时间序列分析方法 12.2 平稳时间序列分析方法 12.2.1 移动平均法 12.2.2 指数平滑法 12.3 季节指数预测法 12.3.1 季节性水平模型 12.3.2 季节性趋势模型 12.4 时间序列模型 12.4.1 ARMA模型 12.4.2 ARIMA模型 12.4.3 ARCH模型 12.4.4 GARCH模型 12.5 应用实例：基于时间序列的股票预测 12.6 小结参考文献第13章智能优化方法 13.1 智能优化方法概要 13.1.1 智能优化方法的概念 13.1.2 常用的智能优化方法 13.2 遗传算法 13.2.1 遗传算法的原理 13.2.2 遗传算法的步骤 13.2.3 遗传算法实例 13.2.4 遗传算法的特点 13.3 模拟退火算法 13.3.1 模拟退火算法的原理 13.3.2 模拟退火算法步骤 13.3.3 模拟退火算法实例 13.3.4 模拟退火算法的特点 13.4 延伸阅读：其它智能方法 13.4.1 粒子群算法 13.4.2 蚁群算法 13.5 小结参考文献第三篇项目篇第14章数据挖掘在银行信用评分中的应用 14.1 概述 14.1.1 信用评分的概念 14.1.2 信用评分的意义 14.1.3 个人信用评分的影响因素 14.1.4 信用评分的方法 14.2 DM法信用评分实施过程 14.2.1 数据的准备 14.2.2 数据预处理 14.2.3 logistics模型 14.2.4 神经网络模型 14.3 AHP信用评分方法 14.3.1 AHP法简介 14.3.2 AHP法信用评分实例 14.4 延伸阅读：企业信用评级 14.5 小结第15章数据挖掘在量化选股中的应用 15.1 量化选股概述 15.1.1 量化选股定义 15.1.2 量化选股实现过程 15.1.3 量化选股的分类 15.2 数据的处理及探索 15.2.1 获取股票日交易数据 15.2.2 计算指标 15.2.3 数据标准化 15.2.4 变量筛选 15.3 模型的建立及评估 15.3.1 股票预测的基本思想 15.3.2 模型的训练及评价 15.4 组合投资的优化 15.4.1 组合投资的理论基础 15.4.2 组合投资的实现 15.5 量化选股的实施 15.6 小结参考文献第16章数据挖掘在工业故障诊断中的应用 16.1 故障诊断概述 16.1.1 故障诊断的概念 16.1.2 故障诊断的方法 16.1.3 数据挖掘技术的故障诊断原理 16.2 DM设备故障诊断实例 16.2.1 加载数据 16.2.2 探索数据 16.2.3 设置训练样本的测试样本 16.2.4 决策树方法训练模型 16.2.5 集成决策树方法训练模型 16.3 小结第17章数据挖掘技术在矿业工程中的应用 17.1 概述 17.1.1 矿业工程的内容 17.1.2 矿业工程的数据及特征 17.1.3 数据挖掘技术在矿业工程中的作用 17.2 矿业工程数据挖掘实例：提纯预测 17.2.1 数据的集成 17.2.2 采用插值方式处理缺失值 17.2.3 设置建模数据及验证方式 17.2.4 多元线性回归模型 17.3 小结参考文献第18章数据挖掘技术在生命科学中的应用 18.1 概述 18.1.1 生命科学的研究内容 18.1.2 生命科学中大数据的特征 18.1.3 数据挖掘技术在生命科学中的作用 18.2 生命科学数据挖掘实例：基因表达模式挖掘 18.2.1 加载数据 18.2.2 数据初探 18.2.3 数据清洗 18.2.4 层次聚类 18.2.5 K-means聚类 18.3 小结参考文献第19章数据挖掘在社会科学研究中的应用 19.1 概述 19.1.1 社会学研究的内容 19.1.2 社会学研究的方法 19.1.3 数据挖掘在社会科学研究中的应用情况 19.2 社会科学挖掘实例：人类行为研究 19.2.1 加载数据 19.2.2 数据可视化 19.2.3 神经网络 19.2.4 混淆矩阵评价分类器 19.2.5 ROC法评价分类器 19.2.6 变量优选 19.2.7 用优选的变量训练网络 19.3 小结第四篇理念篇第20章数据挖掘的艺术 20.1 确定数据挖掘目标的艺术 20.1.1 数据挖掘中的商业意识 20.1.2 商业意识到数据挖掘目标 20.1.3 商业意识的培养 20.2 应用技术的艺术 20.2.1 技术服务于业务的艺术 20.2.2 算法选择的艺术 20.2.3 与机器配合的艺术 20.3 数据挖掘中平衡的艺术 20.3.1 客观与主观的平衡 20.3.2 数据量的平衡 20.4 理性对待大数据时代 20.4.1 发展大数据应避免的误区 20.4.2 正确认识大数据的价值 20.4.3 正面大数据应用面临的挑战 20.5 小结参考文献第21章数据挖掘的项目管理和团队管理 21.1 数据挖掘项目实施之道 21.1.1 确定可行的目标 21.1.2 遵守数据挖掘流程 21.1.3 项目的质量控制 21.1.4 项目效率 21.1.5 成本控制 21.1.6 数据挖掘过程改进 21.2 数据挖掘团队的组建 21.2.1 数据挖掘项目团队的构成 21.2.2 团队负责人 21.3 数据挖掘团队的管理 21.3.1 团队管理的目标与策略 21.3.2 规范化的管理 21.4 优秀数据挖掘人才的修炼 21.4.1 专业知识与技术 21.4.2 快速获取知识的技能 21.4.3 提高表达能力 21.4.4 提高管理能力 21.4.5 培养对数据挖掘的热情 21.5 小结资源截图：

陌佑

百度云

资源搜

OpenStack云计算平台管理

大数据Spark企业级实战

Hadoop基础教程

Apache Spark源码剖析

全数据时代的炼金师

Storm技术内幕与大数据实践

可视化数据挖掘：数据可视化和数据挖掘的技术与工具

大数据挖掘：系统方法与实例分析

深入理解Hadoop.第2版

高可用性的HDFS——Hadoop分布式文件系统深度实践