资源搜
资源搜
👀 联系夏柔
🔥 投稿源码
资源搜

资源搜

  • 全部
  • 123盘
  • 阿里盘
  • 百度云
  • 迅雷
  • 夸克
  • 115
  • 蓝奏云
  • 其他
已收录34127条资源,仅供学习交流,请在24h内删除资源!

Storm技术内幕与大数据实践

资源名称:Storm技术内幕与大数据实践 内容简介:  《Storm技术内幕与大数据实践》内容主要围绕实时大数据系统的各个方面展开,从实时平台总体介绍到集群源码、运维监控、实时系统扩展、以用户画像为主的数据平台,最后到推荐、广告、搜索等具体的大数据应用。书中提到的不少问题是实际生产环境中因为数据量增长而遇到的一些真实问题,对即将或正在运用实时系统处理大数据问题的团队会有所帮助。 资源目录: 第1章 绪论   1.1 Storm的基本组件    1.1.1 集群组成    1.1.2 核心概念    1.1.3 Storm的可靠性    1.1.4 Storm的特性   1.2 其他流式处理框架    1.2.1 Apache S4    1.2.2 Spark Streaming    1.2.3 流计算和Storm的应用  第2章 实时平台介绍   2.1 实时平台架构介绍   2.2 Kafka架构    2.2.1 Kafka的基本术语和概念    2.2.2 Kafka在实时平台中的应用    2.2.3 消息的持久化和顺序读写    2.2.4 sendfile系统调用和零复制    2.2.5 Kafka的客户端    2.2.6 Kafka的扩展   2.3 大众点评实时平台    2.3.1 相关数据    2.3.2 实时平台简介    2.3.3 Blackhole   2.4 1号店实时平台  第3章 Storm集群部署和配置   3.1 Storm的依赖组件   3.2 Storm的部署环境   3.3 部署Storm服务    3.3.1 部署ZooKeeper    3.3.2 部署Storm    3.3.3 配置Storm   3.4 启动Storm   3.5 Storm的守护进程   3.6 部署Storm的其他节点   3.7 提交Topology  第4章 Storm内部剖析   4.1 Storm客户端   4.2 Nimbus    4.2.1 启动Nimbus服务    4.2.2 Nimbus服务的执行过程    4.2.3 分配Executor    4.2.4 调度器    4.2.5 默认调度器DefaultScheduler    4.2.6 均衡调度器EvenScheduler   4.3 Supervisor    4.3.1 ISupervisor接口    4.3.2 Supervisor的共享数据    4.3.3 Supervisor的执行过程   4.4 Worker    4.4.1 Worker中的数据流    4.4.2 创建Worker的过程   4.5 Executor    4.5.1 Executor的创建    4.5.2 创建Spout的Executor    4.5.3 创建Bolt的Executor   4.6 Task    4.6.1 Task的上下文对象    4.6.2 Task的创建   4.7 Storm中的统计    4.7.1 stats框架    4.7.2 metric框架   4.8 Ack框架    4.8.1 Ack的原理    4.8.2 Acker Bolt   4.9 Storm总体架构  第5章 Storm运维和监控   5.1 主机信息监控   5.1 日志和监控   5.2 Storm UI和NimbusClient   5.3 Storm Metric的使用   5.4 Storm ZooKeeper的目录   5.5 Storm Hook的使用  第6章 Storm的扩展   6.1 Storm UI的扩展    6.1.1 Storm UI原生功能    6.1.2 Storm UI新功能需求    6.1.3 Storm的Thrift接口   6.2 资源隔离    6.2.1 CGroup测试    6.2.2 基于CGroup的资源隔离的实现  第7章 Storm开发   7.1 简单示例   7.2 调试和日志   7.3 Storm Trident   7.4 Strom DRPC  第8章 基于Storm的实时数据平台   8.1 Hadoop到Storm的代码迁移经验   8.2 实时用户画像    8.2.1 简单实时画像    8.2.2 实时画像优化    8.2.3 实时画像的毫秒级更新   8.3 其他场景画像   8.4 画像的兴趣度模型构建   8.5 外部画像融合经验分享   8.6 交互式查询和分析用户画像   8.7 实时产品和店铺信息更新  第9章 大数据应用案例   9.1 实时DAU计算   9.2 实时个性化推荐    9.2.1 推荐系统介绍    9.2.2 实时推荐系统的方法    9.2.3 基于Storm的实时推荐系统   9.3 广告投放的精准化    9.3.1 点击率预测    9.3.2 搜索引擎营销    9.3.3 精准化营销与千人千面   9.4 实时意图和搜索    9.4.1 用户意图预测    9.4.2 搜索比价    9.4.3 搜索排序  第10章 Storm使用经验和性能优化   10.1 使用经验    10.1.1 使用rebalance命令动态调整并发度    10.1.2 使用tick消息做定时器    10.1.3 使用组件的并行度代替线程池    10.1.4 不要用DRPC批量处理大数据    10.1.5 不要在Spout中处理耗时的操作    10.1.6 log4j的使用技巧    10.1.7 注意fieldsGrouping的数据均衡性    10.1.8 优先使用localOrShuffleGrouping    10.1.9 设置合理的MaxSpoutPending值    10.1.10 设置合理的Worker数    10.1.11 平衡吞吐量和时效性   10.2 性能优化    10.2.1 找到Topology的性能瓶颈    10.2.2 GC参数优化    10.3 性能优化原则   附录A Kafka原理   附录B 将Storm源码导入Eclipse 资源截图:
陌佑
百度云
百度云

可视化数据挖掘:数据可视化和数据挖掘的技术与工具

资源名称:可视化数据挖掘:数据可视化和数据挖掘的技术与工具  内容简介: 本书描述了可视化数据挖掘技术,以及可视化数据挖掘技术能够解决的商业问题。在介绍了业务问题和基本原理后,以一个完整的实例逐步讲解如何利用可视化数据挖掘技术实施商业智能项目的方法。 资源目录: 第1章 数据可视化和可视化数据挖掘介绍 第2章 步骤1:验证和规划数据可视化和数据挖掘项目 第3章 步骤2:识别关键的业务问题 第4章 步骤3:选择业务数据集 第5章 步骤4:转换业务数据集 第6章 步骤5:验证业务数据集 第7章 步骤6:选择可视化或挖掘工具 第8章 步骤7:分析可视化或者挖掘工具 第9章 步骤8:验证和展示可视化或挖掘模型 第10章 可视化数据挖掘的未来 资源截图:
陌佑
百度云
百度云

大数据挖掘:系统方法与实例分析

资源名称:大数据挖掘:系统方法与实例分析 内容简介: 本书是大数据挖掘领域的扛鼎之作,由全球科学计算领域的领导者MathWorks(MATLAB公司)官方的资深数据挖掘专家撰写,MathWorks官方及多位专家联袂推荐。 它从技术、方法、案例和*佳实践4个维度对如何系统、深入掌握大数据挖掘提供了详尽的讲解。 技术:不仅讲解了大数据挖掘的原理、过程、工具,还讲解了大数据的准备、处理、与探索; 方法:既深入地讲解了关联规则方法、回归方法、分类方法、聚类方法、预测方法、诊断方法等6大类数据挖掘主体方法,又重点讲解了时间序列方法和智能优化方法两种数据挖掘中常用的方法; 案例:详细地再现了来自银行、证券、机械、矿业、生命科学和社会科学等6大领域的经典案例,不仅有案例的实现过程,而且还有案例原理和预备知识的的讲解; 首先总结了数据挖掘中确定挖掘、应用技术以及如何平衡的艺术,然后总结了数据挖掘的项目管理和团队管理的艺术。 资源目录: 第一篇基础篇 第1章绪论 1.1 大数据与数据挖掘 1.1.1 何为大数据 1.1.2 大数据的价值 1.1.3 大数据与数据挖掘的关系 1.2 数据挖掘的概念和原理 1.2.1 什么是数据挖掘 1.2.2 数据挖掘的原理 1.3 数据挖掘的内容 1.3.1 关联 1.3.2 回归 1.3.3 分类 1.3.4 聚类 1.3.5 预测 1.3.6 诊断 1.4 数据挖掘的应用领域 1.4.1 零售业 1.4.2 银行业 1.4.3 证券业 1.4.4 能源业 1.4.5 医疗行业 1.4.6 通信行业 1.4.7 汽车行业 1.4.8 公共事业 1.5 大数据挖掘的要点 1.6 小结 参考文献 第2章数据挖掘的过程及工具 2.1 数据挖掘过程概述 2.2 挖掘目标的定义 2.3 数据的准备 2.4 数据的探索 2.5 模型的建立 2.6 模型的评估 2.7 模型的部署 2.8 工具的比较与选择 2.9 小结 参考文献 第3章 MATLAB数据挖掘快速入门 3.1 MATLAB快速入门 3.1.1 MATLAB概要 3.1.2 MATLAB的功能 3.1.3 快速入门案例 3.1.4 入门后的提高 3.2 MATLAB常用技巧 3.2.1 常用标点的功能 3.2.2 常用操作指令 3.2.3 指令编辑操作键 3.2.4 MATLAB数据类型 3.3 MATLAB开发模式 3.3.1 命令行模式 3.3.2 脚本模式 3.3.3 面向对象模式 3.3.4 三种模式的配合 3.4 MATLAB数据挖掘引例 3.5 MATLAB集成数据挖掘工具 3.5.1 分类学习机简介 3.5.2 交互探索算法的方式 3.5.3 MATLAB分类学习机应用实例 3.6 小结 第二篇技术篇 第4章数据的准备 4.1 数据的收集 4.1.1 认识数据 4.1.2 数据挖掘的数据源 4.1.3 数据抽样 4.1.4 金融行业的数据源 4.1.5 从雅虎获取交易数据 4.1.6 从大智慧获取财务数据 4.1.7 从Wind获取高质量数据 4.2 数据质量分析 4.2.1 数据质量分析的必要性 4.2.2 数据质量分析的目地 4.2.3 数据质量分析的内容 4.2.4 数据质量分析方法 4.2.5 数据质量分析的结果及应用 4.3 数据预处理 4.3.1 为什么需要数据预处理 4.3.2 数据预处理的方法 4.3.3 数据清洗 4.3.4 数据集成 4.3.5 数据归约 4.3.6 数据变换 4.4 小结 参考文献 第5章数据的探索 5.1 衍生变量 5.1.1 衍生变量的定义 5.1.2 变量衍生的原则和方法 5.1.3 常用的股票衍生变量 5.1.4 评价型衍生变量 5.1.5 衍生变量数据收集与集成 5.2 数据的统计 5.2.1 基本描述性统计 5.2.2 分布描述性统计 5.3 数据可视化 5.3.1 基本可视化方法 5.3.2 数据分布形状可视化 5.3.3 数据关联情况可视化 5.3.4 数据分组可视化 5.4 样本选择 5.4.1 样本选择的方法 5.4.2 样本选择应用实例 5.5 数据降维 5.5.1 主成分分析(PCA)基本原理 5.5.2 PCA应用案例:企业综合实力排序 5.5.3 相关系数降维 5.6 小结 参考文献 第6章关联规则方法 6.1 关联规则概要 6.1.1 关联规则提出背景 6.1.2 关联规则的基本概念 6.1.3 关联规则的分类 6.1.4 关联规则挖掘常用算法 6.2 Apriori算法 6.2.1 Apriori算法基本思想 6.2.2 Apriori算法步骤 6.2.3 Apriori算法实例 6.2.4 Apriori算法程序实现 6.2.5 算法的优缺点 6.3 FP-Growth算法 6.3.1 FP-Growt算法步骤 6.3.2 FP-Growt算法实例 6.3.3 FP-Growt算法优缺点 6.4 应用实例:行业关联选股法 6.5 小结 参考文献 第7章数据回归方法 7.1 一元回归 7.1.1 一元线性回归 7.1.2 一元非线性回归 7.1.3 一元多项式回归 7.2 多元回归 7.2.1 多元线性回归 7.2.2 多元多项式回归 7.3 逐步归回 7.3.1 逐步回归基本思想 7.3.2 逐步回归步骤 7.3.3 逐步回归的MATLAB方法 7.4 Logistic回归 7.4.1 Logistic模型 7.4.2 Logistic回归实例 7.5 应用实例:多因子选股模型的实现 7.5.1 多因子模型基本思想 7.5.2 多因子模型的实现 7.6 小结 参考文献 第8章分类方法 8.1 分类方法概要 8.1.1 分类的概念 8.1.2 分类的原理 8.1.3 常用的分类方法 8.2 K-近邻(KNN) 8.2.1 K-近邻原理 8.2.2 K-近邻实例 8.2.3 K-近邻特点 8.3 贝叶斯分类 8.3.1 贝叶斯分类原理 8.3.2 朴素贝叶斯分类原理 8.3.3 朴素贝叶斯分类实例 8.3.4 朴素贝叶斯特点 8.4 神经网络 8.4.1 神经网络原理 8.4.2 神经网络实例 8.4.3 神经网络特点 8.5 逻辑斯蒂(Logistic) 8.5.1 逻辑斯蒂原理 8.5.2 逻辑斯蒂实例 8.5.3 逻辑斯蒂特点 8.6 判别分析 8.6.1 判别分析原理 8.6.2 判别分析实例 8.6.3 判别分析特点 8.7 支持向量机(SVM) 8.7.1 SVM基本思想 8.7.2 理论基础 8.7.3 支持向量机实例 8.7.4 支持向量机特点 8.8 决策树 8.8.1 决策树的基本概念 8.8.2 决策树的构建步骤 8.8.3决策树实例 8.8.4 决策树特点 8.9 分类的评判 8.9.1 正确率 8.9.2 ROC曲线 8.10 应用实例:分类选股法 8.10.1 案例背景 8.10.2 实现方法 8.11 延伸阅读:其他分类方法 8.12 小结 参考文献 第9章聚类方法 9.1 聚类方法概要 9.1.1 聚类的概念 9.1.2 类的度量方法 9.1.3 聚类方法的应用场景 9.1.4 聚类方法分类 9.2 K-means方法 9.2.1 K-means原理和步骤 9.2.2 K-means实例1:自主编程 9.2.3 K-means实例2:集成函数 9.2.4 K-means特点 9.3 层次聚类 9.3.1 层次聚类原理和步骤 9.3.2 层次聚类实例 9.3.3 层次聚特点 9.4 神经网络聚类 9.4.1 神经网络聚类原理和步骤 9.4.2 神经网络聚类实例 9.4.3 神经网络聚类特点 9.5 模糊C-均值(FCM)方法 9.5.1 FCM原理和步骤 8.5.2 FCM应用实例 9.5.3 FCM算法特点 9.6 高斯混合聚类方法 9.6.1 高斯混合聚类原理和步骤 9.6.2 高斯聚类实例 9.6.3 高斯聚类特点 9.7 类别数的确定方法 9.7.1 原理 9.7.2 实例 9.8 应用实例:股票聚类分池 9.8.1 聚类目标和数据描述 9.8.2 实现过程 9.8.3 结果及分析 9.9 延伸阅读 9.9.1 目前聚类分析研究的主要内容 9.9.2 SOM智能聚类算法 9.10 小结 参考文献 第10章预测方法 10.1 预测方法概要 10.1.1 预测的概念 10.1.2 预测的基本原理 10.1.3 预测的准确度评价及影响因素 10.1.4 常用的预测方法 10.2 灰色预测 10.2.1 灰色预测原理 10.2.2 灰色预测的实例 10.3 马尔科夫预测 10.3.1 马尔科夫预测原理 10.3.2 马尔科夫过程的特性 10.3.3 马尔科夫预测实例 10.4 应用实例:大盘走势预测 10.4.1 数据的选取及模型的建立 10.4.2 预测过程 10.4.3 预测结果与分析 10.5 小结 参考文献 第11章诊断方法 11.1 离群点诊断概要 11.1.1 离群点诊断的定义 11.1.2 离群点诊断的作用 11.1.3 离群点诊断方法分类 11.2 基于统计的离群点诊断 11.2.1 理论基础 11.2.2 应用实例 11.2.3 优点与缺点 11.3 基于距离的离群点诊断 11.3.1 理论基础 11.3.2 应用实例 11.3.3 优点与缺点 11.4 基于密度的离群点挖掘 11.4.1 理论基础 11.4.2 应用实例 11.4.3 优点与缺点 11.5 基于聚类的离群点挖掘 11.5.1 理论基础 11.5.2 应用实例 11.5.3 优点与缺点 11.6 应用实例:离群点诊断股票买卖择时 11.7 延伸阅读:新兴的离群点挖掘方法 11.7.1 基于关联的离群点挖掘 11.7.2 基于粗糙集的离群点挖掘 11.7.3 基于人工神经网络的离群点挖掘 11.8 小结 参考文献 第12章时间序列方法 12.1 时间序列基本概念 12.1.1 时间序列的定义 12.1.2 时间序列的组成因素 12.1.3 时间序列的分类 12.1.4 时间序列分析方法 12.2 平稳时间序列分析方法 12.2.1 移动平均法 12.2.2 指数平滑法 12.3 季节指数预测法 12.3.1 季节性水平模型 12.3.2 季节性趋势模型 12.4 时间序列模型 12.4.1 ARMA模型 12.4.2 ARIMA模型 12.4.3 ARCH模型 12.4.4 GARCH模型 12.5 应用实例:基于时间序列的股票预测 12.6 小结 参考文献 第13章智能优化方法 13.1 智能优化方法概要 13.1.1 智能优化方法的概念 13.1.2 常用的智能优化方法 13.2 遗传算法 13.2.1 遗传算法的原理 13.2.2 遗传算法的步骤 13.2.3 遗传算法实例 13.2.4 遗传算法的特点 13.3 模拟退火算法 13.3.1 模拟退火算法的原理 13.3.2 模拟退火算法步骤 13.3.3 模拟退火算法实例 13.3.4 模拟退火算法的特点 13.4 延伸阅读:其它智能方法 13.4.1 粒子群算法 13.4.2 蚁群算法 13.5 小结 参考文献 第三篇项目篇 第14章数据挖掘在银行信用评分中的应用 14.1 概述 14.1.1 信用评分的概念 14.1.2 信用评分的意义 14.1.3 个人信用评分的影响因素 14.1.4 信用评分的方法 14.2 DM法信用评分实施过程 14.2.1 数据的准备 14.2.2 数据预处理 14.2.3 logistics模型 14.2.4 神经网络模型 14.3 AHP信用评分方法 14.3.1 AHP法简介 14.3.2 AHP法信用评分实例 14.4 延伸阅读:企业信用评级 14.5 小结 第15章数据挖掘在量化选股中的应用 15.1 量化选股概述 15.1.1 量化选股定义 15.1.2 量化选股实现过程 15.1.3 量化选股的分类 15.2 数据的处理及探索 15.2.1 获取股票日交易数据 15.2.2 计算指标 15.2.3 数据标准化 15.2.4 变量筛选 15.3 模型的建立及评估 15.3.1 股票预测的基本思想 15.3.2 模型的训练及评价 15.4 组合投资的优化 15.4.1 组合投资的理论基础 15.4.2 组合投资的实现 15.5 量化选股的实施 15.6 小结 参考文献 第16章数据挖掘在工业故障诊断中的应用 16.1 故障诊断概述 16.1.1 故障诊断的概念 16.1.2 故障诊断的方法 16.1.3 数据挖掘技术的故障诊断原理 16.2 DM设备故障诊断实例 16.2.1 加载数据 16.2.2 探索数据 16.2.3 设置训练样本的测试样本 16.2.4 决策树方法训练模型 16.2.5 集成决策树方法训练模型 16.3 小结 第17章数据挖掘技术在矿业工程中的应用 17.1 概述 17.1.1 矿业工程的内容 17.1.2 矿业工程的数据及特征 17.1.3 数据挖掘技术在矿业工程中的作用 17.2 矿业工程数据挖掘实例:提纯预测 17.2.1 数据的集成 17.2.2 采用插值方式处理缺失值 17.2.3 设置建模数据及验证方式 17.2.4 多元线性回归模型 17.3 小结 参考文献 第18章数据挖掘技术在生命科学中的应用 18.1 概述 18.1.1 生命科学的研究内容 18.1.2 生命科学中大数据的特征 18.1.3 数据挖掘技术在生命科学中的作用 18.2 生命科学数据挖掘实例:基因表达模式挖掘 18.2.1 加载数据 18.2.2 数据初探 18.2.3 数据清洗 18.2.4 层次聚类 18.2.5 K-means聚类 18.3 小结 参考文献 第19章数据挖掘在社会科学研究中的应用 19.1 概述 19.1.1 社会学研究的内容 19.1.2 社会学研究的方法 19.1.3 数据挖掘在社会科学研究中的应用情况 19.2 社会科学挖掘实例:人类行为研究 19.2.1 加载数据 19.2.2 数据可视化 19.2.3 神经网络 19.2.4 混淆矩阵评价分类器 19.2.5 ROC法评价分类器 19.2.6 变量优选 19.2.7 用优选的变量训练网络 19.3 小结 第四篇理念篇 第20章数据挖掘的艺术 20.1 确定数据挖掘目标的艺术 20.1.1 数据挖掘中的商业意识 20.1.2 商业意识到数据挖掘目标 20.1.3 商业意识的培养 20.2 应用技术的艺术 20.2.1 技术服务于业务的艺术 20.2.2 算法选择的艺术 20.2.3 与机器配合的艺术 20.3 数据挖掘中平衡的艺术 20.3.1 客观与主观的平衡 20.3.2 数据量的平衡 20.4 理性对待大数据时代 20.4.1 发展大数据应避免的误区 20.4.2 正确认识大数据的价值 20.4.3 正面大数据应用面临的挑战 20.5 小结 参考文献 第21章数据挖掘的项目管理和团队管理 21.1 数据挖掘项目实施之道 21.1.1 确定可行的目标 21.1.2 遵守数据挖掘流程 21.1.3 项目的质量控制 21.1.4 项目效率 21.1.5 成本控制 21.1.6 数据挖掘过程改进 21.2 数据挖掘团队的组建 21.2.1 数据挖掘项目团队的构成 21.2.2 团队负责人 21.3 数据挖掘团队的管理 21.3.1 团队管理的目标与策略 21.3.2 规范化的管理 21.4 优秀数据挖掘人才的修炼 21.4.1 专业知识与技术 21.4.2 快速获取知识的技能 21.4.3 提高表达能力 21.4.4 提高管理能力 21.4.5 培养对数据挖掘的热情 21.5 小结 资源截图:
陌佑
百度云
百度云

深入理解Hadoop.第2版

资源名称:深入理解Hadoop.第2版  内容简介: 本书作者基于对Hadoop系统的实践,深入浅出地对Hadoop进行了详细的讲解,包含大量的实例和技巧,可帮助有一定基础的开发者快速掌握分布式系统。主要内容包括:第1章~第4章讲解大数据系统的基本概念、Hadoop系统的关键概念,以及进行Hadoop平台管理的关键概念要素。第5章~第7章是本书的重点,深入分析了MapReduce框架,不仅包括MapReduce框架的API,还介绍MapReduce框架的更复杂概念及其设计理念。第8章~第14章介绍Hadoop生态系统,包括支持MapReduce程序的单元测试和集成测试框架、Hadoop系统的监控和日志系统、Hive框架、Pig和Crunch框架、HCatalog框架、Hadoop日志流处理、HBase等。第15章~第17章介绍了数据科学基本概念及应用、云计算实例、分布式下载服务实例等。 资源目录: 译者序 作者简介 前言 第1章为什么会有大数据1 第2章Hadoop中的概念13 第3章初识Hadoop框架34 第4章Hadoop系统管理51 第5章MapReduce开发基础78 第6章MapReduce开发进阶111 第7章 Hadoop输入/输出155 第8章 测试Hadoop程序186 第9章Hadoop的监控203 第10章使用Hadoop构建数据仓库215 第11章使用Pig进行数据处理238 第12章HCatalog和企业级Hadoop266 第13章使用Hadoop分析日志277 第14章使用HBase构建实时系统286 第15章Hadoop与数据科学317 第16章Hadoop与云计算334 第17章构建YARN应用程序349 附录A安装Hadoop 附录B使用Maven和Eclipse 附录CApache Ambari 资源截图:
陌佑
百度云
百度云

高可用性的HDFS——Hadoop分布式文件系统深度实践

资源名称:高可用性的HDFS——Hadoop分布式文件系统深度实践 内容简介: 《高可用性的hdfs—hadoop分布式文件系统深度实践》专注于hadoop分布式文件系统(hdfs)的主流ha解决方案,内容包括:hdfs元数据解析、hadoop元数据备份方案、hadoopbackup node方案、avatarnode解决方案以及最新的ha解决方案cloudrea ha namenode等。其中有关backupnode方案及avatarnode方案的内容是本书重点,尤其是对avatarnode方案从运行机制到异常处理方案的步骤进行了详尽介绍,同时还总结了各种异常情况下avatarnode的各种处理方案。   《高可用性的hdfs—hadoop分布式文件系统深度实践》从代码入手并结合情景分析、案例解说对hdfs的元数据以及主流的hdfsha解决方案的运行机制进行了深入剖析,力求使读者在解决问题时做到心中有数,不仅知其然还知其所以然。   本书光盘包含本书部分操作的视频教程以及所有源代码、脚本等开发文件。   《高可用性的hdfs—hadoop分布式文件系统深度实践》读者主要为云计算相关领域的研发人员、云计算系统管理维护人员,也适合作为高校研究生和高年级本科生的专业课辅助教材。 资源目录: 第1章 hdfs ha及解决方案  1.1 hdfs系统架构  1.2 ha定义  1.3 hdfs ha原因分析及应对措施  1.3.1 可靠性  1.3.2 可维护性  1.4 现有hdfs ha解决方案  1.4.1 hadoop的元数据备份方案  1.4.2 hadoop的secondarynamenode方案  1.4.3 hadoop的checkpoint ode方案  1.4.4 hadoop的backupnode方案  1.4.5 drdb方案  1.4.6 facebook的avatarnode方案  1.5 方案优缺点比较 第2章 hdfs元数据解析  2.1 概述  2.2 内存元数据结构  2.2.1 inode  2.2.2 block    2.2.3 blockinfo和datanodedescriptor  2.2.4 小结  2.2.5 代码分析——元数据结构  2.3 磁盘元数据文件  2.4 format情景分析  2.5 元数据应用场景分析 第3章 hadoop的元数据备份方案  3.1 运行机制分析  3.1.1 namenode启动加载元数据情景分析  3.1.2 元数据更新及日志写入情景分析  3.1.3 checkpoint过程情景分析  3.1.4 元数据可靠性机制  3.1.5 元数据一致性机制  3.2 使用说明 第4章 hadoop的backup node方案  4.1 backup node概述  4.1.1 系统架构  4.1.2 使用原则  4.1.3 优缺点  4.2 运行机制分析  4.2.1 启动流程  4.2.2 元数据操作情景分析  4.2.3 日志池(journal spool)机制  4.2.4 故障切换机制  4.3 实验方案说明  4.4 构建实验环境  4.4.1 网络拓扑  4.4.2 系统安装及配置  4.4.3 安装jdk  4.4.4 虚拟机集群架设  4.4.5 namenode安装及配置  4.4.6 backup node安装及配置  4.4.7 data node安装及配置  4.4.8 clients安装及配置  4.5 异常解决方案  4.5.1 异常情况分析  4.5.2 namenode配置  4.5.3 backup node配置  4.5.4 data node配置  4.5.5 namenode宕机切换实验  4.5.6 namenode宕机读写测试   第5章 avatarnode运行机制  5.1 方案说明  5.1.1 系统架构  5.1.2 思路分析  5.1.3 性能数据  5.2 元数据分析  5.2.1 类fsnamesystem  5.2.2 类fsdirectory  5.2.3 avatarnode的磁盘元数据文件  5.3 avatarnode primary启动过程  5.4 avatarnode standby启动过程  5.4.1 avatarnode的构造方法  5.4.2 standby线程的run()方法  5.4.3 ingest线程的run()方法  5.4.4 ingest线程的ingestfsedits ()方法  5.4.5 standby线程的docheckpoint()方法  5.5 用户操作情景分析  5.5.1 创建目录情景分析  5.5.2 创建文件情景分析  5.6 avatarnode standby故障切换过程  5.7 元数据一致性保证机制  5.7.1 元数据目录树信息  5.7.2 data node与block数据块映射信息  5.8 block更新同步问题  5.8.1 问题描述  5.8.2 结论  5.8.3 源码分析 第6章 avatarnode使用  6.1 方案说明  6.1.1 网络拓扑  6.1.2 操作系统安装及配置  6.2 使用avatar打补丁版本  6.2.1 hadoop源码联机build  6.2.2 hadoop源码本地build  6.2.3 nfs服务器构建  6.2.4 avatar分发与部署  6.2.5 primary(namenode0)节点配置  6.2.7 data node节点配置  6.2.8 client节点配置  6.2.9 创建目录  6.2.10 挂载nfs  6.2.11 启动ucarp  6.2.12 格式化  6.2.13 系统启动  6.2.14 检查  6.2.15 namenode失效切换写文件实验  6.2.16 namenode失效切换读文件实验  6.3 avatar facebook版本的使用  6.3.1 hadoop facebook版本安装  6.3.2 节点配置  6.3.3 启动hdfs  6.3.4 namenode失效切换 第7章 avatarnode异常解决方案  7.1 测试环境  7.2 primary失效  7.2.1 解决方案  7.2.2 写操作实验步骤  7.2.3 改进写操作机制  7.2.4 读操作实验步骤  7.2.5 小结  7.3 standby失效  7.4 nfs失效(数据未损坏)  7.4.1 解决方案  7.4.2 写操作实验步骤  7.4.3 读操作实验步骤  7.4.4 小结  7.5 nfs失效(数据已损坏)  7.5.1 解决方案  7.5.2 写操作实验步骤  7.5.3 读操作实验步骤  7.5.4 小结  7.6 primary先失效,nfs后失效(数据未损坏)  7.6.1 解决方案  7.6.2 写操作实验步骤  7.6.3 读操作实验步骤  7.6.4 小结  7.7 primary先失效(数据未损坏),nfs后失效(数据损坏)  7.7.1 解决方案  7.7.2 写操作实验步骤  7.7.3 读操作实验步骤  7.7.4 小结  7.8 nfs先失效(数据未损坏),primary后失效  7.8.1 解决方案  7.8.2 写操作实验步骤  7.8.3 读操作实验步骤  7.8.4 小结  7.9 nfs先失效(数据损坏),primary后失效(数据损坏)  7.9.1 解决方案  7.9.2 写操作实验步骤  7.9.3 读操作实验步骤  7.9.4 小结  7.10 实验结论 第8章 cloudera ha namenode使用  8.1 ha namenode说明  8.2 cdh4b1版本hdfs集群配置  8.2.1 虚拟机安装  8.2.2 nn1配置  8.2.3 dn1~dn3配置  8.2.4 hdfs集群构建  8.3 ha namenode配置  8.3.1 nn1配置  8.3.2 其他节点配置  8.4 ha namenode使用  8.4.1 启动ha hdfs集群  8.4.2 第1次failover  8.4.3 模拟写操作  8.4.4 模拟active name node失效,第2次failover  8.3.5 模拟新的standby namenode加入  8.5 小结 资源截图:
陌佑
百度云
百度云

Elasticsearch集成Hadoop最佳实践

资源名称:Elasticsearch集成Hadoop最佳实践  资源截图:
陌佑
百度云
百度云

R语言高级程序设计

资源名称:R语言高级程序设计 资源目录: 前言9 译者简介9 译者序10 中文版版权声明11 第一部分 基础知识12 1 介绍12 1.1 谁应该阅读本书?14 1.2 你在本书中能学到什么?15 1.3 元技术16 1.4 推荐阅读16 1.5 得到帮助17 1.6 鸣谢18 1.7 约定18 1.8 版权声明19 2 数据结构20 2.1 向量21 2.2 属性27 2.3 矩阵和数组33 2.4数据框 37 2.5答案 .41 取子集操作 43 3.1数据类型 .44 3.2取子集操作符 .52 3.3取子集与赋值 .57 3.4应用 .59 3.5答案 .70 词汇表 71 4.1基础 .71 4.2通用数据结构 .74 4.3统计学 75 4.4使用 R 语言工作 .76 4.5输入/输出 .77 编码风格指南 .79 5.1标识符和命名 .79 5.2语法 .81 5.3组织 .85 函R 语言高级程序设计3 6.1 函数的组成部分88 6.2 词法作用域90 6.3 所有的操作都是函数调用97 6.4 函数参数100 6.5 特殊调用110 6.6 返回值114 6.7 小测验答案120 7 面向对象指南121 7.1 基本类型123 7.2 S3124 7.3 S4134 7.4 引用类141 7.5 选择一种系统145 7.6 小测验答案146 8 环境147 8.1 环境基础148 8.2 在环境中进行递归156 8.3 函数环境159 8.4 把名字绑定到值上170数 .86 . . 第二部分 函数式编程 第三部分 编程语言层面的计算 第四部分 性能 . . 资源截图:
陌佑
百度云
百度云

企业大数据系统构建实战:技术、架构、实施与应用

资源名称:企业大数据系统构建实战:技术、架构、实施与应用 内容简介: 本书分13章,分别从企业大数据战略定位、企业大数据落地实施和价值评估,以及大数据的变革与挑战这三大方面进行撰写,宏观上涵盖了企业战略决策和定位,微观上涵盖了大数据职能、思路、方法、流程、开发、应用、评估的整个环节。企业大数据的知识完整性也是本书的特色之一。 资源目录: 前言 第1章企业大数据战略定位 1 1.1宏观 1 1.2微观 4 1.2.1资源协同 5 1.2.2战略定位 6 1.2.3启动契机 7 1.2.4大数据历程 9 1.3本章小结 12 第2章企业大数据职能规划 13 2.1大数据组织架构体系 13 2.1.1大数据部门在企业中的角色 13 2.1.2常见的大数据职能及职责 17 2.2大数据职位构建体系 24 2.2.1基础平台类 24 2.2.2数据管理类 26 2.2.3技术研发类 27 2.2.4产品设计类 30 2.2.5数据挖掘类 32 2.2.6数据分析类 33 2.3大数据制度和流程规范 35 2.3.1制度和流程规范意义 35 2.3.2制度和流程规范内容 35 2.3.3制度和流程规范模板 42 2.4本章小结 44 第3章企业大数据解决方案 45 3.1企业大数据解决方案实现方式 45 3.1.1独立研发 45 3.1.2第三方解决方案 46 3.1.3联合开发 57 3.2如何选择解决方案 58 3.2.1外部环境分析 58 3.2.2内部环境分析 59 3.2.3需求规划分析 62 3.2.4解决方案特性分析 63 3.2.5解决方案费用评估 67 3.3本章小结 70 第4章企业大数据自主实施思路 71 4.1制定规划原则 71 4.1.1价值性 71 4.1.2实时性 72 4.1.3高效性 72 4.1.4安全性 72 4.1.5延展性 73 4.1.6全局性 74 4.2制定目标蓝图 75 4.3制定建设目标 76 4.4明确组织规划 78 4.4.1组织结构设计的作用 79 4.4.2组织结构设立的导向 79 4.4.3组织结构的最终设立 81 4.5设计技术方案 85 4.5.1大数据系统建设方案 85 4.5.2大数据系统与传统BI的融合方案 91 4.6制定人才规划 94 4.6.1指导思想 94 4.6.2规划原则 94 4.6.3核心内容 95 4.7投入产出评估 97 4.7.1数据投入与产出的内涵 97 4.7.2数据投入与产出的特征 98 4.7.3数据投入与产出的管理 99 4.8数据风险管理 105 4.8.1数据风险管理的概念 105 4.8.2数据风险管理的类型 106 4.8.3数据风险管理的原则 109 4.8.4数据风险管理与控制 110 4.9本章小结 114 第5章大数据技术介绍 115 5.1核心技术 115 5.1.1Hadoop生态 115 5.1.2NoSQL 142 5.1.3实时计算 150 5.1.4全文检索 160 5.2相关技术 204 5.2.1数据可视化 204 5.2.2数据缓存 220 5.2.3中间件 227 5.2.4关系型数据库 236 5.2.5数据ETL 245 5.3大数据算法库 250 5.4本章小结 276 第6章大数据架构设计 277 6.1大数据架构设计原则 277 6.2大数据核心架构要素 279 6.3大数据架构设计模式 284 6.4本章小结 289 第7章大数据技术开发 290 7.1数据采集 290 7.1.1批量采集 291 7.1.2增量采集 292 7.2数据存储 293 7.2.1HDFS文件存储引擎 294 7.2.2Hive数据存储引擎 295 7.2.3HBase列式存储引擎 295 7.2.4MySQL关系型数据存储引擎 296 7.3多维计算 296 7.4功能服务 299 7.5平台管理 301 7.5.1监控管理 301 7.5.2调度管理 302 7.5.3权限管理 304 7.6应用域 307 7.7本章小结 308 第8章大数据工作流 309 8.1数据源 310 8.1.1日志/文件 310 8.1.2数据库 310 8.1.3网络爬虫 311 8.1.4第三方API/合作 311 8.2数据处理 312 8.2.1数据质量校验 312 8.2.2清洗转换 316 8.2.3质量提升 320 8.2.4数据脱敏 321 8.2.5集成整合 323 8.3数据存储 324 8.3.1关系型数据库 324 8.3.2分布式文件系统 325 8.4数据计算 325 8.4.1三种数据计算时效性 325 8.4.2结构化数据计算 327 8.4.3半/非结构化数据计算 333 8.4.4深度挖掘学习 360 8.5数据应用 376 8.5.1辅助决策 376 8.5.2数据驱动 377 8.6数据质量管理 379 8.6.1数据质量建设的内涵 379 8.6.2影响数据质量的常见因素 380 8.6.3数据质量建设的框架 381 8.7本章小结 392 第9章企业大数据业务应用 393 9.1大数据应用场景概述 393 9.1.1场景商业目的分析 394 9.1.2场景数据来源分析 394 9.1.3场景数据难易分析 397 9.1.4场景应用举例 397 9.2用户画像 407 9.2.1业务应用背景 407 9.2.2主要实现过程 408 9.2.3关键应用场景 414 9.2.4应用价值提炼 415 9.2.5场景总结回顾 417 9.3个性化营销 419 9.3.1业务应用背景 419 9.3.2主要实现过程 421 9.3.3关键应用场景 424 9.3.4应用价值提炼 425 9.3.5场景总结回顾 426 9.4精准广告 427 9.4.1业务应用背景 427 9.4.2主要实现过程 429 9.4.3关键应用场景 438 9.4.4应用价值提炼 439 9.4.5场景总结回顾 440 9.5征信 441 9.5.1应用场景背景 441 9.5.2主要实现过程 442 9.5.3主要应用场景 447 9.5.4应用价值提炼 449 9.5.5场景总结回顾 449 9.6本章小结 450 第10章 企业大数据价值评估 451 10.1 资产价值 451 10.1.1 数据规模 451 10.1.2 数据价值度 452 10.1.3 数据鲜活性 454 10.1.4 数据关联维度 454 10.1.5 数据粒度 455 10.2 业务价值 455 10.2.1 用户体验提升 455 10.2.2 运营优化 457 10.2.3 销售贡献 460 10.2.4 供应链优化 461 10.3 本章小结 462 第11章 大数据的社会价值 463 11.1 民生价值 463 11.2 政务价值 465 11.3 产业价值 468 11.4 本章小结 470 第12章 大数据当前问题及挑战 471 12.1 数据挑战 471 12.2 安全挑战 472 12.3 价值挑战 474 12.4 认知挑战 475 12.5 技术挑战 478 12.6 人才挑战 480 12.7 本章小结 481 第13章 大数据未来趋势 482 13.1 价值资产化 482 13.2 产业生态化 487 13.3 主体社会化 490 13.4 应用智能化 491 13.5 本章小结 492 资源截图:
陌佑
百度云
百度云

征信与大数据 移动互联时代如何重塑“信用体系”

资源名称:征信与大数据  移动互联时代如何重塑“信用体系” 内容简介: 本书的主要内容分为征信商业模式和大数据在征信领域的应用两大部分。 随着近年来国内征信相关法规的出台,国内市场化的征信业开始起步,建设热情高涨,社会需求旺盛,资本市场热捧、大量互联网公司涌入。但是由于起步晚,国内金融、经济和法制环境配套并不完善,所以国内征信业发展过程虽然遇到空前的机会,但是目前还存在短时间内难以解决的瓶颈。相比而言,在欧美发达国家,征信有一百多年的历史,随着信息技术的发展,已经到了一定的专业高度。因此针对国内目前刚起步的市场化征信机构所面临的问题和挑战,本书剖析国外成熟的知名征信机构的发展历程,商业模式和未来趋势,提取对中国征信业建设的启示和有益的经验,希望能够给混乱而有蓬勃发展的中国市场化征信提供借鉴。 资源目录: 前言 // IX 绪论 // XI 第一篇 征信机构:市场经济的风险信息服务商 01 美国征信业的前世今生 美国征信业概述 // 005 美国个人征信发展史 // 006 美国个人征信体系的框架 // 010 征信的法律和监管 // 013 个人信用报告 // 015 发展中的美国征信业 // 019 02 益博睿:横跨欧美,全球最大 益博睿的发展历史 // 023 益博睿的商业模式 // 029 数据资源和分析能力 // 035 03 艾克飞:百年老店,技术领先 艾克飞的基本概况 // 039 艾克飞的历史 // 041 艾克飞商业模式分析 // 042 04 环联:家族企业,姗姗上市 环联概况与历史 // 053 环联的商业模式 // 058 环联的未来之路 // 066 05 服务垂直领域的专业性征信机构 专业征信机构概述 // 075 服务于不同的消费生活场景 // 078 代表性的专业征信机构 // 079 传统征信机构和专业征信机构交互 // 087 06 蓬勃发展的新兴征信服务公司 Credit karma 的互联网征信服务 // 095 Credit Karma 的商业模式分析 // 099 Credit Karma 的竞争对手 // 102 对中国个人征信业的启示 // 104 07 企业征信巨头邓白氏:诞生了四位美国总统 企业/ 商业征信 // 109 邓白氏基本概况 // 111 邓白氏发展历程 // 112 邓白氏的商业模式 // 116 邓白氏公司的业务保障——DUNSRight 数据质量管理流程 // 123 邓白氏在国内关于侵犯个人隐私的事件回顾 // 124 第二篇 信用评估:大数据技术的应用场景 08 全球个人征信机构的大数据征信技术 数据处理:匹配连接和下一代技术 // 135 数据挖掘和分析:释放大数据价值 // 137 数据服务:多元化产品与个性化良好体验的服务 // 139 09 信用评分60 年 信用评分:信用报告的数字化解读 // 146 信用评分的历史 // 147 信用评分的应用 // 151 信用评分的类型 // 154 信用评分模型的原理 // 157 信用评分的缺陷 // 159 10 国外信用评分新进展 信用评分最新趋势 // 167 可替代信用评分 // 169 11 一切数据皆信用的ZestFinance 背景知识 // 179 ZestFinance 简介 // 180 传统信用评估方法的缺陷 // 181 ZestFinance 的基本商业理念 // 185 ZestFinance 大数据信用评估的技术分析 // 188 ZestFinance 的最新动态 // 194 对中国征信业的启示 // 195 12 运用大数据做P2P 信用风险评估的Upstart 面向大学毕业生消费者服务的P2P // 201 商业模式:基于未来潜力的大数据信用评估 // 202 智能数据管理和分析技术 // 204 在线信贷的激烈竞争 // 206 对互联网金融的启示 // 207 13 扎根于新兴市场的EFL:看人品,放贷款 利用人品测试放贷款的故事 // 214 来自哈佛的高科技创业公司EFL // 215 EFL 进行信用评估的原理 // 217 对EFL 应用的讨论 // 220 类似的信用评估公司VisualDNA // 221 14 征信大数据对宏观金融决策的支持 宏观经济应用概述 // 227 担保圈风险简介 // 228 引入复杂网络技术分析我国担保圈问题 // 230 担保圈复杂网络技术分析的初步发现 // 233 担保圈风险管理的建议 // 242 征信大数据的进一步应用 // 243 15 电信大数据在征信领域中的应用研究 背景介绍 // 247 电信运营业务中的征信问题 // 248 电信大数据在金融征信中的应用 // 253 国内情况分析和政策建议 // 257 16 生物识别技术在征信领域的应用 基于生物特征的身份验证 // 261 指纹识别:乌干达的征信应用 // 263 声纹验证技术 // 264 声纹验证在征信领域的应用 // 266 声纹验证的机遇和挑战 // 268 第三编 征信模式:互联网时代的信息共享机制 17 全球个人征信业所面临的市场机遇 全球个人征信业的机遇 // 275 国内个人征信业的机遇 // 281 18 全球个人征信机构的挑战 信息安全和数据源 // 287 宏观经济形势和市场竞争 // 293 法律和监管的合规性 // 296 19 互联网时代的征信 征信应用岂止互联网金融 // 305 互联网经济下的征信 // 307 物联网中的征信问题 // 310 征信模式:互联网时代的信息共享机制 // 311 参考文献 // 313 资源截图:
陌佑
百度云
百度云

Spark核心技术与高级应用

资源名称:Spark核心技术与高级应用 内容简介: 本书共分为四大部分: 基础篇(1~10章)介绍了Spark的用途、扩展、安装、运行模式、程序开发、编程模型、工作原理,以及SparkSQL、SparkStreaming、MLlib、GraphX、Bagel等重要的扩展; 实战篇(11~14)讲解了搜索结果的排序、个性化推荐系统、日志分析系统、自然语言处理、数据挖掘等方面的案例; 高级篇(15~18)则讲解了Spark的调度管理、存储管理、监控管理、性能优化、最佳实践以及重点算法的解读; 扩展篇(19~20)讲解了Sparkjob-server和Tachyon。 资源目录: 前言 基础篇 第1章Spark简介2 第2章Spark部署和运行11 第3章Spark程序开发27 第4章编程模型44 第5章作业执行解析59 第6章SparkSQL与DataFrame73 第7章深入了解SparkStreaming97 第8章SparkMLlib与机器学习116 第9章GraphX图计算框架与应用148 第10章SparkR(RonSpark)167 实战篇 第11章大数据分析系统188 第12章系统资源分析平台200 第13章在Spark上训练LR模型215 第14章获取二级邻居关系图225 高级篇 第15章调度管理238 第16章存储管理254 第17章监控管理264 第18章性能调优273 第19章Spark—jobserver实践282 第20章SparkTachyon实战292 资源截图:
陌佑
百度云
百度云
⬅️ 1...18111812181318141815...2920

添加微信,反馈问题

微信及时反馈问题,方便沟通,请备注 ❤️

搜索榜单

1

骚老板资源网整站源码 打包数据高达2GB

1654

2

绿色风格网络公司源码 php网络建站公司源码

1073

3

(自适应手机版)响应式餐饮美食企业网站源码 餐饮品牌连锁机构织梦模板

1034

4

雷速问卷调查系统(疫情上报系统) v7.08

913

5

Zblog仿918回忆模特写真网带整站数据图库系统源码

875

6

一款笑话类网站源码 简约清爽的织梦笑话网站模板

807

最新资源

1

网狐电玩系列/乐游电玩城/免微信免短信登陆

2

湖南地方玩法好玩互娱纯源码

3

最新更新网狐旗舰大联盟+UI工程

4

傲玩系列客户端通用加解密工具

5

优米H5电玩城组件/多语言/带84个游戏/后台带控+搭建视频教程

6

网狐系列猫娱乐新UI蜡笔小新金币组件

友情链接:
免费APISSL在线检测在线pingAPI版本项目seo教程免费下载狗凯源码网 查看更多
网站地图 法律声明
本站所存储的源码数据均为转载,不提供在线播放和下载服务。本站为非盈利性,不收取费用,所有内容不用于商业行为,仅供学习交流使用。如有侵权,请联系15001904@qq.com
  • 联系微信,反馈问题

  • 点此立刻反馈