资源搜
资源搜
👀 联系夏柔
🔥 投稿源码
资源搜

资源搜

  • 全部
  • 123盘
  • 阿里盘
  • 百度云
  • 迅雷
  • 夸克
  • 115
  • 蓝奏云
  • 其他
已收录34127条资源,仅供学习交流,请在24h内删除资源!

大数据概论

资源名称:大数据概论  内容简介: 本书主要介绍大数据概论,内容包括大数据概述、科学研究第四范式、分布系统设计的CAP理论、NoSQL数据库、复杂网络、MapReduce分布编程模型、大数据存储、大数据分析、大数据挖掘、大数据可视化、大数据安全、大数据机器学习、大数据推荐技术,以及数据科学与数据思维。全书对上述内容概念性地介绍,语言精练、内容全面。 资源截图:
陌佑
百度云
百度云

大数据处理系统:Hadoop源代码情景分析

资源名称:大数据处理系统:Hadoop源代码情景分析 内容简介: Hadoop是目前重要的一种开源的大数据处理平台,读懂Hadoop的源代码,深入理解其各种机理,对于掌握大数据处理的技术有着显而易见的重要性。 本书从大数据处理的原理开始,讲到Hadoop的由来,进而讲述对于代码的研究方法,然后以Hadoop作为样本,较为详尽地逐一分析大数据处理平台各核心组成部分的代码,并从宏观上讲述这些部分的联系和作用。 本书沿用作者独特而广受欢迎的情景分析方法和风格,深入浅出直白易懂,可以作为大数据系统高级课程的教材,也可用作计算机软件专业和其他相关专业大学本科高年级学生和研究生深入学习大数据系统的参考书。同时,还可以作为各行业从事软件开发和数据挖掘的工程师、研究人员以及其他对大数据处理技术感兴趣者的自学教材。 资源目录: 第1章 大数据与Hadoop 1.1 什么是大数据 1.2 大数据的用途 1.3 并行计算 1.4 数据流 1.5 函数式程序设计与Lambda演算 1.6 MapReduce 1.7 大数据处理平台 1.8 Hadoop的由来和发展 1.9 Hadoop的MapReduce计算框架 1.10 Hadoop的分布式容错文件系统HDFS 第2章 研究方法 2.1 摘要卡片 2.2 情景分析 2.3 面向对象的程序设计 2.4 怎样阅读分析Hadoop的代码 第3章 Hadoop集群和YARN 3.1 Hadoop集群 3.2 Hadoop系统的结构 3.3 Hadoop的YARN框架 3.4 状态机 3.5 资源管理器ResourceManager 3.6 资源调度器ResourceScheduler 第4章 Hadoop的RPC机制 4.1 RPC与RMI 4.2 ProtoBuf 4.3 Java的Reflection机制 4.4 RM节点上的RPC服务 4.5 RPC客户端的创建 第5章 Hadoop作业的提交 5.1 从“地方”到“中央” 5.2 示例一:采用老API的ValueAggregatorJob 5.3 示例二:采用新API的WordCount 5.4 示例三:采用ToolRunner的QuasiMonteCarlo 5.5 从Job.submit()开始的第二段流程 5.6 YARNRunner和ResourceMgrDelegate 第6章 作业的调度与指派 6.1 作业的受理 6.2 NM节点的心跳和容器周转 6.3 容器的分配 第7章 NodeManager与任务投运 7.1 AMLauncher与任务投运 7.2 MRAppMaster或AM的创建 7.3 资源本地化 7.4 容器的投运 第8章 MRAppMaster与作业投运 8.1 MRAppMaster 8.2 App资源与容器 8.3 容器的跨节点投送和启动 8.4 目标节点上的容器投运 8.5 Uber模式下的本地容器分配与投运 8.6 任务的启动 8.7 MapTask的运行 8.8 ReduceTask的投运 第9章 YARN子系统的计算框架 9.1 MapReduce框架 9.2 Streaming框架 9.3 Chain框架 9.4 Client与ApplicationMaster 第10章 MapReduce框架中的数据流 10.1 数据流和工作流 10.2 Mapper的输入 10.3 Mapper的输出缓冲区MapOutputBuffer 10.4 作为Collector的MapOutputBuffer 10.5 环形缓冲区kvbuffer 10.6 对MapoutputBuffer的输出 10.7 Sort和Spill 10.8 Map计算的终结与Spill文件的合并 10.9 Reduce阶段 10.10 Merge 10.11 Reduce阶段的输入和输出 第11章 Hadoop的文件系统HDFS 11.1 文件的分布与容错 11.2 目录节点NameNode 11.3 FSNamesystem 11.4 文件系统目录FSDirectory 11.5 文件系统映像FsImage 11.6 文件系统更改记录FSEditLog 11.7 FSEditLog与Journal 11.8 EditLog记录的重演 11.9 版本升级与故障恢复 第12章 HDFS的DataNode 12.1 DataNode 12.2 数据块的存储 12.3 RamDisk复份的持久化存储 12.4 目录扫描线程DirectoryScanner 12.5 数据块扫描线程DataBlockScanner 第13章 DataNode与NameNode的互动 13.1 DataNode与NameNode的互动 13.2 心跳HeartBeat 13.3 BlockReport 第14章 DataNode间的互动 14.1 数据块的接收和存储 14.2 命令DNA_TRANSFER的执行 第15章 HDFS的文件访问 15.1 DistributedFileSystem和DFSClient 15.2 FsShell 15.3 HDFS的打开文件流程 15.4 HDFS的读文件流程 15.5 HDFS的创建文件流程 15.6 文件租约 15.7 HDFS的写文件流程 15.8 实例 第16章 Hadoop的容错机制 16.1 容错与高可用 16.2 HDFS的HA机制 16.3 NameNode的倒换 16.4 Zookeeper与自动倒换 16.5 YARN的HA机制 第17章 Hadoop的安全机制 17.1 大数据集群的安全问题 17.2 UGI、Token和ACL 17.3 UGI的来源和流转 17.4 Token的使用 第18章 Hadoop的人机界面 18.1 Hadoop的命令行界面 18.2 Hadoop的Web界面 18.3 Dependency Inject和Annotation 18.4 对网页的访问 第19章 Hadoop的部署和启动 19.1 Hadoop的运维脚本 19.2 Hadoop的部署与启动 19.3 Hadoop的日常使用 19.4 Hadoop平台的关闭 第20章 Spark的优化与改进 20.1 Spark与Hadoop 20.2 RDD与Stage——概念与思路 20.3 RDD的存储和引用 20.4 DStream 20.5 拓扑的灵活性和多样性 20.6 性能的提升 20.7 使用的方便性 20.8 几个重要的类及其作用 参考资料 资源截图:
陌佑
百度云
百度云

Hadoop构建数据仓库实践

资源名称:Hadoop构建数据仓库实践 作者简介: 王雪迎,毕业于中国地质大学计算机专业,高级工程师,拥有20年数据库、数据仓库相关技术经验。曾先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。 资源目录: 第1章 数据仓库简介 1.1 什么是数据仓库 1 1.1.1 数据仓库的定义 1 1.1.2 建立数据仓库的原因 3 1.2 操作型系统与分析型系统 5 1.2.1 操作型系统 5 1.2.2 分析型系统 8 1.2.3 操作型系统和分析型系统对比 9 1.3 数据仓库架构 10 1.3.1 基本架构 10 1.3.2 主要数据仓库架构 12 1.3.3 操作数据存储 16 1.4 抽取-转换-装载 17 1.4.1 数据抽取 17 1.4.2 数据转换 19 1.4.3 数据装载 20 1.4.4 开发ETL系统的方法 21 1.4.5 常见ETL工具 21 1.5 数据仓库需求 22 1.5.1 基本需求 22 1.5.2 数据需求 23 1.6 小结 24 第2章 数据仓库设计基础 2.1 关系数据模型 25 2.1.1 关系数据模型中的结构 25 2.1.2 关系完整性 28 2.1.3 规范化 30 2.1.4 关系数据模型与数据仓库 33 2.2 维度数据模型 34 2.2.1 维度数据模型建模过程 35 2.2.2 维度规范化 36 2.2.3 维度数据模型的特点 37 2.2.4 星型模式 38 2.2.5 雪花模式 40 2.3 Data Vault模型 42 2.3.1 Data Vault模型简介 42 2.3.2 Data Vault模型的组成部分 43 2.3.3 Data Vault模型的特点 44 2.3.4 Data Vault模型的构建 44 2.3.5 Data Vault模型实例 46 2.4 数据集市 49 2.4.1 数据集市的概念 50 2.4.2 数据集市与数据仓库的区别 50 2.4.3 数据集市设计 50 2.5 数据仓库实施步骤 51 2.6 小结 54 第3章 Hadoop生态圈与数据仓库 3.1 大数据定义 55 3.2 Hadoop简介 56 3.2.1 Hadoop的构成 57 3.2.2 Hadoop的主要特点 58 3.2.3 Hadoop架构 58 3.3 Hadoop基本组件 59 3.3.1 HDFS 60 3.3.2 MapReduce 65 3.3.3 YARN 72 3.4 Hadoop生态圈的其他组件 77 3.5 Hadoop与数据仓库 81 3.5.1 关系数据库的可扩展性瓶颈 82 3.5.2 CAP理论 84 3.5.3 Hadoop数据仓库工具 85 3.6 小结 88 第4章 安装Hadoop 4.1 Hadoop主要发行版本 89 4.1.1 Cloudera Distribution for Hadoop(CDH) 89 4.1.2 Hortonworks Data Platform(HDP) 90 4.1.3 MapR Hadoop 90 4.2 安装Apache Hadoop 91 4.2.1 安装环境 91 4.2.2 安装前准备 92 4.2.3 安装配置Hadoop 93 4.2.4 安装后配置 97 4.2.5 初始化及运行 97 4.3 配置HDFS Federation 99 4.4 离线安装CDH及其所需的服务 104 4.4.1 CDH安装概述 104 4.4.2 安装环境 106 4.4.3 安装配置 106 4.4.4 Cloudera Manager许可证管理 114 4.5 小结 115 第5章 Kettle与Hadoop 5.1 Kettle概述 117 5.2 Kettle连接Hadoop 119 5.2.1 连接HDFS 119 5.2.2 连接Hive 124 5.3 导出导入Hadoop集群数据 128 5.3.1 把数据从HDFS抽取到RDBMS 128 5.3.2 向Hive表导入数据 132 5.4 执行Hive的HiveQL语句 134 5.5 MapReduce转换示例 135 5.6 Kettle提交Spark作业 143 5.6.1 安装Spark 143 5.6.2 配置Kettle向Spark集群提交作业 146 5.7 小结 149 第6章 建立数据仓库示例模型 6.1 业务场景 150 6.2 Hive相关配置 152 6.2.1 选择文件格式 152 6.2.2 支持行级更新 159 6.2.3 Hive事务支持的限制 164 6.3 Hive表分类 164 6.4 向Hive表装载数据 169 6.5 建立数据库表 174 6.6 装载日期维度数据 179 6.7 小结 180 第7章 数据抽取 7.1 逻辑数据映射 182 7.2 数据抽取方式 185 7.3 导出成文本文件 191 7.4 分布式查询 196 7.5 使用Sqoop抽取数据 200 7.5.1 Sqoop简介 200 7.5.2 CDH 5.7.0中的Sqoop 203 7.5.3 使用Sqoop抽取数据 203 7.5.4 Sqoop优化 207 7.6 小结 208 第8章 数据转换与装载 8.1 数据清洗 210 8.2 Hive简介 214 8.2.1 Hive的体系结构 215 8.2.2 Hive的工作流程 216 8.2.3 Hive服务器 218 8.2.4 Hive客户端 221 8.3 初始装载 231 8.4 定期装载 236 8.5 Hive优化 246 8.6 小结 254 第9章 定期自动执行ETL作业 9.1 crontab 256 9.2 Oozie简介 260 9.2.1 Oozie的体系结构 260 9.2.2 CDH 5.7.0中的Oozie 262 9.3 建立定期装载工作流 262 9.4 建立协调器作业定期自动执行工作流 271 9.5 Oozie优化 275 9.6 小结 276 第10章 维度表技术 10.1 增加列 278 10.2 维度子集 285 10.3 角色扮演维度 292 10.4 层次维度 298 10.4.1 固定深度的层次 299 10.4.2 递归 302 10.4.3 多路径层次 310 10.4.4 参差不齐的层次 312 10.5 退化维度 313 10.6 杂项维度 316 10.7 维度合并 323 10.8 分段维度 329 10.9 小结 335 第11章 事实表技术 11.1 事实表概述 336 11.2 周期快照 337 11.3 累积快照 343 11.4 无事实的事实表 349 11.5 迟到的事实 354 11.6 累积度量 360 11.7 小结 366 第12章 联机分析处理 12.1 联机分析处理简介 367 12.1.1 概念 367 12.1.2 分类 368 12.1.3 性能 371 12.2 Impala简介 371 12.3 Hive、SparkSQL、Impala比较 377 12.3.1 Spark SQL简介 377 12.3.2 Hive、Spark SQL、Impala比较 379 12.3.3 Hive、Spark SQL、Impala性能对比 382 12.4 联机分析处理实例 387 12.5 Apache Kylin与OLAP 399 12.5.1 Apache Kylin架构 399 12.5.2 Apache Kylin安装 401 12.6 小结 407 第13章 数据可视化 13.1 数据可视化简介 408 13.2 Hue简介 410 13.2.1 Hue功能快速预览 411 13.2.2 配置元数据存储 412 13.3 Zeppelin简介 415 13.3.1 Zeppelin架构 415 13.3.2 Zeppelin安装配置 416 13.3.3 在Zeppelin中添加MySQL翻译器 421 13.4 Hue、Zeppelin比较 425 13.5 数据可视化实例 426 13.6 小结 434 资源截图:
陌佑
百度云
百度云

一本书读懂大数据客户分析

资源名称:一本书读懂大数据客户分析 内容简介: 企业的长期生存能力是指通过持续地满足和超越客户的生理和心理需求来吸引顾客。阅读本书,你将学会如何全面改善客户体验,如何收集、测量以及解读客户数据,如何使用数据创建良好的客户关系,如何实现向数据导向的客户体验转变。 资源目录: 前言 关于本书 “可笑的”假设 本书使用的图标 本书之外 本书宗旨 第1部分:客户分析入门 第1章客户分析简介 什么是客户分析? 客户分析能带给我们什么? 运用客户分析 汇编大数据与小数据 第2章度量标准的科学与艺术 累加定量数据 离散数据与持续数据 数据级别 变量 量化定性数据 确定所需样本大小 估算置信区间 计算95%置信区间 确定收集哪些数据 使用正确的衡量方法 第3章筹划客户分析计划 客户分析计划概述 定义范围和结果 确定衡量标准、方法和工具 制定预算 确定正确的样本大小 分析与改进 控制结果 第2部分:甄别你的客户 第4章细分客户 为什么细分客户 细分客户的五个“W” Who——细分对象的身份特征 Where——地点 What——内容 When——时间 Why——原因 How——方法 分析数据,细分客户 第一步:数据制表 第二步:制作交叉表 第三步:聚类分析 第四步:估计每个客户细分的大小 第五步:估计每个客户细分的价值 第5章创建客户档案 客户档案的重要性 管理客户档案 利用客户数据建立更多的客户档案 第一步:收集合适的数据 第二步:划分数据 第三步:确定和完善客户档案 利用客户档案解答问题 第6章确定客户终生价值 客户终生价值的重要性 应用客户终生价值 计算终生价值 估算收益 计算客户终生价值 识别黄金客户 向黄金客户营销 第3部分:客户购买历程解析 第7章绘制客户浏览轨迹图 利用传统型营销漏斗 什么是客户浏览轨迹图? 定义客户浏览轨迹 查找数据 描绘客户浏览轨迹 使客户浏览轨迹图发挥更大作用 第8章确定品牌意识和态度 衡量品牌意识 独立意识 辅助意识 衡量产品或服务知识 衡量品牌态度 识别品牌支柱 检验品牌亲和度 衡量使用情况与使用意向 查明以往的使用情况 衡量未来的使用意向 理解态度的关键动因 构建品牌评估调查 第9章衡量客户态度 测量客户满意度 大体满意度 态度vs满意度 使用系统可用性量表(SUS)和标准化用户体验百分秩问卷(SUS—Q)划分可用性等级 系统可用性量表 标准化用户体验百分秩问卷(SUPR—Q) 使用单一易用性问题(SEQ)测量任务难度 为品牌喜爱度打分 发现客户期待:渴望度与奢侈度 渴望度 奢侈度 测量态度提升度 了解客户偏好 发现客户态度的关键动因 编写有效的客户态度问题 第10章量化考虑阶段和购买阶段 确定考虑的触点 公司驱动触点 客户驱动触点 测量客户驱动触点 测量公司驱动触点的三个R Reach(传递) Resonance(共鸣) Reaction(反应) 衡量共鸣和反应 跟踪转化和购买 跟踪微转化 创造微转化机遇 设置转化跟踪 测量转化率 通过A/B测试测量转变 离线A/B测试 在线A/B测试 测试多个变量 充分利用网站分析数据 第11章跟踪购后行为 处理认知失调 减轻认知失调 从认知失调到心满意足 跟踪退货率 测量购后触点 探究购后触点 评估购后满意度水平 利用“呼叫中心分析”找出问题 使用因果分析图找出根源 创建因果分析图 第12章衡量客户忠实度 衡量客户忠实度 回购率 净推荐值 不良利润 找出忠实度的关键动因 珍惜正面口碑 重视负面口碑 第4部分:用数据分析产品开发 第13章开发客户所需产品 集中投入产品功能 发现客户首要任务 列出任务清单 发现客户 选择五项任务 绘图和分析 采取内部视角看问题 进行差距分析 将企业需求反映到客户需求 确定客户所需 倾听客户的声音 倾听企业的声音 建立客户与企业之间的联系 生成优先事项 审视优先事项 利用卡诺模型测量客户愉悦度 评估功能组合的价值 查明问题产生的原因 第14章通过可用性研究获得卓见 什么是可用性原则 进行可用性测试 确定测试内容 确认目标 概述任务场景 招募用户 测试用户 收集指标 数据编码与分析 汇总与呈现结果 考虑不同类型的可用性测试 查找和报告可用性问题 促进可用性研究 第15章衡量商品搜寻能力与导航功能 确定搜寻能力区域 确定客户所需 搜寻能力测试准备 找到基准线 设计测试 制定测量搜寻能力指标 开展搜寻能力测试 确定样本大小 招募用户 分析结果 提高搜寻能力 交联产品 重组类别 改写任务 修改后再次测试搜寻能力 第16章坚守客户分析的伦理 获得知情许可 Facebook OKCupid Amazon与Orbitz Mint.com 决定实验 第5部分:客户分析4个“十” 第17章需要牢记的十个客户度量标准 第18章改进客户体验的十种方法 第19章十种常见的分析错误 第20章识别客户需求的十种方法 附录:用客户分析进行预测 寻找相似点和关联性 显现关联性 量化关系的强度 二元变量间的关联 确定因果关系 随机进行的实验研究 准实验设计 相关性研究 单一实验对象研究 轶闻 利用回归分析进行预测 利用回归线进行预测 在Excel中创建回归方程 多元回归分析 利用二进制数据进行预测 时间序列分析预测发展趋势 指数(非线性)增长 培训期和验证期 检测差异性 资源截图:
陌佑
百度云
百度云

数据挖掘技术

资源名称:数据挖掘技术 资源截图:
陌佑
百度云
百度云

Hadoop YARN权威指南

资源名称:Hadoop YARN权威指南 内容简介: 《Hadoop YARN权威指南》由YARN的创建和开发团队亲笔撰写,Altiscale的CEO作序鼎力推荐,是使用Hadoop YARN建立分布式、大数据应用的权威指南。书中利用多个实例,详细介绍Hadoop YARN的安装和管理,以帮助用户使用YARN进行应用开发,并在YARN上运行除了MapReduce之外的新框架。 《Hadoop YARN权威指南》共12章,第1章讲述Apache Hadoop YARN产生和发展的历史;第2章讲解在单台机器(工作站、服务器或笔记本电脑)上快速安装Hadoop 2.0;第3章介绍Apache Hadoop YARN资源管理器;第4章简要介绍YARN组件的功能,帮助读者开始深入了解YARN;第5章详细讲解YARN的安装方法,包括一个基于脚本的手动安装,以及使用Apache Ambari基于GUI的安装;第6章讲述对YARN集群的管理,涉及一些基本的YARN管理场景,介绍如何利用Nagios和Ganglia监控集群,论述对JVM的监视,并介绍Ambari的管理界面;第7章深入探究YARN的架构,向读者展示YARN的内部工作原因;第8章深入讨论Capacity调度器;第9章描述基于现有MapReduce的应用程序如何继续工作以及利用YARN的优势;第10章通过创建一个JBoss Application Server集群的过程,讲述如何构建一个YARN应用程序;第11章描述建立在YARN上的典型示例程序distributed shell的使用和内部情况;第12章总结运行在YARN上的新兴开源框架。最后提供6个附录,包括补充内容和代码下载、YARN的安装脚本、YARN管理脚本、Nagios模块、资源及其他信息、HDFS快速参考。 资源目录: 译者序 推荐序一 推荐序二 前 言 第1章 Apache Hadoop YARN:简明历史及基本原理  第2章 Apache Hadoop YARN安装快速入门  第3章 Apache Hadoop YARN的核心概念 第4章 YARN组件的功能概述  第5章 安装Apache Hadoop YARN  第6章 Apache Hadoop YARN的管理 第7章 Apache Hadoop YARN的架构指南 第8章 YARN中的Capacity调度器  第9章 Apache Hadoop YARN下的MapReduce  第10章 Apache Hadoop YARN应用程序范例 第11章 使用Apache Hadoop YARN Distributed-Shell 第12章 Apache Hadoop YARN框架  附录A 补充内容和代码下载 附录B YARN的安装脚本  附录C YARN的管理脚本  附录D Nagios模块  附录E 资源及附加资料  附录F HDFS快速参考  资源截图:
陌佑
百度云
百度云

深度剖析Hadoop HDFS

资源名称:深度剖析Hadoop HDFS 内容简介: 《深度剖析Hadoop HDFS》基于Hadoop 2.7.1版本进行分析,全面描述了HDFS 2.X的核心技术与解决方案,书中描述了HDFS内存存储、异构存储等几大核心设计,包括源码细节层面的分析,对于HDFS中比较特殊的几个场景过程也做了细粒度的分析。还分享了作者在实际应用中的解决方案及扩展思路。阅读《深度剖析Hadoop HDFS》可以帮助读者从架构设计与功能实现角度了解HDFS 2.X,同时还能学习HDFS 2.X框架中优秀的设计思想、设计模式、Java语言技巧等。这些对于读者全面提高自己分布式技术水平有很大的帮助。《深度剖析Hadoop HDFS》分为三大部分:核心设计篇、细节实现篇、解决方案篇,“核心设计篇”包括HDFS的数据存储原理、HDFS的数据管理与策略选择机制、HDFS的新颖功能特性;“细节实现篇”包括HDFS的块处理、流量处理等细节,以及部分结构分析;“解决方案篇”包括HDFS的数据管理、HDFS的数据读写、HDFS的异常场景等。 资源目录: 前言 第一部分 核心设计篇 第1章 HDFS的数据存储2 1.1 HDFS内存存储2 1.1.1 HDFS内存存储原理2 1.1.2 Linux 虚拟内存盘4 1.1.3 HDFS的内存存储流程分析4 1.1.4 LAZY_PERSIST内存存储的使用14 1.2 HDFS异构存储15 1.2.1 异构存储类型16 1.2.2 异构存储原理17 1.2.3 块存储类型选择策略22 1.2.4 块存储策略集合24 1.2.5 块存储策略的调用27 1.2.6 HDFS异构存储策略的不足之处28 1.2.7 HDFS存储策略的使用30 1.3 小结31 第2章 HDFS的数据管理与策略选择32 2.1 HDFS缓存与缓存块32 2.1.1 HDFS物理层面缓存块33 2.1.2 缓存块的生命周期状态34 2.1.3 CacheBlock、UnCacheBlock场景触发36 2.1.4 CacheBlock、UnCacheBlock缓存块的确定38 2.1.5 系统持有的缓存块列表如何更新39 2.1.6 缓存块的使用40 2.1.7 HDFS缓存相关配置40 2.2 HDFS中心缓存管理42 2.2.1 HDFS缓存适用场景43 2.2.2 HDFS缓存的结构设计43 2.2.3 HDFS缓存管理机制分析45 2.2.4 HDFS中心缓存疑问点55 2.2.5 HDFS CacheAdmin命令使用56 2.3 HDFS快照管理58 2.3.1 快照概念59 2.3.2 HDFS中的快照相关命令59 2.3.3 HDFS内部的快照管理机制60 2.3.4 HDFS的快照使用71 2.4 HDFS副本放置策略72 2.4.1 副本放置策略概念与方法72 2.4.2 副本放置策略的有效前提73 2.4.3 默认副本放置策略的分析73 2.4.4 目标存储好坏的判断82 2.4.5 chooseTargets的调用83 2.4.6 BlockPlacementPolicyWithNodeGroup继承类84 2.4.7 副本放置策略的结果验证85 2.5 HDFS内部的认证机制85 2.5.1 BlockToken认证85 2.5.2 HDFS的Sasl认证91 2.5.3 BlockToken认证与HDFS的Sasl认证对比97 2.6 HDFS内部的磁盘目录服务98 2.6.1 HDFS的三大磁盘目录检测扫描服务98 2.6.2 DiskChecker:坏盘检测服务99 2.6.3 DirectoryScanner:目录扫描服务104 2.6.4 VolumeScanner:磁盘目录扫描服务110 2.7 小结116 第3章 HDFS的新颖功能特性117 3.1 HDFS视图文件系统:ViewFileSystem117 3.1.1 ViewFileSystem: 视图文件系统118 3.1.2 ViewFileSystem内部实现原理119 3.1.3 ViewFileSystem的使用125 3.2 HDFS的Web文件系统:WebHdfsFileSystem126 3.2.1 WebHdfsFileSystem的REST API操作127 3.2.2 WebHdfsFileSystem的流程调用129 3.2.3 WebHdfsFileSystem执行器调用130 3.2.4 WebHDFS的OAuth2认证133 3.2.5 WebHDFS的使用135 3.3 HDFS数据加密空间:Encryption zone136 3.3.1 Encryption zone原理介绍136 3.3.2 Encryption zone源码实现136 3.3.3 Encryption zone的使用144 3.4 HDFS纠删码技术145 3.4.1 纠删码概念145 3.4.2 纠删码技术的优劣势146 3.4.3 Hadoop纠删码概述147 3.4.4 纠删码技术在Hadoop中的实现148 3.5 HDFS对象存储:Ozone152 3.5.1 Ozone介绍153 3.5.2 Ozone的高层级设计154 3.5.3 Ozone的实现细节157 3.5.4 Ozone的使用157 3.6 小结158 第二部分 细节实现篇 第4章 HDFS的块处理160 4.1 HDFS块检查命令fsck160 4.1.1 fsck参数使用160 4.1.2 fsck过程调用161 4.1.3 fsck原理分析162 4.1.4 fsck使用场景171 4.2 HDFS如何检测并删除多余副本块171 4.2.1 多余副本块以及发生的场景172 4.2.2 OverReplication多余副本块处理172 4.2.3 多余副本块清除的场景调用177 4.3 HDFS数据块的汇报与处理179 4.3.1 块处理的五大类型179 4.3.2 toAdd:新添加的块181 4.3.3 toRemove:待移除的块184 4.3.4 toInvalidate:无效的块186 4.3.5 toCorrupt:损坏的块189 4.3.6 toUC:正在构建中的块191 4.4 小结193 第5章 HDFS的流量处理194 5.1 HDFS的内部限流194 5.1.1 数据的限流194 5.1.2 DataTransferThrottler限流原理196 5.1.3 数据流限流在Hadoop中的使用198 5.1.4 Hadoop限流优化点202 5.2 数据平衡204 5.2.1 Balancer和Dispatcher204 5.2.2 数据不平衡现象207 5.2.3 Balancer性能优化207 5.3 HDFS节点内数据平衡210 5.3.1 磁盘间数据不平衡现象及问题211 5.3.2 传统的磁盘间数据不平衡解决方案211 5.3.3 社区解决方案:DiskBalancer212 5.4 小结216 第6章 HDFS的部分结构分析217 6.1 HDFS镜像文件的解析与反解析217 6.1.1 HDFS的FsImage镜像文件218 6.1.2 FsImage的解析218 6.1.3 FsImage的反解析221 6.1.4 HDFS镜像文件的解析与反解析命令226 6.2 DataNode数据处理中心DataXceiver227 6.2.1 DataXceiver的定义和结构228 6.2.2 DataXceiver下游处理方法232 6.2.3 ShortCircuit232 6.2.4 DataXceiver的上游调用233 6.2.5 DataXceiver与DataXceiverServer234 6.3 HDFS邻近信息块:BlockInfoContiguous235 6.3.1 triplets对象数组236 6.3.2 BlockInfoContiguous的链表操作239 6.3.3 块迭代器BlockIterator244 6.4 小结246 第三部分 解决方案篇 第7章 HDFS的数据管理248 7.1 HDFS的读写限流方案248 7.1.1 限流方案实现要点以及可能造成的影响248 7.1.2 限流方案实现249 7.1.3 限流测试结果250 7.2 HDFS数据资源使用量分析以及趋势预测250 7.2.1 要获取哪些数据251 7.2.2 如何获取这些数据251 7.2.3 怎么用这些数据254 7.3 HDFS数据迁移解决方案257 7.3.1 数据迁移使用场景257 7.3.2 数据迁移要素考量258 7.3.3 HDFS数据迁移解决方案:DistCp259 7.3.4 DistCp优势特性260 7.3.5 Hadoop DistCp命令264 7.3.6 DistCp解决集群间数据迁移实例265 7.4 DataNode迁移方案265 7.4.1 迁移方案的目标266 7.4.2 DataNode更换主机名、ip地址时的迁移方案267 7.5 HDFS集群重命名方案268 7.6 HDFS的配置管理方案271 7.6.1 HDFS配置管理的问题271 7.6.2 现有配置管理工具272 7.6.3 运用Git来做配置管理272 7.7 小结273 第8章 HDFS的数据读写274 8.1 DataNode引用计数磁盘选择策略274 8.1.1 HDFS现有磁盘选择策略274 8.1.2 自定义磁盘选择策略279 8.2 Hadoop节点“慢磁盘”监控282 8.2.1 慢磁盘的定义以及如何发现282 8.2.2 慢磁盘监控284 8.3 小结287 第9章 HDFS的异常场景288 9.1 DataNode慢启动问题288 9.1.1 DataNode慢启动现象288 9.1.2 代码追踪分析290 9.1.3 参数可配置化改造293 9.2 Hadoop中止下线操作后大量剩余复制块问题295 9.2.1 节点下线操作的含义及问题295 9.2.2 死节点“复活”297 9.2.3 Decommission下线操作如何运作299 9.2.4 中止下线操作后移除残余副本块解决方案303 9.3 DFSOutputStream的DataStreamer线程泄漏问题306 9.3.1 DFSOutputStream写数据过程及周边相关类、变量306 9.3.2 DataStreamer数据流对象307 9.3.3 ResponseProcessor回复获取类311 9.3.4 DataStreamer与DFSOutputStream的关系313 9.3.5 Streamer线程泄漏问题316 9.4 小结319 附录 如何向开源社区提交自己的代码320 资源截图:
陌佑
百度云
百度云

架构大数据 大数据技术及算法解析

资源名称:架构大数据 大数据技术及算法解析 内容简介: 本书从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势。不仅对大数据相关技术及算法做了系统性的分析和描述,梳理了大数据的技术分类,如基础架构支持、大数据采集、大数据存储、大数据处理、大数据展示及交互,还融合了大数据行业的最新技术进展和大型互联网公司的大数据架构实践,努力为读者提供一个大数据的全景画卷。 资源目录: 第1章 大数据技术概述 1 1.1 大数据的概念 1 1.2 大数据的行业价值 4 1.3 大数据问题的爆发 9 1.4 大数据处理流程 12 1.5 大数据技术 13 1.5.1 基础架构支持 14 1.5.2 数据采集 14 1.5.3 数据存储 15 1.5.4 数据计算 16 1.5.5 展现与交互 18 1.6 练习题 19 参考文献 19 第2章 大数据基础支撑——数据中心及云计算 20 2.1 数据中心概述 20 2.1.1 云计算时代数据中心面临的问题 21 2.1.2 新一代数据中心关键技术 22 2.1.3 业界发展动态 24 2.1.4 小结 25 2.2 云计算简介 25 2.2.1 云计算定义 26 2.2.2 云计算主要特征 27 2.2.3 Web服务、网格和云计算 28 2.2.4 云计算应用分类 29 2.2.5 小结 31 2.3 大数据与云计算的关系 32 2.3.1 大数据是信息技术发展的必然阶段 33 2.3.2 云计算等新兴信息技术正在真正地落地和实施 34 2.3.3 云计算等新兴技术是解决大数据问题的核心关键 34 2.4 云资源调度与管理 35 2.4.1 云资源管理 36 2.4.2 云资源调度策略 38 2.4.3 云计算数据中心负载均衡调度 40 2.5 开源云管理平台OpenStack 44 2.5.1 OpenStack的构成 45 2.5.2 OpenStack各组件之间的关系 46 2.5.3 OpenStack的逻辑架构 47 2.5.4 小结 49 2.6 软件定义网络 49 2.6.1 起源与发展 50 2.6.2 OpenFlow标准和规范 50 2.6.3 OpenFlow的应用 53 2.7 虚拟机与容器 55 2.7.1 VM虚拟化与Container虚拟化 55 2.7.2 Docker 55 2.8 练习题 57 参考文献 57 第3章 云计算先行者——Google的三驾马车 59 3.1 Google的三驾马车 59 3.1.1 GFS——一个可扩展的分布式文件系统 59 3.1.2 MapReduce——一种并行计算的编程模型 64 3.1.3 BigTable——一个分布式数据存储系统 69 3.2 Google新“三驾马车” 77 3.2.1 Caffeine——基于Percolator的搜索索引系统 77 3.2.2 Pregel——高效的分布式图计算的计算框架 80 3.2.3 Dremel——大规模数据的交互式数据分析系统 85 3.3 练习题 89 参考文献 89 第4章 云存储系统 91 4.1 云存储的基本概念 91 4.1.1 云存储结构模型 91 4.1.2 云存储与传统存储系统的区别 94 4.2 云存储关键技术 95 4.2.1 存储虚拟化技术 95 4.2.2 分布式存储技术 97 4.3 云存储系统分类 98 4.3.1 分布式文件存储 99 4.3.2 分布式块存储 105 4.3.3 分布式对象存储 109 4.3.4 统一存储 117 4.4 其他相关技术 124 4.5 练习题 127 参考文献 127 第5章 数据采集系统 129 5.1 Flume 130 5.1.1 Flume架构 130 5.1.2 Flume核心组件 133 5.1.3 Flume环境搭建与部署 134 5.2 Scribe 139 5.2.1 Scribe架构 139 5.2.2 Scribe中的Store 140 5.2.3 Scribe环境搭建与部署 141 5.3 Chukwa 144 5.3.1 Chukwa的设计目标 144 5.3.2 Chukwa架构 145 5.3.3 Chukwa 环境搭建与部署 147 5.4 Kafka 150 5.4.1 Kafka架构 150 5.4.2 Kafka存储 152 5.4.3 Kafka的特点 152 5.4.4 Kafka环境搭建与部署 154 5.5 练习题 155 参考文献 155 第6章 Hadoop与MapReduce 156 6.1 Hadoop平台 156 6.1.1 Hadoop概述 156 6.1.2 Hadoop的发展简史 157 6.1.3 Hadoop的功能和作用 158 6.1.4 HDFS 159 6.1.5 HBase 162 6.2 MapReduce 171 6.2.1 第一代MapReduce(MRv1) 172 6.2.2 MapReduce 2.0——Yarn 180 6.3 Hadoop相关生态系统 184 6.3.1 交互式数据查询分析 184 6.3.2 数据收集、转换工具 187 6.3.3 机器学习工具 188 6.3.4 集群管理与监控 188 6.3.5 其他工具 189 6.4 Hadoop应用案例 191 6.5 练习题 192 参考文献 192 第7章 Spark——大数据统一计算平台 193 7.1 Spark简介 193 7.1.1 Spark 193 7.1.2 BDAS 195 7.2 RDD 197 7.2.1 RDD基本概念 197 7.2.2 RDD示例 199 7.2.3 RDD与分布式共享内存 200 7.3 Spark SQL 201 7.4 MLlib 203 7.5 GraphX 206 7.6 Spark Streaming 206 7.6.1 基本概念 207 7.6.2 编程模型 208 7.7 Spark的安装 210 7.7.1 单机运行Spark 210 7.7.2 使用Spark Shell与Spark交互 213 7.8 Shark、Impala、Hive对比 214 7.9 练习题 216 参考文献 216 第8章 Storm流计算系统 218 8.1 流计算系统 218 8.1.1 流计算系统的特点 218 8.1.2 流计算处理基本流程 219 8.2 Storm流计算框架 220 8.2.1 Storm简介 220 8.2.2 Storm关键术语 221 8.2.3 Storm架构设计 223 8.3 Storm编程实例 225 8.4 Storm应用 228 8.4.1 Storm应用场景 228 8.4.2 Storm应用实例 228 8.5 其他流计算框架 229 8.6 练习题 231 参考文献 231 第9章 SQL、NoSQL与NewSQL 232 9.1 传统SQL数据库 232 9.1.1 关系模型 232 9.1.2 关系型数据库的优点 233 9.1.3 关系型数据库面临的问题 234 9.2 NoSQL 234 9.2.1 NoSQL与大数据 235 9.2.2 NoSQL理论基础 235 9.2.3 分布式模型 238 9.2.4 NoSQL数据库分类 241 9.3 NewSQL 255 9.3.1 系统分类 255 9.3.2 Google Spanner 256 9.3.3 MemSQL 258 9.3.4 VoltDB 260 9.4 练习题 263 参考文献 263 第10章 大数据与数据挖掘 264 10.1 数据挖掘的主要功能和常用算法 264 10.1.1 数据挖掘的主要功能 264 10.1.2 常用算法 265 10.2 大数据时代的数据挖掘 280 10.2.1 传统数据挖掘解决方案 280 10.2.2 分布式数据挖掘解决方案 280 10.3 数据挖掘相关工具 282 10.3.1 Mahout 282 10.3.2 语言工具——Python 288 10.4 数据挖掘与R语言 289 10.4.1 R语言简介 289 10.4.2 R语言在数据挖掘上的应用 290 10.5 练习题 294 参考文献 294 第11章 深度学习 298 11.1 深度学习介绍 299 11.1.1 深度学习的概念 299 11.1.2 深度学习的结构 299 11.1.3 从机器学习到深度学习 301 11.2 深度学习基本方法 302 11.2.1 自动编码器 302 11.2.2 稀疏编码 304 11.3 深度学习模型 305 11.3.1 深度置信网络 306 11.3.2 卷积神经网络 308 11.4 深度学习的训练加速 310 11.4.1 GPU加速 310 11.4.2 数据并行 311 11.4.3 模型并行 312 11.4.4 计算集群 313 11.5 深度学习应用 313 11.5.1 Google 314 11.5.2 百度 314 11.5.3 腾讯Mariana 315 11.6 练习题 316 参考文献 316 第12章 电子商务与社会化网络大数据分析 318 12.1 推荐系统简介 318 12.1.1 推荐系统的评判标准 319 12.1.2 推荐系统的分类 319 12.1.3 在线推荐系统常用算法介绍 320 12.1.4 相关算法知识 323 12.2 计算广告 327 12.2.1 计算广告简介 327 12.2.2 计算广告发展阶段 327 12.2.3 计算广告相关算法 330 12.2.4 计算广告与大数据 332 12.2.5 大数据在计算广告中的应用案例 333 12.3 社交网络 333 12.3.1 社交网络中大数据挖掘的应用场景 334 12.3.2 社交网络大数据挖掘核心算法模型 334 12.3.3 图计算框架 335 12.3.4 大数据在社交网络中的应用案例 337 12.4 练习题 338 第13章 大数据展示与交互技术 339 13.1 数据可视化分类 339 13.1.1 按照展示内容进行划分 340 13.1.2 按照数据类型进行划分 341 13.2 可视化技术分类 351 13.2.1 2D展示技术 351 13.2.2 3D渲染技术 356 13.2.3 体感互动技术 360 13.2.4 虚拟现实技术 362 13.2.5 增强现实技术 364 13.2.6 可穿戴技术 365 13.2.7 可植入设备 368 13.3 练习题 369 参考文献 369 第14章 大数据安全与隐私 372 14.1 云计算时代安全与隐私问题凸显 372 14.2 云计算与大数据时代的安全挑战 374 14.2.1 大数据时代的安全需求 374 14.2.2 信息安全的发展历程 375 14.2.3 新兴信息技术带来的安全挑战 376 14.3 如何解决安全问题 380 14.3.1 云计算安全防护框架 381 14.3.2 基础云安全防护关键技术 384 14.3.3 创立本质安全的新型IT体系 387 14.4 隐私问题 389 14.4.1 防不胜防的隐私泄露 389 14.4.2 隐私保护的政策法规 390 14.4.3 隐私保护技术 391 14.5 练习题 393 参考文献 393 第15章 大数据技术发展趋势 394 15.1 实时化 394 15.2 内存计算 396 15.2.1 机遇与挑战 396 15.2.2 研究进展 397 15.2.3 发展展望 399 15.3 泛在化 399 15.3.1 发展现状 400 15.3.2 发展趋势 401 15.4 智能化 406 15.4.1 传统人工智能 406 15.4.2 基于大数据的人工智能 407 15.5 练习题 410 参考文献 410 第16章 知名企业大数据架构简介 411 16.1 腾讯 411 16.1.1 背景介绍 411 16.1.2 整体架构 412 16.2 淘宝 416 16.2.1 背景介绍 416 16.2.2 整体架构 416 16.3 Facebook 417 16.3.1 背景介绍 417 16.3.2 整体架构 418 16.3.3 技术架构展望 420 16.4 Twitter 420 16.4.1 背景介绍 420 16.4.2 整体架构 420 16.4.3 技术架构展望 422 16.5 Netflix 422 16.5.1 背景介绍 422 16.5.2 整体架构 423 16.5.3 Netflix个性化和推荐系统架构 426 16.6 练习题 430 参考文献 430 资源截图:
陌佑
百度云
百度云

大数据治理与服务

资源名称:大数据治理与服务 资源截图:
陌佑
百度云
百度云

Splunk大数据分析

资源名称:Splunk大数据分析 内容简介: Splunk是一种典型的大数据处理工具,能够高效地按时序对数据进行存储、索引、访问,已广泛应用在多个领域。本书是介绍如何实时处理大数据并从中获得商业价值的一本实用指南。本书通过真实的大数据分析项目,从数据导入、访问、挖掘和可视化角度全面而系统地介绍Splunk的基本概念和使用方法,以帮助读者快速掌握Splunk。 全书共16章,分为四个部分:第一部分(第1~7章)介绍Splunk的基本操作,包括利用Splunk进行数据收集、处理、分析及结果可视化等的基本操作和命令,以及使用日志文件创建高级数据分析报表的方法;第二部分(第8~11章)使用“航空公司准点性能数据”介绍一个典型的数据分析案例,详细讲解如何运用Splunk深度挖掘现有数据仓库,并介绍一些新的Splunk命令和实用技巧;第三部分(第12~14章)详细介绍如何收集、处理、分析推文和Foursquare的签到信息等,涵盖分析社会化媒体流数据所需的知识;第四部分(第15~16章)详细介绍如何按需求扩展Splunk,以及分布式处理和高可用性的基本概念。此外,还包括两个附录,展示Splunk的性能以及各种可用的应用程序。 资源目录: 第1章 大数据和Splunk / 1 1.1 什么是大数据 / 1 1.2 非传统的数据处理技术 / 5 1.3 Splunk是什么 / 6 1.4 关于本书 / 7 第2章 将数据导入Splunk / 9 2.1 数据的多样性 / 9 2.2 Splunk如何处理多样化的数据 / 10 2.2.1 文件和目录 / 11 2.2.2 数据生成器 / 16 2.2.3 生成样本数据 / 17 2.2.4 网络资源 / 21 2.2.5 Windows数据 / 21 2.2.6 其他资源 / 21 2.3 应用程序和附加组件 / 21 2.4 转发器 / 26 2.5 小结 / 27 第3章 处理和分析数据 / 28 3.1 了解组合访问日志数据 / 28 3.2 搜索和分析索引数据 / 29 3.3 报表 / 35 3.3.1 使用最多的浏览器 / 35 3.3.2 排名前五的IP地址 / 37 3.3.3 浏览量来源最多的网站 / 38 3.3.4 有多少404事件 / 40 3.3.5 有多少事件包含购买行为 / 42 3.3.6 列出购买的商品 / 42 3.4 排序 / 44 3.5 过滤 / 45 3.6 添加和评估字段 / 47 3.7 聚合 / 48 3.8 小结 / 54 第4章 结果的可视化 / 55 4.1 数据可视化 / 55 4.2 Splunk是怎样处理可视化的 / 55 4.3 chart / 60 4.3.1 制作每一个主机的GET和POST事件数量的图表 / 61 4.3.2 制作每一个产品类别的购买数和浏览数的图表 / 62 4.3.3 哪个产品种类受HTTP 404错误的影响 / 63 4.3.4 MyGizmoStore.com的购买趋势 / 64 4.3.5 事务持续时间 / 66 4.4 timechart / 67 4.4.1 最高购买数量的产品 / 67 4.4.2 页面浏览率和购买量 / 68 4.5 使用Google Maps应用程序来可视化 / 69 4.6 Globe / 71 4.7 仪表盘 / 72 4.8 小结 / 80 第5章 定义警报 / 81 5.1 什么是警报 / 81 5.2 Splunk如何提供警报 / 81 5.2.1 基于商品销售量的警报 / 82 5.2.2 登录失败的警报 / 84 5.2.3 日志文件中关键性错误的警报 / 87 5.3 小结 / 88 第6章 网站监测 / 90 6.1 监测网站 / 90 6.2 IT运作 / 91 6.2.1 主机访问量 / 91 6.2.2 无内部访问的主机访问量 / 91 6.2.3 HTTP请求成功的流量 / 93 6.2.4 HTTP请求未成功的流量 / 93 6.2.5 返回HTTP错误状态码最多的页面 / 94 6.3 业务 / 96 6.3.1 区域用户统计 / 96 6.3.2 跳出率 / 97 6.3.3 独立访问者数量 / 98 6.4 小结 / 103 第7章 使用日志文件创建高级分析 / 104 7.1 传统的分析方法 / 104 7.2 范式变更 / 105 7.3 语义日志 / 106 7.4 日志最佳实践 / 113 7.5 小结 / 115 第8章 航班准点率项目 / 116 小结 / 118 第9章 将航班数据导入Splunk / 119 9.1 处理CSV文件 / 119 9.1.1 航班数据 / 119 9.1.2 下载数据 / 120 9.1.3 了解航班数据 / 121 9.1.4 关于时间戳 / 123 9.1.5 将字段映射成一个时间戳 / 124 9.1.6 对所有航班数据建立索引 / 131 9.2 从关系数据库中索引数据 / 132 9.2.1 定义一个新的数据库连接 / 132 9.2.2 数据库监测 / 133 9.3 小结 / 136 第10章 分析航空公司、机场、航班和延迟 / 137 10.1 分析航空公司 / 137 10.1.1 计算航空公司的总数 / 138 10.1.2 可视化结果 / 139 10.2 分析机场 / 143 10.3 分析航班 / 146 10.4 分析延迟 / 151 10.4.1 各航空公司航班延迟情况 / 151 10.4.2 各机场航班延迟的原因 / 152 10.4.3 冬天与夏天的航班延迟情况 / 155 10.5 创建和使用宏命令 / 157 10.6 报告加速 / 158 10.7 加速统计 / 161 10.8 小结 / 166 第11章 分析一个特定航班的历年数据 / 167 11.1 航空公司名称 / 167 11.1.1 字段查找自动化 / 172 11.1.2 从搜索中创建查找表 / 173 11.2 United flight 871航班 / 174 11.3 小结 / 178 第12章 分析推文 / 179 12.1 开发样本流 / 180 12.2 将推文加载到Splunk中 / 183 12.3 Twitter / 185 12.4 最流行的单词 / 188 12.5 实时的Twitter趋势 / 191 12.6 小结 / 196 第13章 分析Foursquare签到信息 / 197 13.1 签到信息格式 / 198 13.2 时区注意事项 / 202 13.3 装载签到数据 / 203 13.4 分析签到信息 / 205 13.4.1 星期日早午餐搜索 / 205 13.4.2 Google地图和热门地点 / 209 13.4.3 地点的签到模式 / 211 13.4.4 地点的签到数量 / 212 13.4.5 分析性别活动 / 214 13.5 小结 / 217 第14章 情感分析 / 218 14.1 意见、观点、信仰、信念 / 218 14.2 商业用途 / 219 14.3 情感分析的技术性工作 / 220 14.4 情感分析应用程序 / 222 14.4.1 全局性的命令 / 223 14.4.2 挖掘情感 / 224 14.4.3 语言的处理 / 226 14.4.4 训练数据和测试数据 / 227 14.5 世界情绪指数项目 / 231 14.5.1 收集RSS摘要 / 232 14.5.2 将新闻标题索引到Splunk中 / 234 14.5.3 定义情感语料库 / 237 14.5.4 对结果进行可视化 / 240 14.6 小结 / 242 第15章 远程数据收集 / 243 15.1 转发器 / 243 15.1.1 流行的拓扑结构 / 244 15.1.2 安装转发器 / 246 15.2 部署服务器 / 248 15.2.1 配置部署服务器 / 250 15.2.2 配置转发器 / 251 15.3 部署监控 / 252 15.4 小结 / 253 第16章 可扩展性和高可用性 / 254 16.1 扩展Splunk / 254 16.2 聚类 / 259 16.3 小结 / 264 附录A Splunk的性能 / 265 附录B 有用的Splunk应用程序 / 281 资源截图:
陌佑
百度云
百度云
⬅️ 1...18151816181718181819...2920

添加微信,反馈问题

微信及时反馈问题,方便沟通,请备注 ❤️

搜索榜单

1

骚老板资源网整站源码 打包数据高达2GB

1654

2

绿色风格网络公司源码 php网络建站公司源码

1070

3

(自适应手机版)响应式餐饮美食企业网站源码 餐饮品牌连锁机构织梦模板

1034

4

雷速问卷调查系统(疫情上报系统) v7.08

913

5

Zblog仿918回忆模特写真网带整站数据图库系统源码

875

6

一款笑话类网站源码 简约清爽的织梦笑话网站模板

807

最新资源

1

网狐电玩系列/乐游电玩城/免微信免短信登陆

2

湖南地方玩法好玩互娱纯源码

3

最新更新网狐旗舰大联盟+UI工程

4

傲玩系列客户端通用加解密工具

5

优米H5电玩城组件/多语言/带84个游戏/后台带控+搭建视频教程

6

网狐系列猫娱乐新UI蜡笔小新金币组件

友情链接:
免费APISSL在线检测在线pingAPI版本项目seo教程免费下载狗凯源码网 查看更多
网站地图 法律声明
本站所存储的源码数据均为转载,不提供在线播放和下载服务。本站为非盈利性,不收取费用,所有内容不用于商业行为,仅供学习交流使用。如有侵权,请联系15001904@qq.com
  • 联系微信,反馈问题

  • 点此立刻反馈