资源搜
资源搜
👀 联系夏柔
🔥 投稿源码
资源搜

资源搜

  • 全部
  • 123盘
  • 阿里盘
  • 百度云
  • 迅雷
  • 夸克
  • 115
  • 蓝奏云
  • 其他
已收录34127条资源,仅供学习交流,请在24h内删除资源!

一本书读懂大数据(每个人都看得懂的大数据入门书)

资源名称:一本书读懂大数据(每个人都看得懂的大数据入门书) 内容简介: 进入大数据时代,让数据开口说话将成为司空见惯的事情,本书将从大数据时代的前因后果讲起,全面分析大数据时代的特征、企业实践的案例、大数据的发展方向、未来的机遇和挑战等内容,展现一个客观立体、自由开放的大数据时代。 资源目录: 第一章 身处数据时代,揭开大数据的面纱 大数据到底是什么? / 002 “大”是重点,还是“数据”是重点? / 006 与众不同的大数据 / 008 大数据方式下的云计算 / 010 大数据的奥秘 / 013 当下是大数据发展的最佳时机 / 017 第二章 大数据如此重要,引无数英雄竞折腰 多样的非结构性数据 / 020 大数据的价值发掘 / 023 大数据的结构化、非结构化、半结构化及多结构化 / 026 大数据是扩展性的下一代传统数据 / 028 是什么构成了大数据价值链? / 030 大数据时代真的来了 / 036 第三章 求挖掘与分析,电子商务与大数据 大数据时代中的电子商务 / 040 亚马逊在大数据时代的实践 / 042 小米手机在大数据时代的实践 / 047 小米手机对“米粉”需求的文化挖掘 / 051 阿里巴巴数据化运营的那些“大招” / 054 大数据中的企业价值及客户价值 / 061 第四章 数据和企业管理,高层更看重大数据 沃尔玛如何用数据构建管理模式 / 064 让大数据进入企业管理 / 066 职业乞丐脑袋里的大数据 / 070 职业经理人与大数据 / 073 企业组织管理不介入大数据,就要被淘汰 / 077 第五章 生活无处不数据,大数据真的能算命? 未来的先兆——大数据 / 084 大数据带来的经营理念的转变 / 088 大数据的舆情服务 / 094 大数据预测你的下一步行动 / 096 数据也会骗人,从人的动作推导数据 / 099 网络数据背后的价值 / 103 第六章 颠覆与重塑思维,大数据与思维革命 大数据时代的综合人才 / 110 飞利浦的大数据营销策略 / 113 阿里小贷的“不可能的任务” / 115 第三方支付业务的另一种思路 / 119 P2P网络借贷动了谁的奶酪 / 121 大数据带来的智能化与柔性化 / 124 生活、工作、思维的颠覆重构 / 128 第七章 得数据者得天下,商业竞争中的大数据 大型公司的垂直一体化趋势 / 136 客户形象的丰富源于对客户的全面理解 / 139 量化奠定了数据化的内核 / 143 文字的数据化进程 / 147 地理位置的数据化构建 / 151 数据化的沟通方式 / 156 企业竞争力的关键——大数据 / 159 第八章 让数据张口说话,管理决策中的大数据 客观数据最具发言权 / 164 挖掘潜力股的数据化进程 / 167 时代因大数据而变革 / 170 大数据时代的风险规避策略 / 174 企业文化的数据化构建 / 177 第九章 更自由,更开放,大数据的机遇和挑战 人机结合的未来发展趋势 / 184 数据时代,引发时代大变革 / 186 数据可以表示世间万物,会带来惊喜 / 191 数据化带来的挑战前所未有 / 194 资源截图:
陌佑
百度云
百度云

大数据处理系统:Hadoop源代码情景分析

资源名称:大数据处理系统:Hadoop源代码情景分析 内容简介: Hadoop是目前重要的一种开源的大数据处理平台,读懂Hadoop的源代码,深入理解其各种机理,对于掌握大数据处理的技术有着显而易见的重要性。 本书从大数据处理的原理开始,讲到Hadoop的由来,进而讲述对于代码的研究方法,然后以Hadoop作为样本,较为详尽地逐一分析大数据处理平台各核心组成部分的代码,并从宏观上讲述这些部分的联系和作用。 本书沿用作者独特而广受欢迎的情景分析方法和风格,深入浅出直白易懂,可以作为大数据系统高级课程的教材,也可用作计算机软件专业和其他相关专业大学本科高年级学生和研究生深入学习大数据系统的参考书。同时,还可以作为各行业从事软件开发和数据挖掘的工程师、研究人员以及其他对大数据处理技术感兴趣者的自学教材。 资源目录: 第1章 大数据与Hadoop 1.1 什么是大数据 1.2 大数据的用途 1.3 并行计算 1.4 数据流 1.5 函数式程序设计与Lambda演算 1.6 MapReduce 1.7 大数据处理平台 1.8 Hadoop的由来和发展 1.9 Hadoop的MapReduce计算框架 1.10 Hadoop的分布式容错文件系统HDFS 第2章 研究方法 2.1 摘要卡片 2.2 情景分析 2.3 面向对象的程序设计 2.4 怎样阅读分析Hadoop的代码 第3章 Hadoop集群和YARN 3.1 Hadoop集群 3.2 Hadoop系统的结构 3.3 Hadoop的YARN框架 3.4 状态机 3.5 资源管理器ResourceManager 3.6 资源调度器ResourceScheduler 第4章 Hadoop的RPC机制 4.1 RPC与RMI 4.2 ProtoBuf 4.3 Java的Reflection机制 4.4 RM节点上的RPC服务 4.5 RPC客户端的创建 第5章 Hadoop作业的提交 5.1 从“地方”到“中央” 5.2 示例一:采用老API的ValueAggregatorJob 5.3 示例二:采用新API的WordCount 5.4 示例三:采用ToolRunner的QuasiMonteCarlo 5.5 从Job.submit()开始的第二段流程 5.6 YARNRunner和ResourceMgrDelegate 第6章 作业的调度与指派 6.1 作业的受理 6.2 NM节点的心跳和容器周转 6.3 容器的分配 第7章 NodeManager与任务投运 7.1 AMLauncher与任务投运 7.2 MRAppMaster或AM的创建 7.3 资源本地化 7.4 容器的投运 第8章 MRAppMaster与作业投运 8.1 MRAppMaster 8.2 App资源与容器 8.3 容器的跨节点投送和启动 8.4 目标节点上的容器投运 8.5 Uber模式下的本地容器分配与投运 8.6 任务的启动 8.7 MapTask的运行 8.8 ReduceTask的投运 第9章 YARN子系统的计算框架 9.1 MapReduce框架 9.2 Streaming框架 9.3 Chain框架 9.4 Client与ApplicationMaster 第10章 MapReduce框架中的数据流 10.1 数据流和工作流 10.2 Mapper的输入 10.3 Mapper的输出缓冲区MapOutputBuffer 10.4 作为Collector的MapOutputBuffer 10.5 环形缓冲区kvbuffer 10.6 对MapoutputBuffer的输出 10.7 Sort和Spill 10.8 Map计算的终结与Spill文件的合并 10.9 Reduce阶段 10.10 Merge 10.11 Reduce阶段的输入和输出 第11章 Hadoop的文件系统HDFS 11.1 文件的分布与容错 11.2 目录节点NameNode 11.3 FSNamesystem 11.4 文件系统目录FSDirectory 11.5 文件系统映像FsImage 11.6 文件系统更改记录FSEditLog 11.7 FSEditLog与Journal 11.8 EditLog记录的重演 11.9 版本升级与故障恢复 第12章 HDFS的DataNode 12.1 DataNode 12.2 数据块的存储 12.3 RamDisk复份的持久化存储 12.4 目录扫描线程DirectoryScanner 12.5 数据块扫描线程DataBlockScanner 第13章 DataNode与NameNode的互动 13.1 DataNode与NameNode的互动 13.2 心跳HeartBeat 13.3 BlockReport 第14章 DataNode间的互动 14.1 数据块的接收和存储 14.2 命令DNA_TRANSFER的执行 第15章 HDFS的文件访问 15.1 DistributedFileSystem和DFSClient 15.2 FsShell 15.3 HDFS的打开文件流程 15.4 HDFS的读文件流程 15.5 HDFS的创建文件流程 15.6 文件租约 15.7 HDFS的写文件流程 15.8 实例 第16章 Hadoop的容错机制 16.1 容错与高可用 16.2 HDFS的HA机制 16.3 NameNode的倒换 16.4 Zookeeper与自动倒换 16.5 YARN的HA机制 第17章 Hadoop的安全机制 17.1 大数据集群的安全问题 17.2 UGI、Token和ACL 17.3 UGI的来源和流转 17.4 Token的使用 第18章 Hadoop的人机界面 18.1 Hadoop的命令行界面 18.2 Hadoop的Web界面 18.3 Dependency Inject和Annotation 18.4 对网页的访问 第19章 Hadoop的部署和启动 19.1 Hadoop的运维脚本 19.2 Hadoop的部署与启动 19.3 Hadoop的日常使用 19.4 Hadoop平台的关闭 第20章 Spark的优化与改进 20.1 Spark与Hadoop 20.2 RDD与Stage——概念与思路 20.3 RDD的存储和引用 20.4 DStream 20.5 拓扑的灵活性和多样性 20.6 性能的提升 20.7 使用的方便性 20.8 几个重要的类及其作用 参考资料 资源截图:
陌佑
百度云
百度云

大话数据挖掘

资源名称:大话数据挖掘  内容简介: 西安美林电子有限责任公司编写的《大话数据挖掘》以EMBA班的“数据挖掘技术及其应用”教学为场景,带领读者步入数据挖掘的神秘殿堂,领略数据挖掘的神奇魅力。 《大话数据挖掘》共9章。第1章,揭开数据挖掘的面纱,从三个真实而有趣的故事开始,让读者了解数据挖掘的概念、数据挖掘产生与发展、数据挖掘的功能和数据挖掘技术,本章深入浅出地介绍了关联规则、聚类分析、预测(分类和回归)、时间序列等数据挖掘方法及常用算法;第2章简述数据挖掘流程,以某冶金企业生产中遇到的质量控制技术攻关难题的解决过程为线索,活灵活现地展现了一个数据挖掘问题的项目立项及其实施过程;第3章到第9章以典型案例的形式分别介绍了数据挖掘技术在电力行业、交通航空领域、冶金行业、税务与金融行业、故障诊断、电信行业、互联网行业方面的应用。 资源目录: 第1章 揭开数据挖掘的面纱 1.1 历史的使命 1.2 数据挖掘的故事 1.2.1 震撼业界的发现 1.2.2 降低成本的绝活 1.2.3 出奇制胜的小纸条 1.3 什么是数据挖掘? 1.4 历史的必然 1.5 数据挖掘能干什么? 1.5.1 关联(ASSOCIATION)规则挖掘 1.5.2 聚类 1.5.3 预测 1.5.4 序列和时间序列 1.6 数据挖掘工具 第2章 数据挖掘流程 2.1 李部长其人 2.2 老革命遇见了新问题 2.3 钓鱼钓来了数据挖掘思路 2.4 数据挖掘项目立项 2.5 数据挖掘项目实施 2.5.1 业务理解阶段(BUSINESS UNDERSTANDING) 2.5.2 数据理解阶段(DATA UNDERSTANDING) 2.5.3 数据准备阶段(DATA PREPARATION) 2.5.4 建模阶段(MODELING) 2.5.5 模型评估阶段(EVALUATION) 2.5.6 部署阶段(DEPLOYMENT) 2.6 李部长的展望 第3章 数据挖掘在电力行业的应用 3.1 应用前景 3.2 电力设备状态检修 3.3 电力系统暂态稳定性评估 3.4 负荷预测 3.5 盗电检测 3.6 电力数据挖掘系统的构建 第4章 数据挖掘在交通航空领域的应用 4.1 铁路票价制定 4.2 高铁轨道检修 4.3 交通流量预测 第5章 数据挖掘在冶金行业的应用 5.1 流程工业这点儿事 5.2 产品质量控制 5.3 高炉炉温预测 5.4 磨矿粒度预测 5.5 炼焦配煤优化 第6章 数据挖掘在税务、金融行业的应用 6.1 税务稽查 6.2 反洗钱 6.3 股票指数追踪 第7章 数据挖掘在故障诊断中的应用 7.1 火箭发动机故障诊断 7.2 机械设备故障诊断 7.3 核动力设备故障诊断 7.4 船舶动力故障诊断 第8章 数据挖掘在电信业中的应用 8.1 市场细分 8.1 市场细分 8.2 精确营销 8.3 业务响应 8.4 客户流失分析 第9章 Web数据挖掘 9.1 Web数据挖掘概述 9.1 Web数据挖掘概述 9.2 垂直搜索引擎中的数据挖掘 9.3 面向电子商务的数据挖掘 9.4 社交网络中的数据挖掘 参考文献 资源截图:
陌佑
百度云
百度云

Python+Spark 2.0+Hadoop机器学习与大数据实战

资源名称:Python+Spark 2.0+Hadoop机器学习与大数据实战 内容简介: 本书从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,如分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应用等。书中不仅加入了新近的大数据技术,还丰富了“机器学习”内容。 为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作和范例程序详解,展示了如何在单机Windows系统上通过Virtual Box虚拟机安装多机Linux虚拟机,如何建立Hadoop集群,再建立Spark开发环境。书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校,参照书中介绍的搭建过程,同样可以实现将自己的平台搭建在多台实体计算机上,以便更加接近于大数据和机器学习真实的运行环境。 本书非常适合于学习大数据基础知识的初学者阅读,更适合正在学习大数据理论和技术的人员作为上机实践用的教材。 资源目录: 第1章  Python Spark机器学习与Hadoop大数据      第2章  VirtualBox虚拟机软件的安装         第3章  Ubuntu Linux 操作系统的安装       第4章  Hadoop Single Node Cluster的安装       第5章  Hadoop Multi Node Cluster的安装          第 6 章  Hadoop HDFS命令         第7章  Hadoop MapReduce         第8章  Python Spark的介绍与安装    第9章  在 IPythonNotebook 运行 Python Spark 程序    第10章  Python Spark RDD  第11章  Python Spark的集成开发环境      第12章  Python Spark创建推荐引擎  第13章  Python Spark MLlib决策树二元分类    第14章  Python Spark MLlib 逻辑回归二元分类        第15章  Python Spark MLlib支持向量机SVM二元分类   第16章  Python Spark MLlib朴素贝叶斯二元分类   第17章  Python Spark MLlib决策树多元分类    第18章  Python Spark MLlib决策树回归分析  第19章  Python Spark SQL、DataFrame、RDD数据统计与可视化          第20章  Spark ML Pipeline 机器学习流程二元分类          第21章  Spark ML Pipeline 机器学习流程多元分类          第22章  Spark ML Pipeline 机器学习流程回归分析          附录A  本书范例程序下载与安装说明       资源截图:
陌佑
百度云
百度云

一本书读懂大数据客户分析

资源名称:一本书读懂大数据客户分析 内容简介: 企业的长期生存能力是指通过持续地满足和超越客户的生理和心理需求来吸引顾客。阅读本书,你将学会如何全面改善客户体验,如何收集、测量以及解读客户数据,如何使用数据创建良好的客户关系,如何实现向数据导向的客户体验转变。 资源目录: 前言 关于本书 “可笑的”假设 本书使用的图标 本书之外 本书宗旨 第1部分:客户分析入门 第1章客户分析简介 什么是客户分析? 客户分析能带给我们什么? 运用客户分析 汇编大数据与小数据 第2章度量标准的科学与艺术 累加定量数据 离散数据与持续数据 数据级别 变量 量化定性数据 确定所需样本大小 估算置信区间 计算95%置信区间 确定收集哪些数据 使用正确的衡量方法 第3章筹划客户分析计划 客户分析计划概述 定义范围和结果 确定衡量标准、方法和工具 制定预算 确定正确的样本大小 分析与改进 控制结果 第2部分:甄别你的客户 第4章细分客户 为什么细分客户 细分客户的五个“W” Who——细分对象的身份特征 Where——地点 What——内容 When——时间 Why——原因 How——方法 分析数据,细分客户 第一步:数据制表 第二步:制作交叉表 第三步:聚类分析 第四步:估计每个客户细分的大小 第五步:估计每个客户细分的价值 第5章创建客户档案 客户档案的重要性 管理客户档案 利用客户数据建立更多的客户档案 第一步:收集合适的数据 第二步:划分数据 第三步:确定和完善客户档案 利用客户档案解答问题 第6章确定客户终生价值 客户终生价值的重要性 应用客户终生价值 计算终生价值 估算收益 计算客户终生价值 识别黄金客户 向黄金客户营销 第3部分:客户购买历程解析 第7章绘制客户浏览轨迹图 利用传统型营销漏斗 什么是客户浏览轨迹图? 定义客户浏览轨迹 查找数据 描绘客户浏览轨迹 使客户浏览轨迹图发挥更大作用 第8章确定品牌意识和态度 衡量品牌意识 独立意识 辅助意识 衡量产品或服务知识 衡量品牌态度 识别品牌支柱 检验品牌亲和度 衡量使用情况与使用意向 查明以往的使用情况 衡量未来的使用意向 理解态度的关键动因 构建品牌评估调查 第9章衡量客户态度 测量客户满意度 大体满意度 态度vs满意度 使用系统可用性量表(SUS)和标准化用户体验百分秩问卷(SUS—Q)划分可用性等级 系统可用性量表 标准化用户体验百分秩问卷(SUPR—Q) 使用单一易用性问题(SEQ)测量任务难度 为品牌喜爱度打分 发现客户期待:渴望度与奢侈度 渴望度 奢侈度 测量态度提升度 了解客户偏好 发现客户态度的关键动因 编写有效的客户态度问题 第10章量化考虑阶段和购买阶段 确定考虑的触点 公司驱动触点 客户驱动触点 测量客户驱动触点 测量公司驱动触点的三个R Reach(传递) Resonance(共鸣) Reaction(反应) 衡量共鸣和反应 跟踪转化和购买 跟踪微转化 创造微转化机遇 设置转化跟踪 测量转化率 通过A/B测试测量转变 离线A/B测试 在线A/B测试 测试多个变量 充分利用网站分析数据 第11章跟踪购后行为 处理认知失调 减轻认知失调 从认知失调到心满意足 跟踪退货率 测量购后触点 探究购后触点 评估购后满意度水平 利用“呼叫中心分析”找出问题 使用因果分析图找出根源 创建因果分析图 第12章衡量客户忠实度 衡量客户忠实度 回购率 净推荐值 不良利润 找出忠实度的关键动因 珍惜正面口碑 重视负面口碑 第4部分:用数据分析产品开发 第13章开发客户所需产品 集中投入产品功能 发现客户首要任务 列出任务清单 发现客户 选择五项任务 绘图和分析 采取内部视角看问题 进行差距分析 将企业需求反映到客户需求 确定客户所需 倾听客户的声音 倾听企业的声音 建立客户与企业之间的联系 生成优先事项 审视优先事项 利用卡诺模型测量客户愉悦度 评估功能组合的价值 查明问题产生的原因 第14章通过可用性研究获得卓见 什么是可用性原则 进行可用性测试 确定测试内容 确认目标 概述任务场景 招募用户 测试用户 收集指标 数据编码与分析 汇总与呈现结果 考虑不同类型的可用性测试 查找和报告可用性问题 促进可用性研究 第15章衡量商品搜寻能力与导航功能 确定搜寻能力区域 确定客户所需 搜寻能力测试准备 找到基准线 设计测试 制定测量搜寻能力指标 开展搜寻能力测试 确定样本大小 招募用户 分析结果 提高搜寻能力 交联产品 重组类别 改写任务 修改后再次测试搜寻能力 第16章坚守客户分析的伦理 获得知情许可 Facebook OKCupid Amazon与Orbitz Mint.com 决定实验 第5部分:客户分析4个“十” 第17章需要牢记的十个客户度量标准 第18章改进客户体验的十种方法 第19章十种常见的分析错误 第20章识别客户需求的十种方法 附录:用客户分析进行预测 寻找相似点和关联性 显现关联性 量化关系的强度 二元变量间的关联 确定因果关系 随机进行的实验研究 准实验设计 相关性研究 单一实验对象研究 轶闻 利用回归分析进行预测 利用回归线进行预测 在Excel中创建回归方程 多元回归分析 利用二进制数据进行预测 时间序列分析预测发展趋势 指数(非线性)增长 培训期和验证期 检测差异性 资源截图:
陌佑
百度云
百度云

大数据时代的算法:机器学习、人工智能及其典型实例

资源名称:大数据时代的算法:机器学习、人工智能及其典型实例 内容简介: 《大数据时代的算法:机器学习、人工智能及其典型实例》介绍在互联网行业中经常涉及的算法,包括排序算法、查找算法、资源分配算法、路径分析算法、相似度分析算法,以及与机器学习相关的算法,包括数据分类算法、聚类算法、预测与估算算法、决策算法、关联规则分析算法及推荐算法。《大数据时代的算法:机器学习、人工智能及其典型实例》涉及的相关算法均为解决实际问题中的主流算法,对于工作和学习都有实际参考意义。 《大数据时代的算法:机器学习、人工智能及其典型实例》是一本算法领域内的技术参考书籍,涵盖数十种算法,通过由浅入深的介绍基础算法和机器学习算法相关理论和应用,阐述了各个算法的应用场景及算法复杂度,使读者对算法的理解不只是停留在表面,还从应用的角度提供了大量实例,使读者能够快速、高效进阶各类算法,并能够熟练应用到将来的工作实践中。 资源目录: 第1章 算法基础 1 1.1 基础算法分析类型 1 1.1.1 分治法 1 1.1.2 动态规划法 2 1.1.3 回溯法 3 1.1.4 分支限界法 4 1.1.5 贪心法 4 1.2 算法性能分析 5 1.3 概率论与数理统计基础 6 1.4 距离计算 8 1.4.1 欧氏距离 8 1.4.2 马氏距离 9 1.4.3 曼哈顿距离 9 1.4.4 切比雪夫距离 9 1.4.5 闵氏距离 9 1.4.6 海明距离 10 1.5 排序算法 10 1.5.1 快速排序 11 1.5.2 归并排序 11 1.5.3 堆排序 13 1.5.4 基数排序 15 1.5.5 外排序 16 1.6 字符压缩编码 17 1.6.1 哈夫曼编码 17 1.6.2 香农-范诺编码 21 1.7 本章小结 24 第2章 数据查找与资源分配算法 25 2.1 数值查找算法 25 2.1.1 二分搜索算法 25 2.1.2 分块查找算法 27 2.1.3 哈希查找算法 28 2.2 字符串查找算法 30 2.2.1 Knuth-Morris-Pratt算法 31 2.2.2 Boyer-Moore算法 34 2.2.3 Sunday算法 37 2.3 海量数据中的查找 39 2.3.1 基于布隆过滤器查找 39 2.3.2 倒排索引查找 41 2.4 银行家算法 43 2.5 背包问题 44 2.5.1 0-1背包问题 45 2.5.2 部分背包问题 46 2.6 本章小结 47 第3章 路径分析算法 49 3.1 基于Dijkstra算法的路径分析 49 3.1.1 应用示例:极地探险 49 3.1.2 基于Dijkstra的最短路径规划 50 3.2 基于Floyd算法的路径分析 53 3.2.1 应用示例:任意两个城市之间的最短路径 53 3.2.2 Floyd原理 54 3.2.3 基于Floyd算法计算两个城市最短距离 56 3.3 基于A*算法的路径搜索 58 3.3.1 应用实例:绕过障碍区到达目的地 58 3.3.2 A*算法与最短距离计算 59 3.4 基于维特比算法的概率路径 61 3.4.1 应用实例:推断天气状态 61 3.4.2 维特比算法思想 62 3.4.3 计算天气状态 62 3.5 最长公共子序列问题 64 3.5.1 概要 64 3.5.2 最长公共子串 64 3.5.3 最长公共子序列原理 66 3.5.4 实例:求两字符串的最长公共子序列 66 3.6 本章小结 68 第4章 相似度分析算法 69 4.1 应用实例:海量网页相似度分析 69 4.2 基于Jaccard相似系数的相似度计算 70 4.2.1 计算流程 70 4.2.2 狭义Jaccard相似系数 71 4.2.3 广义Jaccard相似系数 71 4.3 基于MinHash的相似性算法 71 4.3.1 与Jaccard相似性关系 71 4.3.2 计算网页文本相似性过程 72 4.4 向量空间模型 73 4.4.1 词袋模型 73 4.4.2 TF-IDF算法 74 4.5 基于余弦相似性算法的相似度分析 76 4.5.1 原理基础 76 4.5.2 公式解析 77 4.5.3 计算网页文本相似性过程 77 4.6 基于语义主题模型的相似度算法 78 4.7 基于SimHash算法的指纹码 80 4.7.1 SimHash引入 81 4.7.2 SimHash的计算流程 81 4.7.3 计算重复信息 83 4.8 相似度算法的差异性 84 4.9 本章小结 85 第5章 数据分类算法 86 5.1 基于朴素贝叶斯分类器 86 5.1.1 有监督分类与无监督分类 87 5.1.2 应用实例:识别车厘子与樱桃 88 5.1.3 分类流程归纳 91 5.1.4 应用扩展:垃圾邮件识别 92 5.1.5 常用评价指标 96 5.2 基于AdaBoost分类器 100 5.2.1 AdaBoost概述 100 5.2.2 AdaBoost算法具体流程 101 5.2.3 AdaBoost算法的应用实例 102 5.2.4 AdaBoost算法的优点 105 5.3 基于支持向量机的分类器 105 5.3.1 线性可分与线性不可分 106 5.3.2 感知器 107 5.3.3 支持向量机 108 5.4 基于K邻近算法的分类器 109 5.4.1 应用实例:电影观众兴趣发现 109 5.4.2 核心思想 109 5.4.3 电影观众兴趣发现 110 5.5 本章小结 113 第6章 数据聚类算法 115 6.1 基于系统聚类法 115 6.1.1 概述 116 6.1.2 最短距离法 117 6.1.3 重心聚类法 119 6.1.4 动态聚类法 120 6.2 基于K-Means聚类算法 122 6.2.1 应用实例:新闻聚类 122 6.2.2 逻辑流程 123 6.2.3 实现新闻聚类分析 124 6.2.4 K-Means++ 128 6.2.5 K-中心点聚类算法 129 6.2.6 ISODATA聚类算法 130 6.3 基于密度的DBSCAN算法 131 6.4 基于BIRCH算法的聚类分析 133 6.4.1 聚类特征 133 6.4.2 聚类特征树 134 6.5 聚类与分类差异 135 6.6 本章小结 136 第7章 数据预测与估算算法 137 7.1 产生式模型与判别式模型 137 7.2 基于最大似然估计的预测 138 7.3 基于线性回归的估算 140 7.3.1 概要 140 7.3.2 最小二乘法 141 7.4 基于最大期望算法分析 143 7.5 基于隐马尔科夫模型预测 144 7.5.1 应用实例:高温天气与行为概率 144 7.5.2 原理分析 145 7.5.3 高温天气与行为概率 147 7.6 基于条件随机场的序列预测 151 7.6.1 应用实例 151 7.6.2 原理分析 151 7.6.3 条件随机场的优缺点 153 7.7 本章小结 154 第8章 数据决策分析算法 155 8.1 基于ID3算法的决策分析 156 8.1.1 信息量 156 8.1.2 信息熵 156 8.1.3 信息增益 157 8.1.4 ID3算法流程 157 8.1.5 ID3算法的应用 157 8.2 基于C4.5算法的分类决策树 159 8.2.1 概要 159 8.2.2 应用实例 159 8.3 基于分类回归树的决策划分 161 8.3.1 概要 162 8.3.2 应用实例:决策划分 163 8.3.3 剪枝 164 8.4 基于随机森林的决策分类 168 8.4.1 随机森林的特点 169 8.4.2 随机森林的构造方法 169 8.4.3 应用实例:决定车厘子的售价层次 170 8.5 本章小结 172 第9章 数据关联规则分析算法 174 9.1 基于Apriori算法的关联项分析 174 9.1.1 应用实例:超市的货架摆放问题 175 9.1.2 基本概要 175 9.1.3 算法原理 176 9.1.4 有效摆放货架 176 9.2 基于FP-Growth算法的关联性分析 179 9.2.1 构建FP树 179 9.2.2 频繁项分析 181 9.2.3 与Apripri算法比较 184 9.3 基于Eclat算法的频繁项集挖掘 184 9.4 本章小结 185 第10章 数据推荐算法 187 10.1 概要 187 10.1.1 推荐算法发展 188 10.1.2 协同过滤推荐 189 10.2 基于Item-Based协同过滤推荐 190 10.2.1 Item-Based基本思想 190 10.2.2 Slope One实例:基于评分推荐 190 10.3 基于User-Based协同过滤推荐 193 10.3.1 应用实例:根据人群的推荐 194 10.3.2 User-Based与Item-Based对比 197 10.4 基于潜在因子算法的推荐 198 10.4.1 应用实例:新闻推荐 198 10.4.2 流行度与推荐 200 10.5 推荐算法与效果评价 201 10.6 本章小结 203 资源截图:
陌佑
百度云
百度云

大数据大创新-阿里巴巴云上数据中台之道

资源名称:大数据大创新-阿里巴巴云上数据中台之道 内容简介: 在Alibaba集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。《大数据之路——Alibaba大数据实践》就是在此背景下完成的。本书中讲到的Alibaba大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。本书由Alibaba数据技术及产品部组织并完成写作,是Alibaba分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信本书中的实践和思考对同行会有很大的启发和借鉴意义。 资源目录: 第1章 总述 1 第1篇 数据技术篇 第2章 日志采集 8 2.1 浏览器的页面日志采集 8 2.1.1 页面浏览日志采集流程 9 2.1.2 页面交互日志采集 14 2.1.3 页面日志的服务器端清洗和预处理 15 2.2 无线客户端的日志采集 16 2.2.1 页面事件 17 2.2.2 控件点击及其他事件 18 2.2.3 特殊场景 19 2.2.4 H5 & Native日志统一 20 2.2.5 设备标识 22 2.2.6 日志传输 23 2.3 日志采集的挑战 24 2.3.1 典型场景 24 2.3.2 大促保障 26 第3章 数据同步 29 3.1 数据同步基础 29 3.1.1 直连同步 30 3.1.2 数据文件同步 30 3.1.3 数据库日志解析同步 31 3.2 阿里数据仓库的同步方式 35 3.2.1 批量数据同步 35 3.2.2 实时数据同步 37 3.3 数据同步遇到的问题与解决方案 39 3.3.1 分库分表的处理 39 3.3.2 高效同步和批量同步 41 3.3.3 增量与全量同步的合并 42 3.3.4 同步性能的处理 43 3.3.5 数据漂移的处理 45 第4章 离线数据开发 48 4.1 数据开发平台 48 4.1.1 统一计算平台 49 4.1.2 统一开发平台 53 4.2 任务调度系统 58 4.2.1 背景 58 4.2.2 介绍 59 4.2.3 特点及应用 65 第5章 实时技术 68 5.1 简介 69 5.2 流式技术架构 71 5.2.1 数据采集 72 5.2.2 数据处理 74 5.2.3 数据存储 78 5.2.4 数据服务 80 5.3 流式数据模型 80 5.3.1 数据分层 80 5.3.2 多流关联 83 5.3.3 维表使用 84 5.4 大促挑战&保障 86 5.4.1 大促特征 86 5.4.2 大促保障 88 第6章 数据服务 91 6.1 服务架构演进 91 6.1.1 DWSOA 92 6.1.2 OpenAPI 93 6.1.3 SmartDQ 94 6.1.4 统一的数据服务层 96 6.2 技术架构 97 6.2.1 SmartDQ 97 6.2.2 iPush 100 6.2.3 Lego 101 6.2.4 uTiming 102 6.3 最佳实践 103 6.3.1 性能 103 6.3.2 稳定性 111 第7章 数据挖掘 116 7.1 数据挖掘概述 116 7.2 数据挖掘算法平台 117 7.3 数据挖掘中台体系 119 7.3.1 挖掘数据中台 120 7.3.2 挖掘算法中台 122 7.4 数据挖掘案例 123 7.4.1 用户画像 123 7.4.2 互联网反作弊 125 第2篇 数据模型篇 第8章 大数据领域建模综述 130 8.1 为什么需要数据建模 130 8.2 关系数据库系统和数据仓库 131 8.3 从OLTP和OLAP系统的区别看模型方法论的选择 132 8.4 典型的数据仓库建模方法论 132 8.4.1 ER模型 132 8.4.2 维度模型 133 8.4.3 Data Vault模型 134 8.4.4 Anchor模型 135 8.5 阿里巴巴数据模型实践综述 136 第9章 阿里巴巴数据整合及管理体系 138 9.1 概述 138 9.1.1 定位及价值 139 9.1.2 体系架构 139 9.2 规范定义 140 9.2.1 名词术语 141 9.2.2 指标体系 141 9.3 模型设计 148 9.3.1 指导理论 148 9.3.2 模型层次 148 9.3.3 基本原则 150 9.4 模型实施 152 9.4.1 业界常用的模型实施过程 152 9.4.2 OneData实施过程 154 第10章 维度设计 159 10.1 维度设计基础 159 10.1.1 维度的基本概念 159 10.1.2 维度的基本设计方法 160 10.1.3 维度的层次结构 162 10.1.4 规范化和反规范化 163 10.1.5 一致性维度和交叉探查 165 10.2 维度设计高级主题 166 10.2.1 维度整合 166 10.2.2 水平拆分 169 10.2.3 垂直拆分 170 10.2.4 历史归档 171 10.3 维度变化 172 10.3.1 缓慢变化维 172 10.3.2 快照维表 174 10.3.3 极限存储 175 10.3.4 微型维度 178 10.4 特殊维度 180 10.4.1 递归层次 180 10.4.2 行为维度 184 10.4.3 多值维度 185 10.4.4 多值属性 187 10.4.5 杂项维度 188 第11章 事实表设计 190 11.1 事实表基础 190 11.1.1 事实表特性 190 11.1.2 事实表设计原则 191 11.1.3 事实表设计方法 193 11.2 事务事实表 196 11.2.1 设计过程 196 11.2.2 单事务事实表 200 11.2.3 多事务事实表 202 11.2.4 两种事实表对比 206 11.2.5 父子事实的处理方式 208 11.2.6 事实的设计准则 209 11.3 周期快照事实表 210 11.3.1 特性 211 11.3.2 实例 212 11.3.3 注意事项 217 11.4 累积快照事实表 218 11.4.1 设计过程 218 11.4.2 特点 221 11.4.3 特殊处理 223 11.4.4 物理实现 225 11.5 三种事实表的比较 227 11.6 无事实的事实表 228 11.7 聚集型事实表 228 11.7.1 聚集的基本原则 229 11.7.2 聚集的基本步骤 229 11.7.3 阿里公共汇总层 230 11.7.4 聚集补充说明 234 第3篇 数据管理篇 第12章 元数据 236 12.1 元数据概述 236 12.1.1 元数据定义 236 12.1.2 元数据价值 237 12.1.3 统一元数据体系建设 238 12.2 元数据应用 239 12.2.1 Data Profile 239 12.2.2 元数据门户 241 12.2.3 应用链路分析 241 12.2.4 数据建模 242 12.2.5 驱动ETL开发 243 第13章 计算管理 245 13.1 系统优化 245 13.1.1 HBO 246 13.1.2 CBO 249 13.2 任务优化 256 13.2.1 Map倾斜 257 13.2.2 Join倾斜 261 13.2.3 Reduce倾斜 269 第14章 存储和成本管理 275 14.1 数据压缩 275 14.2 数据重分布 276 14.3 存储治理项优化 277 14.4 生命周期管理 278 14.4.1 生命周期管理策略 278 14.4.2 通用的生命周期管理矩阵 280 14.5 数据成本计量 283 14.6 数据使用计费 284 第15章 数据质量 285 15.1 数据质量保障原则 285 15.2 数据质量方法概述 287 15.2.1 消费场景知晓 289 15.2.2 数据加工过程卡点校验 292 15.2.3 风险点监控 295 15.2.4 质量衡量 299 第4篇 数据应用篇 第16章 数据应用 304 16.1 生意参谋 305 16.1.1 背景概述 305 16.1.2 功能架构与技术能力 307 16.1.3 商家应用实践 310 16.2 对内数据产品平台 313 16.2.1 定位 313 16.2.2 产品建设历程 314 16.2.3 整体架构介绍 317 附录A 本书插图索引 320 资源截图:
陌佑
百度云
百度云

Hadoop YARN权威指南

资源名称:Hadoop YARN权威指南 内容简介: 《Hadoop YARN权威指南》由YARN的创建和开发团队亲笔撰写,Altiscale的CEO作序鼎力推荐,是使用Hadoop YARN建立分布式、大数据应用的权威指南。书中利用多个实例,详细介绍Hadoop YARN的安装和管理,以帮助用户使用YARN进行应用开发,并在YARN上运行除了MapReduce之外的新框架。 《Hadoop YARN权威指南》共12章,第1章讲述Apache Hadoop YARN产生和发展的历史;第2章讲解在单台机器(工作站、服务器或笔记本电脑)上快速安装Hadoop 2.0;第3章介绍Apache Hadoop YARN资源管理器;第4章简要介绍YARN组件的功能,帮助读者开始深入了解YARN;第5章详细讲解YARN的安装方法,包括一个基于脚本的手动安装,以及使用Apache Ambari基于GUI的安装;第6章讲述对YARN集群的管理,涉及一些基本的YARN管理场景,介绍如何利用Nagios和Ganglia监控集群,论述对JVM的监视,并介绍Ambari的管理界面;第7章深入探究YARN的架构,向读者展示YARN的内部工作原因;第8章深入讨论Capacity调度器;第9章描述基于现有MapReduce的应用程序如何继续工作以及利用YARN的优势;第10章通过创建一个JBoss Application Server集群的过程,讲述如何构建一个YARN应用程序;第11章描述建立在YARN上的典型示例程序distributed shell的使用和内部情况;第12章总结运行在YARN上的新兴开源框架。最后提供6个附录,包括补充内容和代码下载、YARN的安装脚本、YARN管理脚本、Nagios模块、资源及其他信息、HDFS快速参考。 资源目录: 译者序 推荐序一 推荐序二 前 言 第1章 Apache Hadoop YARN:简明历史及基本原理  第2章 Apache Hadoop YARN安装快速入门  第3章 Apache Hadoop YARN的核心概念 第4章 YARN组件的功能概述  第5章 安装Apache Hadoop YARN  第6章 Apache Hadoop YARN的管理 第7章 Apache Hadoop YARN的架构指南 第8章 YARN中的Capacity调度器  第9章 Apache Hadoop YARN下的MapReduce  第10章 Apache Hadoop YARN应用程序范例 第11章 使用Apache Hadoop YARN Distributed-Shell 第12章 Apache Hadoop YARN框架  附录A 补充内容和代码下载 附录B YARN的安装脚本  附录C YARN的管理脚本  附录D Nagios模块  附录E 资源及附加资料  附录F HDFS快速参考  资源截图:
陌佑
百度云
百度云

OpenStack高可用集群(下册):部署与运维

资源名称:OpenStack高可用集群(下册):部署与运维 内容简介: 这是一部从原理、架构、部署、运维4个方面系统、深入讲解如何构建高可用OpenStack集群的著作,在理论和实践两个维度为构建构建高可用OpenStack集群提供了完整的解决方案。本书从OpenStack终端用户的角色出发,以面向生产系统的OpenStack高可用集群建设为主线,对OpenStack高可用集群的原理和架构进行了深入剖析,对部署和运维OpenStack高可用集群所依赖的各个技术栈和核心组件进行了详细讲解。此外,书中还对Ceph和Docker等技术与OpenStack的结合应用进行了详细讲解,尤其是Kolla项目的介绍,是本书的一大技术特色。 资源目录: 序1 序2 序3 序4 前言 架构篇 第1章 云计算架构设计及业务系统高可用2 1.1 企业为何要进行云计算建设2 1.1.1 政策导向与IT发展的必然2 1.1.2 业务导向与IT弹性需求4 1.1.3 技术导向与IT自动化4 1.1.4 成本导向与TCO6 1.2 企业如何决策公有云与私有云8 1.2.1 云计算部署模式对比8 1.2.2 如何决策私有云与公有云10 1.3 云计算架构设计与进阶路线13 1.3.1 云计算生态模型13 1.3.2 云计算架构基本模型15 1.3.3 通用云计算参考架构16 1.3.4 云计算实施进阶路线20 1.4 业务系统高可用性概述22 1.4.1 业务系统高可用性23 1.4.2 业务系统容灾恢复24 1.5 传统IT架构高可用设计26 1.5.1 传统数据中心HADR设计原则26 1.5.2 故障划分与HADR高可用实现27 1.6 云环境下的高可用设计29 1.6.1 云计算HADR架构设计原则30 1.6.2 云计算HADR架构设计实现33 1.7 本章小结36 第2章 OpenStack高可用集群架构概述37 2.1 OpenStack高可用集群功能组件37 2.1.1 集群控制节点38 2.1.2 集群计算节点39 2.1.3 集群存储节点40 2.1.4 集群网络节点41 2.1.5 集群负载均衡器43 2.1.6 集群网络拓扑44 2.2 OpenStack高可用集群服务组件47 2.2.1 认证服务Keystone47 2.2.2 镜像服务Glance50 2.2.3 计算服务Nova52 2.2.4 块存储服务Cinder54 2.2.5 网络服务Neutron57 2.2.6 控制面板Horizon59 2.2.7 其他OpenStack服务60 2.3 Redhat OpenStack高可用部署架构63 2.3.1 Redhat OpenStack高可用集群部署架构63 2.3.2 Redhat OpenStack高可用集群服务规划67 2.4 Mirantis OpenStack高可用部署架构71 2.4.1 Mirantis OpenStack高可用集群部署架构72 2.4.2 Mirantis OpenStack自定义高可用集群架构76 2.5 其他厂商OpenStack高可用部署架构介绍及对比分析79 2.5.1 Juniper Networks OpenStack高可用部署方案80 2.5.2 HPE OpenStack高可用部署方案81 2.5.3 TCP Cloud OpenStack高可用部署方案83 2.5.4 Paypal OpenStack高可用部署方案84 2.5.5 Oracle OpenStack高可用部署方案87 2.5.6 OpenStack高可用部署方案对比分析87 2.6 本章小结89 原理篇 第3章 集群资源管理系统92 3.1 Pacemaker概述93 3.2 Pacemaker集群分类95 3.3 Pacemaker集群架构97 3.4 Pacemaker内部组件98 3.5 Pacemaker集群配置信息管理99 3.5.1 Pacemaker集群状态信息100 3.5.2 Pacemaker集群配置信息101 3.6 Pacemaker集群管理工具PCS108 3.6.1 PCS命令行工具108 3.6.2 PCS用户接口界面110 3.7 Pacemaker集群资源管理113 3.7.1 集群资源代理113 3.7.2 集群资源约束118 3.7.3 集群资源类型120 3.7.4 集群资源规则124 3.8 本章小结126 第4章 集群负载均衡系统127 4.1 Keepalived概述与配置128 4.1.1 Keepalived及LVS概述128 4.1.2 Keepalived工作原理133 4.1.3 Keepalived调度算法136 4.1.4 Keepalived路由方式137 4.1.5 Keepalived配置与使用138 4.2 HAProxy概述与配置144 4.2.1 HAProxy概述144 4.2.2 HAProxy配置146 4.2.3 HAProxy监控页面151 4.2.4 HAProxy配置参考154 4.3 本章小结158 第5章 集群消息队列系统159 5.1 AMQP概述160 5.2 RabbitMQ概述161 5.3 RabbitMQ工作原理167 5.4 RabbitMQ基本配置169 5.5 RabbitMQ集群基础170 5.5.1 RabbitMQ集群概述170 5.5.2 RabbitMQ的集群配置171 5.6 RabbitMQ集群管理174 5.6.1 RabbitMQ集群节点启停174 5.6.2 RabbitMQ的集群节点移除175 5.7 RabbitMQ的集群队列镜像177 5.8 基于Pacemaker的高可用Rabbit-MQ集群181 5.8.1 Active/Passive模式的Rabbit-MQ集群181 5.8.2 Active/Active模式的Rabbit-MQ集群182 5.9 RabbitMQ在OpenStack中的应用分析187 5.10 本章小结192 第6章 集群缓存系统193 6.1 Memcache缓存系统193 6.1.1 Memcache缓存概述193 6.1.2 Memcache的工作原理194 6.1.3 Memcache的功能特点196 6.1.4 Memcache集群概述197 6.1.5 Memcache集群高可用201 6.2 Redis缓存系统204 6.2.1 Redis缓存概述204 6.2.2 Redis数据交换205 6.2.3 Redis数据持久化206 6.2.4 Redis数据高可用207 6.2.5 Redis高可用配置209 6.2.6 Redis集群概述216 6.2.7 Redis在OpenStack中的应用218 6.3 本章小结219 第7章 集群数据库系统221 7.1 关系型数据库—MariaDB221 7.1.1 MySQL概述221 7.1.2 MariaDB概述224 7.1.3 MariaDB安装配置225 7.1.4 MariaDB高可用方案233 7.1.5 MariaDB Galera Cluster概述236 7.1.6 MariaDB Galera Cluster配置239 7.2 非关系型数据库—MongoDB249 7.2.1 NoSQL概述249 7.2.2 MongoDB概述251 7.2.3 MongoDB安装配置254 7.2.4 MongoDB Replica Set概述258 7.2.5 MongoDB Replica Set部署260 7.3 本章小结265 第8章 OpenStack计算服务267 8.1 OpenStack项目概述267 8.1.1 OpenStack项目概要267 8.1.2 OpenStack版 资源截图:
陌佑
百度云
百度云

数据科学与大数据分析

资源名称:数据科学与大数据分析 内容简介: 数据科学与大数据分析在当前是炙手可热的概念,关注的是如何通过分析海量数据来洞悉隐藏于数据背后的见解。本书是数据科学领域为数不多的实用性技术图书,它通过详细剖析数据分析生命周期的各个阶段来讲解用于发现、分析、可视化、表示数据的相关方法和技术。《数据科学与大数据分析——数据的发现 分析 可视化与表示》总共分为12章,主要内容包括大数据分析的简单介绍,数据分析生命周期的各个阶段,使用R语言进行基本的数据分析,以及高级的分析理论和方法,主要涉及数据的聚类、关联规则、回归、分类、时间序列分析、文本分析等方法。此外,本书还涵盖了用来进行高级数据分析所使用的技术和工具,比如MapReduce和Hadoop、数据库内分析等。《数据科学与大数据分析——数据的发现 分析 可视化与表示》内容详细,示例丰富,侧重于理论与练习的结合,因此比较适合对大数据分析、数据科学感兴趣的人员阅读,有志于成为数据科学家的读者也可以从本书中获益。 资源目录: 第1章 大数据分析介绍 1 1.1 大数据概述 2 1.1.1 数据结构 4 1.1.2 数据存储的分析视角 9 1.2 分析的实践状态 10 1.2.1 商业智能 VS 数据科学 11 1.2.2 当前分析架构 12 1.2.3 大数据的驱动力 14 1.2.4 新的大数据生态系统和新的分析方法 15 1.3 新的大数据生态系统中的关键角色 17 1.4 大数据分析案例 20 1.5 总结 21 1.6 练习 21 参考书目 21 第2章 数据分析生命周期 23 2.1 数据分析生命周期概述 24 2.1.1 一个成功分析项目的关键角色 24 2.1.2 数据分析生命周期的背景和概述 26 2.2 第1阶段:发现 28 2.2.1 学习业务领域 29 2.2.2 资源 29 2.2.3 设定问题 30 2.2.4 确定关键利益相关者 30 2.2.5 采访分析发起人 31 2.2.6 形成初始假设 32 2.2.7 明确潜在数据源 32 2.3 第2阶段:数据准备 33 2.3.1 准备分析沙箱 34 2.3.2 执行ETLT 35 2.3.3 研究数据 36 2.3.4 数据治理 37 2.3.5 调查和可视化 37 2.3.6 数据准备阶段的常用工具 38 2.4 第3阶段:模型规划 39 2.4.1 数据探索和变量选择 40 2.4.2 模型的选择 41 2.4.3 模型设计阶段的常用工具 42 2.5 第4阶段:模型建立 42 2.5.1 模型构建阶段中的常用工具 44 2.6 第5阶段:沟通结果 45 2.7 第6阶段:实施 46 2.8 案例研究:全球创新网络和分析(GINA) 49 2.8.1 第1阶段:发现 50 2.8.2 第2阶段:数据准备 51 2.8.3 第3阶段:模型规划 51 2.8.4 第4阶段:模型建立 51 2.8.5 第5阶段:沟通结果 53 2.8.6 第6阶段:实施 54 2.9 总结 55 2.10 练习 55 参考书目 55 第3章 使用R进行基本数据分析 57 第4章 高级分析理论与方法:聚类 107 第5章 高级分析理论与方法:关联规则 124 第6章 高级分析理论与方法:回归 147 第7章 高级分析理论与方法:分类 175 第8章 高级分析理论与方法:时间序列分析 212 第9章 高级分析理论与方法:文本分析 232 第10章 高级分析技术与工具:MapReduce和Hadoop 267 第11章 高级分析技术与工具:数据库内分析 297 第12章 结尾 324 资源截图:
陌佑
百度云
百度云
⬅️ 1...20452046204720482049...3148

添加微信,反馈问题

微信及时反馈问题,方便沟通,请备注 ❤️

搜索榜单

1

骚老板资源网整站源码 打包数据高达2GB

1686

2

绿色风格网络公司源码 php网络建站公司源码

1092

3

(自适应手机版)响应式餐饮美食企业网站源码 餐饮品牌连锁机构织梦模板

1049

4

雷速问卷调查系统(疫情上报系统) v7.08

936

5

Zblog仿918回忆模特写真网带整站数据图库系统源码

894

6

一款笑话类网站源码 简约清爽的织梦笑话网站模板

819

最新资源

1

网狐电玩系列/乐游电玩城/免微信免短信登陆

2

湖南地方玩法好玩互娱纯源码

3

最新更新网狐旗舰大联盟+UI工程

4

傲玩系列客户端通用加解密工具

5

优米H5电玩城组件/多语言/带84个游戏/后台带控+搭建视频教程

6

网狐系列猫娱乐新UI蜡笔小新金币组件

友情链接:
免费APISSL在线检测在线pingAPI版本项目seo教程免费下载狗凯源码网 查看更多
网站地图 法律声明
本站所存储的源码数据均为转载,不提供在线播放和下载服务。本站为非盈利性,不收取费用,所有内容不用于商业行为,仅供学习交流使用。如有侵权,请联系15001904@qq.com
  • 联系微信,反馈问题

  • 点此立刻反馈