资源名称:大数据真实案列分析《HadoopSpark企业应用实战》11月份班 教程内容: 授 课 对 象 商业智能(BI)和企业数据仓库(EDW)的管理人员、建模人员、分析和开发人员、系统管理员等; 有意将Hadoop生态系统中的组件,作为现有EDW的补充,或未来替代产品的项目负责人及开发人员; 企业中牵涉到大数据处理的数据中心运行、规划、设计负责人; Hadoop企业级应用、整合项目的成员、负责人、开发人员 熟悉Hadoop生态系统,想了解和学习Hadoop与Spark整合在企业应用实战案例的朋友。 课 程 大 纲 本课程会介绍 Hadoop / Spark 各组件的架构,但不会涉及任何安装的内容,安装的教程、录像视频什么的网上到处都是,讲安装太浪费时间~ Hadoop/Spark环境的安装请大家自行解决,建议用Cloudera CDH或者Hortonworks HDP 本课程目标是:给大家分享一些在网上不能随便就搜到的内容和窍门,展示企业线上生产系统中应用 Hadoop、Spark 的成功案例,以及与现有企业BI平台整合的方案 第一周:企业级Hadoop/Spark应用概述,Hadoop/Spark生态系统与现有企业级应用的整合 企业级集群部署、数据管理、任务调度、集群监控 Hadoop架构介绍、Spark / Shark 介绍 Spark与Hadoop的关系 现有Hadoop架构的种种问题和限制 企业数据仓库的选型,Hadoop世界与EDW世界中的TPC(TPC DS与TPC H) Hadoop世界中的DBA 成本考量 —— 人?物?物是人非…… 第二周:Hadoop Eco System 进阶应用基础知识 HDFS / MapReduce / Yarn / Hive / Impala / Oozie 进阶应用、资源分配及调优 玩转Hive ETL高级应用:权限管理、external table、partition、中文支持、HiveServer2 JDBC接口 Hive的Windowing and Analytics Functions Hive 0.13的新功能 Impala与Hive对比,各种Hints:Hive的Map Join,Impala的SHUFFLE Join(partitioned join) 第三周:进阶应用实例 — 物流/广告/电商/零售/互联网行业Hadoop大数据应用 企业级应用实例1:物流行业 — 订单跟踪 —〉 Hive通过external table、partition、动态partition与NFS结合使用创建数据表,避免LOAD DATA —〉 Hive和Impala的Join优化Hints,MapJoin、Shuffle Join 实例 企业级应用实例2:广告行业 — 基于用户行为分析的用户归类标签 (客户画像) —〉 Hive复合数据类型array —〉 array与collect_set、collect_list、array_contains、sort_array —〉 impala的group_concat —〉 array与lateral view、LATERAL VIEW OUTER 企业级应用实例3:电商/零售行业 — 简单的推荐系统 Recommender System 实现 (基于用户标签/客户画像) —〉 Hive复合数据类型map、str_to_map、map_keys、map_values,map与lateral view —〉 通过Hive、Impala转换函数进行数据保护,确保企业应用信息安全(通过translate进行简单数据脱敏Data Masking —〉 HiveServer2 JDBC接口实例应用、中文支持Bug纠错 —〉 Hive的窗口和分析函数入门(row_number、rank、dense_rank等) 企业级应用实例4:互联网行业 — 访问量业绩报表 —〉 Hive的窗口和分析函数进阶(NTILE、CUME_DIST、PERCENT_RANK、LEAD、LAG、FIRST_VALUE、LAST_VALUE等) —〉 ROWS BETWEEN ... AND ... (CURRENT ROW,rows PRECEDING,rows FOLLOWING) 本周总结 —— 物流/广告/电商/零售/互联网行业Hadoop企业级大数据应用方案经验教训总结 第四周:Hadoop & Spark / Shark 进阶应用基础知识 HBase / ZooKeeper / Sqoop / Graphite / Ganglia 进阶应用及调优,Spark / Spark SQL / Shark 简介 HBase Shell 与 HBase REST API 应用 HBase的Region进阶应用Compact、Split与Merge HBase进阶脚本应用:jruby script HBase与Hive的整合高级应用:binary(byte) value,lateral view explode Hive 0.13:posexplode+ Spark / Spark SQL / Shark 架构介绍、Spark Scala / Python 开发介绍 第五周:进阶应用实例 — Hadoop/Spark平台企业级开发框架 Hadoop生态系统中为企业级开发提供的测试框架应用实例 Spark实现“物流行业 — 订单跟踪 SLA”的实例,Scala语言及Python语言实现,Spark SQL + Parquet文件实现,Spark Scala Maven项目实例 HBase开发实例:REST API使用、JRuby脚本编写、Region进阶应用 与Continuous Integration系统整合的可能 —— 软件/互联网行业Hadoop企业级开发框架 第六周:Hadoop & Spark / Shark 企业级应用整合 HBase与Hive整合的大坑 HBase Python 客户端 happybase 使用介绍、编程实例 HBase Coprocessor与HBase + Hive 特征特点比较、分别适用的场景 企业中应用 HBase,Hive,Impala,Spark / Shark 的注意事项,资源分配方案 Hadoop与现有企业级BI平台的整合 Pentaho PDI / Kettle Oracle or In-Memory Database MicroStrategy / Tableau 第七周:进阶应用实例 — Hadoop / Spark 企业级大数据BI应用整合 互联网行业时间序列(time series data)数据处理实例 —— 整合 HBase 与 Hive:增量数据与全量数据,冷数据与热数据分治 互联网行业时间序列(time series data)数据处理实例 —— 整合 Spark 与 HBase Spark 访问 HBase 数据实例:通过 Spark 对 HBase 表进行 scan,Scala语言处理 HBase 返回值 Result 类中 KeyValue 对象的 ByteBuffer / ByteArray 通过 Kettle / Spoon 工具整合Hadoop与现有RDBMS的企业级BI解决方案 其它整合Hadoop与RDBMS构建企业级BI应用平台的可能(如使用PostgreSQL FDW,使用Presto的JDBC connector等) —— 互联网行业Hadoop企业级大数据BI应用整合方案 第八周:总结与展望 企业级大数据应用总结 构建企业大数据团队探讨 Hadoop方面工作面试秘籍:应用开发方向、数据分析方向、技术架构方向、团队带头人 现有几大Hadoop平台比较:Cloudera CDH,Hortonworks HDP,MapR Hadoop大数据还能干什么?通过Spark整合Streaming与Batch processing? 金融 / 工业 / 能源 / 智慧城市 / 医疗行业 / Smart Data 德国汽车、新能源行业的大数据创新项目分享 德国医疗行业大数据应用现状 Hadoop大数据企业应用面临的问题)
资源名称:大数据真实案列分析《HadoopSpark企业应用实战》11月份班 教程内容: 授 课 对 象 商业智能(BI)和企业数据仓库(EDW)的管理人员、建模人员、分析和开发人员、系统管理员等; 有意将Hadoop生态系统中的组件,作为现有EDW的补充,或未来替代产品的项目负责人及开发人员; 企业中牵涉到大数据处理的数据中心运行、规划、设计负责人; Hadoop企业级应用、整合项目的成员、负责人、开发人员 熟悉Hadoop生态系统,想了解和学习Hadoop与Spark整合在企业应用实战案例的朋友。 课 程 大 纲 本课程会介绍 Hadoop / Spark 各组件的架构,但不会涉及任何安装的内容,安装的教程、录像视频什么的网上到处都是,讲安装太浪费时间~ Hadoop/Spark环境的安装请大家自行解决,建议用Cloudera CDH或者Hortonworks HDP 本课程目标是:给大家分享一些在网上不能随便就搜到的内容和窍门,展示企业线上生产系统中应用 Hadoop、Spark 的成功案例,以及与现有企业BI平台整合的方案 第一周:企业级Hadoop/Spark应用概述,Hadoop/Spark生态系统与现有企业级应用的整合 企业级集群部署、数据管理、任务调度、集群监控 Hadoop架构介绍、Spark / Shark 介绍 Spark与Hadoop的关系 现有Hadoop架构的种种问题和限制 企业数据仓库的选型,Hadoop世界与EDW世界中的TPC(TPC DS与TPC H) Hadoop世界中的DBA 成本考量 —— 人?物?物是人非…… 第二周:Hadoop Eco System 进阶应用基础知识 HDFS / MapReduce / Yarn / Hive / Impala / Oozie 进阶应用、资源分配及调优 玩转Hive ETL高级应用:权限管理、external table、partition、中文支持、HiveServer2 JDBC接口 Hive的Windowing and Analytics Functions Hive 0.13的新功能 Impala与Hive对比,各种Hints:Hive的Map Join,Impala的SHUFFLE Join(partitioned join) 第三周:进阶应用实例 — 物流/广告/电商/零售/互联网行业Hadoop大数据应用 企业级应用实例1:物流行业 — 订单跟踪 —〉 Hive通过external table、partition、动态partition与NFS结合使用创建数据表,避免LOAD DATA —〉 Hive和Impala的Join优化Hints,MapJoin、Shuffle Join 实例 企业级应用实例2:广告行业 — 基于用户行为分析的用户归类标签 (客户画像) —〉 Hive复合数据类型array —〉 array与collect_set、collect_list、array_contains、sort_array —〉 impala的group_concat —〉 array与lateral view、LATERAL VIEW OUTER 企业级应用实例3:电商/零售行业 — 简单的推荐系统 Recommender System 实现 (基于用户标签/客户画像) —〉 Hive复合数据类型map、str_to_map、map_keys、map_values,map与lateral view —〉 通过Hive、Impala转换函数进行数据保护,确保企业应用信息安全(通过translate进行简单数据脱敏Data Masking —〉 HiveServer2 JDBC接口实例应用、中文支持Bug纠错 —〉 Hive的窗口和分析函数入门(row_number、rank、dense_rank等) 企业级应用实例4:互联网行业 — 访问量业绩报表 —〉 Hive的窗口和分析函数进阶(NTILE、CUME_DIST、PERCENT_RANK、LEAD、LAG、FIRST_VALUE、LAST_VALUE等) —〉 ROWS BETWEEN ... AND ... (CURRENT ROW,rows PRECEDING,rows FOLLOWING) 本周总结 —— 物流/广告/电商/零售/互联网行业Hadoop企业级大数据应用方案经验教训总结 第四周:Hadoop & Spark / Shark 进阶应用基础知识 HBase / ZooKeeper / Sqoop / Graphite / Ganglia 进阶应用及调优,Spark / Spark SQL / Shark 简介 HBase Shell 与 HBase REST API 应用 HBase的Region进阶应用Compact、Split与Merge HBase进阶脚本应用:jruby script HBase与Hive的整合高级应用:binary(byte) value,lateral view explode Hive 0.13:posexplode+ Spark / Spark SQL / Shark 架构介绍、Spark Scala / Python 开发介绍 第五周:进阶应用实例 — Hadoop/Spark平台企业级开发框架 Hadoop生态系统中为企业级开发提供的测试框架应用实例 Spark实现“物流行业 — 订单跟踪 SLA”的实例,Scala语言及Python语言实现,Spark SQL + Parquet文件实现,Spark Scala Maven项目实例 HBase开发实例:REST API使用、JRuby脚本编写、Region进阶应用 与Continuous Integration系统整合的可能 —— 软件/互联网行业Hadoop企业级开发框架 第六周:Hadoop & Spark / Shark 企业级应用整合 HBase与Hive整合的大坑 HBase Python 客户端 happybase 使用介绍、编程实例 HBase Coprocessor与HBase + Hive 特征特点比较、分别适用的场景 企业中应用 HBase,Hive,Impala,Spark / Shark 的注意事项,资源分配方案 Hadoop与现有企业级BI平台的整合 Pentaho PDI / Kettle Oracle or In-Memory Database MicroStrategy / Tableau 第七周:进阶应用实例 — Hadoop / Spark 企业级大数据BI应用整合 互联网行业时间序列(time series data)数据处理实例 —— 整合 HBase 与 Hive:增量数据与全量数据,冷数据与热数据分治 互联网行业时间序列(time series data)数据处理实例 —— 整合 Spark 与 HBase Spark 访问 HBase 数据实例:通过 Spark 对 HBase 表进行 scan,Scala语言处理 HBase 返回值 Result 类中 KeyValue 对象的 ByteBuffer / ByteArray 通过 Kettle / Spoon 工具整合Hadoop与现有RDBMS的企业级BI解决方案 其它整合Hadoop与RDBMS构建企业级BI应用平台的可能(如使用PostgreSQL FDW,使用Presto的JDBC connector等) —— 互联网行业Hadoop企业级大数据BI应用整合方案 第八周:总结与展望 企业级大数据应用总结 构建企业大数据团队探讨 Hadoop方面工作面试秘籍:应用开发方向、数据分析方向、技术架构方向、团队带头人 现有几大Hadoop平台比较:Cloudera CDH,Hortonworks HDP,MapR Hadoop大数据还能干什么?通过Spark整合Streaming与Batch processing? 金融 / 工业 / 能源 / 智慧城市 / 医疗行业 / Smart Data 德国汽车、新能源行业的大数据创新项目分享 德国医疗行业大数据应用现状 Hadoop大数据企业应用面临的问题)
历史检测记录
同类资源
10小时入门大数据,轻松掌握Hadoop开发核心技能
Spark Streaming学习实时流处理项目实战
如何用jQuery6小时开发一个前端应用实战演练
Apache Strom+Zookeeper集群技术实战 Strom理论实战没结合视频教程 大数据的支点
MySQL核心技术零基础入门到高级应用实战精讲
大数据核心技术全掌握视频教程
大数据之电商数据仓库开发项目实战视频教程
基于Flume+Kafka+Spark Streaming打造企业大数据流处理平台视频教程
大数据计算引擎Spark零基础入门到精通视频教程
Spark 2.0大型项目实战:移动电商app交互式数据分析平台(大数据高端课程)课程视频教程
添加微信,反馈问题
微信及时反馈问题,方便沟通,请备注 ❤️