SQL on Hadoop 小象学院

碎石路

课程名称及简介：全面介绍Hadoop上的SQL实现，侧重实践和应用，滚动开课，随到随学。《SQL on Hadoop》：本课程面向数据仓库管理人员、建模人员，分析人员和应用开发人员如何使用基于Hadoop平台做数据处理、挖掘分析、查询访问等，通过实例学习MapReduce编程，Hive编程，基于Hive 的ETL流程，Hive SQL/UDF，Impala架构，Impala体系架构与计划生成、执行，性能优化，通过实战案列详解使用SQL on Hadoop构建数据开放平台及在实践遇到的各种“坑”和解决方法。授课对象：
Hadoop高级、具有一定Hadoop系统使用经验系统架构师、系统分析师、高级程序员、资深开发人员。牵涉到大数据处理的数据中心运行、规划、设计负责人。政府机关，金融保险、移动和互联网等大数据来源单位的负责人。高校、科研院所牵涉到大数据与分布式数据处理的项目负责人。数据仓库管理人员、建模人员，分析人员和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员。

课程大纲：为什么非要把SQL放到Hadoop上？SQL易于使用。
那为什么非得基于Hadoop呢？the robust and scalable architecture of Hadoop。
第一周：互联网数据仓库与商务智能体系架构、数据生产流程、Hadoop生态系统基本现状
Hadoop/Hive/Impala/Flume/Oozie/Sqoop/HBase等基本组件MapReduce编程模型与Tez编程模型比较MapReduce实现wordcount与Tez实现orderwordcount实例日志压缩存储格式，压缩比，解压效率比较与选型参考ORCFile和Parquet列存储格式及优缺点Impala与MPP架构一个SQL怎么解析成Impala执行计划（PlanFragment）并分布式执行的HDFS为了支持实时计算做的优化和改进（例如HDFS caching）Impala支持的SQL标准及未来发展趋势

第二周：MapReduce编程基础，Hive编程基础（本节以实例为主）

基本的MapReduce编程模型范例（summarization/filter/topN/partition/sort/shuffle/join/group等）基于Hadoop的统一元数据管理HCatalog及其使用实例基于HCatalog的MapReduce程序实例MapReduce与Tez的区别使用MapReduce实现Join和Group by使用MapReduce和Tez实现同一个SQL语句

第三周：日志收集与压缩存储，基于Hive的ETL流程

如何给日志建表，日志表该如何分区Fact/dim/summary/topic等数据仓库上层表的逻辑原生日志/上层表的压缩方法（bzip2/gzip/lzo/Snappy）选型，对应的HDFS存储格式（Text/SequenceFile/Parquet/ORCFile/Avro）选型ORCFile的原理、存储格式，以及dictionary encoding, bit packing, delta encoding, run-length encoding等压缩，以及Predicate Pushdown优化一个典型的ETL流程实例解析

第四周：Hive SQL解析与性能优化，Hive UDF

一个SQL解析成MapReduce Job并执行的过程Hive Join的三种实现方式与适用场景基于ORCFile的列存储格式的性能优化实例Hive SQL中的一些经验：distributed by比order by提供局部有序的结果但是速度更快；使用distinct还是group by哪个去重更快；Hive SQL中的一些坑如何写Hive UDF

第五周：Impala体系架构与计划生成、执行

Impala的体系架构（impalad/statestored/catalogd）Impala支持的数据类型，SQL命令，内置函数，查询接口一个SQL解析成Impala执行计划（PlanFragment）并执行的过程Impala对几种主要的SQL查询模式（Select/Filter/Join/Aggregation）的性能

第六周：Impala性能优化，Parquet列式存储，分布式JOIN的实现

分布式Join的实现和优化使用Table Statistics/Column Statistics/Explain/Profile命令用于系统的performance tuning优化Impala参数配置（例如 -mem_limits）Parquet列式存储格式原理、存储格式和性能优化实例分析Parquet实现类似Dremel的嵌套数据类型及其使用方法

第七周：使用SQL on Hadoop构建数据开放平台

Hadoop基本的安全机制Hadoop在文件层次，Hive/Impala在列层次的安全认证和权限管理几种典型的业务场景下的性能测试Hive/Impala的查询接口(JDBC/Python/beeline/beeswax/hue)HiveServer2使用Cloudera Manager和hue搭建数据开放平台

第八周：典型案例分析

其他开源产品Spark/Shark,Presto,Phoenix和商用解决方案Hawq/Greenplum,Redshift的在不同业务场景下的对比分析基于Hive的ETL系统中可能遇到的一些坑基于Impala搭建实时查询系统可能遇到的一些坑

百度云盘下载地址

本帖隐藏的内容

：http://pan.baidu.com/s/1qWnyLbu 密码：
0n68 解压密码：www.lthack.com

展开全文

SQL on Hadoop 小象学院

本帖隐藏的内容

评论