1. Hadoop简介
官网:http://hadoop.apache.org
1.1 Hadoop架构
- Hadoop由三个模块组成:分布式存储HDFS、分布式计算MapReduce、资源调度引擎YARN
1.2 Hadoop历史
-
Hadoop作者Doug Cutting
-
Apache Lucene是一个文本搜索系统库
-
Apache Nutch作为前者的一部分,主要包括web爬虫、全文检索;2003年“谷歌分布式文件系统GFS”论文,2004年开源版本NDFS
-
2004年“谷歌MapReduce”论文,2005年Nutch开源版MapReduce
2、更多内容:
Hadoop相关
- HDFS分布式文件系统
- MR(MapReduce)离线数据处理
- YARN集群资源管理
Hive相关
- Hive-01之数仓、架构、数据类型、DDL、内外部表
- Hive-02之分桶表、数据导入导出、静动态分区、查询、排序、hiveserver2
- Hive-03之传参、常用函数、explode、lateral view、行专列、列转行、UDF
- Hive-04之存储格式、SerDe、企业级调优
- Hive-05之查询 分组、排序、case when、 什么情况下Hive可以避免进行MapReduce
- Hive-06之函数 聚合Cube、Rollup、窗口函数
- Hive-07之企业级调优
- Hive-08之数据仓库之建模、分析
- Hive-09之主流文件存储格式对比
- Hive-10之数据倾斜处理办法