Hadoop简介(hadoop技术详解)

1. Hadoop简介

官网:http://hadoop.apache.org

1.1 Hadoop架构

  • Hadoop由三个模块组成:分布式存储HDFS、分布式计算MapReduce、资源调度引擎YARN

1.2 Hadoop历史

  • Hadoop作者Doug Cutting

  • Apache Lucene是一个文本搜索系统库

  • Apache Nutch作为前者的一部分,主要包括web爬虫、全文检索;2003年“谷歌分布式文件系统GFS”论文,2004年开源版本NDFS

  • 2004年“谷歌MapReduce”论文,2005年Nutch开源版MapReduce

2、更多内容:
Hadoop相关

  • HDFS分布式文件系统
  • MR(MapReduce)离线数据处理
  • YARN集群资源管理

Hive相关

  • Hive-01之数仓、架构、数据类型、DDL、内外部表
  • Hive-02之分桶表、数据导入导出、静动态分区、查询、排序、hiveserver2
  • Hive-03之传参、常用函数、explode、lateral view、行专列、列转行、UDF
  • Hive-04之存储格式、SerDe、企业级调优
  • Hive-05之查询 分组、排序、case when、 什么情况下Hive可以避免进行MapReduce
  • Hive-06之函数 聚合Cube、Rollup、窗口函数
  • Hive-07之企业级调优
  • Hive-08之数据仓库之建模、分析
  • Hive-09之主流文件存储格式对比
  • Hive-10之数据倾斜处理办法
大数据

git -学习笔记

2025-3-3 10:15:54

大数据

大数据入门知识点(大数据基础知识概念图片)

2025-3-3 10:15:57

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧