hive数据倾斜优化sql优化(hive join数据倾斜优化)

遇到一个很奇怪的问题,各种分析验证后发现是以下原因:

在使用了下列三个参数后跑一段hql,数据为空

SET hive.map.aggr = true; — 默认开启,确保在Map端预聚合

SET hive.groupby.skewindata = true; — 生成两阶段MR任务,先随机分发再聚合

SET hive.optimize.skewjoin = true; — 开启倾斜JOIN优化

去掉之后,数据生成生成!

百思不得其解,是这三个参数有什么bug吗?还是数据自身不适合这三个参数?这三个参数还是有特定数据分布适用呢?

 

 

大数据

Linux 服務器上安裝和配置 ELK 堆棧(Elasticsearch、Logstash 和 Kibana)

2025-3-1 23:12:13

大数据

知识库官网(知识库搜索引擎用的什么技术)

2025-3-1 23:12:15

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧