hive数据倾斜优化sql优化(hive join数据倾斜优化) 大数据 2025-03-01 23:12:14 编辑 考高分 取消关注 关注 私信 遇到一个很奇怪的问题,各种分析验证后发现是以下原因: 在使用了下列三个参数后跑一段hql,数据为空 SET hive.map.aggr = true; — 默认开启,确保在Map端预聚合 SET hive.groupby.skewindata = true; — 生成两阶段MR任务,先随机分发再聚合 SET hive.optimize.skewjoin = true; — 开启倾斜JOIN优化 去掉之后,数据生成生成! 百思不得其解,是这三个参数有什么bug吗?还是数据自身不适合这三个参数?这三个参数还是有特定数据分布适用呢? 参数数据