谈笑间学会大数据-Hive调优策略-白红宇的个人博客

发布日期：2021-05-15 07:12:05 浏览次数：19 分类：精选文章

本文共 1900 字，大约阅读时间需要 6 分钟。

谈笑间学会大数据-Hive调优策略

Hive作为一种灵活的数据处理工具，广泛应用于大数据分析领域但在高级使用中，认知其内部执行机制是提升使用效率的关键。理解Hive背后的查询执行计划，可以帮助开发者制定针对性的优化策略，以适应复杂的业务需求。

解析Hive查询执行计划

Hive将用户的每一条查询转化为一系列MapReduce任务，这些任务通过阶段（stage）进行组成。不同阶段之间存在依赖关系，例如Map阶段处理数据，GroupBy阶段进行数据聚合，Reduce阶段汇总结果，最后by阶段将输出结果存储到层级存储。通过使用explain命令，开发者可以深入了解查询执行的具体流程。

举例来说，执行命令explain select sum(age) as age_sum from stu;生成如下执行计划：

Stage-0：负责 FETCH 操作，这里 fetch 返回所有记录。

Stage-1：
- TableScan：读取表记录。
- Select Operator：将age字段进行筛选。
- GroupBy Operator：根据age字段进行分组，并执行sum函数。
- Reduce Output Operator：将分组后的结果进行汇总。

File Output Operator：将结果写出指定文件。

这种分阶段执行方式优化了处理大数据量的效率，但阶段间操作增加了中间环节的处理时间。

限制处理优化

Limit语句虽然常用，但也存在资源浪费的问题。Hive提供了优化属性hive.limit.optimize.enable，当设置为三率后，其它属性如hive.limit.row.max.size和hive.limit.optimize.limit.file可控制数据抽样>.

配置示例：

property name="hive.limit.row.max.size" value="100000" />
property name="hive.limit.optimize.limit.file" value="10" />

这一特性在小数据处理中的行大多数情况下优于精确处理，但需要谨慎处理复杂操作的数据，避免结果偏差。

大表与小表Join优化

对于小表与大表的Join操作，建议将小表加载到内存中，执行map-side Join。这可以减少Reduce阶段的负担，提升整体效率。

本地模式优化

本地模式通过将任务卸载到单台机器上，以本地磁盘处理数据，节省Hadoop集群上的资源。可以通过以下命令临时启用本地模式：

set mapred.job.tracker=local;

设置hive.exec.mode.local.auto为true可实现自动切换。

并行执行增强

默认情况下Hive只能执行单阶段任务，通过设置hive.exec.parallel开启并发执行，可以提升处理效率。因此，该属性值应设为true，但需注意集群资源的分配。

严格模式下的安全控制

严格模式通过Urlola og特定限制使用，防止不必要的资源浪费和潜在风险。

分区表过滤：必须在WHERE子句中包含过滤条件。

排序查询需：必须添加LIMIT语句。

笛卡尔积禁止：需使用ON子句替代JOIN。

通过这些设置，确保查询安全执行，避免意外风险。

调整Mapper和Reducer数量

Hive根据数据量和操作类型自定Mapper/Reducer数量，默认设置在3个水平。可以通过mapred.reduce.tasks固定值，或俣基于属性hive.exec.reducers.bytes.per.reducer调整减量数，为具体任务量化分析。

JVM重用优化

Hadoop默认使用派生JVM，频繁新建JVM已耗费过多资源。通过设置mapred.job.reuse.jvm.num.tasks值，可优化资源利用。推荐保留为10级别以间接提升效率。

索引优化

Hive自v0.8.0起支持Bitmap索引，适用于常规值重码率的字段进行快速定位，提升查询效率。

多个Group by优化

当查询包含多Group by操作时，可通过hive.exec.rowoffset设置为true，将多个Group by合并为一个MapReduce任务，优化资源利用。

总结

通过合理运用explain工具，配置合适的Hive属性，优化查询结构，选择适合的优化策略，可有效提升Hive处理能力。在不同任务中灵活应用这些策略，确保既满足性能需求，又控制资源消耗。这个流程值得在实际应用中进行调整和优化，根据具体场景进行合理的tune。

上一篇：Spark用DataFrame取代RDD以提高性能???

下一篇：Mac 使用Eclipse老是闪退解决方案

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！