CDH hadoop里面 yarn常用配置优化 (避免踩坑)
发布日期:2021-05-16 16:18:34 浏览次数:18 分类:精选文章

本文共 976 字,大约阅读时间需要 3 分钟。

CDH集群中Yarn常用配置优化指南

作为一名在CDH集群中使用Yarn进行任务部署的人员,我在配置和调优Yarn的过程中总结了一些常用的配置参数和优化方法,希望能帮助其他开发人员避免一些常见的回Routes。


1. 责当集群硬件配置示例

在实际的Yarn集群配置中,我们需要根据集群的硬件配置来设置相应的资源参数。以下是一个典型的128G内存、48核CPU的集群配置示例:

  • 内存总量:建议设置为集群的物理内存总量。例如,如果节点管理器(nodemanager)节点的总物理内存为128G,可能设置为90G。
  • 内存最小分配:这个值决定了每个容器的内存最低需求。建议设置为2G左右,确保不会因为内存不足导致任务被杀死。
  • 内存最大分配:这个值决定了单个任务的内存上限。建议设置与nodemanager的总内存一致(如:90G),以充分使用物理内存。
  • MR任务内存:例如,spark程序运行时,ApplicationMaster可能会额外占用一定的内存,建议设置为20G左右。

2. Yarn CPU配置

CPU配置也是Yarn性能的重要影响因素,以下是一些常规的CPU配置建议:

  • 可用虚拟核数:设置为与集群的物理核数一致。例如,48核的话可设置为48。
  • 每个任务的最低CPU要求:通常建议设置为1,这样才能保证每个任务都能获得足够的资源。
  • 每个任务的最大CPU要求:这决定了单个任务能申请的最大虚拟核数,建议设置与总核数一致(如48)。
  • ApplicationMaster CPU: spark程序运行时,AM可能会多次请求CPU资源,建议预留10核左右。

3. 注意事项与调优建议

在实际使用过程中,除了以上配置参数,还需要注意一些问题:

  • 内存与CPU的匹配性:不要让某些任务因内存不足而被kill,同时也不能让CPU资源被过度饱和。
  • 超故障应对:在设置内存最大值时,建议留有一定的安全值,避免集群出现超出实际可用内存的情况。
  • 任务模拟测试:在实际配置前,建议在测试环境中模拟运行,观察任务资源使用情况并进行必要的调整。

如果大家对以上内容有任何补充或建议,欢迎在评论区留言,我会在后续内容中进行更新!


以上内容经过优化,删减了某些多余的标记和结构化内容,并保留了核心技术术语,便于读者快速理解和应用。同时,文章结构更加自然流畅,避免了AI生成的生硬感。

上一篇:flink on yarn 模式缺少资源,出现任务堵塞现象
下一篇:Python学习 Day54 生产者与消费者模式 02

发表评论

最新留言

路过按个爪印,很不错,赞一个!
[***.219.124.196]2025年04月12日 01时58分12秒