Hadoop之核心调度Yarn Part One-白红宇的个人博客

Hadoop之核心调度Yarn Part One

发布日期：2021-05-08 18:47:13 浏览次数：27 分类：精选文章

本文共 1650 字，大约阅读时间需要 5 分钟。

今天讲一讲Hadoop的核心调度器Yarn，基于Yarn可以做各种资源的调度，比如：GPU、CPU、Memory、任务的进程分配（容器）等等。

首先讲讲：YRAN核心架构

ResourceManager(RM)：全局的资源管理器，负责整个系统的资源管理和分配

NodeManager(NM)：每个节点上的资源和任务管理器，定时向RM汇报本节点上的资源使用情况和各个Container的运行状态，接收并处理来自AM的Container启动/停止等各种请求

ApplicationMaster(AM)：用户提交的每个应用程序均包含一个AM，主要功能与RM调度器协商以获取资源，进一步分配给内部的任务，与NM通信启动/停止任务，监控任务的运行状态 Container：是YARN中资源的抽象，封装了某个节点上的多维度资源，如Memory、CPU、GPU等。当AM向RM申请资源时，RM为AM返回的资源便是用Container表示的。

如下图：

YARN 作业执行流程：

1、用户向YARN提交应用程序，其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。

2、ResourceManager 为该应用程序分配第一个Container，并与对应的NodeManager通信，要求它在整个Container中启动应用程序的ApplicationMaster。

3、ApplicationMaster首先向ResourceManager注册，这样用户可以直接通过ResourceManager查看应用程序的运行状态，然后它将为各个任务申请资源，并监控它的运行状态，直到运行结束，即重复步骤4~7。

4、ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。

5、一旦 ApplicationMaster申请到资源后，则与对应的NodeManager通信，要求其启动任务。

6、NodeManager 为任务设置好运行环境（包括环境变量、JAR 包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务。

7、各个任务通过某个 RPC 协议向ApplicationMaster汇报自己的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务，AM监视运行状态。

8、应用程序运行完成后，ApplicationMaster向ResourceManager注销并关闭自己。

资源请求与分配过程：

整体流程：

下面我们来看资源分配的模型：

资源分配流程：

1. 选择队列

从根队列开始，使用深度优先遍历算法，从根队列开始，依次遍历子队列找出资源使用率最小的子队列。若子队列为叶子队列，则选择该队列，从而进行step2、step3；若子队列为非叶子队列，则以该子队列为根队列重复前面的过程直到找到一个资源使用率最小的叶子队列为止。

2. 选择应用程序

在Step1中选好了叶子队列后，取该队列中最早提交的应用程序（实际排序时用的 Application ID，提交时间越早的应用程序，Application ID 越小）。

3. 选择 Container

在 Step2中选好应用程序之后，对于同一个应用程序，它请求的Container可能是多样化的，涉及不同的优先级、节点、资源量和数量。当选中一个应用程序后，Capacity Scheduler将尝试优先满足优先级高的Container。对于同一类优先级，优先选择满足本地性的Container，它会依次选择node local、rack local和no local的Container。

其中资源使用率结合DominantResourceCalculator，采用了 DRF 比较算法，同时考虑Memory和 cpu 两种资源。