
Hadoop、MapReduce、YARN和Spark的区别与联系
HDFS Federate:实现了名称节点的横向扩展,解决了单点故障问题,支持数据的逻辑分区管理。 YARN资源管理:引入了新的资源管理机制,支持多应用程序及其任务的动态调度。 支持多种计算框架:Hadoop 2.0可以运行包括MapReduce、Spark、Flink等多种计算框架,提供高度的灵活性和可选性。 性能提升:相比Hadoop 1.x,Hadoop 2.0的运行效率和扩展能力得到了显著改善,适用于更大规模的计算任务。 资源统一管理:YARN作为统一的资源管理平台,能够动态分配和管理集群中的计算资源。 任务容器化:通过容器化技术,每个任务独立运行,防止资源争抢和任务依赖。 应用程序集群:将应用程序划分为多个任务集群,实现高效资源利用率。 MapReduce on YARN:将传统的MapReduce模型移至YARN平台,支持横向扩展和高效资源利用。 Spark on YARN:以内存为核心的迭代式计算框架,支持快速迭代模型和大数据量的处理。 Storm on YARN:适用于实时流式计算领域的分布式流处理框架。 Tez on YARN:提供DAG(有向无环图)计算模型,支持复杂的数据流处理场景。 Spark:适合内存密集型迭代计算和DAG处理。 Flink:专注于流式数据处理和实时计算。 Tez:支持复杂的DAG式数据流和敏捷开发模式。
发布日期:2021-05-27 02:54:37
浏览次数:35
分类:精选文章
本文共 1751 字,大约阅读时间需要 5 分钟。
Hadoop与现代分布式计算框架总结
Hadoop的版本演变
Hadoop的发展历程可以划分为两个主要阶段:
Hadoop 1.0:
Hadoop 1.0由HDFS(Hadoop Distributed File System)和MapReduce两大组件构成。HDFS通过一个全局的NameNode和多个DataNode实现分布式存储,支持高扩展性和容错性。而其对应的计算框架MapReduce由JobTracker和TaskTracker组成,负责资源管理和任务调度。Hadoop 2.0:
针对Hadoop 1.0中HDFS的扩展性瓶颈和MapReduce的资源管理不足,Hadoop 2.0进行了重要升级。HDFS实现了横向扩展的支持,引入了Federation机制,允许多个NameNode服务共享存储资源并提供独立的访问权限。同时,MapReduce被全新的资源管理框架YARN(Yet Another Resource Negotiator)取代,YARN将资源调度和应用管理分开, ResourceManager负责集群资源分配,ApplicationMaster专注于单一应用程序的管理。HDFS和MapReduce的关系
HDFS是Hadoop的核心存储系统,提供面向 coaster 分布式的高效存储解决方案。MapReduce作为其对应的计算框架,主要负责负责将大数据处理任务分解为多个并行任务,通过map()
和reduce()
阶段完成并行计算。HDFS的特性使其成为大规模数据分析的理想存储系统,适用于海量数据的分布式处理。
Hadoop 2.0的创新点
Hadoop 2.0的主要改进包括以下几个方面:
Borg/YARN/Mesos等资源管理系统
在企业级分布式计算环境中,资源管理和调度系统是核心技术之一。Borg、YARN和Mesos等系统通过统一管理集群资源,为多种计算框架提供支持。YARN作为Hadoop的子项目,具有良好的扩展性和兼容性,能够支持包括Spark、Tez等多种计算模型。
YARN的设计理念为:
yarn上的计算框架
在YARN资源管理平台下,可以运行多种不同的计算框架:
资源管理与计算框架协同发展
YARN为多种计算框架提供了灵活的资源调度支持,使得各类计算框架可以在同一个集群中高效运行。不同计算模型的优势各有不同,例如:
这种多框架共存的设计理念,使得企业能够根据具体需求选择最合适的计算框架,而无需专门为每种计算模型建立独立的集群。
结论
YARN作为现代分布式计算的统一资源管理平台,为企业级大数据处理提供了强大的支持能力。通过将Hadoop MapReduce、Spark、Flink等多种计算框架整合到YARN平台,企业能够构建高效、灵活的分布式计算生态系统。
发表评论
最新留言
很好
[***.229.124.182]2025年05月03日 07时19分36秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
数据结构——链表(3)
2021-05-15
socket模块和粘包现象
2021-05-15
去了解拉绳位移编码器的影响因素
2021-05-15
无法初始化Winsock2.2处理
2021-05-15
vMotion 操作失败进度卡在14% ,报错: Operation Timed out
2021-05-15
重置UAG Application admin密码
2021-05-15
Horizon Daas租户管理平台扩展分配时报:内部错误
2021-05-15
项目计划甘特图绘制说明
2021-05-15
嵌入式系统试题库(CSU)
2021-05-15
【自考】之信息资源管理(一)
2021-05-15
setup facatory9.0打包详细教程(含静默安装和卸载)
2021-05-15
ionic4 路由跳转传值
2021-05-15
pwn题shellcode收集
2021-05-15
Linux kernel pwn --- CSAW2015 StringIPC
2021-05-15
配置jdk的环境变量
2021-05-15
编译android源代码(aosp)
2021-05-15
IDEA 找不到 Persistence窗口解决办法
2021-05-15
维基百科之AndroidRoot
2021-05-15
C++ Primer Plus读书笔记:循环读取(错误处理)
2021-05-15