一文读懂数据湖 | 凌云时刻-白红宇的个人博客

发布日期：2021-06-30 18:31:05 浏览次数：4 分类：技术文章

本文共 3257 字，大约阅读时间需要 10 分钟。

凌云时刻 · 技术

导读：2011年，数据湖（Data Lake）的概念在福布斯一篇题为《Big Data Requires a big new Architecture》的文章中被首次提及。经过了九个年头的发展，在大数据时代红极一时的数据湖也在理想与现实之间慢慢发生着蜕变，现在，数据湖已经成为海量数据存储与分析的重要承载方式。

作者 | 阿里云存储

来源 | 凌云时刻（微信号：linuxpk）

数据湖面临的挑战与机遇

1. 来自概念上的挑战

Data Lake，“数据湖”的中文翻译已经被越来越多的人所接受。数据湖是以集中方式存储各种类型数据，提供弹性的容量和吞吐能力，能够覆盖广泛的数据源，支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。他能够实现数据分析、机器学习，数据访问和管理等细粒度的授权、审计等功能。数据湖对存取的数据没有数据和格式类型的限制，数据产生后，可以按照数据的原始内容和属性，直接存储到数据湖，无需在数据上传之前对数据进行任何的结构化处理。

数据湖可以存储结构化数据（如关系型数据库中的表），半结构化数据（如CSV、JSON 、XML、日志等），非结构化数据（如电子邮件、文档、PDF等）以及二进制数据（如图形、音频、视频等）。

数据湖涵盖的范围较广，在一些相关功能上与“数据仓库”概念类似，一些企业的管理、决策者也总是混淆两者的区别。

其实，仅仅从产品应用场景上，数据湖、数据仓库就表现出了明显的不同。

首先，数据湖的在功能上可以实现各种类型数据的存储，数据湖中的数据可以是非结构化的、未处理的形态，数据可以在确定需要使用时才会对数据进行对应处理与转换；而数据仓库则通常存放的是经过处理的、结构化的数据，数据存储的Schema在数据存储之前有需要被定义好。

其次，存储到数据湖中的数据通常会按照原始形态直接存储，随着业务和使用场景的发展，会使用不同的计算引擎对已经存储的数据进行分析与处理，数据湖中的数据在一个企业组织中通常会被多个不同应用、系统和部门使用和分析，覆盖的场景广泛并且范围也会动态延展，因此需要提供更多的灵活性以适应快速变化的应用场景。

数据仓库中的数据通常使用场景是在数据收集期间就已经明确，数据仓库通常集中在BI、业务、运营等商业决策相关场景中，数据仓库也可以把已经存在的数据转换到新场景，但在灵活性方面不如数据湖，需要有更多的数据转换时间和开发资源投入。

2. 技术生态的进化

数据湖始于Hadoop对大数据的重新定义之后，2006 年，Hadoop第一次在 IT 领域亮相，承诺通过分布式架构提供以往商用硬件从来没能达到的强大数据存储能力，随后的各发行版本提供了众多开源计算引擎，这些计算引擎中有的操作复杂度高。与此同时，数据量激增、应用场景的丰富导致Hadoop的问题凸显。因此，越来越多的方案开始向数据湖转型，解决靠单一Hadoop所没能解决的问题。

这个过程中，对象存储的发展为数据湖提供了强有力的支撑。

对象存储对于文件数量、存储容量没有限制，极大突破了HDFS（Hadoop分布式文件系统）因为Namenode设计机制无法支撑大量小文件的困境。应用无需对小文件进行合并处理，就可以直接存入对象存储系统，系统的响应能力完全不会因为文件数量的增加有任何降低。

Hadoop产生后的十多年时间内，是移动应用、智能物联网设备高速发展的阶段，HDFS协议的访问特点，使得此类设备都需要通过中间节点实现数据的中转汇聚与转发，对象存储RESTFUL协议的便捷性，让移动应用、智能设备可以在数据产生后，就可以直接上传到存储系统中，可以不再需要任何中间环节。元数据发现与管理是关键能力，对象存储自身的事件机制和与相关Serverless架构的联动，可以在数据产生后，立即生成上传的元数据，并存储到各种元数据管理系统中，支撑后续的数据搜索、查询使用。阿里云对象存储在近几年中已经加入到了Hadoop支持体系中，Hadoop生态的计算引擎可以通过直接或者通过Connector方式（低版本Hadoop）使用对象存储。更多的云原生计算引擎都可以支持对象存储的访问，对于存储在数据湖中的数据的分析与处理提供了更便捷的使用通道。

3. 数据湖的机会点

根据咨询机构的相关报告，在数据湖上新增的与数据分析相关的功能有望得到更大的丰富。

到2021年，将数据湖和数据仓库良好融合的企业，在实际应用中可以支持多30%的业务使用场景。

1）数据存储：存储数据类型多样，可以存储结构化、半结构化、非结构化的各种各样的数据。存储内容的多样性，让数据湖可以覆盖更多类型的系统、终端设备、智能设备产生的数据，让应用场景进一步拓展。

2）数据分析：随着数据来源的丰富和分布化，数据将继续呈现出多样化的特点。与此同时，企业对数据分析功能的依赖也在激增。传统的集中数据存储和预定义Schema已经无法满足业务场景快速变化的需求。数据湖可以有效集中存储各类未经过处理、加工的数据，特别是从各种物联网智能设备捕获的数据。通过数据湖对接的各种计算引擎，可以便捷的对集中存储的数据进行批量计算、机器学习、交互式查询。数据湖对于各种计算生态的良好支持可以和新推出的计算引擎能更快的对接。

3）统一管理：统一和通用的API接口，让数据湖实现了对于数据的统一管理。移动应用、智能设备、Hadoop计算生态、云原生服务都可以通过此通用协议进行直接对接。通过数据湖自建的事件机制能够更轻松的完成元数据采集，结合元数据管理数据服务，提升数据整体管理能力，让数据湖不会成为“数据沼泽”，这样的特点让数据湖得到来自互联网、物联网、金融等众多行业的青睐。

阿里云数据湖产品特点

1. 强大的数据存储引擎

数据湖一个重要目标是将所有企业数据能够集中存储（即使数据存储在多个对象存储中，也可以构建统一的数据湖），以供企业的各类应用在授权下进行访问。结合数据湖的这一设计目标以及元数据管理、自动化数据采集、自动化数据解析和处理等技术来解决各类与应用相关的日志埋点、采集与分析。

阿里云的数据湖底层基于阿里云自研的分布式存储引擎搭建，提供体系化的数据采集能力，支持结构化/半结构化/非结构化数据源。数据湖统一存储，提供了数据的管理能力。冷热分层的存储方式解决了数据分散在各个集群，需要在不同存储系统中反复拷贝等运维困扰。同时，在大数据访问方面更加优化，支持基于Ranger的数据湖权限管理，支持混合云方案，总体成本可降低近50%。

2. 与计算/AI/IOT平台的深入结合

数据存储引擎可以与EMR（Elastic MapReduce）、DLA（Data Lake Analytics）等大数据处理系统对接，实现多种计算引擎都共享同一套存储系统，打破数据孤岛，洞察数据价值。数据湖对存储数据的类型提供了充足的灵活性，没有传统“入仓”的各种限制。数据一产生，就能从对接的数据通道上传到数据湖，根据后续对接的分析需求，再进行数据抽取（extract）、转换（transform）、加载（load），生成所需要的格式数据，生成的处理后数据可以再存储到数据湖中，在其他阶段或者分析中使用。

计算存储分离的资源规划和架构更灵活，在应对业务的快速变化时更加容易的构建应用平台和系统，提升效率，对于数据的分析，可以更快、更轻量，减少整体的成本投入。

除此之外，经过二十年的发展，阿里巴巴集团已经成为一个数字经济体，阿里巴巴集团首先是阿里云数据湖产品的最佳实践者，后者首先支撑了前者的电商、移动办公、文娱、物流、本地生活等各种复杂业务，建立了完善的自我实践机制，产品和方案得到有效的验证。同时，阿里云的数据湖方案也支撑了在线教育、互联网广告、新媒体、网络游戏等行业客户在快速发展过程中的实际业务需求，实现了技术的有效赋能。

** 点击“阅读原文” 有彩蛋**

END