IT培训 / 新闻资讯 / 大数据教程 / 终于有人把Hadoop大数据系统架构讲明白了

终于有人把Hadoop大数据系统架构讲明白了

作者：匿名来源：大数据点击数：933发布时间： 2022-06-26 20:06:00

标签： Hadoop 大数据系统

　　从资源管理角度来看，当前的大数据系统架构主要有两种：一种是MPP数据库架构，另一种是Hadoop体系的分层架构。这两种架构各有优势和相应的适用场景。

　　传统的系统已无法处理结构多变的大数据，而高性能硬件和专用服务器价格昂贵且不灵活，Hadoop因此应运而生。Hadoop使用互连的廉价商业硬件，通过数百甚至数千个低成本服务器协同工作，可有效存储和处理大量数据。

　　1.Hadoop生态体系

　　Google通过三篇重量级论文为大数据时代提供了三项革命性技术：GFS、MapReduce和BigTable，即所谓的Google大数据的“三驾马车”。

　　GFS(Google File System)是Google面向大规模数据密集型应用的、可伸缩的分布式文件系统，可在廉价的硬件上运行，并具有可靠的容错能力。

　　MapReduce是一种并行编程模式，可以在超大分布式集群上并行运算，对超大规模数据集进行处理。

　　BigTable是在GFS上构建的处理结构化数据的分布式数据库，可以用于处理海量数据的更新和随机查询。

　　Hadoop和Hbase是基于这三项技术发展出的开源实现。在大数据分析和处理领域，Hadoop兼容体系已经成为一个非常成熟的生态圈，涵盖了很多大数据相关的基础组件，包括Hadoop、Hbase、Hive、Spark、Flink、Storm、Presto、Impala等。

　　2.Hadoop集群硬件架构

　　Hadoop集群遵循主从架构，由一个或多个主节点(控制节点)和大量从节点组成，可以通过增减节点实现线性水平扩展。集群中的每个节点都有自己的磁盘、内存、处理器和带宽。主节点负责存储元数据，管理整个集群中的资源，并将任务分配给从节点;从节点负责存储数据并执行计算任务。

　　Hadoop包含三大组件：HDFS、Yarn和MapReduce。HDFS负责将文件切分为固定大小的数据块，以多副本分布式方式进行存储。Yarn是资源管理器，通过不同的进程执行资源管理和任务调度/监控任务。MapReduce是计算层，它通过将数据处理逻辑抽象为Map任务和Reduce任务，将“计算”在贴近数据存储位置并行执行。

　　Hadoop集群硬件架构如图1所示，具体的组件部署结构分析如下。

　　主节点上：部署HDFS的NameNode组件，管理命名空间，管理客户端对文件的访问，负责跟踪数据块到DataNode的映射;部署Yarn的ResourceManager组件，管理整个集群中的资源。

　　从节点上：部署HDFS的DataNode组件，服务于客户端的读/写请求;部署Yarn的NodeManager组件，监视本节点容器的资源使用情况，并将其报告给Resource-Manager;运行MapReduce的容器。

▲ 图1　Hadoop集群硬件架构

　　3.Hadoop体系分层功能架构

　　Hadoop设计了一个在分布式集群上实现资源管理与功能水平分层的架构，该分层解耦架构让大家可以在Hadoop上不断地叠加组件，并且每个组件可以独立升级，同类组件可以相互竞争，不断提升性能。作为Hadoop生态系统的核心，HDFS、YARN、MapReduce形成了一个灵活的基座，并以此为基础扩展出了非常多的Hadoop兼容开源项目和软件。

　　Hadoop体系架构可分为四层，上层一般需要依赖下层的组件，层与层之间相互透明，仅基于下层组件的接口进行交互，四层从下到上分别为分布式存储层、分布式计算资源管理层、分布式并行处理框架层、分析应用层，如图2所示。

▲ 图2　Hadoop体系的分层架构

　　每层的功能具体说明如下。

　　(1)分布式存储层

　　HDFS是一个分布式文件存储系统，它将统一管理整个集群的所有存储空间，并将写入的数据切分成相同大小的数据块，每个数据块保存多个副本(通常是三个)，每个副本存储在不同的从节点上，以避免因单节点故障造成数据丢失。HDFS主节点(NameNode)保存命名空间、文件名、每个数据块及所有副本的元数据信息。

　　在大数据量情况下，文件存储格式与压缩方法对读写效率影响非常大。在HDFS上的数据格式主要包括文本、KV格式、行式存储格式、列式存储格式。具体的文件格式举例如下。

　　文本：Text。

　　KV格式：SequenceFile、MapFile。

　　行式存储：AvroFile。

　　列式存储：RCFile、ORCFile、Parquet、CarbonData，其中CarbonData是带索引的列式存储格式，由华为贡献给开源社区。

　　(2)分布式计算资源管理层

　　YARN(Yet Another Resource Negotiator)是一个资源协商器，它将统一管理和调度整个集群的计算资源，并将接收到的计算任务拆分到各个节点执行。如果一个节点运行缓慢或失败，YARN会将节点上的任务取消，然后分发到数据的其他副本所在节点进行运算。YARN作为资源协商器，可以让大量的应用程序和用户有效地共享集群计算资源，即支持多租户，这些数据处理可以是批处理、实时处理、迭代处理等。

　　最初，Hadoop由MapReduce组件同时负责资源管理和数据处理。Hadoop 2.0引入了YARN后将这两个功能分开。基于YARN，我们为Hadoop编写的不同组件可以非常方便地集成到Hadoop生态系统中，例如Spark、Giraph、Hive等项目，以及MapReduce本身。

　　YARN框架内有ResourceManager、NodeManager组件：ResourceManager在集群的主节点上运行，负责接收计算任务，并在所有竞争应用程序之间做资源分配;NodeManager在从节点上运行，负责容器，监视资源(CPU、内存、磁盘、网络)使用情况。

　　(3)分布式并行处理框架层

　　数据处理框架分为批式处理框架和流式处理框架。

　　批式处理框架主要有Hadoop MapReduce和Spark等。Hadoop MapReduce组件封装了MapReduce并行编程模型。Spark是对Hadoop MapReduce组件的改进，通过对中间结果使用内存存储，大幅提高了计算速度，目前是批处理应用的主流选择。

　　传统的并行计算模型的实现和使用都非常复杂，如MPI(Message Passing Interface，消息传递接口)一般都用在科学计算等专门领域。MapReduce作为一种全新的通用并行编程模型，是基于集群的并行计算方式的创新抽象，非常简单易用，开发友好。MapReduce处理数据为Key-Value格式，其主要思想是从函数式编程借鉴而来的。MapReduce模型将计算分为两个阶段。

　　Map(映射)阶段：对每条数据记录进行独立处理，其处理逻辑相当于对每条输入执行一个映射变换(即函数的计算)，因此可以在大量节点进行并行处理(通常在数据所在节点)。

　　Reduce(规约)阶段：汇总计算阶段，即处理逻辑具有记录之间的相关性，例如按Key对Value进行加和运算，此阶段一般会产生节点间的数据传输(即Shuffle操作)。

　　流式处理框架主要有Storm、Spark Streaming、Flink等。Storm是较早成熟的低延迟流式数据处理框架，可以进行事件级(单条数据)处理。Spark Streaming是基于Spark批处理实现的微批式的流式处理，延迟较高，可以和Spark一起应用，实现流批一体的数据处理。Flink是当前最出色的流式数据处理框架，可以进行事件级数据处理，具有低延迟、吞吐量大、支持SQL等优点。

　　(4)分析应用层

　　基于HDFS、YARN和并行处理框架中的一个组件或组合，可以搭建非常多样的大数据应用，主要包括交互分析(OLAP)、随机查询、专门领域的数据分析、搜索等。各类应用的介绍如下。

　　交互分析。此类应用可统称为SQL on Hadoop，并且可以分成两类。一类是基于MapReduce计算模型的Hive、Spark SQL，此类组件的计算效率虽然一般，但均由Hadoop和Spark默认支持，所以应用非常广泛。另一类是独立实现的兼容Hadoop的OLAP分析引擎，典型的有Impala、Drill、HAWQ、Presto，此类组件为分析实现了专门的计算引擎，计算效率非常高，可以仅依赖HDFS或者HDFS+YARN。

　　随机查询。HDFS+Parquet+Spark的方式非常适合批量扫描式的数据处理，但当需要查询单条数据时，效率非常低。HBase针对这个场景专门设计了列族数据模型和存储格式，提高了数据的随机读取效率，也支持数据的随机更新。HBase仅依赖HDFS实现数据的分布式存储。

　　专门领域的数据分析。此类一般是提供一个该领域的并行算法库实现，主要有机器学习和图计算两类。机器学习库有Hadoop默认提供的Mahout和Spark提供的MLlib，图计算库有Giraph和Spark GraphX。

　　本文摘编于《数据应用工程：方法论与实践》，经出版方授权发布。(书号：9787111704096)转载请保留文章出处。

　　来源：数仓宝贝库

　　>>>>>>点击进入大数据专题

踩(0)

分享到：

上一篇：遭大学生嫌弃的工作，它排第一

下一篇：大数据数字化转型数据治理的3个发展趋势