利用Kettle+FineBI+MySQL构建电商运营分析报表可视化平台视频教程
6104 人在学
Hadoop架构体系面试题:HDFS的进程构成及其作用;nameNode进程:负责对外展示文件的层级结构、管理客户端对文件的访问(如:打开、关闭、重命名等)、决定文件block与dataNode的对应关系等。
Hadoop组件简介
官方文档组织的非常清晰,主要由以下四个组件组成:HDFS、map-reduce、yarn、hadoop-common
HDFS
分布式文件存储系统,主要特点是:
map-reduce
map-reduce是一个计算框架,绝大部分的数据处理都可以转化为map、reduce组合,然后利用map-reduce框架进行计算、处理;
yarn
资源管理器,核心的思想时将资源的调度管理与资源监控分割为两个进程,其中一个是ResourceManager,另一个是NodeManager,前者负责资源的分配、后者负责资源监控;
common
hdfs、map-reduce所需要的公共库;
详细解释map过程的细节:
详细解释reduce过程细节:
setCombinerClass的作用:
简单介绍Federation架构:
在存储层,各个nameNode共用统一的DataNode
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。