傻大方


首页 > 学习 >

Hadoop|Hadoop体系架构概述(完整版)( 二 )



按关键词阅读: 体系 完整版 架构 概述 hadoop


NameNode执行文件系统中命名空间的操作(打开、关闭、重命名文件和目录) , NameNode需要执行数据 块到DataNode映射的决策 DataNode负责响应 。

8、来自客户端的文件读写要求 , 也要负责执行来自NameNode的关于数据块创建、删除 和冗余存储的指令 Client MetaData ops Write NameNodeMetaData(Name, replicas, ) Clien t DataNodesDataNodes Block ops Read Blockss Replication NameNode同DataNode都是可以架设在普通商品机上 , 一个典型的HDFS集群中部署一个专用机做为NameNode , 其余的机器部署为DataNode 。
虽然 , 这个体系结构并不排除把一个机器做为多个DataNode节点 , 但是这样的情况在实际部署中很少 。

9、发生 。
单NameNode结构极大的简化了 集群的系统结构 , NameNode主管并且存储所有的HDFS的元数据(MetaData) , 系统中用户数据绝不会流过NameNode节点 。
Map/Reduce简介简介 一种用于在大型商用硬件集群中(成千上万的节点)对海量数据(多个兆兆 字节数据集)实施可靠的、高容错的并行计算的软件系统 一个最先由Google提出的分布式计算软件构架 基本原理 将一个复杂的问题 , 分成若干个简单的子问题进行解决 。
然后 , 对子问 题的结果进行合并 , 得到原有问题的解 Map/Reduce概念概念 Map和Reduce是编程语言中的概念 , 都是处理数据集合的函数 Map在处理数据序列 。

10、的过程中只处理当前的数据信息 , 不需要跟之前 处理的状态信息交互 主结点读入输入数据 , 把它分成可以用相同方法解决的小数据块 , 然 后把这些小数据块分发到不同的工作节点上 , 每一个工作节点循环做 同样的事 , 这就形成了一个树行结构 , 而每一个叶子节点来处理每一 个具体的小数据块 , 再把这些处理结果返回给父节点 Reduce在处理过程中却依赖之前处理的结果 , 同时生成的结果也被后 续的处理使用 。
结点得到所有子节点的处理结果 , 然后把所有结果组 合并且返回到输出 一个Map/Reduce任务会把一个输入数据集分割为独立的数据块 , 然后 Map任务会以完全并行的方式处理这些数据块 。
Map/Reduce系统自动 对Map 。

11、任务的输出分类 , 再把这些分类结果做为Reduce任务的输入 。
无论是任务的输入还是输出都会被存储在文件系统中 。
Map/Reduce系 统关注任务调度、任务监测和重新执行失败的任务 Map/Reduce模型模型 计算节点和存储节点的一致性是因为Map/Reduce系统和HDFS运行在同样的节点结合上 。
这样的配置允许Hadoop框架有效的调度任务在那些数据已经准备好了的节点上 , 这样 的好处是整个集群中总带宽非常的高 。
Map/Reduce的一个特点是可以用Map和Reduce 方法来处理分布式计算问题时 , 尽可能的实现数据处理的本地化 , 降低由数据移动而 产生的代价 。
这里的每一个Map操作都是相对独立 。

12、的 , 所有的Maps都是并行运行的 ,虽然实践中会受到数据源和CPU个数的影响 。
同样的 , 这里用一个Reduce集合来执行 Reduce操作 , 所有带有相同key的Map输出会聚集到同一个Reduce 。
虽然这个过程看上 去没有串行计算来得高效 , 但是Map/Reduce能够处理一般服务器所不能处理的大数据 量处理问题 。
大型的服务器集群可以在几个小时内处理千兆兆数据量的排序问题 。
而 并行处理可以提供部分容错和出错恢复的功能 。
Map/Reduce系统由单一的JobTracker主节点和若干个TaskTracker从节点组成 , 其中每一 个集群节点对应一个TaskTracker节点 。
主节点负责调度任务的各个 。

13、组成任务到从节点上 ,监控并且重新执行失败的组成任务;从节点执行主节点安排的组成任务 。
Map/Reduce的Map和Reduce过程都定义了键值对()的数据结构 , 即系统 视任务的输入数据为键值对集合 , 并且产生键值对结合做为任务的输出 。
一次 Map/Reduce任务的输入输出格式: (input) - map - - combine - - reduce - (output) 。
一次Map/Reduce任务过程 。
用户提交任务给JobTracer , JobTracer把对应的用户程序中 的Map操作和Reduce操作映射至TaskTracer节点中;输入模块负责把输入数据分成小数 据块 , 然后把它们 。

14、传给Map节点;Map节点得到每一个key/value对 , 处理后产生一个或 多个key/value对 , 然后写入文件;Reduce节点获取临时文件中的数据 , 对带有相同key 的数据进行迭代计算 , 然后把终结果写入文件 。
6 write 5 remote write 4 local write 3 read User Program TaskTracer TaskTracer TaskTracer TaskTracer TaskTracer Chunk1 Chunk2 Chunkn 1 fork1 fork 2 assign map Output Output Input files 1 fork。


稿源:(未知)

【傻大方】网址:/a/2021/0815/0023740258.html

标题:Hadoop|Hadoop体系架构概述(完整版)( 二 )


上一篇:静电场|静电场的能量能量密度ppt课件

下一篇:Hadoop|Hadoop体系架构概述(完整版)