行业资讯 2025年08月6日
0 收藏 0 点赞 233 浏览 2097 个字
摘要 :

文章目录 1.Hadoop起源于背景 2.Hadoop介绍 3.Hadoop组件 4.Hadoop 生态圈 5.Hadoop作用 1.Hadoop起源于背景 Hadoop雏形开始于2002年的Apache的Nutch,是一个开源Java ……




1.Hadoop起源于背景

Hadoop雏形开始于2002年的Apache的Nutch,是一个开源Java 实现的搜索引擎。Nutch的目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,随着抓取的数据量的增加,面临着扩展性问题——如何解决数十亿网页的存储与索引问题。

1)2004年Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。

2)2005年Doug Cutting又基于Google的MapReduce论文,在Nutch搜索引擎实现了该功能。

3)2006年,Yahoo雇用了Doug Cutting,Doug Cutting将NDFS和MapReduce升级命名为Hadoop,NDFS也就变为了HDFS。

2.Hadoop介绍

Hadoop是Apache旗下的一套开源软件平台,是一个能够对大量数据进行分布式处理的软件框架,具有可靠、高效、可伸缩的特点。官网网址:

暂未匹配到标题

Hadoop实现了包括分布式文件系统HDFS和MapReduce框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台,其已成为工业界和学术界进行云计算应用和研究的标准平台。

3.Hadoop组件

(1)Hadoop Common: Hadoop的基础工具类库,为其他模块提供通用工具,包括JNDI和RPC

(2)Hadoop HDFS (Hadoop Distributed File System): 分布式文件存储系统,可以存储海量数据

(3)Hadoop YARN(Yet Another Resources Negotiator): Hadoop2.0以后版本提供的job调度和分布式资源管理框架(运算资源调度系统)

(4)Hadoop MapReduce: 基于YARN系统的并行处理大数据集的编程模型(Hadoop2.x开始基于yarn),基于Map和Reduce两大阶段构成的,其中Map是把一个计算任务分成很多小任务进行并行计算,Reduce是做最后的统计工作的。

其中,HDFS、YARN、MapReduce是Hadoop中最为核心的组件。

从官网上看,新增两个组件如下:

Hadoop Ozone: 可扩展的分布式对象存储系统(HDFS是大数据存储系统,但是无论大集群还是小集群其扩展性都受NameNode的限制,虽然HDFS可以通过Federation进行扩展,但是依然深受小文件和4亿个文件的困扰,于是分布式key-value存储系统Ozone诞生了,Ozone能够轻松管理小文件和大文件。)

Hadoop Submarine:Hadoop机器学习引擎

4.Hadoop 生态圈

(1) Ambari:一个基于web的工具,用来供应、管理和监测Apache Hadoop集群,包括支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari 也提供一个可视的仪表盘来查看集群的健康状态(比如热图),并且能够以一种用户友好的方式根据其特点可视化的查看MapReduce、pig和Hive 应用来诊断其性能特征。

     (2) Avro :数据序列化系统。

     (3)Cassandra :可扩展的多主节点数据库,而且没有单节点失败情况。

     (4) Chukwa : 管理大型分布式系统的数据收集系统

    (5)  HBase : 一个可扩展的分布式数据库,支持大表的结构化数据存储

    (6)  Hive : 一个提供数据概述和AD组织查询的数据仓库

     (7)Mahout :可扩展大的机器学习和数据挖掘库

     (8)Pig :一个支持并行计算的高级的数据流语言和执行框架

    (9) Spark : 一个快速通用的Hadoop数据的计算引擎。spark 提供一个简单和富有表现力的编程模型并支持多领域应用,包括ETL、机器学习、流处理 和图计算。

      (10)Tez : 一个通用的数据流处理框架,构建在Hadoop YARN上,提供一个有力的灵活的引擎来执行一个任意的DAG任务来处理数据(批处理和交互式两种方式)。Tez 可以被Hive、Pig和其他Hadoop生态系统框架和其他商业软件(如:ETL工具)使用,用来替代Hadoop MapReduce 作为底层的执行引擎。

      (11) ZooKeeper :一个应用于分布式应用的高性能的协调服务。
初识Hadoop,了解Hadoop起源背景及其生态圈
需要说明的是,上图并没有包括当前生态圈中的所有组件。而且hadoop生态圈技术在不断的发展,会不断有新的组件出现,一些老的组件也可能被新的组件替代。需要持续关注Hadoop开源社区的技术发展才能跟得上变化。

5.Hadoop作用

通过Hadoop可以快速搭建自己的分布式存储系统和分布式运算系统,它可以缩短数据处理时间,同时可以尽量在低成本的情况下实现数据的分析与挖掘。

ps:这里的低成本指的是Hadoop可以基于廉价普通的PC机来搭建集群

微信扫一扫

支付宝扫一扫

版权: 转载请注明出处:https://www.zuozi.net/7358.html

管理员

相关推荐
2025-08-06

文章目录 一、Reader 接口概述 1.1 什么是 Reader 接口? 1.2 Reader 与 InputStream 的区别 1.3 …

988
2025-08-06

文章目录 一、事件溯源 (一)核心概念 (二)Kafka与Golang的优势 (三)完整代码实现 二、命令…

465
2025-08-06

文章目录 一、证明GC期间执行native函数的线程仍在运行 二、native线程操作Java对象的影响及处理方…

348
2025-08-06

文章目录 一、事务基础概念 二、MyBatis事务管理机制 (一)JDBC原生事务管理(JdbcTransaction)…

456
2025-08-06

文章目录 一、SnowFlake算法核心原理 二、SnowFlake算法工作流程详解 三、SnowFlake算法的Java代码…

517
2025-08-06

文章目录 一、本地Jar包的加载操作 二、本地Class的加载方法 三、远程Jar包的加载方式 你知道Groo…

832
发表评论
暂无评论

还没有评论呢,快来抢沙发~

助力内容变现

将您的收入提升到一个新的水平

点击联系客服

在线时间:08:00-23:00

客服QQ

122325244

客服电话

400-888-8888

客服邮箱

122325244@qq.com

扫描二维码

关注微信客服号