好程序员大数据教程分享之Hadoop优缺点

好程序员大数据教程分享之Hadoop优缺点,大数据成为时代主流,开启时代的大门,全球43亿部电话、20亿位互联网用户每秒都在不断地产生大量数据,人们发送短信给朋友、上传视频、用手机拍照、更新社交网站的信息、转发微博、点击广告等,使得机器产生和保留了越来越多的数据。我们被数据所包围,我们源源不断地制造新的数据。数据指数级地增长,对于各大互联网公司提出了新得挑战!

首先我们先了解一下Hadoop的起源。然后介绍一些关于Hadoop生态系统中的具体工具的使用方法。如:HDFS、MapReduce、Yarn、Zookeeper、Hive、HBase、Oozie、Mahout、Pig、Flume、Sqoop。

首先我们先了解一下Hadoop的起源。然后介绍一些关于Hadoop生态系统中的具体工具的使用方法。如:HDFS、MapReduce、Yarn、Zookeeper、Hive、HBase、Oozie、Mahout、Pig、Flume、Sqoop。

88bifa必发唯一官网 1

Hadoop的起源

Doug Cutting是Hadoop之父
,起初他开创了一个开源软件Lucene(用Java语言编写,提供了全文检索引擎的架构,与Google类似),Lucene后来面临与Google同样的错误。于是,Doug
Cutting学习并模仿Google解决这些问题的办法,产生了一个Lucene的微缩版Nutch。

后来,Doug
Cutting等人根据2003-2004年Google公开的部分GFS和Mapreduce思想的细节,利用业余时间实现了GFS和Mapreduce的机制,从而提高了Nutch的性能。由此Hadoop产生了。

Hadoop于2005年秋天作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年3月份,Map-Reduce和Nutch
Distributed File System(NDFS)分别被纳入Hadoop的项目中。 
关于Hadoop名字的来源,是Doug Cutting儿子的玩具大象。

Hadoop的起源

Doug Cutting是Hadoop之父
,起初他开创了一个开源软件Lucene(用Java语言编写,提供了全文检索引擎的架构,与Google类似),Lucene后来面临与Google同样的错误。于是,Doug
Cutting学习并模仿Google解决这些问题的办法,产生了一个Lucene的微缩版Nutch。

后来,Doug
Cutting等人根据2003-2004年Google公开的部分GFS和Mapreduce思想的细节,利用业余时间实现了GFS和Mapreduce的机制,从而提高了Nutch的性能。由此Hadoop产生了。

Hadoop于2005年秋天作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年3月份,Map-Reduce和Nutch
Distributed File System(NDFS)分别被纳入Hadoop的项目中。

关于Hadoop名字的来源,是Doug Cutting儿子的玩具大象。

我们需要对TB级别和PB级别的数据进行分析处理,以发现哪些网站更受欢迎,哪些商品更具有吸引力,哪些广告更吸引用户。传统的工具对于处理如此规模的数据集越来越无能为力。而Hadoop的出现将弥补这一技术空白。

Hadoop是什么

Hadoop是一个开源框架,可编写和运行分布式应用处理大规模数据。
Hadoop框架的核心是HDFS和MapReduce。其中 HDFS 是分布式文件系统,MapReduce
是分布式数据处理模型和执行环境。

在一个宽泛而不断变化的分布式计算领域,Hadoop凭借什么优势能脱颖而出呢? 
1.
运行方便:Hadoop是运行在由一般商用机器构成的大型集群上。Hadoop在云计算服务层次中属于PaaS(Platform-as-a-
Service):平台即服务。 
2.
健壮性:Hadoop致力于在一般的商用硬件上运行,能够从容的处理类似硬件失效这类的故障。 
3.
可扩展性:Hadoop通过增加集群节点,可以线性地扩展以处理更大的数据集。 

  1. 简单:Hadoop允许用户快速编写高效的并行代码。

Hadoop是什么

Hadoop是一个开源框架,可编写和运行分布式应用处理大规模数据。
Hadoop框架的核心是HDFS和MapReduce。其中 HDFS 是分布式文件系统,MapReduce
是分布式数据处理模型和执行环境。

在一个宽泛而不断变化的分布式计算领域,Hadoop凭借什么优势能脱颖而出呢?

1.
运行方便:Hadoop是运行在由一般商用机器构成的大型集群上。Hadoop在云计算服务层次中属于PaaS(Platform-as-a-
Service):平台即服务。

2.
健壮性:Hadoop致力于在一般的商用硬件上运行,能够从容的处理类似硬件失效这类的故障。

  1. 可扩展性:Hadoop通过增加集群节点,可以线性地扩展以处理更大的数据集。

  2. 简单:Hadoop允许用户快速编写高效的并行代码。

我们说Hadoop应运而生,有了它,庞大的信息流有了新的处理平台。它被我们誉为神奇的存在,帮助我们在挑战中制造新的机遇!简要分享Hadoop优缺点,方便大家学习和分享!

Hadoop的生态系统

88bifa必发唯一官网 2

  • 2) Nutch,互联网数据及Nutch搜索引擎应用
  • 3) HDFS,Hadoop的分布式文件系统
  • 5) MapReduce,分布式计算框架
  • 6) Flume、Scribe,Chukwa数据收集,收集非结构化数据的工具。
  • 7) Hiho、Sqoop,讲关系数据库中的数据导入HDFS的工具
  • 8) Hive数据仓库,pig分析数据的工具
  • 10)Oozie作业流调度引擎
  • 11)Hue,Hadoop自己的监控管理工具
  • 12)Avro 数据序列化工具
  • 13)mahout数据挖掘工具
  • 14)Hbase分布式的面向列的开源数据库

Hadoop的生态系统

88bifa必发唯一官网 3

image.png

    1. Nutch,互联网数据及Nutch搜索引擎应用
    1. HDFS,Hadoop的分布式文件系统
    1. MapReduce,分布式计算框架
    1. Flume、Scribe,Chukwa数据收集,收集非结构化数据的工具。
  • 7) Hiho、Sqoop,讲关系数据库中的数据导入HDFS的工具

  • 8) Hive数据仓库,pig分析数据的工具
  • 10)Oozie作业流调度引擎
  • 11)Hue,Hadoop自己的监控管理工具
  • 12)Avro 数据序列化工具
  • 13)mahout数据挖掘工具
  • 14)Hbase分布式的面向列的开源数据库

1、Hadoop的优点

Hadoop生态系统的特点

  • 源代码开源
  • 社区活跃、参与者众多
  • 涉及分布式存储和计算的方方面面
  • 已得到企业界验证

Hadoop生态系统的特点

  • 源代码开源
  • 社区活跃、参与者众多
  • 涉及分布式存储和计算的方方面面
  • 已得到企业界验证

Hadoop具有按位存储和处理数据能力的高可靠性。

Hadoop生态系统的各组成部分详解

上面的图可能有些乱,下面我们用一个简易的Hadoop生态系统图谱来描述Hadoop生态系统中出现的各种数据工具。

Hadoop1.0时代的生态系统如下:

88bifa必发唯一官网 4

Hadoop2.0时代的生态系统如下:

88bifa必发唯一官网 5

Hadoop生态系统的各组成部分详解

上面的图可能有些乱,下面我们用一个简易的Hadoop生态系统图谱来描述Hadoop生态系统中出现的各种数据工具。

Hadoop1.0时代的生态系统如下:

88bifa必发唯一官网 6

image.png

Hadoop2.0时代的生态系统如下:

88bifa必发唯一官网 7

image.png


Hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便地扩展到数以千计的节点中,具有高扩展性。

Hadoop的核心

88bifa必发唯一官网 8

由上图可以看出Hadoop1.0与Hadoop2.0的区别。Hadoop1.0的核心由HDFS(Hadoop
Distributed File
System)和MapReduce(分布式计算框架)构成。而在Hadoop2.0中增加了Yarn(Yet
Another Resource Negotiator),来负责集群资源的统一管理和调度。

Hadoop的核心


88bifa必发唯一官网 9

image.png

由上图可以看出Hadoop1.0与Hadoop2.0的区别。Hadoop1.0的核心由HDFS(Hadoop
Distributed File
System)和MapReduce(分布式计算框架)构成。而在Hadoop2.0中增加了Yarn(Yet
Another Resource Negotiator),来负责集群资源的统一管理和调度。


Hadoop能够在节点之间进行动态地移动数据,并保证各个节点的动态平衡,处理速度非常快,具有高效性。

HDFS(分布式文件系统)


HDFS源自于Google发表于2003年10月的GFS论文,也即是说HDFS是GFS的克隆版。

88bifa必发唯一官网,此处只是HDFS的概述,如果想了解HDFS详情,请查看HDFS详解这篇文章。

HDFS(分布式文件系统)


HDFS源自于Google发表于2003年10月的GFS论文,也即是说HDFS是GFS的克隆版。

此处只是HDFS的概述,如果想了解HDFS详情,请查看HDFS详解这篇文章。

Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,具有高容错性。

HDFS具有如下特点:

  1. 良好的扩展性
  2. 高容错性
  3. 适合PB级以上海量数据的存储

HDFS具有如下特点:

  1. 良好的扩展性
  2. 高容错性
  3. 适合PB级以上海量数据的存储

2、Hadoop的缺点

HDFS的基本原理

  • 将文件切分成等大的数据块,存储到多台机器上
  • 将数据切分、容错、负载均衡等功能透明化
  • 可将HDFS看成容量巨大、具有高容错性的磁盘

HDFS的基本原理

  • 将文件切分成等大的数据块,存储到多台机器上
  • 将数据切分、容错、负载均衡等功能透明化
  • 可将HDFS看成容量巨大、具有高容错性的磁盘

相关文章