拈花小仙 发表于 2014-8-1 11:44:42

Hadoop是做什么的?

请问自己的话,通俗的说下Hadoop是什么?

青玄 发表于 2014-8-1 11:44:43

如果提起Hadoop你的大脑一片空白,那么请牢记住这一点:Hadoop有两个主要部分:一个数据处理框架和一个分布式数据存储文件系统(HDFS)。HDFS就像Hadoop系统的篮子,你把数据整整齐齐码放在里面等待数据分析大厨出手变成性感的大餐端到CEO的桌面上。当然,你可以在Hadoop进行数据分析,也可以见gHadoop中的数据“抽取转换加载”到其他的工具中进行分析。数据处理框架和MapReduce顾名思义,数据处理框架是处理数据的工具。具体来说Hadoop的数据处理框架是基于Jave的系统——MapReduce,你听到MapReduce的次数会比HDFS还要多,这是因为:1.MapReduce是真正完成数据处理任务的工具2.MapReduce往往会把它的用户逼疯在常规意义上的关系型数据库中,数据通过SQL(结构化查询语言)被找到并分析,非关系型数据库也使用查询语句,只是不局限于SQL而已,于是有了一个新名词NoSQL。有一点容易搞混的是,Hadoop并不是一个真正意义上的数据库:它能存储和抽取数据,但并没有查询语言介入。Hadoop更多是一个数据仓库系统,所以需要MapReduce这样的系统来进行真正的数据处理。MapRduce运行一系列任务,其中每项任务都是单独的Java应用,能够访问数据并抽取有用信息。使用MapReduce而不是查询语言让Hadoop数据分析的功能更加强大和灵活,但同时也导致技术复杂性大幅增加。目前有很多工具能够让Hadoop更容易使用,例如Hive,可以将查询语句转换成MapReduce任务。但是MapReduce的复杂性和局限性(单任务批处理)使得Hadoop在更多情况下都被作为数据仓库使用而非数据分析工具。Hadoop的另外一个独特之处是:所有的功能都是分布式的,而不是传统数据库的集中式系统。

拈花小仙 发表于 2014-8-3 11:20:08

青玄 发表于 2014-8-1 11:44
如果提起Hadoop你的大脑一片空白,那么请牢记住这一点:Hadoop有两个主要部分:一个数据处理框架和一个分布 ...

青玄发的这个太经典了,我找了好多资料也没看懂,这个一看就懂!

青玄 发表于 2014-8-3 11:48:55

拈花小仙 发表于 2014-8-3 11:20
青玄发的这个太经典了,我找了好多资料也没看懂,这个一看就懂!

额! 是吗!呵呵! 没想到小仙的知识越来越广了!{:2_27:}

拈花小仙 发表于 2014-8-3 11:54:16

青玄 发表于 2014-8-3 11:48
额! 是吗!呵呵! 没想到小仙的知识越来越广了!

一部分问题是学的,一部分问题是扩展提问,必竟多了解点知识,也长见识~,同样有用,就像学C的,可以不会JAVA,但如果连JAVA都不知是什么,那就..

青玄 发表于 2014-8-3 11:57:09

拈花小仙 发表于 2014-8-3 11:54
一部分问题是学的,一部分问题是扩展提问,必竟多了解点知识,也长见识~,同样有用,就像学C的,可以不会 ...

恩恩! 说的没错! 那咱就一起努力吧! 加油!{:2_27:}

拈花小仙 发表于 2014-8-3 12:04:36

青玄 发表于 2014-8-3 11:57
恩恩! 说的没错! 那咱就一起努力吧! 加油!

{:7_181:}嗯,加油哈~

waliemiao 发表于 2015-10-15 00:11:10

2L说的好

千亩计者 发表于 2016-8-17 00:20:28

数据处理框架和MapReduce顾名思义

jll421740865 发表于 2016-11-23 11:32:31

分析大数据的开源框架
页: [1]
查看完整版本: Hadoop是做什么的?