導(dǎo)語:原始數(shù)據(jù)要經(jīng)過一連串收集、提取、清洗、整理等等的預(yù)處理過程,才能形成高質(zhì)量的數(shù)據(jù);按照自己的需要,比如要對數(shù)據(jù)貼標簽分類,或者預(yù)測,或者想要從大量復(fù)雜的數(shù)據(jù)中提取有價值的且不易發(fā)現(xiàn)的信息,下面由小編為您整理出的大數(shù)據(jù)知識點總結(jié)內(nèi)容,一起來看看吧。
1、Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。
用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。
2、Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設(shè)計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。
3、Hadoop的框架最核心的設(shè)計就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。
4、Hadoop它主要有以下幾個優(yōu)點:
(a)高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。
(b)高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。
(c)高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非常快。
(d)高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。
(e)低成本。與一體機、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。
本文來源:http://www.nvnqwx.com/shiyongwen/zongjie/390418.htm