更新時間:2020-11-18 來源:黑馬程序員 瀏覽量:
Hadoop與Spark兩者都是大數(shù)據(jù)計算框架,但是兩者各自都有自己的優(yōu)勢,關于Spark與Hadoop的對比,主要有以下幾點:
1. 編程方式
Hadoop的MapReduce在計算數(shù)據(jù)時,計算過程必須要轉(zhuǎn)化為Map和Reduce兩個過程,從而難以描述復雜的數(shù)據(jù)處理過程;而Spark的計算模型不局限于Map和Reduce操作,還提供了多種數(shù)據(jù)集的操作類型,編程模型比MapReduce更加靈活。
2. 數(shù)據(jù)存儲
Hadoop的MapReduce進行計算時,每次產(chǎn)生的中間結(jié)果都是存儲在本地磁盤中;而Spark在計算時產(chǎn)生的中間結(jié)果存儲在內(nèi)存中。
3. 數(shù)據(jù)處理
Hadoop在每次執(zhí)行數(shù)據(jù)處理時,都需要從磁盤中加載數(shù)據(jù),導致磁盤的IO開銷較大;而Spark在執(zhí)行數(shù)據(jù)處理時,只需要將數(shù)據(jù)加載到內(nèi)存中,之后直接在內(nèi)存中加載中間結(jié)果數(shù)據(jù)集即可,減少了磁盤的IO開銷。
4. 數(shù)據(jù)容錯
MapReduce計算的中間結(jié)果數(shù)據(jù),保存在磁盤中,并且Hadoop框架底層實現(xiàn)了備份機制,從而保證了數(shù)據(jù)容錯;同樣Spark RDD實現(xiàn)了基于Lineage的容錯機制和設置檢查點兩種方式的容錯機制,彌補數(shù)據(jù)在內(nèi)存處理時斷電數(shù)據(jù)丟失的問題。關于Spark容錯機制我們在第三章Spark RDD彈性分布式數(shù)據(jù)集中將會詳細講解。
在Spark與Hadoop性能對比中,較為明顯的缺陷是Hadoop 中的MapReduce計算延遲較高,無法勝任當下爆發(fā)式的數(shù)據(jù)增長所要求的實時、快速計算的需求。接下來,我們通過圖1來詳細講解這一原因。
圖1 Hadoop與Spark執(zhí)行流程
從圖1中可以看出,使用Hadoop MapReduce進行計算時,每次計算產(chǎn)生的中間結(jié)果都需要從磁盤中讀取并寫入,大大增加了磁盤的IO開銷,而使用Spark進行計算時,需要先將磁盤中的數(shù)據(jù)讀取到內(nèi)存中,產(chǎn)生的數(shù)據(jù)不再寫入磁盤,直接在內(nèi)存中迭代處理,這樣就避免了從磁盤中頻繁讀取數(shù)據(jù)造成不必要的開銷。通過官方計算測試,Hadoop與Spark在執(zhí)行邏輯斯蒂回歸時所需的時間對比,如圖2所示。
圖2 Hadoop與Spark執(zhí)行邏輯回歸時間對比
從圖2可以看出,Hadoop與Spark執(zhí)行所需時間相差超過100倍。