首頁技術(shù)文章正文

詳解MapReduce編程的Map模型和Reduce模型

更新時間:2020-12-17 來源:黑馬程序員 瀏覽量:

1577370495235_學(xué)IT就到黑馬程序員.gif

  MapReduce是一種編程模型,用于處理大規(guī)模數(shù)據(jù)集的并行運算。使用MapReduce執(zhí)行計算任務(wù)的時候,每個任務(wù)的執(zhí)行過程都會被分為兩個階段,分別是Map和Reduce,其中Map階段用于對原始數(shù)據(jù)進行處理,Reduce階段用于對Map階段的結(jié)果進行匯總,得到最終結(jié)果,這兩個階段的模型如圖1所示。

1608176052081_21.gif

 圖1 MapReduce簡易模型

  MapReduce編程模型借鑒了函數(shù)式程序設(shè)計語言的設(shè)計思想,其程序?qū)崿F(xiàn)過程是通過map()和reduce()函數(shù)來完成的。從數(shù)據(jù)格式上來看,map()函數(shù)接收的數(shù)據(jù)格式是鍵值對,產(chǎn)生的輸出結(jié)果也是鍵值對形式,reduce()函數(shù)會將map()函數(shù)輸出的鍵值對作為輸入,把相同key值的value進行匯總,輸出新的鍵值對。接下來,通過一張圖來描述MapReduce的簡易數(shù)據(jù)流模型,具體如圖2所示。

1608176064444_22.gif

   圖2 MapReduce簡易數(shù)據(jù)流模型

   關(guān)于圖2描述的MapReduce簡易數(shù)據(jù)流模型的相關(guān)說明,具體如下:

   (1)將原始數(shù)據(jù)處理成鍵值對形式。

   (2)將解析后的鍵值對傳給map()函數(shù),map()函數(shù)會根據(jù)映射規(guī)則,將鍵值對映射為一系列中間結(jié)果形式的鍵值對。

   (3)將中間形式的鍵值對形成形式傳給reduce()函數(shù)處理,把具有相同key的value合并在一起,產(chǎn)生新的鍵值對,此時的鍵值對就是最終輸出的結(jié)果。

   這里需要說明的是,對于某些任務(wù)來說,可能不一定需要Reduce過程,也就是說,MapReduce的數(shù)據(jù)流模型可能只有Map過程,由Map產(chǎn)生的數(shù)據(jù)直接被寫入HDFS中。但是,對于大多數(shù)任務(wù)來說,都是需要Reduce過程的,并且可能由于任務(wù)繁重,需要設(shè)定多個Reduce,例如,下面是一個具有多個Map和Reduce的MapReduce模型,具體如圖3所示。

1608176074884_23.gif

 圖3 多個Map和Reduce的MapReduce模型

  圖3演示的是含有3個Map和2個Reduce的MapReduce程序,其中,由Map產(chǎn)生的相關(guān)key的輸出都會集中到Reduce中處理,而Reduce是最后的處理過程,其結(jié)果不會進行第二次匯總。


猜你喜歡:

MapReduce程序如何設(shè)置本地運行模式?

HBase數(shù)據(jù)庫物理存儲的存儲方式介紹

黑馬程序員大數(shù)據(jù)培訓(xùn)課程 

分享到:
在線咨詢 我要報名
和我們在線交談!