HDFS( Hadoop Distributed File System)是一個(gè)易于擴(kuò)展的分布式文件系統(tǒng),運(yùn)行在網(wǎng)百上千臺低成本的機(jī)器上。它與現(xiàn)有的分布式文件系統(tǒng)有許多相似之處,都是用來存值據(jù)的系統(tǒng)工具,而區(qū)別在于HDFS具有高度容錯(cuò)能力,旨在部署在低成本機(jī)器上。查看全文>>
?對MapReduce的編程思想和模型有了了解以后,下面我們借助MapReduce編程的一個(gè)典型案例——詞頻統(tǒng)計(jì), 來學(xué)習(xí)實(shí)現(xiàn)MapReduce編程開發(fā)。查看全文>>
MapReduce編程模型開發(fā)簡單且功能強(qiáng)大,專門為并行處理大規(guī)模數(shù)據(jù)量而設(shè)計(jì),MapReduce的工作流程大致可以分為5步,具體如下:查看全文>>
以實(shí)際生產(chǎn)環(huán)境為背景,增加大量企業(yè)實(shí)戰(zhàn)案例,升級MapReduce與Yarn集群性能調(diào)優(yōu),擴(kuò)充HDFS數(shù)據(jù)安全與隱私保護(hù)及源碼剖析、MapReduce高階編程及Yarn核心源碼剖析內(nèi)容。零基礎(chǔ)入門,幫助大家從容學(xué)習(xí)Hadoop,達(dá)到企業(yè)級使用Hadoop標(biāo)準(zhǔn)。查看全文>>
在Kafka發(fā)送數(shù)據(jù)的時(shí)候,每次發(fā)送消息都會(huì)有一個(gè)確認(rèn)反饋機(jī)制,確保消息正常的能夠被收到,其中狀態(tài)有0,1,-1。如果是同步模式:ack機(jī)制能夠保證數(shù)據(jù)的不丟失,如果ack設(shè)置為0,風(fēng)險(xiǎn)很大,一般不建議設(shè)置為0。即使設(shè)置為1,也會(huì)隨著leader宕機(jī)丟失數(shù)據(jù)。查看全文>>
?Hadoop有三種運(yùn)行模式:獨(dú)立(本地)運(yùn)行模式,偽分布式模式,和完全分布式模式。查看全文>>