地址:北京市密云區(qū)高嶺鎮(zhèn)政府辦公樓
王經(jīng)理 13393261468
Q Q:514468705/1049705527
郵箱:[email protected]
在實時數(shù)據(jù)世界里,,為什么我們還這么執(zhí)著于Hadoop? 根據(jù)451 Research調(diào)查數(shù)據(jù)顯示,,圍繞批處理架構(gòu)的Hadoop仍然是大數(shù)據(jù)的代表技術(shù),,盡管其聲譽仍然超過實際部署情況,。下面我們來具體了解一下,。
批處理不是重點
Cloudera的Doug Cutting是一個非常聰明的人,,也是開源開發(fā)人員,,Hadoop,、Lucene等大數(shù)據(jù)工具的開發(fā)都有他的功勞。
雖然Cutting承認(rèn)實時流媒體技術(shù)的重要性,,但他并沒有否認(rèn)面向批處理的Hadoop的價值,,他表示:
并不是因為我們覺得批處理是最好的,,所以Hadoop圍繞批處理而構(gòu)建。批處理(特別是MapReduce)很自然是第一步,,因為它相對容易部署,,并提供很重要的價值。在Hadoop之前,,沒有辦法使用開源軟件在商品硬件存儲和處理千兆字節(jié),。Hadoop的MapReduce是很大的進(jìn)步。
我們很難說清楚大數(shù)據(jù)的商品化對這個世界的重要性,。這并不是說在Hadoop之前我們沒有存儲和分析大量數(shù)據(jù),,而是Hadoop讓我們非常廉價地實現(xiàn)這個過程。
總之,,Hadoop民主化了大數(shù)據(jù),。 轉(zhuǎn)向流數(shù)據(jù)? 然而,Hadoop并沒有讓大數(shù)據(jù)分析變得容易,。正如DataStax首席布道者Patrick McFadin表示,,從企業(yè)數(shù)據(jù)挖掘價值并沒有那么簡單:
我們都聽說過存儲和分析PB級數(shù)據(jù)的投資回報率的問題。谷歌,、雅虎和Facebook都在從中創(chuàng)造驚人的價值,,而大部分企業(yè)都在試圖研究如何分析所有數(shù)據(jù),第一:收集所有數(shù)據(jù);第二:……第三:利潤! 在數(shù)據(jù)收集和利潤之間有很多麻煩的步驟,。隨著企業(yè)試圖加快對實時數(shù)據(jù)的分析能力,,新技術(shù)為他們提供了可能。
McFadin發(fā)現(xiàn)了這個新大數(shù)據(jù)堆棧的關(guān)鍵要素,。首先是一個排隊系統(tǒng),,Kafka、RabbitMQ和Kinesis等,。然后是流處理層,,這可能包括Storm、Spark Streaming或者Samza,。對于高速存儲,,企業(yè)經(jīng)常轉(zhuǎn)向Cassandra、HBase,、MongoDB或者M(jìn)ySQL等關(guān)系型數(shù)據(jù)庫。
最有趣的是批處理仍然有用武之地,。McFadin表示,,批處理現(xiàn)在可用于處理,即匯總和更深入的分析,。批處理和實時的融合被稱為"Lambda架構(gòu)",,這涉及讓三個元素和諧地共處:批處理,、速度和服務(wù)。
換句話說,,批處理仍然有用,。
淘汰批處理
但并不是每個人都同意。Zoomdata公司首席執(zhí)行官和聯(lián)合創(chuàng)始人Justin Langseth認(rèn)為Lambda是"不必要的",,并稱,,"現(xiàn)在有端到端工具可以從采購、運輸,、存儲到分析和可視化來處理數(shù)據(jù),,而不需要批處理"。
在他看來,,批處理是大數(shù)據(jù)過去的遺留物:
實時數(shù)據(jù)顯然最好應(yīng)該作為流來處理,,而且還可以加載歷史數(shù)據(jù),正如你的DVR可以加載電影《飄》或者上周的電視節(jié)目《美國偶像》到你的電視,。這種區(qū)別很重要,,Zoomdata認(rèn)為將數(shù)據(jù)作為流來分析可以增加可擴展性和靈活性,而無論數(shù)據(jù)是實時還是歷史數(shù)據(jù),。
然而,,超越可擴展性和靈活性好處的可能是將批處理從大數(shù)據(jù)過程移除所帶來的簡單性。Langseth認(rèn)為,,"當(dāng)你不需要擔(dān)心批處理窗口以及從批處理故障中恢復(fù)時,,這可以極大地簡化大數(shù)據(jù)架構(gòu)。"
流分析取代Hadoop?
Cutting稱,,還沒有那么快,。
Cutting認(rèn)為未來Hadoop等技術(shù)并不會完全被淘汰,流分析會得以發(fā)展,,Cloudera的Enterprise Data Hub也是一樣,。事實上,他不認(rèn)為會廣泛轉(zhuǎn)向流分析,,而是為大家?guī)砹擞忠环N選擇,。 更有趣的是,大數(shù)據(jù)的大爆炸會讓行業(yè)催生出一些好方法來應(yīng)對數(shù)據(jù)處理,。
我認(rèn)為我們不會再那么頻繁地看到Spark這樣的主要技術(shù)增加,,隨著時間的推移,我們將會標(biāo)準(zhǔn)化這些工具,,為大多數(shù)人提供功能來滿足其大數(shù)據(jù)應(yīng)用需求,。Hadoop帶來了技術(shù)爆炸,但我們可能會進(jìn)入比較正常的演化過程,,在各行業(yè)廣泛使用這些技術(shù),。
DataStax社區(qū)經(jīng)理Scott Hirleman同意說:"批處理并不會消失,,總是會需要對大量數(shù)據(jù)的大規(guī)模分析。"現(xiàn)在大家對流分析有極大的興趣,,但稱現(xiàn)在還不清楚這種趨勢對大數(shù)據(jù)計劃的影響,。
總之,流分析完全是關(guān)于"和",,而不是"或者",,這是對圍繞批處理系統(tǒng)(例如Hadoop)的很好的補充,但這肯定不會完全取代Hadoop,。
來源:精密空調(diào) http://kugq.cn