Spark比Hadoop的優勢有這麼大嗎

1樓：網友

這要看使用場景的，有些計算密集型的任務，spark比hadoop要快很多，畢竟spark是基於記憶體計算的，而且支援迭代，而hadoop的話，本身是不支援迭代的。

hadoop比spark有什麼優勢

2樓：網友

我覺得沒什麼可比性最終也是要 hadoop與spark 結合著使用總的來說各有各的優勢。

與hadoop相比怎麼看待spark

3樓：網友

spark現在是主流的計算框架了，比起mapreduce的優勢主要就是記憶體計算，而且方便迭代，並且可以做流式計算 stream庫的支援，圖計算，機器學習都有涉及。

hadoop主要是作為大資料生態圈的基礎框架存在，很少使用它的mapreduce作為計算了。

hadoop和spark的區別

4樓：愛可生雲資料庫

1、解決問題的層面不一樣。

首先，hadoop和apache spark兩者都是大資料框架，但是各自存在的目的不盡相同。hadoop實質上更多是乙個分散式資料基礎設施：它將巨大的資料集分派到乙個由普通計算機組成的叢集中的多個節點進行儲存，意味著您不需要購買和維護昂貴的伺服器硬體。

同時，hadoop還會索引和跟蹤這些資料，讓大資料處理和分析效率達到前所未有的高度。spark，則是那麼乙個專門用來對那些分散式儲存的大資料進行處理的工具，它並不會進行分散式資料的儲存。

2、兩者可合可分。

hadoop除了提供為大家所共識的hdfs分散式資料儲存功能之外，還提供了叫做mapreduce的資料處理功能。所以這裡我們完全可以拋開spark，使用hadoop自身的mapreduce來完成資料的處理。

相反，spark也不是非要依附在hadoop身上才能生存。但如上所述，畢竟它沒有提供檔案管理系統，所以，它必須和其他的分散式檔案系統進行整合才能運作。這裡我們可以選擇hadoop的hdfs,也可以選擇其他的基於雲的資料系統平臺。

但spark預設來說還是被用在hadoop上面的，畢竟，大家都認為它們的結合是最好的。

以下是從網上摘錄的對mapreduce的最簡潔明瞭的解析：

我們要數圖書館中的所有書。你數1號書架，我數2號書架。這就是「map」。我們人越多，數書就更快。

現在我們到一起，把所有人的統計數加在一起。這就是「reduce」。

3、spark資料處理速度秒殺mapreduce

4、災難恢復。

兩者的災難恢復方式迥異，但是都很不錯。因為hadoop將每次處理後的資料都寫入到磁碟上，所以其天生就能很有彈性的對系統錯誤進行處理。

spark的資料物件儲存在分佈於資料叢集中的叫做彈性分散式資料集(rdd: resilient distributed dataset)中。這些資料物件既可以放在記憶體，也可以放在磁碟，所以rdd同樣也可以提供完成的災難恢復功能。

5樓：加公尺穀大資料科技

spark：專為大規模資料處理而設計的快速通用的計算引擎，是一種與 hadoop 相似的開源叢集計算環境，擁有hadoop mapreduce所具有的優點，spark是mapreduce的替代方案，而且相容hdfs、hive，可融入hadoop的生態系統，以彌補mapreduce的不足。

spark主要用於大資料的計算，而hadoop以後主要用於大資料的儲存（比如hdfs、hive、hbase等），以及資源排程（yarn）。spark+hadoop，是目前大資料領域最熱門的組合

6樓：北京我故鄉

兩者的功能場景不同。

hadoop和spark，並不能直接對比。

hadoop是乙個綜合性的大資料軟體系統，包含分散式運算引擎程式設計框架（mapreduce），分散式運算資源排程系統（yarn），分散式檔案系統（hdfs）

而spark是乙個分散式運算引擎程式設計框架。

2. 單就分散式計算來對比。

mapreduce和spark都能實現對資料的分散式並行處理，在具體實現機制上略有不同，mapreduce程式，乙個程式只能包含乙個map階段和乙個reduce階段。

而spark，則可以在乙個程式中，將多個map-reduce過程組織成乙個dag邏輯流程依次執行，效率相對更高。

7樓：阿桃超兇的

1）應用場景不同。

hadoop和spark兩者都是大資料框架，但是各自應用場景是不同的。hadoop是乙個分散式資料儲存架構，它將巨大的資料集分派到乙個由普通計算機組成的叢集中的多個節點進行儲存，降低了硬體的成本。spark是那麼乙個專門用來對那些分散式儲存的大資料進行處理的工具，它要藉助hdfs的資料儲存。

2）處理速度不同。

hadoop的mapreduce是分步對資料進行處理的，從磁碟中讀取資料，進行一次處理，將結果寫到磁碟，然後在從磁碟中讀取更新後的資料，再次進行的處理，最後再將結果存入磁碟，這存取磁碟的過程會影響處理速度。spark從磁碟中讀取資料，把中間資料放到記憶體中，，完成所有必須的分析處理，將結果寫回叢集，所以spark更快。

3）容錯性不同。

hadoop將每次處理後的資料都寫入到磁碟上，基本談不上斷電或者出錯資料丟失的情況。spark的資料物件儲存在彈性分散式資料集 rdd，rdd是分佈在一組節點中的唯讀物件集合，如果資料集一部分丟失，則可以根據於資料衍生過程對它們進行重建。而且rdd 計算時可以通過 checkpoint 來實現容錯。

8樓：西線大資料培訓

hadoop這項大資料處理技術大概已有十年曆史，而且被看做是首選的大資料集合處理的解決方案。mapreduce是一路計算的優秀解決方案，不過對於需要多路計算和演算法的用例來說，並非十分高效。資料處理流程中的每一步都需要乙個map階段和乙個reduce階段，而且如果要利用這一解決方案，需要將所有用例都轉換成mapreduce模式。

在下一步開始之前，上一步的作業輸出資料必須要儲存到分散式檔案系統中。因此，複製和磁碟儲存會導致這種方式速度變慢。另外hadoop解決方案中通常會包含難以安裝和管理的叢集。

而且為了處理不同的大資料用例，還需要整合多種不同的工具（如用於機器學習的mahout和流資料處理的storm）。

如果想要完成比較複雜的工作，就必須將一系列的mapreduce作業串聯起來然後順序執行這些作業。每乙個作業都是高時延的，而且只有在前乙個作業完成之後下乙個作業才能開始啟動。

而spark則允許程式開發者使用有向無環圖（dag）開發複雜的多步資料管道。而且還支援跨有向無環圖的記憶體資料共享，以便不同的作業可以共同處理同乙個資料。

spark執行在現有的hadoop分散式檔案系統基礎之上（hdfs）提供額外的增強功能。它支援將spark應用部署到現存的hadoop v1叢集（with simr – spark-inside-mapreduce）或hadoop v2 yarn叢集甚至是apache mesos之中。

我們應該將spark看作是hadoop mapreduce的乙個替代品而不是hadoop的替代品。其意圖並非是替代hadoop，而是為了提供乙個管理不同的大資料用例和需求的全面且統一的解決方案。

storm與spark，hadoop相比是否有優勢

9樓：我不是他舅

storm用於處理高速、大型資料流的分散式即時計算系統。為hadoop新增了可靠的即時資料處理功能。

spark採用了記憶體計算。從多迭代批處理出發，允許將資料載入記憶體作反覆查詢，此外還融合資料倉儲，流處理和圖形計算等多種計算正規化。spark構建在hdfs上，能與hadoop很好的結合。

它的rdd是乙個很大的特點。

hadoop當前大資料管理標準之一，運用在當前很多商業應用系統。可以輕鬆地整合結構化、半結構化甚至非結構化資料集。

Spark比Hadoop的優勢有這麼大嗎

天津戶口高考比河北有哪些優勢

奧德賽比艾力紳好嗎？它的優勢在哪

亞克力鏡片比之玻璃有什麼優勢呢？

Spark比Hadoop的優勢有這麼大嗎

天津戶口高考比河北有哪些優勢

奧德賽比艾力紳好嗎？它的優勢在哪

亞克力鏡片比之玻璃有什麼優勢呢？

相關推薦