Apache Spark - 维基百科,自由的百科全书

文章推薦指數: 80 %
投票人數:10人

Apache Spark是一個開源叢集運算框架,最初是由加州大學柏克萊分校AMPLab所開發。

相對於Hadoop的MapReduce會在執行完工作後將中介資料存放到磁碟中,Spark使用了記憶體內運算技術,能在資料尚未寫入硬碟時即在記憶體內分析運算。

Spark在記憶體內執行程式的運算速度能做到比Hadoop MapReduce的運算速度快上100倍,即便是執行程式於硬碟時,Spark也能快上10倍速度。

[1]Spark允許用戶將資料載入至叢集記憶體,並多次對其進行查詢,非常適合用於機器學習演算法。



請為這篇文章評分?