Apache Spark 簡介 - iT 邦幫忙 - iThome

文章推薦指數: 80 %
投票人數:10人

Spark 是一個開源的叢集運算框架,並延伸了流行的MapReduce運算框架並提供其他高效率的計算應用,與 Hadoop 不同的是Hadoop MapReduce在執行運算時,需要將中間產生的數據,儲存在硬碟中。

然而磁碟I/O往往是效能的瓶頸,因此會有讀寫資料延遲的問題。

Spark是基於記憶體內的計算框架。

Spark在運算時,將中間產生的資料暫存在記憶體中,因此可以加快執行速度。

尤其需要反覆操作的次數越多,所需讀取的資料量越大,則越能看出Spark的效能。

跟傳統的



請為這篇文章評分?