Apache Spark 簡介 - iT 邦幫忙 - iThome
文章推薦指數: 80 %
Spark 是一個開源的叢集運算框架,並延伸了流行的MapReduce運算框架並提供其他高效率的計算應用,與 Hadoop 不同的是Hadoop MapReduce在執行運算時,需要將中間產生的數據,儲存在硬碟中。
然而磁碟I/O往往是效能的瓶頸,因此會有讀寫資料延遲的問題。
Spark是基於記憶體內的計算框架。
Spark在運算時,將中間產生的資料暫存在記憶體中,因此可以加快執行速度。
尤其需要反覆操作的次數越多,所需讀取的資料量越大,則越能看出Spark的效能。
跟傳統的