簡介

已完成

在當今世界,數據的生成速度和規模令人難以置信。 想想社群媒體活動、線上購物、金融交易,甚至智慧型裝置中的感測器。 所有這些資訊都需要經過處理和分析,以提取見解。 Hadoop MapReduce 等傳統系統曾經是 go-to 解決方案,但它們經常在速度上遇到困難,因為它們嚴重依賴將中間結果寫入磁碟。

Apache Spark 旨在克服這一限制。 它是一個開源的分佈式計算系統,可以在多台機器上處理大量數據,同時盡可能多地保留在內存 (RAM) 中。 這種設計選擇使 Spark 既 快速可擴展,能夠處理從筆記型電腦上的小型資料集到大型叢集上的 PB 級資料的任何內容。