Wprowadzenie
W dzisiejszym świecie dane są generowane z niesamowitą szybkością i skalą. Pomyśl o aktywności w mediach społecznościowych, zakupach online, transakcjach finansowych, a nawet czujnikach w inteligentnych urządzeniach. Wszystkie te informacje muszą być przetwarzane i analizowane w celu wyodrębnienia szczegółowych informacji. Tradycyjne systemy, takie jak Hadoop MapReduce, były kiedyś rozwiązaniami go-to, ale często zmagały się z szybkością, ponieważ w dużym stopniu polegały na pisaniu wyników pośrednich na dysku.
Platforma Apache Spark została zaprojektowana w celu przezwyciężenia tego ograniczenia. Jest to rozproszony system obliczeniowy typu open source, który przetwarza duże ilości danych na wielu maszynach przy zachowaniu jak największej ilości pamięci RAM. Ten wybór projektu sprawia, że platforma Spark jest szybka i skalowalna, która umożliwia obsługę dowolnych elementów— od małych zestawów danych na laptopie po petabajty danych w ogromnych klastrach.