Présentation
Dans le monde actuel, les données sont générées à une vitesse et une échelle incroyables. Réfléchissez à l’activité des médias sociaux, aux achats en ligne, aux transactions financières ou même aux capteurs dans les appareils intelligents. Toutes ces informations doivent être traitées et analysées pour extraire des insights. Les systèmes traditionnels, comme Hadoop MapReduce, étaient une fois les solutions go-to, mais ils ont souvent eu du mal à accélérer parce qu’ils s’appuyaient fortement sur l’écriture de résultats intermédiaires sur disque.
Apache Spark a été conçu pour surmonter cette limitation. Il s’agit d’un système informatique open source et distribué qui traite de grandes quantités de données sur de nombreux ordinateurs tout en conservant autant que possible en mémoire (RAM). Ce choix de conception rend Spark à la fois rapide et scalable, capable de gérer quoi que ce soit de petits jeux de données sur votre ordinateur portable à pétaoctets de données sur des clusters massifs.