Zwiększanie wydajności obciążeń Apache Spark przy użyciu pamięci podręcznej IO usługi Azure HDInsight

Uwaga

Pamięć podręczna we/wy była obsługiwana do wersji Spark 2.3 i nie będzie obsługiwana w Spark 2.4 (HDInsight 4.0) i Spark 3.1.2 (HDInsight 5.0)

Pamięć podręczna IO to usługa buforowania danych dla Azure HDInsight, która poprawia wydajność zadań Apache Spark. Pamięć podręczna we/wy działa również z obciążeniami Apache TEZ i Apache Hive, które można uruchamiać w klastrach Apache Spark. Usługa IO Cache używa składnika buforowania typu open source o nazwie RubiX. RubiX to lokalna pamięć podręczna przeznaczona do współpracy z silnikami analityki big data, które uzyskują dostęp do danych z systemów przechowywania w chmurze. System RubiX jest unikatowy wśród systemów buforowania, ponieważ używa dysków Solid-State (SSD), a nie rezerwuje pamięci operacyjnej na potrzeby buforowania. Usługa IO Cache uruchamia serwery metadanych RubiX i zarządza nimi w każdym węźle roboczym klastra. Konfiguruje również wszystkie usługi klastra, aby umożliwić przezroczyste korzystanie z pamięci podręcznej RubiX.

Większość dysków SSD zapewnia więcej niż 1 GByte na sekundę przepustowości. Ta przepustowość, uzupełniona przez pamięć podręczną plików systemu operacyjnego, zapewnia wystarczającą przepustowość do obsługi aparatów przetwarzania big data, takich jak Apache Spark. Pamięć operacyjna pozostaje dostępna dla platformy Apache Spark do przetwarzania zadań silnie uzależnionych od pamięci, takich jak tasowania. Korzystanie wyłącznie z pamięci operacyjnej umożliwia platformie Apache Spark osiągnięcie optymalnego użycia zasobów.

Uwaga

Pamięć podręczna IO obecnie używa RubiX jako komponentu pamięci podręcznej, ale może to ulec zmianie w przyszłych wersjach usługi. Proszę używać interfejsów IO Cache i nie polegać bezpośrednio na implementacji RubiX. Pamięć podręczna IO jest obecnie obsługiwana tylko w usłudze Azure Blob Storage.

Zalety pamięci usługi Azure HDInsight

Użycie pamięci podręcznej IO zapewnia wzrost wydajności zadań odczytujących dane z usługi Azure Blob Storage.

Nie musisz dokonywać żadnych zmian w zadaniach platformy Spark, aby zwiększyć wydajność dzięki używaniu pamięci podręcznej IO. Gdy pamięć podręczna IO jest wyłączona, ten kod platformy Spark będzie odczytywać dane zdalnie z usługi Azure Blob Storage: spark.read.load('wasbs:///myfolder/data.parquet').count(). Po aktywowaniu pamięci podręcznej I/O ten sam wiersz kodu powoduje odczyt z pamięci podręcznej za pośrednictwem pamięci I/O. Podczas poniższych operacji odczytu dane są odczytywane lokalnie z dysku SSD. Węzły robocze w klastrze usługi HDInsight są wyposażone w lokalnie dołączone dedykowane dyski SSD. Pamięć podręczna we/wy usługi HDInsight używa tych lokalnych dysków SSD do buforowania, co zapewnia najniższy poziom opóźnienia i maksymalizuje przepustowość.

Wprowadzenie

Usługa Azure HDInsight IO Cache jest domyślnie dezaktywowana w wersji zapoznawczej. Pamięć podręczna IO jest dostępna w klastrach Azure HDInsight 3.6+ Spark, które uruchamiają Apache Spark 2.3. Aby aktywować pamięć podręczną IO w usłudze HDInsight 4.0, wykonaj następujące kroki:

W przeglądarce internetowej przejdź do lokalizacji https://CLUSTERNAME.azurehdinsight.net, gdzie CLUSTERNAME jest nazwą klastra.
Wybierz usługę IO Cache po lewej stronie.
Wybierz pozycję Akcje (akcje usługi w usłudze HDI 3.6) i aktywuj.
Potwierdź ponowne uruchomienie wszystkich usług, których dotyczy problem w klastrze.

Uwaga

Mimo że pasek postępu jest wyświetlany jako aktywowany, pamięć podręczna we/wy nie jest w rzeczywistości włączona do momentu ponownego uruchomienia innych usług, których dotyczy problem.

Rozwiązywanie problemów

Możesz napotkać błędy związane z miejscem na dysku podczas uruchamiania zadań platformy Spark po włączeniu pamięci podręcznej IO. Te błędy występują, ponieważ platforma Spark używa również magazynu na dysku lokalnym do przechowywania danych podczas operacji mieszania. Platformie Spark może zabraknąć miejsca na dysku SSD po włączeniu pamięci podręcznej I/O i zmniejszeniu przestrzeni na magazyn Spark. Ilość miejsca używanego przez pamięć podręczną IO domyślnie wynosi połowę całkowitego miejsca na dysku SSD. Użycie miejsca na dysku dla pamięci podręcznej I/O można skonfigurować w systemie Ambari. Jeśli wystąpią błędy dotyczące miejsca na dysku, zmniejsz jego użycie dla pamięci podręcznej IO i uruchom ponownie usługę. Aby zmienić zestaw miejsca dla pamięci podręcznej we/wy, wykonaj następujące kroki:

W systemie Apache Ambari wybierz usługę HDFS po lewej stronie.
Wybierz karty Konfiguracje i Zaawansowane .
Przewiń w dół i rozwiń obszar Niestandardowe lokacje rdzenia .
Znajdź właściwość hadoop.cache.data.fullness.percentage.
Zmień wartość w polu .
Wybierz pozycję Zapisz w prawym górnym rogu.
Wybierz Uruchom ponownie>Uruchom ponownie wszystkie, których dotyczy.
Wybierz pozycję Potwierdź ponowne uruchomienie wszystkich.

Jeśli to nie zadziała, wyłącz pamięć podręczną we/wy.

Następne kroki

Przeczytaj więcej na temat pamięci podręcznej IO, w tym testów porównawczych wydajności w tym wpisie na blogu: Zadania Apache Spark zyskują maksymalnie 9-krotną szybkość dzięki pamięci podręcznej IO usługi HDInsight

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-04-02

Udostępnij przez

Zwiększanie wydajności obciążeń Apache Spark przy użyciu pamięci podręcznej IO usługi Azure HDInsight

Zalety pamięci usługi Azure HDInsight

Wprowadzenie

Rozwiązywanie problemów

Następne kroki

Sprzężenie zwrotne

Dodatkowe źródła