Udostępnij przez


Pobieranie danych przesyłanych strumieniowo do usługi Lakehouse i uzyskiwanie dostępu za pomocą punktu końcowego analizy SQL

W tym szybkim przewodniku wyjaśniono, jak utworzyć definicję zadania platformy Spark zawierającą kod języka Python z użyciem Spark Structured Streaming, aby umieścić dane w systemie lakehouse, a następnie udostępnić je za pośrednictwem punktu końcowego SQL analytics. Po ukończeniu tego krótkiego przewodnika będziesz mieć definicję zadania Spark, która działa w sposób ciągły, a punkt końcowy analityki SQL może przeglądać dane przychodzące.

Tworzenie skryptu w języku Python

Użyj następującego skryptu języka Python, aby utworzyć tabelę Delta przesyłania strumieniowego w usłudze Lakehouse przy użyciu platformy Apache Spark. Skrypt odczytuje strumień wygenerowanych danych (jeden wiersz na sekundę) i zapisuje go w trybie dołączania do tabeli delty o nazwie streamingtable. Przechowuje dane i informacje o punkcie kontrolnym w określonym jeziorze.

  1. Użyj następującego kodu w języku Python, który używa ustrukturyzowanego przesyłania strumieniowego Spark do pobierania danych w tabeli w lakehouse.

    from pyspark.sql import SparkSession
    
    if __name__ == "__main__":
     # Start Spark session
     spark = SparkSession.builder \
         .appName("RateStreamToDelta") \
         .getOrCreate()
    
     # Table name used for logging
     tableName = "streamingtable"
    
     # Define Delta Lake storage path
     deltaTablePath = f"Tables/{tableName}"
    
     # Create a streaming DataFrame using the rate source
     df = spark.readStream \
         .format("rate") \
         .option("rowsPerSecond", 1) \
         .load()
    
     # Write the streaming data to Delta
     query = df.writeStream \
         .format("delta") \
         .outputMode("append") \
         .option("path", deltaTablePath) \
         .option("checkpointLocation", f"{deltaTablePath}/_checkpoint") \
         .start()
    
     # Keep the stream running
     query.awaitTermination()
    
  2. Zapisz skrypt jako plik języka Python (.py) na komputerze lokalnym.

Tworzenie jeziora

Aby utworzyć jezioro, wykonaj następujące czynności:

  1. Zaloguj się do portalu Microsoft Fabric.

  2. W razie potrzeby przejdź do żądanego obszaru roboczego lub utwórz nowy.

  3. Aby utworzyć lakehouse, wybierz Nowy element z obszaru roboczego, a następnie wybierz Lakehouse w panelu, który się otworzy.

    Zrzut ekranu przedstawiający nowe okno dialogowe usługi Lakehouse.

  4. Wprowadź nazwę swojego domu nad jeziorem i wybierz Utwórz.

Tworzenie definicji zadania platformy Spark

Aby utworzyć definicję zadania platformy Spark, wykonaj następujące czynności:

  1. W tym samym obszarze roboczym, w którym utworzono lakehouse, wybierz Nowy element.

  2. W wyświetlonym panelu w obszarze Pobieranie danych wybierz pozycję Definicja zadania platformy Spark.

  3. Wprowadź nazwę definicji zadania platformy Spark i wybierz pozycję Utwórz.

  4. Wybierz pozycję Przekaż i wybierz plik języka Python utworzony w poprzednim kroku.

  5. W obszarze Dokumentacja usługi Lakehouse wybierz utworzoną usługę Lakehouse.

Ustawianie zasad ponawiania dla definicji zadania platformy Spark

Wykonaj następujące kroki, aby ustawić zasady ponawiania dla definicji zadania platformy Spark:

  1. W górnym menu wybierz ikonę Ustawienie .

    Zrzut ekranu przedstawiający ikonę ustawień definicji zadania platformy Spark.

  2. Otwórz kartę Optymalizacja i ustaw Zasady ponawiania prób na wyzwalacz Włączony.

    Zrzut ekranu przedstawiający kartę Optymalizacja definicji zadań platformy Spark.

  3. Zdefiniuj maksymalną liczbę ponownych prób lub zaznacz opcję Zezwalaj na nieograniczone próby.

  4. Określ czas między każdą ponowną próbą i wybierz pozycję Zastosuj.

Uwaga

Obowiązuje limit 90 dni na ustawienie zasad ponawiania. Po włączeniu zasad ponawiania zadania zostaną uruchomione ponownie zgodnie z zasadami w ciągu 90 dni. Po upływie tego okresu zasady ponawiania będą automatycznie przestać działać, a zadanie zostanie zakończone. Następnie użytkownicy będą musieli ręcznie ponownie uruchomić zadanie, co spowoduje ponowne aktywowanie polityki ponawiania prób.

Wykonywanie i monitorowanie definicji zadania platformy Spark

  1. W górnym menu wybierz ikonę Uruchom .

    Zrzut ekranu przedstawiający ikonę przebiegu definicji zadania platformy Spark.

  2. Sprawdź, czy definicja zadania Spark została pomyślnie przesłana i uruchomiona.

Wyświetlanie danych przy użyciu punktu końcowego analizy SQL

Po uruchomieniu skryptu w lakehouse zostanie utworzona tabela o nazwie streamingtable z kolumną timestamp i kolumną value. Dane można wyświetlić przy użyciu punktu końcowego analizy SQL:

  1. W obszarze roboczym otwórz usługę Lakehouse.

  2. Wybierz punkt końcowy analizy SQL z prawego górnego rogu.

  3. W okienku nawigacji po lewej stronie rozwiń pozycję Schematy > dbo >Tables, wybierz pozycję streamingtable, aby wyświetlić podgląd danych.