Udostępnij przez


Szybki start: wykonywanie zapytań apache Hive w usłudze Azure HDInsight przy użyciu platformy Apache Zeppelin

Z tego przewodnika Szybki start dowiesz się, jak uruchamiać zapytania apache Hive w usłudze Azure HDInsight przy użyciu platformy Apache Zeppelin. Klastry interakcyjnych zapytań usługi HDInsight obejmują notesy Apache Zeppelin, które można używać do uruchamiania interakcyjnych zapytań Hive.

Jeśli nie masz subskrypcji Azure, przed rozpoczęciem utwórz darmowe konto.

Wymagania wstępne

Klaster zapytań interakcyjnych usługi HDInsight. Aby utworzyć klaster usługi HDInsight, zobacz Tworzenie klastra. Upewnij się, że wybrano typ klastra Interakcyjne zapytanie .

Stwórz notatnik Apache Zeppelin

  1. Zastąp CLUSTERNAME nazwą swojego klastra w następującym adresie URL https://CLUSTERNAME.azurehdinsight.net/zeppelin. Następnie wprowadź adres URL w przeglądarce internetowej.

  2. Wprowadź nazwę użytkownika i hasło logowania klastra. Na stronie Zeppelin możesz utworzyć nową notatkę lub otworzyć istniejące notatki. HiveSample zawiera przykładowe zapytania Hive.

    Interaktywne zapytanie usługi HDInsight zeppelin.

  3. Wybierz pozycję Utwórz nową notatkę.

  4. W oknie dialogowym Tworzenie nowej notatki wpisz lub wybierz następujące wartości:

    • Nazwa notatki: wprowadź nazwę notatki.
    • Interpreter domyślny: wybierz pozycję jdbc z listy rozwijanej.
  5. Wybierz pozycję Utwórz notatkę.

  6. Wprowadź następujące zapytanie Hive w sekcji kodu, a następnie naciśnij Shift + Enter:

    %jdbc(hive)
    show tables
    

    Interaktywna kwerenda Zeppelin HDInsight uruchamia zapytanie.

    Instrukcja %jdbc(hive) w pierwszym wierszu informuje notebook o korzystaniu z interpretera JDBC dla Hive.

    Zapytanie zwróci jedną tabelę Hive o nazwie hivesampletable.

    Poniżej przedstawiono dwa kolejne zapytania hive, które można uruchamiać względem hivesampletable:

    %jdbc(hive)
    select * from hivesampletable limit 10
    
    %jdbc(hive)
    select ${group_name}, count(*) as total_count
    from hivesampletable
    group by ${group_name=market,market|deviceplatform|devicemake}
    limit ${total_count=10}
    

    W porównaniu z tradycyjną usługą Hive wyniki zapytania są zwracane znacznie szybciej.

Więcej przykładów

  1. Utwórz tabelę. Wykonaj kod w notesie Zeppelin:

    %jdbc(hive)
    CREATE EXTERNAL TABLE log4jLogs (
        t1 string,
        t2 string,
        t3 string,
        t4 string,
        t5 string,
        t6 string,
        t7 string)
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ' '
    STORED AS TEXTFILE;
    
  2. Załaduj dane do nowej tabeli. Wykonaj kod w notesie Zeppelin:

    %jdbc(hive)
    LOAD DATA
    INPATH 'wasbs:///example/data/sample.log'
    INTO TABLE log4jLogs;
    
  3. Wstaw pojedynczy rekord. Wykonaj kod w notesie Zeppelin:

    %jdbc(hive)
    INSERT INTO TABLE log4jLogs2
    VALUES ('A', 'B', 'C', 'D', 'E', 'F', 'G');
    

Aby uzyskać więcej składni, zapoznaj się z instrukcjami dotyczącymi języka Hive .

Uprzątnij zasoby

Po zakończeniu pracy z instrukcją szybkiego uruchomienia możesz usunąć klaster. W usłudze HDInsight dane są przechowywane w usłudze Azure Storage, dzięki czemu można bezpiecznie usunąć klaster, gdy nie jest używany. Opłaty są również naliczane za klaster usługi HDInsight, nawet jeśli nie jest używany. Ponieważ opłaty za klaster są wielokrotnie większe niż opłaty za magazyn, warto usunąć klastry, gdy nie są używane.

Aby usunąć klaster, zobacz Usuwanie klastra usługi HDInsight przy użyciu przeglądarki, programu PowerShell lub interfejsu wiersza polecenia platformy Azure.

Dalsze kroki

W tym szybkim rozpoczęciu nauczyłeś się, jak używać Apache Zeppelin do uruchamiania zapytań Apache Hive w usłudze Azure HDInsight. Aby dowiedzieć się więcej na temat zapytań Hive, w następnym artykule przedstawiono sposób wykonywania zapytań za pomocą programu Visual Studio.