Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Dowiedz się, jak przesyłać zadania MapReduce przez połączenie Secure Shell (SSH) do usługi HDInsight.
Uwaga
Jeśli wiesz już, jak używać serwerów Apache Hadoop opartych na systemie Linux, ale dopiero zaczynasz korzystać z usługi HDInsight, zobacz porady dotyczące usługi HDInsight opartej na systemie Linux.
Wymagania wstępne
Klaster Apache Hadoop w usłudze HDInsight. Zobacz Tworzenie klastrów Apache Hadoop przy użyciu witryny Azure Portal.
Korzystanie z poleceń platformy Hadoop
Użyj polecenia ssh, aby nawiązać połączenie z klastrem. Zmodyfikuj poniższe polecenie, zastępując ciąg CLUSTERNAME nazwą klastra, a następnie wprowadź polecenie:
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.netPo nawiązaniu połączenia z klastrem usługi HDInsight użyj następującego polecenia, aby uruchomić zadanie MapReduce:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutputTo polecenie uruchamia klasę
wordcount, która znajduje się w plikuhadoop-mapreduce-examples.jar. Używa on dokumentu/example/data/gutenberg/davinci.txtjako danych wejściowych, a dane wyjściowe są przechowywane w/example/data/WordCountOutput.Uwaga
Aby uzyskać więcej informacji na temat tego zadania MapReduce i przykładowych danych, zobacz Use MapReduce in Apache Hadoop on HDInsight.
Zadanie emituje szczegóły podczas przetwarzania i zwraca informacje podobne do następującego tekstu po zakończeniu zadania:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623Po zakończeniu zadania użyj następującego polecenia, aby wyświetlić listę plików wyjściowych:
hdfs dfs -ls /example/data/WordCountOutputTo polecenie wyświetla dwa pliki,
_SUCCESSipart-r-00000. Plikpart-r-00000zawiera dane wyjściowe dla tego zadania.Uwaga
Niektóre zadania MapReduce mogą podzielić wyniki na wiele plików part-r-#####. Jeśli tak, użyj sufiksu #####, aby wskazać kolejność plików.
Aby wyświetlić dane wyjściowe, użyj następującego polecenia:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000To polecenie wyświetla listę wyrazów zawartych w pliku wasbs://example/data/gutenberg/davinci.txt i liczbę przypadków wystąpienia każdego wyrazu. Poniższy tekst to przykład danych zawartych w pliku:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Następne kroki
Jak widać, polecenia platformy Hadoop umożliwiają łatwe uruchamianie zadań MapReduce w klastrze usługi HDInsight, a następnie wyświetlanie danych wyjściowych zadania. Aby uzyskać informacje o innych sposobach pracy z usługą Hadoop w usłudze HDInsight: