Partilhar via


Usar o MapReduce com Apache Hadoop no HDInsight com SSH

Saiba como enviar trabalhos do MapReduce de uma conexão Secure Shell (SSH) para o HDInsight.

Observação

Se você já está familiarizado com o uso de servidores Apache Hadoop baseados em Linux, mas é novo no HDInsight, consulte Dicas do HDInsight baseado em Linux.

Pré-requisitos

Um cluster Apache Hadoop em HDInsight. Consulte Criar clusters Apache Hadoop usando o portal do Azure.

Usar comandos do Hadoop

  1. Use o comando ssh para conectar ao seu cluster. Edite o comando abaixo substituindo CLUSTERNAME pelo nome do cluster e digite o comando:

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. Depois de se conectar ao cluster HDInsight, use o seguinte comando para iniciar um trabalho do MapReduce:

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    Este comando inicia a wordcount classe, que está contida no hadoop-mapreduce-examples.jar arquivo. Ele usa o documento /example/data/gutenberg/davinci.txt como entrada, e a saída é armazenada em /example/data/WordCountOutput.

    Observação

    Para obter mais informações sobre esse trabalho MapReduce e os dados de exemplo, consulte Usar MapReduce no Apache Hadoop no HDInsight.

    O trabalho emite detalhes à medida que é processado e produz informações semelhantes ao texto seguinte quando o trabalho é finalizado.

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. Quando o trabalho for concluído, use o seguinte comando para listar os arquivos de saída:

    hdfs dfs -ls /example/data/WordCountOutput
    

    Este comando exibe dois arquivos _SUCCESS e part-r-00000. O part-r-00000 arquivo contém a saída para este trabalho.

    Observação

    Alguns trabalhos do MapReduce podem dividir os resultados em vários arquivos part-r-##### . Em caso afirmativo, use o sufixo ##### para indicar a ordem dos arquivos.

  4. Para exibir a saída, use o seguinte comando:

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    Este comando exibe uma lista das palavras contidas no arquivo wasbs://example/data/gutenberg/davinci.txt e o número de vezes que cada palavra ocorreu. O texto a seguir é um exemplo dos dados contidos no arquivo:

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

Próximos passos

Como você pode ver, os comandos do Hadoop fornecem uma maneira fácil de executar trabalhos do MapReduce em um cluster HDInsight e, em seguida, exibir a saída do trabalho. Para obter informações sobre outras maneiras de trabalhar com o Hadoop no HDInsight: