Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Saiba como enviar trabalhos do MapReduce de uma conexão Secure Shell (SSH) para o HDInsight.
Observação
Se você já está familiarizado com o uso de servidores Apache Hadoop baseados em Linux, mas é novo no HDInsight, consulte Dicas do HDInsight baseado em Linux.
Pré-requisitos
Um cluster Apache Hadoop em HDInsight. Consulte Criar clusters Apache Hadoop usando o portal do Azure.
Usar comandos do Hadoop
Use o comando ssh para conectar ao seu cluster. Edite o comando abaixo substituindo CLUSTERNAME pelo nome do cluster e digite o comando:
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.netDepois de se conectar ao cluster HDInsight, use o seguinte comando para iniciar um trabalho do MapReduce:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutputEste comando inicia a
wordcountclasse, que está contida nohadoop-mapreduce-examples.jararquivo. Ele usa o documento/example/data/gutenberg/davinci.txtcomo entrada, e a saída é armazenada em/example/data/WordCountOutput.Observação
Para obter mais informações sobre esse trabalho MapReduce e os dados de exemplo, consulte Usar MapReduce no Apache Hadoop no HDInsight.
O trabalho emite detalhes à medida que é processado e produz informações semelhantes ao texto seguinte quando o trabalho é finalizado.
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623Quando o trabalho for concluído, use o seguinte comando para listar os arquivos de saída:
hdfs dfs -ls /example/data/WordCountOutputEste comando exibe dois arquivos
_SUCCESSepart-r-00000. Opart-r-00000arquivo contém a saída para este trabalho.Observação
Alguns trabalhos do MapReduce podem dividir os resultados em vários arquivos part-r-##### . Em caso afirmativo, use o sufixo ##### para indicar a ordem dos arquivos.
Para exibir a saída, use o seguinte comando:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000Este comando exibe uma lista das palavras contidas no arquivo wasbs://example/data/gutenberg/davinci.txt e o número de vezes que cada palavra ocorreu. O texto a seguir é um exemplo dos dados contidos no arquivo:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Próximos passos
Como você pode ver, os comandos do Hadoop fornecem uma maneira fácil de executar trabalhos do MapReduce em um cluster HDInsight e, em seguida, exibir a saída do trabalho. Para obter informações sobre outras maneiras de trabalhar com o Hadoop no HDInsight: