Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Découvrez comment envoyer des travaux MapReduce à partir d’une connexion SSH (Secure Shell) à HDInsight.
Remarque
Si vous connaissez déjà l’utilisation de serveurs Apache Hadoop basés sur Linux, mais que vous débutez avec HDInsight, consultez les conseils HDInsight basés sur Linux.
Conditions préalables
Un cluster Apache Hadoop sur HDInsight. Consultez Créer des clusters Apache Hadoop à l’aide du Portail Azure.
Utiliser des commandes Hadoop
Utilisez la commande ssh pour vous connecter à votre cluster. Modifiez la commande ci-dessous en remplaçant CLUSTERNAME par le nom de votre cluster, puis entrez la commande :
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.netUne fois que vous êtes connecté au cluster HDInsight, utilisez la commande suivante pour démarrer un travail MapReduce :
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutputCette commande démarre la
wordcountclasse, qui est contenue dans lehadoop-mapreduce-examples.jarfichier. Il utilise le/example/data/gutenberg/davinci.txtdocument comme entrée et la sortie est stockée sur/example/data/WordCountOutput.Remarque
Pour plus d’informations sur ce travail MapReduce et les exemples de données, consultez Utiliser MapReduce dans Apache Hadoop sur HDInsight.
La tâche émet des détails au fur et à mesure de son traitement, et elle retourne des informations similaires au texte suivant lorsque la tâche se termine :
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623Une fois le travail terminé, utilisez la commande suivante pour répertorier les fichiers de sortie :
hdfs dfs -ls /example/data/WordCountOutputCette commande affiche deux fichiers,
_SUCCESSetpart-r-00000. Lepart-r-00000fichier contient la sortie de ce travail.Remarque
Certains tâches MapReduce peuvent répartir les résultats entre plusieurs fichiers part-r-#####. Dans ce cas, utilisez le suffixe ##### pour indiquer l’ordre des fichiers.
Pour afficher la sortie, utilisez la commande suivante :
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000Cette commande affiche une liste des mots contenus dans le fichier wasbs://example/data/gutenberg/davinci.txt et le nombre de fois où chaque mot s’est produit. Le texte suivant est un exemple des données contenues dans le fichier :
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Étapes suivantes
Comme vous pouvez le voir, les commandes Hadoop offrent un moyen simple d’exécuter des travaux MapReduce dans un cluster HDInsight, puis d’afficher la sortie du travail. Pour plus d’informations sur d’autres méthodes de travail avec Hadoop sur HDInsight :