Partager via


Configurer un labo dans Azure Lab Services pour l’analytique du Big Data à l’aide du déploiement Docker de HortonWorks Data Platform

Important

Azure Lab Services sera mis hors service le 28 juin 2027. Pour plus d’informations, consultez le guide de mise hors service.

Remarque

Cet article fait référence aux fonctionnalités disponibles dans les plans de laboratoire, qui ont remplacé les comptes de laboratoire.

Cet article explique comment configurer un labo pour enseigner une classe d’analytique du Big Data. Un cours d’analytique du Big Data enseigne aux utilisateurs comment gérer de grands volumes de données. Elle leur enseigne également à appliquer des algorithmes d’apprentissage automatique et statistique pour dériver des insights sur les données. Un objectif clé est d’apprendre à utiliser des outils d’analytique des données, tels que le package logiciel open source d’Apache Hadoop. Ce package logiciel fournit des outils pour le stockage, la gestion et le traitement du Big Data.

Dans ce labo, les utilisateurs du labo travaillent avec une version commerciale populaire de Hadoop fournie par Cloudera, appelée Hortonworks Data Platform (HDP). Plus précisément, les utilisateurs du laboratoire utilisent HDP Sandbox 3.0.1 qui est une version simplifiée et facile à utiliser de la plateforme. HDP Sandbox 3.0.1 est également gratuit, et destiné à l’apprentissage et à l’expérimentation. Bien que cette classe puisse utiliser soit des machines virtuelles Windows soit Linux, avec le HDP Sandbox déployé, Cet article explique comment utiliser Windows.

Un autre aspect intéressant est que vous déployez le bac à sable HDP sur les machines virtuelles de laboratoire à l’aide de conteneurs Docker . Chaque conteneur Docker fournit son propre environnement isolé pour que les applications logicielles s’y exécutent. Conceptuellement, les conteneurs Docker sont comme des machines virtuelles imbriquées et peuvent être utilisés pour déployer et exécuter facilement un large éventail d’applications logicielles basées sur des images conteneur fournies sur Docker Hub. Le script de déploiement de Cloudera pour HDP Sandbox extrait automatiquement l’image Docker du bac à sable HDP 3.0.1 à partir de Docker Hub et exécute deux conteneurs Docker :

  • sandbox-hdp
  • sandbox-proxy

Prérequis

Pour pouvoir configurer ce Lab, vous devez avoir accès à un abonnement Azure. Demandez à l’administrateur de votre organisation si vous pouvez accéder à un abonnement Azure existant. Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.

Configuration du laboratoire

Paramètres du plan de labo

Une fois que vous disposez d’un abonnement Azure, vous pouvez créer un plan de labo dans Azure Lab Services. Pour plus d’informations sur la création d’un plan de laboratoire, consultez Démarrage rapide : Configurer des ressources pour créer des labos. Vous pouvez aussi utiliser un plan de labo existant.

Ce labo utilise des images de la Place de marché Azure Windows 10 Professionnel comme image de machine virtuelle de base. Vous devez d’abord activer cette image dans votre plan de labo. Cela permet aux créateurs de labo de sélectionner l’image comme image de base pour leur labo.

Suivez ces étapes pour activer ces images de la Place de marché Azure disponibles pour les créateurs de laboratoire. Sélectionnez l’une des images de la Place de marché Azure Windows 10 .

Paramètres du labo

Créez un laboratoire pour votre plan de laboratoire. Pour obtenir des instructions sur la création d’un labo, consultez Tutoriel : Configurer un labo. Utilisez les paramètres suivants pour la création du labo.

Paramètres du labo Valeur et instructions
Taille de la machine virtuelle Intermédiaire (virtualisation imbriquée). Cette taille de machine virtuelle est idéale pour les bases de données relationnelles, la mise en cache en mémoire et l’analytique. La taille prend également en charge la virtualisation imbriquée.
Image de machine virtuelle Windows 10 Professionnel

Remarque

Utilisez la taille de machine virtuelle Moyenne (virtualisation imbriquée), car le déploiement de HDP Sandbox à l’aide de Docker nécessite Windows Hyper-V avec virtualisation imbriquée et au moins 10 Go de RAM.

Configuration du gabarit de machine

Pour configurer la machine modèle :

  1. Installation de Docker
  2. Déployer HDP Sandbox
  3. Utilisation de PowerShell et du Planificateur de tâches Windows pour démarrer automatiquement les conteneurs Docker

Installation de Docker

Les étapes décrites dans cette section sont basées sur les instructions de Cloudera pour le déploiement avec des conteneurs Docker.

Pour utiliser des conteneurs Docker, vous devez d’abord installer Docker Desktop sur le modèle de machine virtuelle :

  1. Suivez les étapes décrites dans la section Conditions préalables pour installer Docker pour Windows.

    Important

    Vérifiez que l’option Utiliser des conteneurs Windows au lieu de l’option de configuration des conteneurs Linux est désactivée.

  2. Vérifiez que les conteneurs Windows et les fonctionnalités de Hyper-V sont activés.

    Activez ou désactivez les fonctionnalités Windows.

  3. Suivez les étapes de la section Mémoire pour Windows pour configurer la configuration de la mémoire de Docker.

    Avertissement

    Si vous cochez par inadvertance l'option Utiliser des conteneurs Windows au lieu de conteneurs Linux lors de l'installation de Docker, vous ne verrez pas les paramètres de configuration de la mémoire. Pour résoudre ce problème, vous pouvez basculer vers l’utilisation de conteneurs Linux en cliquant sur l’icône Docker dans la barre d’état système Windows ; lorsque le menu Docker Desktop s’ouvre, sélectionnez Basculer vers les conteneurs Linux.

Déployer HDP Sandbox

Ensuite, déployez HDP Sandbox puis accédez-y à l’aide du navigateur.

  1. Vérifiez que vous avez installé Git Bash comme indiqué dans la section Conditions préalables du guide. Il est recommandé de effectuer les étapes suivantes.

  2. À l’aide du Guide de déploiement et d’installation de Cloudera pour Docker, effectuez les étapes décrites dans les sections suivantes :

    • Déployer HDP Sandbox
    • Vérifier la HDP Sandbox

    Avertissement

    Lorsque vous téléchargez le dernier fichier .zip pour HDP, veillez à ne pas enregistrer le fichier .zip dans un chemin d’accès de répertoire qui inclut des espaces blancs.

    Remarque

    Si vous recevez une exception pendant le déploiement indiquant que le lecteur n’a pas été partagé, vous devez partager votre lecteur C avec Docker afin que les conteneurs Linux de HDP puissent accéder aux fichiers Windows locaux. Pour résoudre ce problème, cliquez sur l’icône Docker dans la barre d’état système Windows pour ouvrir le menu Docker Desktop et sélectionnez Paramètres. Lorsque la boîte de dialogue Paramètres de Docker s’ouvre, sélectionnez Partage de fichiers de ressources > et vérifiez le lecteur C. Vous pouvez ensuite répéter les étapes pour déployer HDP Sandbox.

  3. Une fois les conteneurs Docker pour HDP Sandbox déployés et opérationnels, vous pouvez accéder à l’environnement en lançant votre navigateur. Suivez les instructions de Cloudera pour ouvrir la page d’accueil du bac à sable et lancer le tableau de bord HDP.

    Remarque

    Ces instructions supposent que vous avez d’abord mappé l’adresse IP locale de l’environnement du bac à sable à l’adresse sandbox-hdp.hortonworks.com dans le fichier hôte sur votre modèle de machine virtuelle. Si vous ne effectuez pas ce mappage, vous pouvez accéder à la page d’accueil du bac à sable en accédant à http://localhost:8080.

Démarrer automatiquement les conteneurs Docker lorsque les utilisateurs du labo se connectent

Pour fournir une expérience simplifiée aux utilisateurs du labo, créez un script PowerShell qui effectue automatiquement les opérations suivantes :

  1. Démarre les conteneurs Docker HDP Sandbox lorsqu’un utilisateur du labo démarre sa machine virtuelle de labo et s’y connecte.
  2. Lance le navigateur et accède à la page d’accueil de Sandbox.

Utilisez le Planificateur de tâches Windows pour exécuter automatiquement ce script lorsqu’un utilisateur du labo se connecte à sa machine virtuelle. Pour configurer un planificateur de tâches, procédez comme suit : Script Big Data Analytics.

Conclusion

Cet article vous a présenté les étapes nécessaires à la création d’un labo pour une classe d’analytique du Big Data. La classe d’analytique du Big Data utilise Hortonworks Data Platform déployé avec Docker. La configuration de ce type de classe peut être utilisée pour des classes similaires d’Analytique données. Cette configuration peut également s’appliquer à d’autres types de classes qui utilisent Docker pour le déploiement.

Étapes suivantes

L’image du modèle peut à présent être publiée dans le labo. Pour plus d’informations, consultez Publier le modèle de machine virtuelle.

Au fil de la configuration de votre instance Lab, consultez les articles suivants :