Skonfiguruj laboratorium do analizy big data w usłudze Azure Lab Services z użyciem platformy HortonWorks Data Platform poprzez wdrożenie w Dockerze.

Ważne

Usługa Azure Lab Services zostanie wycofana 28 czerwca 2027 r. Aby uzyskać więcej informacji, zobacz przewodnik po wycofaniu.

Uwaga

Ten artykuł odwołuje się do funkcji dostępnych w planach laboratorium, które zastąpiły konta laboratorium.

W tym artykule pokazano, jak skonfigurować laboratorium do prowadzenia zajęć z analizy big data. Klasa analizy danych big data uczy użytkowników, jak obsługiwać duże ilości danych. Uczy ich również stosowania algorytmów uczenia maszynowego i statystycznego w celu uzyskania szczegółowych informacji o danych. Kluczowym celem jest poznanie sposobu używania narzędzi do analizy danych, takich jak pakiet oprogramowania open source platformy Apache Hadoop. Pakiet oprogramowania udostępnia narzędzia do przechowywania i przetwarzania danych big data oraz zarządzania nimi.

W tym laboratorium użytkownicy laboratorium pracują z popularną komercyjną wersją platformy Hadoop dostarczaną przez usługę Cloudera o nazwie Hortonworks Data Platform (HDP). W szczególności użytkownicy laboratorium używają piaskownicy HDP 3.0.1 , która jest uproszczoną, łatwą w użyciu wersją platformy. Piaskownica HDP 3.0.1 jest również bezpłatna i jest przeznaczona do nauki i eksperymentowania. Mimo że ta klasa może używać maszyn wirtualnych z systemem Windows lub Linux z wdrożonym piaskownicą usługi HDP. W tym artykule pokazano, jak używać systemu Windows.

Innym interesującym aspektem jest to, że wdrażasz HDP Sandbox na maszynach wirtualnych laboratorium przy użyciu kontenerów platformy Docker. Każdy kontener Docker zapewnia własne izolowane środowisko, w którym aplikacje mogą działać. Koncepcyjnie kontenery platformy Docker są podobne do zagnieżdżonych maszyn wirtualnych i mogą służyć do łatwego wdrażania i uruchamiania wielu aplikacji oprogramowania opartych na obrazach kontenerów udostępnianych w usłudze Docker Hub. Skrypt wdrażania Cloudera dla piaskownicy HDP automatycznie ściąga obraz Dockera piaskownicy HDP 3.0.1 z usługi Docker Hub i uruchamia dwa kontenery Dockera:

piaskownica —hdp
serwer proxy piaskownicy

Wymagania wstępne

Aby skonfigurować to laboratorium, musisz mieć dostęp do subskrypcji platformy Azure. Porozmawiaj z administratorem organizacji, aby sprawdzić, czy możesz uzyskać dostęp do istniejącej subskrypcji platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto .

Konfiguracja laboratorium

Ustawienia planu laboratorium

Po utworzeniu subskrypcji platformy Azure możesz utworzyć plan laboratorium w usłudze Azure Lab Services. Aby uzyskać więcej informacji na temat tworzenia nowego planu laboratorium, zobacz Szybki start: konfigurowanie zasobów w celu tworzenia laboratoriów. Możesz również użyć istniejącego planu laboratorium.

To laboratorium używa obrazów Windows 10 Pro z Azure Marketplace jako podstawowego obrazu maszyny wirtualnej. Najpierw należy włączyć ten obraz w planie laboratorium. Umożliwia to twórcom laboratorium wybranie obrazu jako obrazu podstawowego dla laboratorium.

Wykonaj następujące kroki, aby udostępnić twórcom laboratorium te obrazy z witryny Azure Marketplace. Wybierz jeden z obrazów witryny Azure Marketplace systemu Windows 10 .

Ustawienia laboratorium

Utwórz laboratorium dla swojego planu laboratyjnego. Aby uzyskać instrukcje dotyczące tworzenia laboratorium, zobacz Samouczek: konfigurowanie laboratorium. Podczas tworzenia laboratorium użyj następujących ustawień.

Ustawienia laboratorium	Wartość/instrukcje
Rozmiar maszyny wirtualnej	Pośredni poziom (wirtualizacja zagnieżdżona). Ten rozmiar maszyny wirtualnej najlepiej nadaje się do relacyjnych baz danych, buforowania w pamięci i analizy. Rozmiar obsługuje również zagnieżdżoną wirtualizację.
Obraz maszyny wirtualnej	Windows 10 Pro

Uwaga

Użyj rozmiaru Średni (wirtualizacja zagnieżdżona) maszyny wirtualnej, ponieważ piaskownica HDP korzystająca z platformy Docker wymaga funkcji Windows Hyper-V z wirtualizacją zagnieżdżoną i co najmniej 10 GB pamięci RAM.

Konfiguracja maszyny szablonowej

Aby skonfigurować maszynę do szablonów:

Zainstaluj platformę Docker
Wdrażanie HDP Sandbox
Automatyczne uruchamianie kontenerów platformy Docker przy użyciu programu PowerShell i harmonogramu zadań systemu Windows

Zainstaluj platformę Docker

Kroki opisane w tej sekcji są oparte na instrukcjach usługi Cloudera dotyczących wdrażania za pomocą kontenerów platformy Docker.

Aby korzystać z kontenerów platformy Docker, należy najpierw zainstalować program Docker Desktop na maszynie wirtualnej szablonu:

Wykonaj kroki opisane w sekcji Wymagania wstępne , aby zainstalować platformę Docker dla systemu Windows.

Ważne

Upewnij się, że opcja Użyj kontenerów systemu Windows zamiast kontenerów systemu Linux nie jest zaznaczona.
Upewnij się, że kontenery systemu Windows i funkcje Hyper-V są włączone.
Wykonaj kroki opisane w sekcji Pamięć dla systemu Windows , aby skonfigurować konfigurację pamięci platformy Docker.

Ostrzeżenie

Jeśli przypadkowo sprawdzisz opcję Użyj kontenerów systemu Windows zamiast kontenerów systemu Linux podczas instalowania platformy Docker, ustawienia konfiguracji pamięci nie będą widoczne. Aby rozwiązać ten problem, możesz przełączyć się na używanie kontenerów systemu Linux, klikając ikonę platformy Docker na pasku zadań systemu Windows. po otwarciu menu programu Docker Desktop wybierz pozycję Przełącz do kontenerów systemu Linux.

Wdrażanie HDP Sandbox

Następnie wdróż piaskownicę usługi HDP, a następnie uzyskaj dostęp do piaskownicy usługi HDP przy użyciu przeglądarki.

Upewnij się, że masz zainstalowany Git Bash, zgodnie z opisem w sekcji Wymagania wstępne tego przewodnika. Zaleca się wykonanie kolejnych kroków.
Korzystając z przewodnika wdrażania i instalowania usługi Cloudera dla platformy Docker, wykonaj kroki opisane w następujących sekcjach:
- Wdrażanie HDP Sandbox
- Weryfikowanie piaskownicy usługi HDP
Ostrzeżenie

Po pobraniu najnowszego pliku .zip dla usługi HDP upewnij się, że nie zapiszesz pliku .zip w ścieżce katalogu zawierającej białe znaki.

Uwaga

Jeśli podczas wdrażania wystąpi wyjątek informujący, że dysk nie został udostępniony, musisz udostępnić dysk C do platformy Docker, aby kontenery systemu Linux usługi HDP mogły uzyskiwać dostęp do lokalnych plików systemu Windows. Aby rozwiązać ten problem, kliknij ikonę platformy Docker na pasku zadań systemu Windows , aby otworzyć menu pulpitu platformy Docker i wybrać pozycję Ustawienia. Po otwarciu okna dialogowego Ustawienia platformy Docker wybierz pozycję Zasoby > Udostępnianie plików i sprawdź dysk C . Następnie możesz powtórzyć kroki wdrażania piaskownicy usługi HDP.
Po wdrożeniu i uruchomieniu kontenerów platformy Docker dla piaskownicy usługi HDP możesz uzyskać dostęp do środowiska, uruchamiając przeglądarkę. Postępuj zgodnie z instrukcjami Cloudera dotyczącymi otwierania Sandbox Welcome Page i uruchamiania pulpitu HDP.

Uwaga

W tych instrukcjach założono, że najpierw zamapowaliśmy lokalny adres IP środowiska piaskownicy na sandbox-hdp.hortonworks.com w pliku hosta na maszynie wirtualnej szablonu. Jeśli nie utworzysz tego mapowania, możesz uzyskać dostęp do strony powitalnej Sandbox, przechodząc do .

Aby zapewnić łatwe w użyciu środowisko dla użytkowników laboratorium, utwórz skrypt programu PowerShell, który automatycznie:

Uruchamia kontenery Docker środowiska piaskownicy HDP, gdy użytkownik laboratorium uruchamia maszynę wirtualną laboratorium i nawiązuje z nią połączenie.
Uruchamia przeglądarkę i przechodzi do strony powitalnej piaskownicy.

Użyj harmonogramu zadań systemu Windows, aby automatycznie uruchomić ten skrypt, gdy użytkownik laboratorium zaloguje się do swojej maszyny wirtualnej. Aby skonfigurować harmonogram zadań, wykonaj następujące kroki: wykonywanie skryptów analizy danych big data.

Podsumowanie

W tym artykule przedstawiono kroki niezbędne do utworzenia laboratorium dla klasy analizy danych big data. Klasa analizy danych big data używa platformy Hortonworks Data Platform wdrożonej za pomocą platformy Docker. Konfiguracja dla tego typu klasy może być używana dla podobnych klas analizy danych. Ta konfiguracja może być również stosowana do innych typów klas, które używają platformy Docker do wdrożenia.

Następne kroki

Obraz szablonu można teraz opublikować w laboratorium. Aby uzyskać więcej informacji, zobacz Publikowanie maszyny wirtualnej szablonu.

Podczas konfigurowania laboratorium zapoznaj się z następującymi artykułami:

Last updated on 2023-04-25

Udostępnij przez