Udostępnij przez


Wybieranie technologii transferu danych

W tym artykule opisano kilka opcji, których można użyć do transferu danych do i z platformy Azure, w zależności od potrzeb.

Transfer fizyczny

Użycie sprzętu fizycznego do transferu danych na platformę Azure jest dobrym rozwiązaniem w przypadku zastosowania następujących czynników:

  • Sieć działa wolno lub zawodnie.
  • Uzyskanie większej przepustowości sieci jest zbyt kosztowne.
  • Zasady zabezpieczeń lub organizacji nie zezwalają na połączenia wychodzące podczas obsługi poufnych danych.

Jeśli twoim podstawowym problemem jest czas przesyłania danych, rozważ przetestowanie, aby potwierdzić, czy transfer sieciowy jest wolniejszy niż transport fizyczny.

Usługa Azure Import/Export i Azure Data Box to dwie główne opcje fizycznego transportu danych na platformę Azure.

Usługa Azure Import/Export

Usługa Azure Import/Export umożliwia bezpieczne przesyłanie dużych ilości danych do usługi Azure Blob Storage lub Azure Files poprzez wysłanie wewnętrznych dysków twardych Serial Advanced Technology Attachment (SATA) lub dysków półprzewodnikowych (SSD) do centrum danych Azure. Możesz również użyć tej usługi do transferu danych z usługi Azure Storage na dyski HDD i zlecenia ich wysyłki do Ciebie, aby załadować dane lokalnie.

Data Box

Data Box to urządzenie firmy Microsoft, które działa podobnie jak usługa Azure Import/Export. Dzięki usłudze Data Box firma Microsoft dostarcza zastrzeżone, bezpieczne i odporne na naruszenia urządzenie transferowe oraz obsługuje kompleksową logistykę, którą można śledzić w witrynie Azure Portal. Jedną z zalet usługi Data Box jest łatwość użycia. Nie musisz kupować kilku dysków twardych, przygotowywać ich i przesyłać pliki do każdego z nich. Wielu partnerów platformy Azure obsługuje usługę Data Box, co ułatwia korzystanie z transportu offline do chmury w ramach swoich rozwiązań.

Narzędzia wiersza polecenia i interfejsy API

Jeśli potrzebujesz skryptowego i programowego transferu danych, rozważ następujące opcje:

  • Interfejs Azure CLI to międzyplatformowe narzędzie umożliwiające zarządzanie usługami Azure i przesyłanie danych do Azure Storage.

  • AzCopy to narzędzie wiersza polecenia, które umożliwia kopiowanie danych do i z usług Blob Storage, Azure Files Storage i Azure Table Storage z optymalną wydajnością. Narzędzie AzCopy obsługuje współbieżność i równoległość oraz umożliwia wznawianie operacji kopiowania, gdy zostaną przerwane. Możesz również użyć narzędzia AzCopy, aby skopiować dane z usług Amazon Web Services (AWS) na platformę Azure. W przypadku dostępu programowego biblioteka przenoszenia danych usługi Microsoft Azure Storage to podstawowa struktura, która obsługuje narzędzie AzCopy. Jest ona udostępniana jako biblioteka platformy .NET Core.

  • Azure PowerShell to środowisko skryptowe, w którym Start-AzureStorageBlobCopy polecenie cmdlet udostępnia opcję dla operatorów, którzy znają program Azure PowerShell.

  • DistCp to narzędzie służące do kopiowania danych między domyślnym magazynem klastra usługi Azure HDInsight i innymi kontami usługi Blob Storage lub Azure Data Lake Storage.

  • Apache Sqoop to projekt Apache i część ekosystemu platformy Hadoop. Jest on wstępnie zainstalowany we wszystkich klastrach usługi HDInsight. Narzędzie Sqoop przesyła dane między klastrem usługi HDInsight i relacyjnymi bazami danych, takimi jak SQL, Oracle i MySQL. Jest to zestaw powiązanych narzędzi, w tym narzędzia do importu i eksportu, które współpracują z klastrami HDInsight, korzystając z połączonego magazynu Blob Storage lub Data Lake Storage.

  • PolyBase to technologia, która uzyskuje dostęp do danych spoza bazy danych za pośrednictwem języka T-SQL. Umożliwia ona uruchamianie zapytań dotyczących danych zewnętrznych w usłudze Hadoop lub importowanie i eksportowanie danych z usługi Blob Storage.

  • Wiersz polecenia usługi Hadoop to narzędzie, którego można użyć, gdy dane znajdują się w węźle głównym klastra usługi HDInsight. Możesz użyć hadoop fs -copyFromLocal polecenia , aby skopiować te dane do dołączonego magazynu klastra, takiego jak Blob Storage lub Data Lake Storage. Aby użyć polecenia hadoop, musisz najpierw nawiązać połączenie z węzłem głównym. Po nawiązaniu połączenia można przekazać plik do przechowywania.

Interfejs graficzny

Rozważ następujące opcje, jeśli musisz przesłać tylko kilka plików lub obiektów danych i nie trzeba automatyzować tego procesu.

  • Eksplorator usługi Azure Storage to międzyplatformowe narzędzie umożliwiające zarządzanie zawartością kont usługi Storage. Umożliwia ona przekazywanie, pobieranie i zarządzanie obiektami blob, plikami, kolejkami, tabelami i jednostkami usługi Azure Cosmos DB. Użyj Eksploratora magazynu z usługą Blob Storage, aby zarządzać obiektami blob i folderami oraz wysyłać i pobierać obiekty blob między lokalnym systemem plików a usługą Blob Storage lub między kontami magazynu.

  • Witryna Azure Portal to aplikacja internetowa, która udostępnia ujednolicony interfejs umożliwiający tworzenie i monitorowanie zasobów platformy Azure oraz zarządzanie nimi. Usługi Blob Storage i Data Lake Storage zapewniają internetowy interfejs do eksplorowania i przekazywania plików. Ta opcja jest odpowiednia, jeśli nie chcesz instalować narzędzi ani uruchamiać poleceń, aby szybko przeszukiwać pliki, lub jeśli musisz przekazać tylko kilka plików.

  • Przepływy danych usługi Microsoft Fabric to funkcje oparte na chmurze, które ułatwiają przygotowywanie i przekształcanie danych bez pisania kodu. Zapewniają one interfejs o niskim kodzie do pozyskiwania danych z setek źródeł i przekształcania danych przy użyciu wbudowanych transformatorów danych i ładowania wynikowych danych do obsługiwanych miejsc docelowych.

Synchronizacja danych i pipeliny

  • Azure Data Factory to zarządzana usługa przeznaczona do regularnego przesyłania plików między usługami platformy Azure, systemami lokalnymi lub kombinacją obu tych usług. Za pomocą usługi Data Factory można tworzyć i planować oparte na danych przepływy pracy nazywane potokami, które pozyskują dane z różnych magazynów danych. Usługa Data Factory może przetwarzać i przekształcać dane przy użyciu usług obliczeniowych, takich jak Apache Spark i Azure Machine Learning. Możesz tworzyć oparte na danych przepływy pracy do organizowania i automatyzowania przenoszenia danych i przekształcania danych.

  • Usługa Fabric Data Factory to platforma integracji danych, która umożliwia organizowanie i automatyzowanie przenoszenia i przekształcania danych w środowiskach chmurowych i hybrydowych. Umożliwia ona tworzenie i planowanie opartych na danych przepływów pracy (potoków), które pozyskują dane z różnych źródeł, w tym magazyn w chmurze, bazy danych i systemy lokalne. Te pipeline'y obsługują różne działania, takie jak przenoszenie danych, przekształcanie i sterowanie przepływem, i mogą używać aparatów obliczeniowych, takich jak Spark i SQL w ramach obciążeń Fabric. Dzięki integracji z usługą OneLake usługa Fabric zapewnia ujednolicony dostęp do danych, nadzór i współpracę w całej infrastrukturze danych.

    Środowisko Integration Runtime w usłudze Data Factory, lokalna brama danych w Fabric i brama danych sieci wirtualnej zapewniają bezpieczną łączność i integrację danych w środowiskach chmurowych, lokalnych oraz w sieciach wirtualnych.

  • Usługa Azure Data Box Gateway przesyła dane do i z platformy Azure, ale jest to urządzenie wirtualne, a nie dysk twardy. Maszyny wirtualne znajdujące się w sieci lokalnej zapisują dane w usłudze Data Box Gateway przy użyciu protokołów sieciowego systemu plików (NFS) i bloku komunikatów serwera (SMB). Następnie urządzenie przesyła dane na platformę Azure.

Kluczowe kryteria wyboru

W przypadku scenariuszy transferu danych wybierz odpowiedni system dla Twoich potrzeb, biorąc pod uwagę następujące kwestie:

  • Ustal, czy trzeba transferować duże ilości danych, a przesyłanie danych za pośrednictwem połączenia internetowego zajęłoby zbyt dużo czasu, byłoby zawodne lub zbyt drogie. Jeśli tak, rozważ transfer fizyczny.

  • Określ, czy wolisz wykonywać skrypty zadań transferu danych, aby były wielokrotnego użytku. Jeśli tak, wybierz jedną z opcji wiersza polecenia lub usługę Data Factory.

  • Ustal, czy chcesz przenieść dużą ilość danych za pośrednictwem połączenia sieciowego. Jeśli tak, wybierz opcję zoptymalizowaną pod kątem danych big data.

  • Ustal, czy chcesz przesyłać dane do lub z relacyjnej bazy danych. Jeśli tak, wybierz opcję, która obsługuje co najmniej jedną relacyjną bazę danych. Niektóre z tych opcji wymagają również klastra Hadoop.

  • Określ, czy dane wymagają automatyzacji potoku lub orkiestracji przepływu pracy. Jeśli tak, rozważ użycie usługi Data Factory.

Macierz możliwości

W poniższych tabelach podsumowano kluczowe różnice w możliwościach.

Transfer fizyczny

Możliwość Usługa Azure Import/Export Data Box
Format urządzenia Wewnętrzne dyski HDD lub SSD SATA Bezpieczne, odporne na naruszenia, jedno urządzenie sprzętowe
Firma Microsoft zarządza logistyką wysyłkową Nie. Tak
Integruje się z produktami partnerskimi Nie. Tak
Urządzenie niestandardowe Nie. Tak

Narzędzia wiersza polecenia

Poniższe narzędzia są zgodne z usługami Hadoop i HDInsight.

Możliwość Rozdzielczość Kwadrat Interfejs wiersza polecenia usługi Hadoop
Zoptymalizowane dla dużych zbiorów danych Tak Tak Tak
Kopiowanie do relacyjnej bazy danych Nie. Tak Nie.
Kopiowanie z relacyjnej bazy danych Nie. Tak Nie.
Kopiowanie do usługi Blob Storage Tak Tak Tak
Kopiowanie z usługi Blob Storage Tak Tak Nie.
Kopiowanie do usługi Data Lake Storage Tak Tak Tak
Kopiowanie z usługi Data Lake Storage Tak Tak Nie.

Poniższa tabela zawiera narzędzia do transferu danych ogólnego przeznaczenia.

Możliwość Azure CLI AzCopy Azure PowerShell PolyBase
Zgodne platformy Linux, OS X, Windows Linux, Okna Windows SQL Server
Zoptymalizowane dla dużych zbiorów danych Nie. Tak Nie. Tak 1
Kopiowanie do relacyjnej bazy danych Nie. Nie. Nie. Tak
Kopiowanie z relacyjnej bazy danych Nie. Nie. Nie. Tak
Kopiowanie do usługi Blob Storage Tak Tak Tak Tak
Kopiowanie z usługi Blob Storage Tak Tak Tak Tak
Kopiowanie do usługi Data Lake Storage Nie. Tak Tak Tak
Kopiowanie z usługi Data Lake Storage Nie. Nie. Tak Tak

1 Wydajność technologii PolyBase można poprawić , wypychając obliczenia do usługi Hadoop i używając grup skalowanych w poziomie programu PolyBase w celu umożliwienia równoległego transferu danych między wystąpieniami programu SQL Server i węzłami usługi Hadoop.

Interfejsy graficzne, synchronizacja danych i potoki danych

Możliwość Eksplorator usługi Storage Witryna Azure Portal 2 Data Factory Data Box Gateway Dataflows
Zoptymalizowane dla dużych zbiorów danych Nie. Nie. Tak Tak Tak
Kopiowanie do relacyjnej bazy danych Nie. Nie. Tak Nie. Tak
Kopiowanie z relacyjnej bazy danych Nie. Nie. Tak Nie. Tak
Kopiowanie do usługi Blob Storage Tak Nie. Tak Tak Tak
Kopiowanie z usługi Blob Storage Tak Nie. Tak Nie. Tak
Kopiowanie do usługi Data Lake Storage Nie. Nie. Tak Nie. Tak
Kopiowanie z usługi Data Lake Storage Nie. Nie. Tak Nie. Tak
Przekaż do usługi Blob Storage Tak Tak Tak Tak Tak
Przekazywanie do Data Lake Storage Tak Tak Tak Tak Tak
Organizowanie transferów danych Nie. Nie. Tak Nie. Tak
Niestandardowe przekształcenia danych Nie. Nie. Tak Nie. Tak
Model cenowy Bezpłatna Bezpłatna Płatność za użycie Płatność za jednostkę Płatność za użycie

2 W tym przypadku witryna Azure Portal reprezentuje internetowe narzędzia do eksploracji usług Blob Storage i Data Lake Storage.

Współautorzy

Firma Microsoft utrzymuje ten artykuł. Następujący współautorzy napisali ten artykuł.

Główny autor:

Inni współautorzy:

Aby wyświetlić niepubliczne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następny krok