Udostępnij przez


Zarządzana sieć wirtualna usługi Azure Data Factory

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule opisano zarządzane sieci wirtualne i zarządzane prywatne punkty końcowe w usłudze Azure Data Factory.

Zarządzana sieć wirtualna

Podczas tworzenia środowiska Azure Integration Runtime w zarządzanej sieci wirtualnej usługi Data Factory środowisko Integration Runtime jest aprowizowane za pomocą zarządzanej sieci wirtualnej. Używa prywatnych punktów końcowych do bezpiecznego łączenia się z obsługiwanymi magazynami danych.

Utworzenie środowiska Integration Runtime w zarządzanej sieci wirtualnej gwarantuje, że proces integracji danych jest izolowany i bezpieczny.

Zalety korzystania z zarządzanej sieci wirtualnej:

  • Zarządzaną siecią wirtualną można odciążyć obciążenie związane z zarządzaniem siecią wirtualną w usłudze Data Factory. Nie musisz tworzyć podsieci dla środowiska Integration Runtime, które może ostatecznie korzystać z wielu prywatnych adresów IP z sieci wirtualnej i wymagałoby wcześniejszego planowania infrastruktury sieciowej.
  • Głęboka wiedza na temat sieci platformy Azure nie jest wymagana do bezpiecznego wykonywania integracji danych. Zamiast tego wprowadzenie do bezpiecznego procesu ETL jest znacznie prostsze dla inżynierów danych.
  • Zarządzana sieć wirtualna wraz z zarządzanymi prywatnymi punktami końcowymi chroni przed eksfiltracją danych.

Obecnie zarządzana sieć wirtualna jest obsługiwana tylko w tym samym regionie co region usługi Data Factory.

Uwaga

Istniejące globalne środowisko Integration Runtime nie może przełączyć się do środowiska Integration Runtime w zarządzanej sieci wirtualnej usługi Data Factory i na odwrót.

Diagram przedstawiający architekturę sieci wirtualnej zarządzanej przez usługę Data Factory.

Istnieją dwa sposoby włączania zarządzanej sieci wirtualnej w fabryce danych:

  1. Włącz zarządzaną sieć wirtualną podczas tworzenia fabryki danych.

Zrzut ekranu przedstawiający włączanie zarządzanej sieci wirtualnej podczas tworzenia fabryki danych.

  1. Włącz zarządzaną sieć wirtualną w środowisku Integration Runtime.

Zrzut ekranu przedstawiający włączanie zarządzanej sieci wirtualnej w środowisku Integration Runtime

Zarządzane prywatne punkty końcowe

Zarządzane prywatne punkty końcowe to prywatne punkty końcowe utworzone w zarządzanej sieci wirtualnej usługi Data Factory, które ustanawiają prywatne łącze z zasobami platformy Azure. Usługa Data Factory zarządza tymi prywatnymi punktami końcowymi w Twoim imieniu.

Usługa Data Factory obsługuje łącza prywatne. Możesz użyć łącza prywatnego platformy Azure, aby uzyskać dostęp do usług platformy Azure jako usługi (PaaS), takich jak Azure Storage, Azure Cosmos DB i Azure Synapse Analytics.

W przypadku korzystania z łącza prywatnego ruch między magazynami danych i zarządzaną siecią wirtualną przechodzi całkowicie przez sieć szkieletową firmy Microsoft. Usługa Private Link chroni przed ryzykiem eksfiltracji danych. Utworzysz prywatny link do zasobu, tworząc prywatny punkt końcowy.

Prywatny punkt końcowy używa prywatnego adresu IP w zarządzanej sieci wirtualnej, aby skutecznie przenieść do niej usługę. Prywatne punkty końcowe są mapowane na określony zasób na platformie Azure, a nie na całą usługę. Klienci mogą ograniczyć łączność z określonym zasobem zatwierdzonym przez swoją organizację. Aby uzyskać więcej informacji, zobacz Linki prywatne i prywatne punkty końcowe.

Uwaga

Dostawca zasobów Microsoft.Network musi być zarejestrowany w twojej subskrypcji.

  1. Upewnij się, że włączono zarządzaną sieć wirtualną w fabryce danych.
  2. Utwórz nowy zarządzany prywatny punkt końcowy w usłudze Manage Hub.

Zrzut ekranu przedstawiający nowe zarządzane prywatne punkty końcowe.

  1. Połączenie prywatnego punktu końcowego jest tworzone w stanie Oczekiwanie podczas tworzenia zarządzanego prywatnego punktu końcowego w usłudze Data Factory. Zainicjowano przepływ zatwierdzania. Właściciel zasobu łącza prywatnego jest odpowiedzialny za zatwierdzanie lub odrzucanie połączenia.

Zrzut ekranu przedstawiający opcję Zarządzaj zatwierdzeniami w witrynie Azure Portal.

  1. Jeśli właściciel zatwierdzi połączenie, zostanie nawiązane łącze prywatne. W przeciwnym razie nie zostanie nawiązane łącze prywatne. W obu przypadkach zarządzany prywatny punkt końcowy zostanie zaktualizowany o stan połączenia.

Zrzut ekranu przedstawiający zatwierdzanie zarządzanego prywatnego punktu końcowego.

Tylko zarządzany prywatny punkt końcowy w stanie zatwierdzonym może wysyłać ruch do określonego zasobu łącza prywatnego.

Uwaga

Niestandardowy system DNS nie jest obsługiwany w zarządzanej sieci wirtualnej.

Uwaga

Zarówno zarządzana sieć wirtualna, jak i zarządzany prywatny punkt końcowy znajdują się w ramach subskrypcji firmy Microsoft.

Tworzenie interakcyjne

Interaktywne możliwości tworzenia są używane do obsługi funkcji, takich jak połączenie testowe, przeglądanie listy folderów i tabel, pobieranie schematu i podgląd danych. Tworzenie interakcyjne można włączyć podczas tworzenia lub edytowania środowiska Azure Integration Runtime, które znajduje się w zarządzanej sieci wirtualnej usługi Azure Data Factory. Usługa zaplecza wstępnie przydzieli zasoby obliczeniowe na potrzeby interaktywnych funkcji tworzenia. W przeciwnym razie obliczenia będą przydzielane za każdym razem, gdy zostanie wykonana każda interaktywna operacja, co zajmie więcej czasu. Czas życia (TTL) dla tworzenia interakcyjnego wynosi domyślnie 60 minut, co oznacza, że po 60 minutach od zakończenia ostatniej operacji tworzenia interakcyjnego automatycznie się wyłączy. Możesz zmienić wartość TTL zgodnie z rzeczywistymi potrzebami.

Zrzut ekranu przedstawiający interaktywne opracowywanie.

Time to live (Czas wygaśnięcia)

Działanie kopiowania

Domyślnie każde działanie kopiowania uruchamia nowe środowisko obliczeniowe zgodnie z konfiguracją działania kopiowania. Gdy zarządzana sieć wirtualna jest włączona, czas uruchamiania zimnych obliczeń trwa kilka minut, a przenoszenie danych nie może rozpocząć się, dopóki nie zostanie ukończone. Jeśli potoki zawierają wiele sekwencyjnych działań kopiowania lub masz wiele działań kopiowania w pętli foreach i nie możesz ich uruchomić równolegle, możesz włączyć wartość czasu istnienia (TTL) w konfiguracji środowiska Azure Integration Runtime. Określenie wartości czasu życia i liczby jednostek DIU wymaganych do wykonania operacji kopiowania utrzymuje odpowiednie zasoby obliczeniowe aktywne przez pewien czas po zakończeniu wykonywania. Jeśli nowa operacja kopiowania rozpocznie się w czasie TTL, ponownie wykorzysta istniejące zasoby obliczeniowe, a czas uruchamiania zostanie znacznie zmniejszony. Po zakończeniu drugiego działania kopiowania, procesy obliczeniowe będą nadal działać przez czas TTL. Masz możliwość wyboru spośród wstępnie zdefiniowanych rozmiarów obliczeniowych, od małych do średnich do dużych. Alternatywnie możesz również dostosować rozmiar obliczeniowy na podstawie określonych wymagań i potrzeb w czasie rzeczywistym.

Uwaga

Ponowne skonfigurowanie numeru jednostki DIU nie wpłynie na bieżące wykonanie działania kopiowania.

Uwaga

Miara jednostki integracji danych (DIU) w wysokości 2 DIU nie jest obsługiwana dla aktywności Kopiuj w zarządzanej sieci wirtualnej.

Jednostka DIU wybrana w ustawieniach TTL będzie używana do wykonywania wszystkich operacji kopiowania, a rozmiar jednostki DIU nie będzie się automatycznie skalować zgodnie z rzeczywistymi potrzebami. Dlatego musisz wybrać wystarczającą liczbę jednostek DIU.

Ostrzeżenie

Wybranie niewielu DIU do uruchamiania wielu działań spowoduje, że wiele działań będzie oczekiwało w kolejce, co znacząco wpłynie na ogólną wydajność.

Potok i działanie zewnętrzne

Podobnie jak w przypadku kopii, masz możliwość dostosowania mocy obliczeniowej i czasu trwania TTL (Time to Live) zgodnie z Twoimi potrzebami. Jednak w przeciwieństwie do kopii należy pamiętać, że nie można wyłączyć pipeline'u i zewnętrznego TTL.

Uwaga

Czas wygaśnięcia (TTL) ma zastosowanie tylko do zarządzanej sieci wirtualnej.

Zrzut ekranu przedstawiający konfigurację czasu wygaśnięcia.

Poniższa tabela może być użyta jako wzór do określenia optymalnej liczby węzłów do wykonywania zarówno potoków, jak i działań zewnętrznych.

Typ działania Wydajność
Działanie potoku Około 50 na węzeł
Działanie skryptu oraz działanie wyszukiwania z funkcją SQL "alwaysEncrypted" zazwyczaj zużywa więcej zasobów w porównaniu z innymi działaniami w potoku, a sugerowana liczba to około 4 na węzeł.
Działanie zewnętrzne Około 800 na węzeł

Porównanie różnych czasu wygaśnięcia

W poniższej tabeli wymieniono różnice między różnymi typami TTL:

Funkcja Tworzenie interakcyjne Skopiuj skalę obliczeniową Skala linii przetwarzania i zasobów obliczeniowych zewnętrznych
Kiedy wejść w życie Natychmiast po włączeniu Pierwsze wykonanie działania Pierwsze wykonanie działania
Można wyłączyć Y Y N
Zarezerwowane zasoby obliczeniowe można konfigurować N Y Y

Uwaga

Nie można włączyć TTL w domyślnym zasobie Azure Integration Runtime z automatycznym rozwiązywaniem. Możesz utworzyć dla niego nowe środowisko Azure Integration Runtime.

Uwaga

Po aktywowaniu czasu wygaśnięcia kopiowania/potoku/zewnętrznej skali obliczeniowej rozliczenia są określane przez zarezerwowane zasoby obliczeniowe. W związku z tym dane wyjściowe działania nie obejmują wartości billingReference, ponieważ jest to wyłącznie istotne w scenariuszach innych niż czas wygaśnięcia.

Tworzenie zarządzanej sieci wirtualnej za pośrednictwem programu Azure PowerShell

$subscriptionId = ""
$resourceGroupName = ""
$factoryName = ""
$managedPrivateEndpointName = ""
$integrationRuntimeName = ""
$apiVersion = "2018-06-01"
$privateLinkResourceId = ""

$vnetResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default"
$privateEndpointResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default/managedprivateendpoints/${managedPrivateEndpointName}"
$integrationRuntimeResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/integrationRuntimes/${integrationRuntimeName}"

# Create managed Virtual Network resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${vnetResourceId}" -Properties @{}

# Create managed private endpoint resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${privateEndpointResourceId}" -Properties @{
        privateLinkResourceId = "${privateLinkResourceId}"
        groupId = "blob"
    }

# Create integration runtime resource enabled with virtual network
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${integrationRuntimeResourceId}" -Properties @{
        type = "Managed"
        typeProperties = @{
            computeProperties = @{
                location = "AutoResolve"
                dataFlowProperties = @{
                    computeType = "General"
                    coreCount = 8
                    timeToLive = 0
                }
            }
        }
        managedVirtualNetwork = @{
            type = "ManagedVirtualNetworkReference"
            referenceName = "default"
        }
    }

Uwaga

Identyfikator groupId innych źródeł danych można pobrać z zasobu łącza prywatnego.

Uwaga

Wartość referenceName powinna być ustawiana tylko jako "domyślna", jeśli tworzysz za pomocą polecenia programu PowerShell.

Połączenie wychodzące

Obsługiwane źródła danych i usługi

Następujące usługi obsługują natywny prywatny punkt końcowy. Można je połączyć za pośrednictwem łącza prywatnego z zarządzanej sieci wirtualnej usługi Data Factory:

  • Azure Databricks
  • Azure Functions (plan Premium)
  • Azure Key Vault
  • Azure Machine Learning
  • Link prywatny platformy Azure
  • Microsoft Purview

Aby uzyskać informacje o obsłudze źródeł danych, zapoznaj się z omówieniem łącznika. Dostęp do wszystkich źródeł danych obsługiwanych przez usługę Data Factory można uzyskać za pośrednictwem sieci publicznej.

Lokalne źródła danych

Aby dowiedzieć się, jak uzyskać dostęp do lokalnych źródeł danych z zarządzanej sieci wirtualnej przy użyciu prywatnego punktu końcowego, zobacz Uzyskiwanie dostępu do lokalnej platformy SQL Server z zarządzanej sieci wirtualnej usługi Data Factory przy użyciu prywatnego punktu końcowego.

Komunikacja wychodząca za pośrednictwem publicznego punktu końcowego z zarządzanej sieci wirtualnej usługi Data Factory

Wszystkie porty są otwierane dla komunikacji wychodzącej.

Ograniczenia i znane problemy

Tworzenie połączonej usługi dla usługi Key Vault

Podczas tworzenia połączonej usługi dla Key Vault nie ma odniesienia do Integration Runtime. Nie można więc tworzyć prywatnych punktów końcowych podczas tworzenia połączonej usługi Key Vault. Jednak podczas tworzenia połączonej usługi dla magazynów danych odwołujących się do usługi Key Vault, a ta połączona usługa odwołuje się do środowiska Integration Runtime z włączoną zarządzaną siecią wirtualną, można utworzyć prywatny punkt końcowy dla usługi Key Vault podczas tworzenia.

  • Testuj połączenie: ta operacja dla połączonej usługi Key Vault weryfikuje tylko format adresu URL, ale nie wykonuje żadnej operacji sieciowej.
  • Używanie prywatnego punktu końcowego: ta kolumna jest zawsze wyświetlana jako pusta, nawet jeśli tworzysz prywatny punkt końcowy dla usługi Key Vault.

Tworzenie połączonej usługi Azure HDInsight

Kolumna Using private endpoint (Korzystanie z prywatnego punktu końcowego) jest zawsze wyświetlana jako pusta, nawet jeśli utworzysz prywatny punkt końcowy dla usługi HDInsight przy użyciu usługi łącza prywatnego i modułu równoważenia obciążenia z przekazywaniem portów.

Zrzut ekranu przedstawiający prywatny punkt końcowy dla usługi Key Vault.

W pełni kwalifikowana nazwa domeny (FQDN) usługi Azure HDInsight

Jeśli utworzono niestandardową usługę łącza prywatnego, nazwa FQDN powinna kończyć się azurehdinsight.net bez wiodącego łącza prywatnego w nazwie domeny podczas tworzenia prywatnego punktu końcowego. Jeśli używasz łącza prywatnego w nazwie domeny, upewnij się, że jest on prawidłowy i możesz go rozpoznać.

Ograniczenia dostępu w zarządzanej sieci wirtualnej z prywatnymi punktami końcowymi

Nie możesz uzyskać dostępu do każdego zasobu PaaS, gdy obie strony są odsłonięte przez Private Link oraz prywatny punkt końcowy. Ten problem jest znanym ograniczeniem usługi Private Link i prywatnych punktów końcowych.

Na przykład masz zarządzany prywatny punkt końcowy dla konta magazynu A. Dostęp do konta magazynu B można również uzyskać za pośrednictwem sieci publicznej w tej samej zarządzanej sieci wirtualnej. Jednak jeśli konto magazynu B ma prywatne połączenie końcowe z innej zarządzanej przez ciebie sieci wirtualnej lub sieci wirtualnej klienta, to nie można uzyskać dostępu do konta magazynu B w twojej zarządzanej sieci wirtualnej przez sieć publiczną.

Zobacz następujące samouczki: