Udostępnij przez


Metodologia sukcesu implementacji usługi Synapse: Ocena projektu integracji danych

Uwaga

Ten artykuł jest częścią serii artykułów "Sukces implementacji Azure Synapse według projektu." Aby zapoznać się z omówieniem serii, zobacz Sukces implementacji usługi Azure Synapse zgodnie z projektem.

Usługa Azure Synapse Analytics zawiera ten sam aparat integracji danych i środowiska co usługa Azure Data Factory (ADF), umożliwiając tworzenie rozbudowanych potoków ETL na dużą skalę bez opuszczania usługi Azure Synapse Analytics.

Obraz przedstawia składniki usługi Azure Synapse z wyróżnionym składnikiem Integracja danych.

W tym artykule opisano sposób oceniania projektu komponentów integracji danych dla Twojego projektu. W szczególności pomaga określić, czy potoki usługi Azure Synapse są najlepszym rozwiązaniem dla wymagań dotyczących integracji danych. Czas zainwestowany w ocenę projektu przed opracowaniem rozwiązania może pomóc wyeliminować nieoczekiwane zmiany projektu, które mogą mieć wpływ na oś czasu lub koszt projektu.

Analiza luk dopasowania

Należy przeprowadzić dokładną analizę dopasowania i luk w strategii integracji danych. Jeśli wybierzesz potoki usługi Azure Synapse jako narzędzie do integracji danych, przejrzyj następujące kwestie, aby upewnić się, że odpowiadają one Twoim wymaganiom dotyczącym integracji danych i orkiestracji. Nawet jeśli wybierzesz różne narzędzia do integracji danych, nadal należy przejrzeć następujące kwestie, aby sprawdzić, czy wszystkie kluczowe punkty projektowe zostały uwzględnione i że wybrane narzędzie będzie obsługiwać potrzeby rozwiązania. Te informacje powinny zostać przechwycone podczas oceny wykonanej wcześniej w tej metodologii.

  • Przejrzyj źródła danych i miejsca docelowe (cele):
  • Przejrzyj punkty wyzwalania integracji danych i częstotliwość:
    • Potoki usługi Azure Synapse obsługują harmonogram, okno przesuwne oraz wyzwalacze zdarzeń przechowywania.
    • Zweryfikuj minimalny przedział powtórzenia i obsługiwane zdarzenia pamięci masowej pod kątem wymagań.
  • Przejrzyj wymagane tryby integracji danych:
  • Przejrzyj projekt obliczeniowy:
    • Czy zasoby obliczeniowe wymagane dla potoków muszą być bezserwerowe czy przydzielone?
    • Potoki usługi Azure Synapse obsługują oba tryby środowiska Integration Runtime (IR): bezserwerowe lub samodzielnie hostowane na komputerze z systemem Windows.
    • Sprawdź porty i zapory oraz ustawienie serwera proxy podczas korzystania z lokalnie zainstalowanego IR (zarządzane).
  • Przejrzyj wymagania dotyczące zabezpieczeń, konfigurację sieci i zapory środowiska oraz porównaj je z projektem konfiguracji zabezpieczeń, sieci i zapory:
    • Sprawdź, jak źródła danych są zabezpieczone i połączone z siecią.
    • Sprawdź, jak docelowe magazyny danych są zabezpieczone i sieciowe. Potoki usługi Azure Synapse mają różne strategie dostępu do danych, które zapewniają bezpieczny sposób łączenia magazynów danych za pośrednictwem prywatnych punktów końcowych lub sieci wirtualnych.
    • Usługa Azure Key Vault umożliwia przechowywanie poświadczeń zawsze, gdy ma to zastosowanie.
    • Użyj platformy ADF do szyfrowania poświadczeń przy użyciu klucza zarządzanego przez klienta (CMK) i przechowaj je w samodzielnie hostowanym IR.
  • Zapoznaj się z projektem ciągłego monitorowania wszystkich składników integracji danych.

Zagadnienia dotyczące architektury

Podczas przeglądania projektu integracji danych należy wziąć pod uwagę następujące zalecenia i wytyczne, aby upewnić się, że składniki integracji danych rozwiązania zapewnią ciągłą doskonałość operacyjną, wydajność wydajności, niezawodność i bezpieczeństwo.

Doskonałość operacyjna

Aby uzyskać doskonałość operacyjną, oceń następujące kwestie.

  • Środowisko: podczas planowania środowisk należy je rozdzielić przez programowanie/testowanie, testowanie akceptacyjne użytkowników (UAT) i środowisko produkcyjne. Użyj opcji organizacyjnych folderów, aby zorganizować potoki i zestawy danych według zadań biznesowych/ETL w celu lepszego utrzymania. Użyj adnotacji, aby oznaczyć potoki i łatwo je monitorować. Tworzenie potoków wielokrotnego użytku przy użyciu parametrów oraz iteracji i działań warunkowych.
  • Monitorowanie i alerty: obszary robocze usługi Synapse obejmują Centrum monitorowania, które zawiera zaawansowane informacje o monitorowaniu każdego uruchomienia potoku. Integruje się również z usługą Log Analytics w celu dalszej analizy dzienników i alertów. Te funkcje należy zaimplementować w celu zapewnienia proaktywnych powiadomień o błędach. Ponadto użyj ścieżek w przypadku niepowodzenia, aby zaimplementować niestandardowe zarządzanie błędami.
  • Automatyczne wdrażanie i testowanie: potoki usługi Azure Synapse są wbudowane w obszar roboczy usługi Synapse, dzięki czemu można korzystać z automatyzacji i wdrażania obszarów roboczych. Użyj szablonów usługi ARM, aby zminimalizować działania ręczne podczas tworzenia obszarów roboczych usługi Synapse. Ponadto zintegruj obszary robocze usługi Synapse z usługą Azure DevOps, aby tworzyć wersje kodu i automatyzować publikację.

Wydajność

Aby uzyskać wydajność, należy ocenić następujące kwestie.

  • Postępuj zgodnie ze wskazówkami dotyczącymi wydajności i funkcjami optymalizacji podczas pracy z działaniem kopiowania.
  • Wybierz zoptymalizowane łączniki do transferu danych zamiast łączników ogólnych. Na przykład użyj technologii PolyBase zamiast wstawiania zbiorczego podczas przenoszenia danych z usługi Azure Data Lake Storage Gen2 (ALDS Gen2) do dedykowanej puli SQL.
  • Podczas tworzenia nowego elementu Azure IR ustaw lokalizację regionu jako automatyczne rozwiązywanie lub wybierz ten sam region co magazyny danych.
  • W przypadku własnego środowiska IR wybierz rozmiar maszyny wirtualnej platformy Azure na podstawie wymagań dotyczących integracji.
  • Wybierz stabilne połączenie sieciowe, takie jak Azure ExpressRoute, w celu zapewnienia szybkiej i spójnej przepustowości.

Niezawodność

W przypadku wykonywania potoku przy użyciu środowiska Azure IR jest bezserwerowe i zapewnia odporność od razu po uruchomieniu. Klienci mają niewiele do zarządzania. Jednak w przypadku uruchomienia potoku we własnym środowisku IR zalecamy uruchomienie go w konfiguracji wysokiej dostępności na maszynach wirtualnych platformy Azure. Ta konfiguracja zapewnia, że strumienie integracji nie są uszkodzone nawet wtedy, gdy maszyna wirtualna się wyłączy. Ponadto zalecamy używanie usługi Azure ExpressRoute do szybkiego i niezawodnego połączenia sieciowego między środowiskiem lokalnym a platformą Azure.

Zabezpieczenia

Zabezpieczona platforma danych jest jednym z kluczowych wymagań każdej organizacji. Należy dokładnie zaplanować zabezpieczenia całej platformy, a nie poszczególnych składników. Poniżej przedstawiono wskazówki dotyczące zabezpieczeń dla rozwiązań pipeline w usłudze Azure Synapse.

Następne kroki

W następnym artykule z serii sukcesów usługi Azure Synapse według projektu dowiesz się, jak ocenić projekt dedykowanej puli SQL, aby zidentyfikować problemy i zweryfikować, czy spełnia ona wytyczne i wymagania.