Kopiowanie danych z platformy Spark przy użyciu usługi Azure Data Factory lub Synapse Analytics

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Wskazówka

Wypróbuj Data Factory in Microsoft Fabric, kompleksowe rozwiązanie analityczne dla przedsiębiorstw. Microsoft Fabric obejmuje wszystko od przemieszczania danych po naukę o danych, analitykę w czasie rzeczywistym, inteligencję biznesową i raportowanie. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule opisano sposób korzystania z funkcji kopiowania w potoku usługi Azure Data Factory lub Synapse Analytics do kopiowania danych ze Spark. Opiera się na artykule przegląd aktywności kopiowania, który przedstawia ogólny przegląd aktywności kopiowania.

Ważne

Łącznik spark w wersji 1.0 jest na etapie usuwania. Zaleca się uaktualnienie łącznika Spark z wersji 1.0 do 2.0.

Obsługiwane funkcje

Łącznik Spark jest obsługiwany w następujących możliwościach:

Obsługiwane funkcje	środowisko IR
działanie kopiowania (źródło/-)	(1) (2)
Aktywność wyszukiwania	(1) (2)

(1) Środowisko uruchomieniowe Azure (2) Lokalne środowisko uruchomieniowe

Aby uzyskać listę magazynów danych obsługiwanych jako źródła/ujścia przez działanie kopiowania, zobacz tabelę Obsługiwane magazyny danych.

Usługa udostępnia wbudowany sterownik umożliwiający łączność, dlatego nie trzeba ręcznie instalować żadnego sterownika przy użyciu tego łącznika.

Wymagania wstępne

Jeśli magazyn danych znajduje się w sieci lokalnej, sieci wirtualnej Azure lub w środowisku Amazon Virtual Private Cloud, musisz skonfigurować własne środowisko uruchomieniowe integracji, aby się z nim połączyć.

Jeśli magazyn danych jest zarządzaną usługą danych w chmurze, możesz użyć środowiska Azure Integration Runtime. Jeśli dostęp jest ograniczony do adresów IP zatwierdzonych w regułach zapory, możesz dodać adresy IP środowiska Azure Integration Runtime do listy dozwolonych.

Możesz również użyć funkcji zarządzanego środowiska uruchomieniowego integracji sieci wirtualnej w usłudze Azure Data Factory, aby uzyskać dostęp do sieci lokalnej bez instalowania i konfigurowania własnego środowiska uruchomieniowego integracji.

Aby uzyskać więcej informacji na temat mechanizmów zabezpieczeń sieci i opcji obsługiwanych przez usługę Data Factory, zobacz Strategie dostępu do danych.

Wprowadzenie

Aby wykonać działanie kopiowania za pomocą pipeline'u, możesz użyć jednego z następujących narzędzi lub zestawów SDK:

Tworzenie połączonej usługi z platformą Spark przy użyciu interfejsu użytkownika

Wykonaj poniższe kroki, aby utworzyć połączoną usługę z platformą Spark w interfejsie użytkownika witryny Azure Portal.

Przejdź do karty Zarządzanie w obszarze roboczym usługi Azure Data Factory lub Synapse i wybierz pozycję Połączone usługi, a następnie kliknij pozycję Nowy:
- Azure Data Factory
- Azure Synapse
Wyszukaj Spark i wybierz łącznik Spark.
Skonfiguruj szczegóły usługi, przetestuj połączenie i utwórz nową połączoną usługę.

Szczegóły konfiguracji złącza

Poniższe sekcje zawierają szczegółowe informacje o właściwościach używanych do definiowania jednostek usługi Data Factory specyficznych dla łącznika platformy Spark.

Właściwości połączonej usługi

Łącznik spark obsługuje teraz wersję 2.0. Zapoznaj się z tą sekcją , aby uaktualnić wersję łącznika platformy Spark z wersji 1.0. Aby uzyskać informacje szczegółowe dotyczące nieruchomości, zobacz odpowiednie sekcje.

Wersja 2.0
w wersji 1.0

Wersja 2.0

Następujące właściwości są obsługiwane w przypadku połączonej usługi Spark w wersji 2.0:

Majątek	Opis	Obowiązkowy
typ	Właściwość type musi być ustawiona na: Spark	Tak
wersja	Wersja, którą określisz. Wartość to `2.0`.	Tak
gospodarz	Adres IP lub nazwa hosta serwera Spark	Tak
port	Port TCP używany przez serwer Spark do nasłuchiwania połączeń klienckich. Jeśli łączysz się z usługą Azure HDInsight, określ port jako 443.	Tak
typ serwera	Typ serwera Spark. Dozwolona wartość to : SparkThriftServer	Nie.
thriftTransportProtocol (protokół transportowy)	Protokół transportowy do użycia w warstwie Thrift. Dozwolona wartość to: HTTP	Nie.
Typ uwierzytelniania	Metoda uwierzytelniania używana do uzyskiwania dostępu do serwera Spark. Dozwolone wartości to: Anonimowe, UsernameAndPassword, WindowsAzureHDInsightService	Tak
nazwa użytkownika	Nazwa użytkownika używana do uzyskiwania dostępu do serwera Spark.	Nie.
hasło	Hasło odpowiadające użytkownikowi. Oznacz to pole jako SecureString, aby bezpiecznie je przechowywać, lub odwołaj się do tajemnicy przechowywanej w Azure Key Vault.	Nie.
ścieżka HTTP	Częściowy adres URL odpowiadający serwerowi Spark. W przypadku typu uwierzytelniania WindowsAzureHDInsightService wartość domyślna to `/sparkhive2`.	Nie.
włączSsl	Określa, czy połączenia z serwerem są szyfrowane za pomocą TLS. Wartość domyślna to true.	Nie.
włączWeryfikacjęCertyfikatuSerwera	Określ, czy włączyć weryfikację certyfikatu SSL serwera podczas łączenia. Zawsze używaj magazynu zaufania systemu. Wartość domyślna to true.	Nie.
connectVia (połącz się)	Środowisko Integration Runtime używane do połączenia z repozytorium danych. Dowiedz się więcej w sekcji Wymagania wstępne . Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime.	Nie.

Przykład:

{
    "name": "SparkLinkedService",
    "properties": {
        "type": "Spark",
        "version": "2.0",
        "typeProperties": {
            "host": "<cluster>.azurehdinsight.net",
            "port": "<port>",
            "authenticationType": "WindowsAzureHDInsightService",
            "username": "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        }
    }
}

Wersja 1.0

Następujące właściwości są obsługiwane w przypadku połączonej usługi Spark w wersji 1.0:

Majątek	Opis	Obowiązkowy
typ	Właściwość type musi być ustawiona na: Spark	Tak
gospodarz	Adres IP lub nazwa hosta serwera Spark	Tak
port	Port TCP używany przez serwer Spark do nasłuchiwania połączeń klienckich. Jeśli łączysz się z usługą Azure HDInsight, określ port jako 443.	Tak
typ serwera	Typ serwera Spark. Dozwolone wartości to: SharkServer, SharkServer2, SparkThriftServer	Nie.
thriftTransportProtocol (protokół transportowy)	Protokół transportowy do użycia w warstwie Thrift. Dozwolone wartości to: Binary, SASL, HTTP	Nie.
Typ uwierzytelniania	Metoda uwierzytelniania używana do uzyskiwania dostępu do serwera Spark. Dozwolone wartości to: Anonimowe, Nazwa użytkownika, Nazwa użytkownikaAndPassword, WindowsAzureHDInsightService	Tak
nazwa użytkownika	Nazwa użytkownika używana do uzyskiwania dostępu do serwera Spark.	Nie.
hasło	Hasło odpowiadające użytkownikowi. Oznacz to pole jako SecureString, aby bezpiecznie je przechowywać, lub odwołaj się do tajemnicy przechowywanej w Azure Key Vault.	Nie.
ścieżka HTTP	Częściowy adres URL odpowiadający serwerowi Spark.	Nie.
włączSsl	Określa, czy połączenia z serwerem są szyfrowane za pomocą TLS. Wartość domyślna to fałsz.	Nie.
ścieżkaZaufanychCertyfikatów	Pełna ścieżka pliku .pem zawierającego zaufane certyfikaty urzędu certyfikacji do weryfikacji serwera podczas nawiązywania połączenia za pomocą TLS. Tę właściwość można ustawić tylko w przypadku korzystania z protokołu TLS na własnym środowisku IR. Wartość domyślna to plik cacerts.pem zainstalowany z środowiskiem IR.	Nie.
użyjSystemowegoMagazynuZaufania	Określa, czy użyć certyfikatu CA z systemowego magazynu zaufanych certyfikatów, czy z określonego pliku PEM. Wartość domyślna to fałsz.	Nie.
zezwólNaNiezgodnośćNazwyHostaiCN	Określa, czy podczas nawiązywania połączenia za pośrednictwem protokołu TLS/SSL należy wymagać, aby nazwa certyfikatu TLS/SSL wystawiona przez urząd certyfikacji odpowiadała nazwie hosta serwera. Wartość domyślna to fałsz.	Nie.
zezwólNaSamopodpisanyCertyfikatSerwera	Określa, czy zezwalać na certyfikaty z podpisem własnym z serwera. Wartość domyślna to fałsz.	Nie.
connectVia (połącz się)	Środowisko Integration Runtime używane do połączenia z repozytorium danych. Dowiedz się więcej w sekcji Wymagania wstępne . Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime.	Nie.

Przykład:

{
    "name": "SparkLinkedService",
    "properties": {
        "type": "Spark",
        "typeProperties": {
            "host": "<cluster>.azurehdinsight.net",
            "port": "<port>",
            "authenticationType": "WindowsAzureHDInsightService",
            "username": "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        }
    }
}

Właściwości zestawu danych

Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania zbiorów danych, zobacz artykuł datasets. Ta sekcja zawiera listę właściwości obsługiwanych przez zestaw danych platformy Spark.

Aby skopiować dane z platformy Spark, ustaw właściwość type zestawu danych na SparkObject. Obsługiwane są następujące właściwości:

Majątek	Opis	Obowiązkowy
typ	Właściwość type zestawu danych musi być ustawiona na: SparkObject	Tak
schemat	Nazwa schematu.	Nie (jeśli w źródle aktywności określono "zapytanie")
tabela	Nazwa tabeli.	Nie (jeśli w źródle aktywności określono "zapytanie")
nazwaTabeli	Nazwa tabeli z schematu. Ta właściwość jest obsługiwana w celu zapewnienia zgodności z poprzednimi wersjami. Użyj `schema` i `table` dla nowego obciążenia.	Nie (jeśli w źródle aktywności określono "zapytanie")

Przykład

{
    "name": "SparkDataset",
    "properties": {
        "type": "SparkObject",
        "typeProperties": {},
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Spark linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Właściwości czynności kopiowania

Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania działań, zobacz artykuł Pipelines. Ta sekcja zawiera listę właściwości obsługiwanych przez źródło platformy Spark.

Spark jako źródło

Aby skopiować dane z platformy Spark, ustaw typ źródła w działaniu kopiowania na SparkSource. Następujące właściwości są obsługiwane w sekcji źródło działania kopiowania:

Majątek	Opis	Obowiązkowy
typ	Właściwość type źródła działania kopiowania musi być ustawiona na: SparkSource	Tak
kwerenda	Użyj niestandardowego zapytania SQL do odczytu danych. Na przykład: `"SELECT * FROM MyTable"`.	Nie (jeśli "tableName" jest określony w zestawie danych)

Przykład:

"activities":[
    {
        "name": "CopyFromSpark",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Spark input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "SparkSource",
                "query": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Mapowanie typów danych dla platformy Spark

Podczas kopiowania danych z i do platformy Spark w usłudze są używane następujące tymczasowe mapowania typów danych. Aby dowiedzieć się, jak działanie kopiowania mapuje schemat źródłowy i typ danych na docelowy, zobacz Mapowanie schematu i typu danych.

Typ danych platformy Spark	Typ danych usługi tymczasowej (wersja 2.0)	Typ danych usługi tymczasowej (wersja 1.0)
Typ Boolean	Logiczny	Logiczny
Typ bajtu	Sbyte	Int16
ShortType	Int16	Int16
Typ liczby całkowitej	Int32	Int32
DługiTyp	Int64	Int64
FloatType	Pojedynczy	Pojedynczy
DoubleType	Podwójny	Podwójny
Typ daty	Data/godzina	Data/godzina
Typ znacznika czasu	Przesunięcie daty i godziny	Data/godzina
typ ciągu	Struna	Struna
TypBinarny	Bajt[]	Bajt[]
Typ dziesiętny	Dziesiętny	Dziesiętny Ciąg (precyzja > 28)
ArrayType	Struna	Struna
Typ struktury	Struna	Struna
Typ mapy	Struna	Struna
TimestampNTZType (typ danych znacznika czasu bez strefy czasowej)	Data/godzina	Data/godzina
TypPrzedziałuRokMiesiąc	Struna	Niewspierane.
TypInterwałuCzasowegoDnia	Struna	Niewspierane.

Właściwości czynności wyszukiwania

Aby dowiedzieć się więcej o właściwościach, sprawdź aktywność przeszukiwania.

Cykl życia i uaktualnianie łącznika platformy Spark

W poniższej tabeli przedstawiono etap wydania i dzienniki zmian dla różnych wersji łącznika Spark:

wersja	Etap wydania	Dziennik zmian
Wersja 1.0	Removed	Nie dotyczy.
Wersja 2.0	Wersja GA dostępna	• `enableServerCertificateValidation` jest obsługiwana. • Wartość domyślna `enableSSL` to true. • W przypadku typu uwierzytelniania WindowsAzureHDInsightService wartość domyślna to `httpPath/sparkhive2`. • Typ dziesiętny jest odczytywany jako typ danych dziesiętnych. • Typ znacznika czasu jest odczytywany jako typ danych DateTimeOffset. • YearMonthIntervalType, DayTimeIntervalType są odczytywane jako typ danych Ciąg. • `trustedCertPath`, `useSystemTrustStoreallowHostNameCNMismatch` i `allowSelfSignedServerCert` nie są obsługiwane. • SharkServer i SharkServer2 nie są obsługiwane w przypadku programu `serverType`. • Pliki binarne i SASL nie są obsługiwane w przypadku programu `thriftTransportProtocl`. • Typ uwierzytelniania nazwy użytkownika nie jest obsługiwany.

Uaktualnianie łącznika Spark z wersji 1.0 do wersji 2.0

Na stronie Edytowanie połączonej usługi wybierz wersję 2.0 i skonfiguruj połączoną usługę, odwołując się do właściwości połączonej usługi w wersji 2.0.
Mapowanie typu danych dla połączonej usługi Spark w wersji 2.0 różni się od tego dla wersji 1.0. Aby dowiedzieć się więcej na temat najnowszego mapowania typów danych, zobacz Mapowanie typów danych dla platformy Spark.

Aby uzyskać listę magazynów danych obsługiwanych jako źródła i ujścia działania kopiowania, zobacz obsługiwane magazyny danych.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-08-27

Udostępnij przez

Kopiowanie danych z platformy Spark przy użyciu usługi Azure Data Factory lub Synapse Analytics

Obsługiwane funkcje

Wymagania wstępne

Wprowadzenie

Tworzenie połączonej usługi z platformą Spark przy użyciu interfejsu użytkownika

Szczegóły konfiguracji złącza

Właściwości połączonej usługi

Wersja 2.0

Wersja 1.0

Właściwości zestawu danych

Właściwości czynności kopiowania

Spark jako źródło

Mapowanie typów danych dla platformy Spark

Właściwości czynności wyszukiwania

Cykl życia i uaktualnianie łącznika platformy Spark

Uaktualnianie łącznika Spark z wersji 1.0 do wersji 2.0

Treści powiązane

Sprzężenie zwrotne

Dodatkowe źródła