Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
DOTYCZY:
Azure Data Factory
Azure Synapse Analytics
Wskazówka
Wypróbuj Data Factory in Microsoft Fabric, kompleksowe rozwiązanie analityczne dla przedsiębiorstw. Microsoft Fabric obejmuje wszystko od przemieszczania danych po naukę o danych, analitykę w czasie rzeczywistym, inteligencję biznesową i raportowanie. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !
W tym artykule opisano sposób korzystania z funkcji kopiowania w potoku usługi Azure Data Factory lub Synapse Analytics do kopiowania danych ze Spark. Opiera się na artykule przegląd aktywności kopiowania, który przedstawia ogólny przegląd aktywności kopiowania.
Ważne
Łącznik spark w wersji 1.0 jest na etapie usuwania. Zaleca się uaktualnienie łącznika Spark z wersji 1.0 do 2.0.
Obsługiwane funkcje
Łącznik Spark jest obsługiwany w następujących możliwościach:
| Obsługiwane funkcje | środowisko IR |
|---|---|
| działanie kopiowania (źródło/-) | (1) (2) |
| Aktywność wyszukiwania | (1) (2) |
(1) Środowisko uruchomieniowe Azure (2) Lokalne środowisko uruchomieniowe
Aby uzyskać listę magazynów danych obsługiwanych jako źródła/ujścia przez działanie kopiowania, zobacz tabelę Obsługiwane magazyny danych.
Usługa udostępnia wbudowany sterownik umożliwiający łączność, dlatego nie trzeba ręcznie instalować żadnego sterownika przy użyciu tego łącznika.
Wymagania wstępne
Jeśli magazyn danych znajduje się w sieci lokalnej, sieci wirtualnej Azure lub w środowisku Amazon Virtual Private Cloud, musisz skonfigurować własne środowisko uruchomieniowe integracji, aby się z nim połączyć.
Jeśli magazyn danych jest zarządzaną usługą danych w chmurze, możesz użyć środowiska Azure Integration Runtime. Jeśli dostęp jest ograniczony do adresów IP zatwierdzonych w regułach zapory, możesz dodać adresy IP środowiska Azure Integration Runtime do listy dozwolonych.
Możesz również użyć funkcji zarządzanego środowiska uruchomieniowego integracji sieci wirtualnej w usłudze Azure Data Factory, aby uzyskać dostęp do sieci lokalnej bez instalowania i konfigurowania własnego środowiska uruchomieniowego integracji.
Aby uzyskać więcej informacji na temat mechanizmów zabezpieczeń sieci i opcji obsługiwanych przez usługę Data Factory, zobacz Strategie dostępu do danych.
Wprowadzenie
Aby wykonać działanie kopiowania za pomocą pipeline'u, możesz użyć jednego z następujących narzędzi lub zestawów SDK:
- Narzędzie do kopiowania danych
- Portal Azure
- zestawu SDK platformy .NET
- Zestaw SDK dla języka Python
- Azure PowerShell
- API REST
- Szablon usługi Azure Resource Manager
Tworzenie połączonej usługi z platformą Spark przy użyciu interfejsu użytkownika
Wykonaj poniższe kroki, aby utworzyć połączoną usługę z platformą Spark w interfejsie użytkownika witryny Azure Portal.
Przejdź do karty Zarządzanie w obszarze roboczym usługi Azure Data Factory lub Synapse i wybierz pozycję Połączone usługi, a następnie kliknij pozycję Nowy:
Wyszukaj Spark i wybierz łącznik Spark.
Skonfiguruj szczegóły usługi, przetestuj połączenie i utwórz nową połączoną usługę.
Szczegóły konfiguracji złącza
Poniższe sekcje zawierają szczegółowe informacje o właściwościach używanych do definiowania jednostek usługi Data Factory specyficznych dla łącznika platformy Spark.
Właściwości połączonej usługi
Łącznik spark obsługuje teraz wersję 2.0. Zapoznaj się z tą sekcją , aby uaktualnić wersję łącznika platformy Spark z wersji 1.0. Aby uzyskać informacje szczegółowe dotyczące nieruchomości, zobacz odpowiednie sekcje.
Wersja 2.0
Następujące właściwości są obsługiwane w przypadku połączonej usługi Spark w wersji 2.0:
| Majątek | Opis | Obowiązkowy |
|---|---|---|
| typ | Właściwość type musi być ustawiona na: Spark | Tak |
| wersja | Wersja, którą określisz. Wartość to 2.0. |
Tak |
| gospodarz | Adres IP lub nazwa hosta serwera Spark | Tak |
| port | Port TCP używany przez serwer Spark do nasłuchiwania połączeń klienckich. Jeśli łączysz się z usługą Azure HDInsight, określ port jako 443. | Tak |
| typ serwera | Typ serwera Spark. Dozwolona wartość to : SparkThriftServer |
Nie. |
| thriftTransportProtocol (protokół transportowy) | Protokół transportowy do użycia w warstwie Thrift. Dozwolona wartość to: HTTP |
Nie. |
| Typ uwierzytelniania | Metoda uwierzytelniania używana do uzyskiwania dostępu do serwera Spark. Dozwolone wartości to: Anonimowe, UsernameAndPassword, WindowsAzureHDInsightService |
Tak |
| nazwa użytkownika | Nazwa użytkownika używana do uzyskiwania dostępu do serwera Spark. | Nie. |
| hasło | Hasło odpowiadające użytkownikowi. Oznacz to pole jako SecureString, aby bezpiecznie je przechowywać, lub odwołaj się do tajemnicy przechowywanej w Azure Key Vault. | Nie. |
| ścieżka HTTP | Częściowy adres URL odpowiadający serwerowi Spark. W przypadku typu uwierzytelniania WindowsAzureHDInsightService wartość domyślna to /sparkhive2. |
Nie. |
| włączSsl | Określa, czy połączenia z serwerem są szyfrowane za pomocą TLS. Wartość domyślna to true. | Nie. |
| włączWeryfikacjęCertyfikatuSerwera | Określ, czy włączyć weryfikację certyfikatu SSL serwera podczas łączenia. Zawsze używaj magazynu zaufania systemu. Wartość domyślna to true. |
Nie. |
| connectVia (połącz się) | Środowisko Integration Runtime używane do połączenia z repozytorium danych. Dowiedz się więcej w sekcji Wymagania wstępne . Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. | Nie. |
Przykład:
{
"name": "SparkLinkedService",
"properties": {
"type": "Spark",
"version": "2.0",
"typeProperties": {
"host": "<cluster>.azurehdinsight.net",
"port": "<port>",
"authenticationType": "WindowsAzureHDInsightService",
"username": "<username>",
"password": {
"type": "SecureString",
"value": "<password>"
}
}
}
}
Wersja 1.0
Następujące właściwości są obsługiwane w przypadku połączonej usługi Spark w wersji 1.0:
| Majątek | Opis | Obowiązkowy |
|---|---|---|
| typ | Właściwość type musi być ustawiona na: Spark | Tak |
| gospodarz | Adres IP lub nazwa hosta serwera Spark | Tak |
| port | Port TCP używany przez serwer Spark do nasłuchiwania połączeń klienckich. Jeśli łączysz się z usługą Azure HDInsight, określ port jako 443. | Tak |
| typ serwera | Typ serwera Spark. Dozwolone wartości to: SharkServer, SharkServer2, SparkThriftServer |
Nie. |
| thriftTransportProtocol (protokół transportowy) | Protokół transportowy do użycia w warstwie Thrift. Dozwolone wartości to: Binary, SASL, HTTP |
Nie. |
| Typ uwierzytelniania | Metoda uwierzytelniania używana do uzyskiwania dostępu do serwera Spark. Dozwolone wartości to: Anonimowe, Nazwa użytkownika, Nazwa użytkownikaAndPassword, WindowsAzureHDInsightService |
Tak |
| nazwa użytkownika | Nazwa użytkownika używana do uzyskiwania dostępu do serwera Spark. | Nie. |
| hasło | Hasło odpowiadające użytkownikowi. Oznacz to pole jako SecureString, aby bezpiecznie je przechowywać, lub odwołaj się do tajemnicy przechowywanej w Azure Key Vault. | Nie. |
| ścieżka HTTP | Częściowy adres URL odpowiadający serwerowi Spark. | Nie. |
| włączSsl | Określa, czy połączenia z serwerem są szyfrowane za pomocą TLS. Wartość domyślna to fałsz. | Nie. |
| ścieżkaZaufanychCertyfikatów | Pełna ścieżka pliku .pem zawierającego zaufane certyfikaty urzędu certyfikacji do weryfikacji serwera podczas nawiązywania połączenia za pomocą TLS. Tę właściwość można ustawić tylko w przypadku korzystania z protokołu TLS na własnym środowisku IR. Wartość domyślna to plik cacerts.pem zainstalowany z środowiskiem IR. | Nie. |
| użyjSystemowegoMagazynuZaufania | Określa, czy użyć certyfikatu CA z systemowego magazynu zaufanych certyfikatów, czy z określonego pliku PEM. Wartość domyślna to fałsz. | Nie. |
| zezwólNaNiezgodnośćNazwyHostaiCN | Określa, czy podczas nawiązywania połączenia za pośrednictwem protokołu TLS/SSL należy wymagać, aby nazwa certyfikatu TLS/SSL wystawiona przez urząd certyfikacji odpowiadała nazwie hosta serwera. Wartość domyślna to fałsz. | Nie. |
| zezwólNaSamopodpisanyCertyfikatSerwera | Określa, czy zezwalać na certyfikaty z podpisem własnym z serwera. Wartość domyślna to fałsz. | Nie. |
| connectVia (połącz się) | Środowisko Integration Runtime używane do połączenia z repozytorium danych. Dowiedz się więcej w sekcji Wymagania wstępne . Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. | Nie. |
Przykład:
{
"name": "SparkLinkedService",
"properties": {
"type": "Spark",
"typeProperties": {
"host": "<cluster>.azurehdinsight.net",
"port": "<port>",
"authenticationType": "WindowsAzureHDInsightService",
"username": "<username>",
"password": {
"type": "SecureString",
"value": "<password>"
}
}
}
}
Właściwości zestawu danych
Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania zbiorów danych, zobacz artykuł datasets. Ta sekcja zawiera listę właściwości obsługiwanych przez zestaw danych platformy Spark.
Aby skopiować dane z platformy Spark, ustaw właściwość type zestawu danych na SparkObject. Obsługiwane są następujące właściwości:
| Majątek | Opis | Obowiązkowy |
|---|---|---|
| typ | Właściwość type zestawu danych musi być ustawiona na: SparkObject | Tak |
| schemat | Nazwa schematu. | Nie (jeśli w źródle aktywności określono "zapytanie") |
| tabela | Nazwa tabeli. | Nie (jeśli w źródle aktywności określono "zapytanie") |
| nazwaTabeli | Nazwa tabeli z schematu. Ta właściwość jest obsługiwana w celu zapewnienia zgodności z poprzednimi wersjami. Użyj schema i table dla nowego obciążenia. |
Nie (jeśli w źródle aktywności określono "zapytanie") |
Przykład
{
"name": "SparkDataset",
"properties": {
"type": "SparkObject",
"typeProperties": {},
"schema": [],
"linkedServiceName": {
"referenceName": "<Spark linked service name>",
"type": "LinkedServiceReference"
}
}
}
Właściwości czynności kopiowania
Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania działań, zobacz artykuł Pipelines. Ta sekcja zawiera listę właściwości obsługiwanych przez źródło platformy Spark.
Spark jako źródło
Aby skopiować dane z platformy Spark, ustaw typ źródła w działaniu kopiowania na SparkSource. Następujące właściwości są obsługiwane w sekcji źródło działania kopiowania:
| Majątek | Opis | Obowiązkowy |
|---|---|---|
| typ | Właściwość type źródła działania kopiowania musi być ustawiona na: SparkSource | Tak |
| kwerenda | Użyj niestandardowego zapytania SQL do odczytu danych. Na przykład: "SELECT * FROM MyTable". |
Nie (jeśli "tableName" jest określony w zestawie danych) |
Przykład:
"activities":[
{
"name": "CopyFromSpark",
"type": "Copy",
"inputs": [
{
"referenceName": "<Spark input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "SparkSource",
"query": "SELECT * FROM MyTable"
},
"sink": {
"type": "<sink type>"
}
}
}
]
Mapowanie typów danych dla platformy Spark
Podczas kopiowania danych z i do platformy Spark w usłudze są używane następujące tymczasowe mapowania typów danych. Aby dowiedzieć się, jak działanie kopiowania mapuje schemat źródłowy i typ danych na docelowy, zobacz Mapowanie schematu i typu danych.
| Typ danych platformy Spark | Typ danych usługi tymczasowej (wersja 2.0) | Typ danych usługi tymczasowej (wersja 1.0) |
|---|---|---|
| Typ Boolean | Logiczny | Logiczny |
| Typ bajtu | Sbyte | Int16 |
| ShortType | Int16 | Int16 |
| Typ liczby całkowitej | Int32 | Int32 |
| DługiTyp | Int64 | Int64 |
| FloatType | Pojedynczy | Pojedynczy |
| DoubleType | Podwójny | Podwójny |
| Typ daty | Data/godzina | Data/godzina |
| Typ znacznika czasu | Przesunięcie daty i godziny | Data/godzina |
| typ ciągu | Struna | Struna |
| TypBinarny | Bajt[] | Bajt[] |
| Typ dziesiętny | Dziesiętny | Dziesiętny Ciąg (precyzja > 28) |
| ArrayType | Struna | Struna |
| Typ struktury | Struna | Struna |
| Typ mapy | Struna | Struna |
| TimestampNTZType (typ danych znacznika czasu bez strefy czasowej) | Data/godzina | Data/godzina |
| TypPrzedziałuRokMiesiąc | Struna | Niewspierane. |
| TypInterwałuCzasowegoDnia | Struna | Niewspierane. |
Właściwości czynności wyszukiwania
Aby dowiedzieć się więcej o właściwościach, sprawdź aktywność przeszukiwania.
Cykl życia i uaktualnianie łącznika platformy Spark
W poniższej tabeli przedstawiono etap wydania i dzienniki zmian dla różnych wersji łącznika Spark:
| wersja | Etap wydania | Dziennik zmian |
|---|---|---|
| Wersja 1.0 | Removed | Nie dotyczy. |
| Wersja 2.0 | Wersja GA dostępna | • enableServerCertificateValidation jest obsługiwana. • Wartość domyślna enableSSL to true. • W przypadku typu uwierzytelniania WindowsAzureHDInsightService wartość domyślna to httpPath/sparkhive2.• Typ dziesiętny jest odczytywany jako typ danych dziesiętnych. • Typ znacznika czasu jest odczytywany jako typ danych DateTimeOffset. • YearMonthIntervalType, DayTimeIntervalType są odczytywane jako typ danych Ciąg. • trustedCertPath, useSystemTrustStoreallowHostNameCNMismatch i allowSelfSignedServerCert nie są obsługiwane. • SharkServer i SharkServer2 nie są obsługiwane w przypadku programu serverType. • Pliki binarne i SASL nie są obsługiwane w przypadku programu thriftTransportProtocl. • Typ uwierzytelniania nazwy użytkownika nie jest obsługiwany. |
Uaktualnianie łącznika Spark z wersji 1.0 do wersji 2.0
Na stronie Edytowanie połączonej usługi wybierz wersję 2.0 i skonfiguruj połączoną usługę, odwołując się do właściwości połączonej usługi w wersji 2.0.
Mapowanie typu danych dla połączonej usługi Spark w wersji 2.0 różni się od tego dla wersji 1.0. Aby dowiedzieć się więcej na temat najnowszego mapowania typów danych, zobacz Mapowanie typów danych dla platformy Spark.
Treści powiązane
Aby uzyskać listę magazynów danych obsługiwanych jako źródła i ujścia działania kopiowania, zobacz obsługiwane magazyny danych.