Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
In deze zelfstudie leert u hoe u een Spark-taakdefinitie maakt in Microsoft Fabric.
Het proces voor het maken van de Spark-taakdefinitie is snel en eenvoudig; er zijn verschillende manieren om aan de slag te gaan.
U kunt een Spark-taakdefinitie maken vanuit de Fabric-portal of met behulp van de REST API van Microsoft Fabric. Dit artikel is gericht op het maken van een Spark-taakdefinitie vanuit de Fabric-portal. Zie De Apache Spark-taakdefinitie v1 en de Apache Spark-taakdefinitie-API v2 voor meer informatie over het maken van een Spark-taakdefinitie met behulp van de REST API.
Vereisten
Voordat u aan de slag gaat, hebt u het volgende nodig:
- Een Fabric-tenantaccount met een actief abonnement. Gratis een account maken
- Een werkruimte in Microsoft Fabric. Zie Werkruimten maken en beheren in Microsoft Fabric voor meer informatie.
- Ten minste één lakehouse in de werkruimte. Lakehouse fungeert als het standaardbestandssysteem voor de Spark-taakdefinitie. Zie Een lakehouse maken voor meer informatie.
- Een hoofddefinitiebestand voor de Spark-taak. Dit bestand bevat de toepassingslogica en is verplicht om een Spark-taak uit te voeren. Elke Spark-taakdefinitie kan slechts één hoofddefinitiebestand hebben.
U moet uw Spark-taakdefinitie een naam geven wanneer u deze maakt. De naam moet uniek zijn binnen de huidige werkruimte. De nieuwe Spark-taakdefinitie wordt gemaakt in uw huidige werkruimte.
Een Spark-taakdefinitie maken in de Fabric-portal
Voer de volgende stappen uit om een Spark-taakdefinitie te maken in de Fabric-portal:
- Meld u aan bij de Microsoft Fabric-portal.
- Navigeer naar de gewenste werkruimte waar u de Spark-taakdefinitie wilt maken.
- Selecteer Nieuw item>.
- Geef in het deelvenster Nieuwe Spark-taakdefinitie de volgende informatie op:
- Naam: Voer een unieke naam in voor de Spark-taakdefinitie.
- Locatie: Selecteer de locatie van de werkruimte.
- Selecteer Maken om de Spark-taakdefinitie te maken.
Een alternatief toegangspunt voor het maken van een Spark-taakdefinitie is de gegevensanalyse met behulp van een SQL... -tegel op de startpagina van Fabric. U kunt dezelfde optie vinden door de tegel Algemeen te selecteren.
Wanneer u de tegel selecteert, wordt u gevraagd een nieuwe werkruimte te maken of een bestaande werkruimte te selecteren. Nadat u de werkruimte hebt geselecteerd, wordt de pagina voor het maken van de Spark-taakdefinitie geopend.
Een Spark-taakdefinitie aanpassen voor PySpark (Python)
Voordat u een Spark-taakdefinitie voor PySpark maakt, moet u een Parquet-voorbeeldbestand uploaden naar het lakehouse.
- Download het Parquet-voorbeeldbestand yellow_tripdata_2022-01.parquet.
- Ga naar het lakehouse waar u het bestand wilt uploaden.
- Upload het naar de "Bestanden"-sectie van het lakehouse.
Een Spark-taakdefinitie maken voor PySpark:
Selecteer PySpark (Python) in de vervolgkeuzelijst Taal .
Download het createTablefromParquet.py voorbeelddefinitiebestand. Upload het als het hoofddefinitiebestand. Het hoofddefinitiebestand (taak. Main) is het bestand dat de toepassingslogica bevat en verplicht is om een Spark-taak uit te voeren. Voor elke Spark-taakdefinitie kunt u slechts één hoofddefinitiebestand uploaden.
Notitie
U kunt het hoofddefinitiebestand uploaden vanaf uw lokale bureaublad of u kunt uploaden vanuit een bestaande Azure Data Lake Storage (ADLS) Gen2 door het volledige ABFSS-pad van het bestand op te geven. Bijvoorbeeld:
abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.Upload optioneel referentiebestanden als
.py(Python)-bestanden. De referentiebestanden zijn de Python-modules die door het hoofddefinitiebestand worden geïmporteerd. Net als het hoofddefinitiebestand kunt u uploaden vanaf uw bureaublad of een bestaande ADLS Gen2. Er worden meerdere referentiebestanden ondersteund.Tip
Als u een ADLS Gen2-pad gebruikt, moet u ervoor zorgen dat het bestand toegankelijk is. U moet het gebruikersaccount waarmee de taak wordt uitgevoerd, de juiste machtiging geven voor het opslagaccount. Hier volgen twee verschillende manieren waarop u de machtiging kunt verlenen:
- Wijs het gebruikersaccount een rol Inzender toe voor het opslagaccount.
- Verken lees- en uitvoeringsmachtigingen voor het gebruikersaccount voor het bestand via de ACL (ADLS Gen2 Access Control List).
Voor een handmatige uitvoering wordt het account van de huidige aangemelde gebruiker gebruikt om de taak uit te voeren.
Geef indien nodig opdrachtregelargumenten op voor de taak. Gebruik een spatie als splitser om de argumenten te scheiden.
Voeg de lakehouse-verwijzing toe aan de taak. U moet ten minste één lakehouse-verwijzing aan de taak hebben toegevoegd. Dit lakehouse is de standaard lakehouse-context voor de taak.
Meerdere lakehouse-verwijzingen worden ondersteund. Zoek de niet-standaard lakehouse-naam en volledige OneLake-URL op de pagina Spark-instellingen .
Een Spark-taakdefinitie aanpassen voor Scala/Java
Een Spark-taakdefinitie maken voor Scala/Java:
Selecteer Spark(Scala/Java) in de vervolgkeuzelijst Taal .
Upload het hoofddefinitiebestand als een
.jar(Java)-bestand. Het hoofddefinitiebestand is het bestand dat de toepassingslogica van deze taak bevat en verplicht is om een Spark-taak uit te voeren. Voor elke Spark-taakdefinitie kunt u slechts één hoofddefinitiebestand uploaden. Geef de naam van de hoofdklasse op.Upload optioneel referentiebestanden als
.jar(Java)-bestanden. De referentiebestanden zijn de bestanden waarnaar het hoofddefinitiebestand verwijst/importeert.Geef indien nodig opdrachtregelargumenten op voor de taak.
Voeg de lakehouse-verwijzing toe aan de taak. U moet ten minste één lakehouse-verwijzing aan de taak hebben toegevoegd. Dit lakehouse is de standaard lakehouse-context voor de taak.
Een Spark-taakdefinitie voor R aanpassen
Een Spark-taakdefinitie maken voor SparkR(R):
Selecteer SparkR(R) in de vervolgkeuzelijst Taal .
Upload het hoofddefinitiebestand als een
.r(R)-bestand. Het hoofddefinitiebestand is het bestand dat de toepassingslogica van deze taak bevat en verplicht is om een Spark-taak uit te voeren. Voor elke Spark-taakdefinitie kunt u slechts één hoofddefinitiebestand uploaden.Upload optioneel referentiebestanden als
.r(R)-bestanden. De referentiebestanden zijn de bestanden waarnaar wordt verwezen/geïmporteerd door het hoofddefinitiebestand.Geef indien nodig opdrachtregelargumenten op voor de taak.
Voeg de lakehouse-verwijzing toe aan de taak. U moet ten minste één lakehouse-verwijzing aan de taak hebben toegevoegd. Dit lakehouse is de standaard lakehouse-context voor de taak.
Notitie
De Spark-taakdefinitie wordt gemaakt in uw huidige werkruimte.
Opties voor het aanpassen van Spark-taakdefinities
Er zijn enkele opties om de uitvoering van Spark-taakdefinities verder aan te passen.
Spark Compute: op het tabblad Spark Compute ziet u de runtimeversie van Fabric die wordt gebruikt om de Spark-taak uit te voeren. U kunt ook de Spark-configuratie-instellingen zien die worden gebruikt om de taak uit te voeren. U kunt de Spark-configuratie-instellingen aanpassen door de knop Toevoegen te selecteren.
Optimalisatie: Op het tabblad Optimalisatie kunt u het beleid voor opnieuw proberen voor de taak inschakelen en instellen. Wanneer deze optie is ingeschakeld, wordt de taak opnieuw geprobeerd als deze mislukt. U kunt ook het maximum aantal nieuwe pogingen en het interval tussen nieuwe pogingen instellen. Voor elke nieuwe poging wordt de taak opnieuw gestart. Zorg ervoor dat de taak idempotent is.