Delen via


Gecomprimeerde zip-bestanden uitvouwen en lezen

U kunt de unzip Bash-opdracht gebruiken om gecomprimeerde Zip-bestanden.zip of mappen met bestanden uit te vouwen. Met de Magic-opdracht van Azure Databricks %shkunt u willekeurige Bash-code uitvoeren, inclusief de unzip opdracht.

Apache Spark biedt systeemeigen codecs voor interactie met gecomprimeerde Parquet-bestanden. De meeste Parquet-bestanden die zijn geschreven door Azure Databricks eindigen met .snappy.parquet, waarmee wordt aangegeven dat ze snappy-compressie gebruiken.

Het bestand downloaden en uitpakken

Gebruik curl dit om het gecomprimeerde bestand te downloaden en vervolgens unzip de gegevens uit te vouwen. In het volgende voorbeeld wordt een gezipt CSV-bestand gebruikt dat is gedownload van internet. Zie Gegevens downloaden van internet.

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

Het bestand verplaatsen naar een volume

Verplaats het uitgevouwen bestand nu naar een Unity Catalog-volume:

%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv

In dit voorbeeld bevatten de gedownloade gegevens een opmerking in de eerste rij en een koptekst in de tweede. Nu u de gegevens hebt verplaatst en uitgebreid, gebruikt u standaardopties voor het lezen van CSV-bestanden, bijvoorbeeld:

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)