Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
U kunt de unzip Bash-opdracht gebruiken om gecomprimeerde Zip-bestanden.zip of mappen met bestanden uit te vouwen. Met de Magic-opdracht van Azure Databricks %shkunt u willekeurige Bash-code uitvoeren, inclusief de unzip opdracht.
Apache Spark biedt systeemeigen codecs voor interactie met gecomprimeerde Parquet-bestanden. De meeste Parquet-bestanden die zijn geschreven door Azure Databricks eindigen met .snappy.parquet, waarmee wordt aangegeven dat ze snappy-compressie gebruiken.
Het bestand downloaden en uitpakken
Gebruik curl dit om het gecomprimeerde bestand te downloaden en vervolgens unzip de gegevens uit te vouwen. In het volgende voorbeeld wordt een gezipt CSV-bestand gebruikt dat is gedownload van internet. Zie Gegevens downloaden van internet.
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
Het bestand verplaatsen naar een volume
Verplaats het uitgevouwen bestand nu naar een Unity Catalog-volume:
%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv
In dit voorbeeld bevatten de gedownloade gegevens een opmerking in de eerste rij en een koptekst in de tweede. Nu u de gegevens hebt verplaatst en uitgebreid, gebruikt u standaardopties voor het lezen van CSV-bestanden, bijvoorbeeld:
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)