Compartilhar via


Expandir e ler arquivos Zip compactados

Você pode usar o unzip comando Bash para expandir arquivos compactados zip (.zip) ou diretórios de arquivos. O %shcomando mágico do Azure Databricks permite a execução de código Bash arbitrário, incluindo o comando unzip.

O Apache Spark fornece codecs nativos para interagir com arquivos Parquet compactados. Por padrão, os arquivos Parquet gravados pelo Azure Databricks terminam com .snappy.parquet, indicando que usam compactação snappy.

Baixar e descompactar o arquivo

Use curl para baixar o arquivo compactado e expandir unzip os dados. O exemplo a seguir usa um arquivo CSV compactado baixado da Internet. Consulte Baixar dados da Internet.

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

Mover o arquivo para um volume

Agora mova o arquivo expandido para um volume do Catálogo do Unity:

%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv

Neste exemplo, os dados baixados têm um comentário na primeira linha e um cabeçalho na segunda. Agora que você moveu e expandiu os dados, use opções padrão para ler arquivos CSV, por exemplo:

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)