Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Você pode usar o unzip comando Bash para expandir arquivos compactados zip (.zip) ou diretórios de arquivos. O %shcomando mágico do Azure Databricks permite a execução de código Bash arbitrário, incluindo o comando unzip.
O Apache Spark fornece codecs nativos para interagir com arquivos Parquet compactados. Por padrão, os arquivos Parquet gravados pelo Azure Databricks terminam com .snappy.parquet, indicando que usam compactação snappy.
Baixar e descompactar o arquivo
Use curl para baixar o arquivo compactado e expandir unzip os dados. O exemplo a seguir usa um arquivo CSV compactado baixado da Internet. Consulte Baixar dados da Internet.
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
Mover o arquivo para um volume
Agora mova o arquivo expandido para um volume do Catálogo do Unity:
%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv
Neste exemplo, os dados baixados têm um comentário na primeira linha e um cabeçalho na segunda. Agora que você moveu e expandiu os dados, use opções padrão para ler arquivos CSV, por exemplo:
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)