Bash 명령을 사용하여 unzip 압축.zip된 파일 또는 파일 디렉터리를 확장할 수 있습니다. Azure Databricks %sh매직 명령은unzip 명령을 포함한 임의의 Bash 코드를 실행할 수 있게 합니다.
Apache Spark는 Parquet 압축 파일과 상호 작용하기 위한 네이티브 코덱을 제공합니다. Azure Databricks에서 작성한 대부분의 Parquet 파일은 스냅 압축을 사용한다는 것을 나타내며 .snappy.parquet으로 끝납니다.
파일 다운로드 및 압축 해제
압축된 파일을 다운로드한 다음 curl 데이터를 확장하는 데 사용합니다unzip. 다음 예제에서는 인터넷에서 다운로드한 zip으로 압축된 CSV 파일을 사용합니다. 인터넷에서 데이터 다운로드를 참조하세요.
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
파일을 볼륨으로 이동
이제 확장된 파일을 Unity 카탈로그 볼륨으로 이동합니다.
%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv
이 예제에서 다운로드한 데이터의 첫 번째 행에는 주석, 두 번째 행에는 헤더가 있습니다. 이제 데이터를 이동하고 확장했으므로 CSV 파일을 읽기 위한 표준 옵션을 사용합니다. 예를 들면 다음과 같습니다.
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)