展開並讀取Zip壓縮文件

您可以使用解壓縮Bash命令展開已Zip壓縮的文件或文件目錄。如果下載或遇到以。結尾的文件或目錄. zip,在嚐試繼續之前展開數據。

請注意

Apache Spark為與壓縮的Parquet文件交互提供了本地編解碼器。默認情況下,由Databricks編寫的Parquet文件以.snappy.parquet,表明他們使用了快速壓縮。

如何解壓縮數據

的磚% sh神奇的命令允許任意Bash代碼的執行,包括解壓縮命令。

下麵的示例使用從互聯網下載的壓縮CSV文件。您還可以在展開文件之前使用Databricks Utilities將文件移動到驅動程序卷。看到從網上下載數據而且磚公用事業

下麵的代碼使用旋度下載,然後解壓縮展開數據:

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip——output /tmp/LoanStats3a.csv.zip unzip /tmp/LoanStats3a.csv.zip

使用dbutils將展開的文件移回雲對象存儲以允許並行讀取,如下所示:

dbutilsfsmv“文件:/ LoanStats3a.csv”“dbfs: / tmp / LoanStats3a.csv”

在本例中,下載的數據在第一行中有注釋,在第二行中有標頭。現在數據已經展開和移動,使用標準選項讀取CSV文件,如下例所示:

df火花格式“csv”選項“skipRows”1選項“頭”真正的負載“/ tmp / LoanStats3a.csv”顯示df