展開並讀取Zip壓縮文件
您可以使用解壓縮
Bash命令展開已Zip壓縮的文件或文件目錄。如果下載或遇到以。結尾的文件或目錄. zip
,在嚐試繼續之前展開數據。
請注意
Apache Spark為與壓縮的Parquet文件交互提供了本地編解碼器。默認情況下,由Databricks編寫的Parquet文件以.snappy.parquet
,表明他們使用了快速壓縮。
如何解壓縮數據
的磚% sh
神奇的命令允許任意Bash代碼的執行,包括解壓縮
命令。
下麵的示例使用從互聯網下載的壓縮CSV文件。您還可以在展開文件之前使用Databricks Utilities將文件移動到驅動程序卷。看到從網上下載數據而且磚公用事業.
下麵的代碼使用旋度
下載,然後解壓縮
展開數據:
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip——output /tmp/LoanStats3a.csv.zip unzip /tmp/LoanStats3a.csv.zip
使用dbutils將展開的文件移回雲對象存儲以允許並行讀取,如下所示:
dbutils.fs.mv(“文件:/ LoanStats3a.csv”,“dbfs: / tmp / LoanStats3a.csv”)
在本例中,下載的數據在第一行中有注釋,在第二行中有標頭。現在數據已經展開和移動,使用標準選項讀取CSV文件,如下例所示:
df=火花.讀.格式(“csv”).選項(“skipRows”,1).選項(“頭”,真正的).負載(“/ tmp / LoanStats3a.csv”)顯示(df)