再保險:如何上傳大文件數據磚嗎?和h……-磚- 10345

睿智的 · ‎01-31-2023

我有兩個JSON文件,一個~ 3 gb和1 ~ 5 gb。我無法上傳到磚community edition時超過最大允許up-loadable文件大小(~ 2 gb)。

如果我郵政他們我能上傳,但我也有問題弄清楚如何將這些文件解壓縮到一個可讀的格式,目前隻有在導入預覽輸出讀取字符。

我相對較新的磚,隻是用了一個SQL認證,所以我想將JSON導入query-able表。

謝謝。

Aviral-Bhardwaj · ‎01-31-2023

@Sage奧爾森在磚代替上傳您可以使用任何雲提供商和轉儲數據,然後讀取文件使用磚,它是安全的

Debayan · ‎01-31-2023

你好,您可以創建一個筆記本在磚集群和筆記本使用linux命令解壓縮文件,請參考:https://docs.www.eheci.com/notebooks/notebooks-code.html

同時,進入命令後,請運行PYTHON中的筆記本模式和啟動筆記本電池與% sh將接命令shell命令並解壓縮文件。

壓縮可以參考:https://docs.www.eheci.com/files/unzip-files.html和https://community.www.eheci.com/s/question/0D58Y00009az9bGSAQ/unzip-files。

睿智的 · ‎01-31-2023

謝謝你的回應。我已經找到這篇文章在shell命令和壓縮信息,然而我還沒有python背景設置的文檔去了。

我明白,我需要設置% sh命令開始,但我不明白如何處理“進口”的代碼塊。數據將在哪裏?我可以跟隨的筆記本設置模板後可以找到解壓數據通過進口/解壓縮命令。

Hubert_Dudek1 · ‎02-01-2023

上傳壓縮後,複製從UI和解壓的路徑類似於:

進口zipfile進口io進口os zip_file = " / dbfs / tmp / tmp。與zipfile郵政”。ZipFile z (zip_file,“r”):在z.namelist文件名():與z.open(文件名)f: extracted_file = os.path。加入(“/ dbfs / tmp /”,文件名)張開(extracted_file,“世界銀行”)作為輸出:output.write (f.read ())

磚

如何上傳大文件數據磚嗎?以及如何成功解壓縮文件?