嗨,團隊!
所有我在下載一個csv文件存儲在S3使用火花和閱讀它。
我的意思:
wget !https://s3.amazonaws.com/nyc-tlc/trip +數據/ yellow_tripdata_2020 - 01. - csv
如果我下載這個“yellow_tripdata_2020-01。csv”到底會被存儲在哪裏?
wget的響應如下:
——2022-01-04 12:38:48https://s3.amazonaws.com/nyc-tlc/trip +數據/ yellow_tripdata_2020 - 01. - csv解決s3.amazonaws.com (s3.amazonaws.com)……54.231.193.8連接到s3.amazonaws.com (s3.amazonaws.com) | 54.231.193.8 |: 443…連接。HTTP請求發送,等待響應……200 OK長度:593610736 (566)(text / csv)儲蓄:yellow_tripdata_2020-01。csv yellow_tripdata_202 100%[= = = = = = = = = = = = = = = = = = = >] 566.11米14.9 MB / s 42秒2022-01-04 12:39:31 (13.5 MB / s)——“yellow_tripdata_2020-01。csv”保存(593610736/593610736)
任何幫助將不勝感激。
標簽
@Kaniz Fatma, @Harikrishnan Kunhumveettil達到更佳。
我更願意使用python請求圖書館完全控製並將其保存到dbfs存儲。
如果你運行wget筆記本電池可以使用魔法運行命令:
% sh
wget……
所以你可以檢查當前目錄
% sh
鬆材線蟲病
關於wget還可以指定輸出文件https://linux.die.net/man/1/wget
我更願意使用python請求圖書館完全控製並將其保存到dbfs存儲。
如果你運行wget筆記本電池可以使用魔法運行命令:
% sh
wget……
所以你可以檢查當前目錄
% sh
鬆材線蟲病
關於wget還可以指定輸出文件https://linux.die.net/man/1/wget
嗨@Kaniz所有,謝謝你的剩餘部分。
嘿@Hubert杜德克,非常感謝你的及時反應。
起初,我用urllib3“得到”的數據駐留在URL。所以,我想要一個替代。不幸的是,請求圖書館urllib3做同樣的事。
我的問題是如果我使用wget命令,下載的數據被存儲在哪裏?
我知道,這將是保存在司機的記憶。
在我的例子中:
“磚/驅動程序”
有一次,我明白了,休伯特建議,我在DBFS保存數據。
dbutils.fs.cp(“文件:/ / yellow_tripdata_2020-01磚/驅動程序。csv”、“dbfs: / FileStore /表/ ')
謝謝你們的快速轉身。