從互聯網上下載數據
您可以使用磚筆記本下載的數據從公共url體積存儲集群的司機。如果你從雲訪問數據對象存儲,直接訪問數據與Apache火花提供更好的結果。
磚集群提供通用計算,允許您另外Apache火花命令運行任意代碼。因為任意命令執行對集群的根目錄,而不是DBFS根,你必須在閱讀之前將下載的數據移動到一個新的位置與Apache火花。
請注意
一些工作空間配置可能阻止訪問公共網絡。谘詢您的工作區管理員如果你需要擴展網絡訪問。
下載一個文件,Bash、Python或Scala
磚不提供任何本機工具從互聯網下載數據,但是您可以使用開源工具支持的語言。下麵的例子使用包Bash、Python和Scala下載相同的文件。
% sh curl https://data.cityofnewyork.us/api/views/kk4q-3rt2/rows。csv / tmp / curl-subway.csv——輸出
進口urlliburllib。請求。urlretrieve(“https://data.cityofnewyork.us/api/views/kk4q-3rt2/rows.csv”,“/ tmp / python-subway.csv”)
進口java。淨。URL進口java。io。文件進口org。apache。下議院。io。FileUtilsFileUtils。copyURLToFile(新URL(“https://data.cityofnewyork.us/api/views/kk4q-3rt2/rows.csv”),新文件(“/ tmp / scala-subway.csv”))
因為這些文件下載到存儲卷附加到司機使用% sh
看到這些文件,就像下麵的例子:
% sh ls / tmp /
您可以使用Bash命令預覽文件下載的內容,就像下麵的例子:
% sh / tmp / curl-subway.csv負責人