我用PySpark和痛苦讀大量的CSV文件和創建許多DF,但我繼續這個問題。
相同的代碼:-
從感傷。多處理進口ProcessingPool
def readCsv(路徑):
返回spark.read.csv(路徑,頭= True)
csv_file_list =[文件[0][5:]dbutils.fs.ls的文件(“/ databricks-datasets / COVID / coronavirusdataset /”)如果文件[1].endswith (. csv)]
池= ProcessingPool (2)
結果=池。地圖(readCsv csv_file_list)
嘿@Punit Chauhan引用這段代碼
多處理。池進口ThreadPool池= ThreadPool(5)筆記本= [‘dim_1’,‘dim_2]池。地圖(λ路徑:dbutils.notebook.run(+路徑“/測試/線程”,timeout_seconds = 60,參數={}“輸入數據”:路徑),筆記本電腦)
嘿@Punit Chauhan引用這段代碼
多處理。池進口ThreadPool池= ThreadPool(5)筆記本= [‘dim_1’,‘dim_2]池。地圖(λ路徑:dbutils.notebook.run(+路徑“/測試/線程”,timeout_seconds = 60,參數={}“輸入數據”:路徑),筆記本電腦)