我用PySpark和痛苦讀大量的CSV文件和創建許多DF,但我繼續這個問題。
相同的代碼:-
從感傷。多處理進口ProcessingPool
def readCsv(路徑):
返回spark.read.csv(路徑,頭= True)
csv_file_list =[文件[0][5:]dbutils.fs.ls的文件(“/ databricks-datasets / COVID / coronavirusdataset /”)如果文件[1].endswith (. csv)]
池= ProcessingPool (2)
結果=池。地圖(readCsv csv_file_list)