取消
顯示的結果
而不是尋找
你的意思是:

為什麼提供的文件名列表spark.read.csv ([file1、fiel2 file3])提供目錄與通配符spark.read.csv要快得多(“/道路/ *”)? ?

rakeshdey
新的貢獻者二世

我有大量小文件沒有在s3和我正在經曆一些博客人們告訴提供的文件列表是快像(spark.read.csv ([file1 file2 file3]),而不是與外卡給目錄

原因:火花確實第一次額外的“ls”(清單文件名稱)命令目錄讀取文件. .

你有任何文檔或任何引用來證明這些原因。我知道這可能是真的,但想要得到更多的細節在後麵,火花讀取命令是如何工作的

0回答0
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map