SparkContext。
binaryFiles
從HDFS讀取二進製文件的目錄,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI作為一個字節數組。每個文件讀取並返回一個記錄的鍵-值對,關鍵是每個文件的路徑,該值為每個文件的內容。
筆記
小文件是首選,大文件也是允許的,但可能會導致糟糕的性能。
以前的
pyspark.SparkContext.applicationId
下一個
pyspark.SparkContext.binaryRecords