pyspark.SparkContext.binaryFiles

SparkContext。 binaryFiles ( 路徑:str,minPartitions:可選(int]=沒有一個 )→pyspark.rdd.RDD(元組(str,字節] ]

從HDFS讀取二進製文件的目錄,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI作為一個字節數組。每個文件讀取並返回一個記錄的鍵-值對,關鍵是每個文件的路徑,該值為每個文件的內容。

筆記

小文件是首選,大文件也是允許的,但可能會導致糟糕的性能。