pyspark.SparkContext.addFile¶
-
SparkContext。
addFile
( 路徑:str,遞歸:bool=假 )→沒有¶ -
添加一個文件下載,這引發的工作在每一個節點。的路徑可以通過一個本地文件,一個文件在HDFS(或其他Hadoop-supported文件係統),或一個HTTP, HTTPS或FTP URI。
在火花工作訪問文件,使用
SparkFiles.get ()
與文件名找到它的下載位置。可以給一個目錄如果遞歸選項設置為True。目前目錄隻是Hadoop-supported文件係統支持。
筆記
隻能添加一次。後續添加相同的路徑將被忽略。
例子
> > >從pyspark進口SparkFiles> > >路徑=操作係統。路徑。加入(tempdir,“用法”)> > >與開放(路徑,“w”)作為測試文件:…_=測試文件。寫(“100”)> > >sc。addFile(路徑)> > >def函數(迭代器):…與開放(SparkFiles。得到(“用法”))作為測試文件:…fileVal=int(測試文件。readline())…返回(x*fileVal為x在迭代器]> > >sc。並行化([1,2,3,4])。mapPartitions(函數)。收集()(100、200、300、400)