pyspark.SparkContext.addFile

SparkContext。 addFile ( 路徑:str,遞歸:bool= )→沒有

添加一個文件下載,這引發的工作在每一個節點。的路徑可以通過一個本地文件,一個文件在HDFS(或其他Hadoop-supported文件係統),或一個HTTP, HTTPS或FTP URI。

在火花工作訪問文件,使用SparkFiles.get ()與文件名找到它的下載位置。

可以給一個目錄如果遞歸選項設置為True。目前目錄隻是Hadoop-supported文件係統支持。

筆記

隻能添加一次。後續添加相同的路徑將被忽略。

例子

> > >pyspark進口SparkFiles> > >路徑=操作係統路徑加入(tempdir,“用法”)> > >開放(路徑,“w”)作為測試文件:_=測試文件(“100”)> > >scaddFile(路徑)> > >def函數(迭代器):開放(SparkFiles得到(“用法”))作為測試文件:fileVal=int(測試文件readline())返回(x*fileValx迭代器]> > >sc並行化([1,2,3,4])mapPartitions(函數)收集()(100、200、300、400)