pyspark.SparkContext.addArchive
SparkContext。 addArchive ( 路徑:str )→沒有SparkFiles.get ()找到下載的文件名/打開位置。給定的路徑應該是一個. zip . tar . tar。廣州,. tgz . jar。

筆記

隻能添加一次。後續添加相同的路徑將被忽略。這個API是實驗性的。

例子

創建一個壓縮文件,其中包含一個文本文件寫‘100’。

> > >進口zipfile> > >pyspark進口SparkFiles> > >路徑=操作係統路徑加入(tempdir,“用法”)> > >zip_path=操作係統路徑加入(tempdir,“test.zip”)> > >zipfileZipFile(zip_path,“w”,zipfileZIP_DEFLATED)作為壓縮:開放(路徑,“w”)作為f:_=f(“100”)壓縮(路徑,操作係統路徑basename(路徑))> > >scaddArchive(zip_path)

讀取壓縮文件中的“100”作為一個整數,用抽樣中的數據和流程。

> > >def函數(迭代器):開放(% s/用法”%SparkFiles得到(“test.zip”))作為f:v=int(freadline())返回(x*int(v)x迭代器]> > >sc並行化([1,2,3,4])mapPartitions(函數)收集()(100、200、300、400)