SparkContext。
addArchive
SparkFiles.get ()
筆記
隻能添加一次。後續添加相同的路徑將被忽略。這個API是實驗性的。
例子
創建一個壓縮文件,其中包含一個文本文件寫‘100’。
> > >進口zipfile> > >從pyspark進口SparkFiles> > >路徑=操作係統。路徑。加入(tempdir,“用法”)> > >zip_path=操作係統。路徑。加入(tempdir,“test.zip”)> > >與zipfile。ZipFile(zip_path,“w”,zipfile。ZIP_DEFLATED)作為壓縮:…與開放(路徑,“w”)作為f:…_=f。寫(“100”)…壓縮。寫(路徑,操作係統。路徑。basename(路徑))> > >sc。addArchive(zip_path)
讀取壓縮文件中的“100”作為一個整數,用抽樣中的數據和流程。
> > >def函數(迭代器):…與開放(”% s/用法”%SparkFiles。得到(“test.zip”))作為f:…v=int(f。readline())…返回(x*int(v)為x在迭代器]> > >sc。並行化([1,2,3,4])。mapPartitions(函數)。收集()(100、200、300、400)
以前的
pyspark.SparkContext.accumulator
下一個
pyspark.SparkContext.addFile