pyspark.RDD.saveAsTextFile

抽樣。 saveAsTextFile ( 路徑:str,compressionCodecClass:可選(str]=沒有一個 )→沒有

保存這個抽樣作為一個文本文件,使用元素的字符串表示。

參數
路徑 str

文本文件路徑

compressionCodecClass str,可選

壓縮編解碼器類的完全限定類名即“org.apache.hadoop.io.compress.GzipCodec”(默認情況下沒有一個)

例子

> > >tempfile進口NamedTemporaryFile> > >tempFile=NamedTemporaryFile(刪除=真正的)> > >tempFile關閉()> > >sc並行化(範圍(10))saveAsTextFile(tempFile的名字)> > >fileinput進口輸入> > >一團進口一團> > >加入(排序(輸入(一團(tempFile的名字+“/部分- 0000 *”))))“0 \ n1、n2 \ n3 \陶瓷\它們\ n6 \ n7 \ n8 \ n9 \ n”

空行是容忍在保存文本文件。

> > >tempfile進口NamedTemporaryFile> > >tempFile2=NamedTemporaryFile(刪除=真正的)> > >tempFile2關閉()> > >sc並行化([,“foo”,,“酒吧”,])saveAsTextFile(tempFile2的名字)> > >加入(排序(輸入(一團(tempFile2的名字+“/部分- 0000 *”))))' \ n \ n \ nbar \ nfoo \ n”

使用compressionCodecClass

> > >tempfile進口NamedTemporaryFile> > >tempFile3=NamedTemporaryFile(刪除=真正的)> > >tempFile3關閉()> > >編解碼器=“org.apache.hadoop.io.compress.GzipCodec”> > >sc並行化([“foo”,“酒吧”])saveAsTextFile(tempFile3的名字,編解碼器)> > >fileinput進口輸入,hook_compressed> > >結果=排序(輸入(一團(tempFile3的名字+“/ * . gz”部分),openhook=hook_compressed))> > >加入([r解碼(“utf - 8”)如果isinstance(r,字節)其他的rr結果])“酒吧\ nfoo \ n”