火花的核心¶

公共類¶

`SparkContext`([主人,瀏覽器名稱、sparkHome…))	主要入口點火花的功能。
`抽樣`(jrdd, ctx [jrdd_deserializer])	一個彈性分布式數據集(抽樣),火花的基本抽象。
`廣播`([sc、價值、pickle_registry…))	一個廣播變量創建`SparkContext.broadcast ()`。
`蓄電池`(accum_param援助,價值)	一個共享變量,可以積累。有一個交換和關聯“添加”操作。
`AccumulatorParam`	Helper對象定義了如何給定類型的累積值。
`SparkConf`([loadDefaults、_jvm _jconf])	為火花應用程序配置。
`SparkFiles`()	解決路徑文件通過補充道`SparkContext.addFile ()`。
`StorageLevel`(useMemory useDisk useOffHeap…)	旗幟的存儲控製抽樣。
`TaskContext`	上下文信息的任務在執行期間可以讀取或突變。
`RDDBarrier`(抽樣)	包裝一個抽樣障礙階段,這迫使火花發射任務的階段。
`BarrierTaskContext`	一個`TaskContext`額外的上下文信息和工具的任務在舞台的一個障礙。
`BarrierTaskInfo`(地址)	所有任務信息的障礙。
`InheritableThread`(目標,* args, * * kwargs)	線程是推薦用於PySpark代替`threading.Thread`當固定線程模式啟用。
`util.VersionUtils`	提供了實用方法確定火花版本與給定的輸入字符串。

火花上下文api¶

`SparkContext.PACKAGE_EXTENSIONS`
`SparkContext.accumulator`(價值[accum_param])	創建一個`蓄電池`用給定的初始值,使用一個給定的`AccumulatorParam`helper對象定義如何添加值的數據類型。
`SparkContext.addArchive`(路徑)	添加一個檔案下載這個火花每一個節點上工作。
`SparkContext.addFile`(路徑(遞歸)	添加一個文件下載,這引發的工作在每一個節點。
`SparkContext.addPyFile`(路徑)	添加一個. py或zip依賴這SparkContext上執行所有任務。
`SparkContext.applicationId`	火花的惟一標識符的應用程序。
`SparkContext.binaryFiles`(路徑[minPartitions])	從HDFS讀取二進製文件的目錄,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI作為一個字節數組。
`SparkContext.binaryRecords`(recordLength路徑)	加載數據從一個平坦的二進製文件,假設每個記錄是一組數字與指定的數值格式(見ByteBuffer),和每個記錄的字節數是恒定的。
`SparkContext.broadcast`(值)	廣播一個隻讀變量到集群,返回`廣播`對象閱讀它在分布式功能。
`SparkContext.cancelAllJobs`()	取消所有的工作計劃或正在運行。
`SparkContext.cancelJobGroup`(groupId)	取消指定集團積極工作。
`SparkContext.defaultMinPartitions`	默認最小數量的分區Hadoop抽樣時由用戶
`SparkContext.defaultParallelism`	默認級別的並行使用時由用戶(如。
`SparkContext.dump_profiles`(路徑)	概要文件轉儲數據目錄路徑
`SparkContext.emptyRDD`()	創建一個抽樣沒有分區或元素。
`SparkContext.getCheckpointDir`()	返回目錄抽樣檢查點。
`SparkContext.getConf`()
`SparkContext.getLocalProperty`(關鍵)	當地房地產在這個線程,或null如果是失蹤。
`SparkContext.getOrCreate`([設計])	獲取或實例化一個SparkContext並注冊它作為一個單例對象。
`SparkContext.hadoopFile`(道路,…[…])	讀一個“老”具有任意鍵和值的Hadoop InputFormat類HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。
`SparkContext.hadoopRDD`(inputFormatClass…)	讀一個“老”具有任意鍵和值的Hadoop InputFormat類,從任意Hadoop配置,這是作為一個Python字典傳遞
`SparkContext.newAPIHadoopFile`(道路,…[…])	閱讀的新API具有任意鍵和值的Hadoop InputFormat類從HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。
`SparkContext.newAPIHadoopRDD`(…[…])	閱讀的新API具有任意鍵和值的Hadoop InputFormat類,從任意Hadoop配置,這是作為一個Python字典傳遞
`SparkContext.parallelize`(c [, numSlices])	分配一個本地Python集合形成一個抽樣。
`SparkContext.pickleFile`(名字[minPartitions])	加載一個抽樣之前保存使用`RDD.saveAsPickleFile ()`方法。
`SparkContext.range`(開始、結束步驟,numSlices])	創建一個新的包含元素從抽樣的int開始來結束(獨家),增加了一步每一個元素。
`SparkContext.resources`
`SparkContext.runJob`抽樣,partitionFunc […])	執行給定partitionFunc指定的分區上,返回結果的數組元素。
`SparkContext.sequenceFile`(道路、keyClass…)	讀了Hadoop SequenceFile任意鍵和值可寫的類從HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。
`SparkContext.setCheckpointDir`(目錄名)	設置的目錄抽樣將檢查點。
`SparkContext.setJobDescription`(值)	設置一個人類可讀的描述當前的工作。
`SparkContext.setJobGroup`(groupId,描述)	分配一個組ID的所有工作開始由這個線程,直到組ID設置為不同的值或清除。
`SparkContext.setLocalProperty`(關鍵字,值)	設置本地屬性影響工作從這個線程提交,如火花公平調度器池。
`SparkContext.setLogLevel`(logLevel)	控製我們的logLevel。
`SparkContext.setSystemProperty`(關鍵字,值)	設置一個Java係統屬性,如spark.executor.memory。
`SparkContext.show_profiles`()	打印配置文件數據發送到stdout
`SparkContext.sparkUser`()	獲得用戶的SPARK_USER SparkContext運行。
`SparkContext.startTime`	返回時代火花上下文時就開始了。
`SparkContext.statusTracker`()	返回`StatusTracker`對象
`SparkContext.stop`()	關閉SparkContext。
`SparkContext.textFile`(名稱、minPartitions…)	從HDFS讀取一個文本文件,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI,並返回一個字符串抽樣。
`SparkContext.uiWebUrl`	返回的URL由這個SparkContext SparkUI實例開始
`SparkContext.union`(抽樣)	建立聯盟的抽樣的列表。
`SparkContext.version`	火花的版本運行該應用程序。
`SparkContext.wholeTextFiles`(路徑[…])	從HDFS讀取文本文件的目錄,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。

抽樣的api¶

`RDD.aggregate`(seqOp zeroValue combOp)	集合的元素每個分區,然後所有的分區結果,使用給定的組合功能和一個中立的“零價值。”
`RDD.aggregateByKey`(seqFunc zeroValue combFunc)	聚合每個鍵的值,使用組合函數和一個中立的“零值”。
`RDD.barrier`()	標誌著當前階段作為一個障礙階段,火花必須共同推出所有任務。
`RDD.cache`()	堅持這個抽樣與默認的存儲水平(MEMORY_ONLY)。
`RDD.cartesian`(其他)	返回這個抽樣的笛卡兒積和另一個,也就是說,對所有元素的抽樣`(一個b)`在哪裏`一個`是在自我和`b`是在其他。
`RDD.checkpoint`()	馬克這對檢查點抽樣。
`RDD.cleanShuffleDependencies`((阻塞))	刪除一個抽樣的震蕩和non-persisted祖先。
`RDD.coalesce`(numPartitions[,洗牌])	返回一個新的抽樣降低numPartitions分區。
`RDD.cogroup`(其他[numPartitions])	為每個關鍵k自我或其他,返回一個抽樣結果,其中包含的元組的值列表的關鍵自我以及其他。
`RDD.collect`()	返回一個列表,其中包含所有的元素在這個抽樣。
`RDD.collectAsMap`()	返回鍵值在這個抽樣到主字典。
`RDD.collectWithJobGroup`(groupId,描述)	收集抽樣時,使用這種方法來指定工作小組。
`RDD.combineByKey`(mergeValue createCombiner…)	泛型函數結合的元素為每個聚合函數的主要使用一個自定義組。
`RDD.context`	的`SparkContext`創建這個抽樣。
`RDD.count`()	返回元素的數量在這個抽樣。
`RDD.countApprox`(超時,信心)	近似的版本數(),它返回一個潛在的不完整的結果在一個超時,即使不是所有任務都完成了。
`RDD.countApproxDistinct`([relativeSD])	返回近似抽樣數量的不同的元素。
`RDD.countByKey`()	計數為每個關鍵元素的個數,並將結果返回給主作為一個字典。
`RDD.countByValue`()	返回每個獨特的計算值在這個抽樣的字典(價值,計數)對。
`RDD.distinct`([numPartitions])	返回一個新的包含不同的元素在這個抽樣的抽樣。
`RDD.filter`(f)	返回一個新的抽樣僅包含滿足謂詞的元素。
`RDD.first`()	在這個抽樣返回第一個元素。
`RDD.flatMap`(f [, preservesPartitioning])	返回一個新的抽樣,首先將一個函數應用於所有元素的抽樣,然後壓扁的結果。
`RDD.flatMapValues`(f)	通過每個值的鍵-值對抽樣通過flatMap功能在不改變的關鍵;這也保留原抽樣的分區。
`RDD.fold`(zeroValue op)	聚合每個分區的元素,然後所有的分區結果,使用給定的關聯函數和一個中立的“零價值。”
`RDD.foldByKey`(zeroValue func […])	合並每個鍵使用一個關聯函數的值函數和一個中立的“zeroValue”,可以添加到任意數量的時候,結果並不能改變結果(例如,0,或者1乘法。)。
`RDD.foreach`(f)	一個函數適用於這個抽樣的所有元素。
`RDD.foreachPartition`(f)	一個函數適用於每個分區的抽樣。
`RDD.fullOuterJoin`(其他[numPartitions])	執行一個右外連接自我和其他。
`RDD.getCheckpointFile`()	得到文件的名稱,這個抽樣是檢查點
`RDD.getNumPartitions`()	返回在抽樣數量的分區
`RDD.getResourceProfile`()	得到了`pyspark.resource.ResourceProfile`這個抽樣或沒有指定如果不是指定。
`RDD.getStorageLevel`()	抽樣的當前存儲的水平。
`RDD.glom`()	返回一個抽樣由合並每個分區內的所有元素列表。
`RDD.groupBy`(f [、numPartitions partitionFunc])	返回一個抽樣分組項。
`RDD.groupByKey`([numPartitions partitionFunc])	組中的每個鍵值抽樣為一個序列。
`RDD.groupWith`(其他*別人)	別名cogroup但支持多種抽樣。
`RDD.histogram`(桶)	使用提供的桶計算直方圖。
`RDD.id`()	一個惟一的ID抽樣(在其SparkContext)。
`RDD.intersection`(其他)	返回這個抽樣的十字路口和另一個。
`RDD.isCheckpointed`()	返回此抽樣是否檢查點和物化,可靠地或在本地。
`RDD.isEmpty`()	返回true當且僅當抽樣不包含任何元素。
`RDD.isLocallyCheckpointed`()	返回此抽樣是否標記為當地的檢查點。
`RDD.join`(其他[numPartitions])	返回一個包含所有成對的抽樣元素匹配的鑰匙自我和其他。
`RDD.keyBy`(f)	創建元組元素在這個抽樣的應用f。
`RDD.keys`()	返回一個抽樣與每個元組的關鍵。
`RDD.leftOuterJoin`(其他[numPartitions])	執行左外連接自我和其他。
`RDD.localCheckpoint`()	馬克這個抽樣為當地檢查點使用火花現有的緩存層。
`RDD.lookup`(關鍵)	返回的列表值抽樣的關鍵關鍵。
`RDD.map`(f [, preservesPartitioning])	通過應用一個函數返回一個新的抽樣,抽樣的每個元素。
`RDD.mapPartitions`(f [, preservesPartitioning])	通過應用一個函數返回一個新的抽樣,抽樣的每個分區。
`RDD.mapPartitionsWithIndex`(f […])	返回一個新的抽樣的抽樣函數應用到每個分區,同時跟蹤原始分區的索引。
`RDD.mapPartitionsWithSplit`(f […])	返回一個新的抽樣的抽樣函數應用到每個分區,同時跟蹤原始分區的索引。
`RDD.mapValues`(f)	通過每個值的鍵-值對抽樣通過映射函數不改變的關鍵;這也保留原抽樣的分區。
`RDD.max`([主要])	找到這個抽樣的最大項目。
`RDD.mean`()	計算均值的抽樣的元素。
`RDD.meanApprox`(超時,信心)	大致操作返回的意思是在超時或滿足的信心。
`RDD.min`([主要])	找到最小項抽樣。
`RDD.name`()	返回這個抽樣的名字。
`RDD.partitionBy`(numPartitions [partitionFunc])	返回一個抽樣分區使用指定的分區的副本。
`RDD.persist`([storageLevel])	設置這個抽樣後的存儲水平持續其值在業務第一次計算。
`RDD.pipe`(命令[,env, checkCode])	返回一個抽樣由管道元素一個分叉的外部過程。
`RDD.randomSplit`(重量、種子)	隨機分裂這個抽樣所提供的重量。
`RDD.reduce`(f)	減少抽樣的元素使用指定的交換和關聯二元運算符。
`RDD.reduceByKey`(函數[numPartitions,…)	合並每個鍵使用一個關聯的值和交換減少功能。
`RDD.reduceByKeyLocally`(函數)	合並每個鍵使用一個關聯的值和交換減少功能,但立即返回結果主字典。
`RDD.repartition`(numPartitions)	返回一個新的抽樣numPartitions分區。
`RDD.repartitionAndSortWithinPartitions`([…])	重新分配抽樣根據給定的分割者,在每個分區結果,記錄的鍵。
`RDD.rightOuterJoin`(其他[numPartitions])	執行一個右外連接自我和其他。
`RDD.sample`(withReplacement分數(、種子))	返回這個抽樣的樣本子集。
`RDD.sampleByKey`(withReplacement分數)	返回一個子集的抽樣樣本的關鍵(通過分層抽樣)。
`RDD.sampleStdev`()	計算樣本標準差抽樣的元素(糾正偏差的估計標準差除以N - 1而不是N)。
`RDD.sampleVariance`()	計算這個抽樣的樣本方差的元素(糾正偏差的估計方差除以N - 1而不是N)。
`RDD.saveAsHadoopDataset`(參看[…])	輸出一個Python抽樣的鍵-值對的形式`抽樣[(K,V))`)任何Hadoop文件係統,使用舊的Hadoop OutputFormat API (mapred包)。
`RDD.saveAsHadoopFile`(outputFormatClass路徑)	輸出一個Python抽樣的鍵-值對的形式`抽樣[(K,V))`)任何Hadoop文件係統,使用舊的Hadoop OutputFormat API (mapred包)。
`RDD.saveAsNewAPIHadoopDataset`(參看[…])	輸出一個Python抽樣的鍵-值對的形式`抽樣[(K,V))`)任何Hadoop文件係統,使用新的Hadoop OutputFormat API (mapreduce包)。
`RDD.saveAsNewAPIHadoopFile`(道路,…[…])	輸出一個Python抽樣的鍵-值對的形式`抽樣[(K,V))`)任何Hadoop文件係統,使用新的Hadoop OutputFormat API (mapreduce包)。
`RDD.saveAsPickleFile`(路徑[batchSize])	保存這個抽樣的SequenceFile序列化的對象。
`RDD.saveAsSequenceFile`(路徑[…])	輸出一個Python抽樣的鍵-值對的形式`抽樣[(K,V))`)任何Hadoop文件係統,使用“org.apache.hadoop.io。可寫“類型,我們將從抽樣的鍵和值類型。
`RDD.saveAsTextFile`(路徑[compressionCodecClass])	保存這個抽樣作為一個文本文件,使用元素的字符串表示。
`RDD.setName`(名字)	這個抽樣分配一個名稱。
`RDD.sortBy`(keyfunc[,提升,numPartitions])	鑒於keyfunc排序這個抽樣
`RDD.sortByKey`([提升、numPartitions…)	假定分類抽樣,由(鍵值)對。
`RDD.stats`()	返回一個`StatCounter`對象捕捉均值、方差和計數抽樣的元素在一個操作。
`RDD.stdev`()	計算標準偏差抽樣的元素。
`RDD.subtract`(其他[numPartitions])	返回每個值自我這不是包含在其他。
`RDD.subtractByKey`(其他[numPartitions])	返回每個(關鍵字,值)對自我沒有一對匹配的關鍵其他。
`RDD.sum`()	加起來的元素在這個抽樣。
`RDD.sumApprox`(超時,信心)	近似操作返回總和在超時或滿足的信心。
`RDD.take`(num)	第一次抽樣的num元素。
`RDD.takeOrdered`(num [,])	得到了N個元素從一個抽樣點按升序或指定的可選的關鍵功能。
`RDD.takeSample`(withReplacement num[,種子])	返回一個固定大小的樣本子集抽樣。
`RDD.toDebugString`()	這個抽樣及其遞歸依賴關係的描述進行調試。
`RDD.toLocalIterator`([prefetchPartitions])	返回一個迭代器,包含所有的元素在這個抽樣。
`RDD.top`(num [,])	從一個抽樣得到前N個元素。
`RDD.treeAggregate`(seqOp zeroValue combOp)	集合的元素的抽樣一個多級樹模式。
`RDD.treeReduce`(f[、深度])	減少抽樣的元素在一個多層次的樹模式。
`RDD.union`(其他)	返回這個抽樣的聯盟和另一個。
`RDD.unpersist`((阻塞))	馬克和非持久性抽樣,並刪除所有從內存和磁盤塊。
`RDD.values`()	返回一個抽樣與每個元組的值。
`RDD.variance`()	計算的方差這抽樣的元素。
`RDD.withResources`(概要)	指定一個`pyspark.resource.ResourceProfile`這個抽樣計算時使用。
`RDD.zip`(其他)	拉鏈這個抽樣與另一個,返回第一個元素的鍵值對每個抽樣的第二個元素在每個抽樣,等等。
`RDD.zipWithIndex`()	拉鏈這抽樣元素指標。
`RDD.zipWithUniqueId`()	拉鏈這個抽樣生成惟一的id。

廣播和蓄電池¶

`Broadcast.destroy`((阻塞))	消滅所有相關數據和元數據廣播變量。
`Broadcast.dump`(f值)
`Broadcast.load`(文件)
`Broadcast.load_from_path`(路徑)
`Broadcast.unpersist`((阻塞))	刪除緩存的副本這播出執行人。
`Broadcast.value`	返回播放的值
`Accumulator.add`(術語)	添加一個術語蓄電池的價值
`Accumulator.value`	蓄電池的價值;隻在驅動程序可用
`AccumulatorParam.addInPlace`(value1, value2)	添加兩個值累加器的數據類型,返回一個新的價值;為了提高效率,也可以更新value1並返回它。
`AccumulatorParam.zero`(值)	提供“零值”類型,兼容與所提供的尺寸價值(比如,一個零向量)

管理¶

`inheritable_thread_target`(f)	返回線程目標包裝建議用於PySpark固定線程模式時啟用。
`SparkConf.contains`(關鍵)	該配置包含一個給定的鍵嗎?
`SparkConf.get`(關鍵[defaultValue])	一些關鍵的配置值,或返回一個默認。
`SparkConf.getAll`()	把所有值作為鍵值對列表。
`SparkConf.set`(關鍵字,值)	設置一個配置屬性。
`SparkConf.setAll`(雙)	設置多個參數,通過一個鍵值對列表。
`SparkConf.setAppName`(值)	設置應用程序名稱。
`SparkConf.setExecutorEnv`((關鍵字,值,對))	設置一個環境變量傳遞給執行器。
`SparkConf.setIfMissing`(關鍵字,值)	設置一個配置屬性,如果不是已經設置。
`SparkConf.setMaster`(值)	設置主要連接的URL。
`SparkConf.setSparkHome`(值)	工作者節點上設置安裝路徑,火花。
`SparkConf.toDebugString`()	返回一個可打印版的配置,作為鍵=值對列表,每行一個。
`SparkFiles.get`(文件名)	通過添加文件的絕對路徑`SparkContext.addFile ()`。
`SparkFiles.getRootDirectory`()	得到包含文件添加到根目錄`SparkContext.addFile ()`。
`StorageLevel.DISK_ONLY`
`StorageLevel.DISK_ONLY_2`
`StorageLevel.DISK_ONLY_3`
`StorageLevel.MEMORY_AND_DISK`
`StorageLevel.MEMORY_AND_DISK_2`
`StorageLevel.MEMORY_ONLY`
`StorageLevel.MEMORY_ONLY_2`
`StorageLevel.OFF_HEAP`
`TaskContext.attemptNumber`()	”
`TaskContext.get`()	返回當前活躍TaskContext。
`TaskContext.getLocalProperty`(關鍵)	得到當地一個屬性集上遊的司機,或沒有失蹤。
`TaskContext.partitionId`()	抽樣的ID分區計算這一任務。
`TaskContext.resources`()	資源分配給的任務。
`TaskContext.stageId`()	階段,這個任務的ID。
`TaskContext.taskAttemptId`()	一個ID,這個任務是獨一無二的嚐試(在同一個SparkContext,沒有兩個任務嚐試嚐試將共享相同的ID)。
`RDDBarrier.mapPartitions`(f […])	通過應用一個函數返回一個新的抽樣的每個分區包裝抽樣,在任務啟動在舞台上的障礙。
`RDDBarrier.mapPartitionsWithIndex`(f […])	通過應用一個函數返回一個新的抽樣的每個分區包裝抽樣,而追蹤指數的原始分區。
`BarrierTaskContext.allGather`([信息])	這個功能塊,直到所有任務在同一階段達到了這個例程。
`BarrierTaskContext.attemptNumber`()	”
`BarrierTaskContext.barrier`()	集全球屏障和等待,直到所有任務在這個階段達到這一障礙。
`BarrierTaskContext.get`()	返回當前活動`BarrierTaskContext`。
`BarrierTaskContext.getLocalProperty`(關鍵)	得到當地一個屬性集上遊的司機,或沒有失蹤。
`BarrierTaskContext.getTaskInfos`()	返回`BarrierTaskInfo`這個障礙階段,所有任務的命令通過分區ID。
`BarrierTaskContext.partitionId`()	抽樣的ID分區計算這一任務。
`BarrierTaskContext.resources`()	資源分配給的任務。
`BarrierTaskContext.stageId`()	階段,這個任務的ID。
`BarrierTaskContext.taskAttemptId`()	一個ID,這個任務是獨一無二的嚐試(在同一個SparkContext,沒有兩個任務嚐試嚐試將共享相同的ID)。
`util.VersionUtils.majorMinorVersion`(sparkVersion)	給定一個火花版本字符串,返回(主版本號,小版本號)。

以前的

Saveable

下一個

pyspark.SparkContext