火花的核心

公共類

SparkContext([主人,瀏覽器名稱、sparkHome…))

主要入口點火花的功能。

抽樣(jrdd, ctx [jrdd_deserializer])

一個彈性分布式數據集(抽樣),火花的基本抽象。

廣播([sc、價值、pickle_registry…))

一個廣播變量創建SparkContext.broadcast ()

蓄電池(accum_param援助,價值)

一個共享變量,可以積累。有一個交換和關聯“添加”操作。

AccumulatorParam

Helper對象定義了如何給定類型的累積值。

SparkConf([loadDefaults、_jvm _jconf])

為火花應用程序配置。

SparkFiles()

解決路徑文件通過補充道SparkContext.addFile ()

StorageLevel(useMemory useDisk useOffHeap…)

旗幟的存儲控製抽樣。

TaskContext

上下文信息的任務在執行期間可以讀取或突變。

RDDBarrier(抽樣)

包裝一個抽樣障礙階段,這迫使火花發射任務的階段。

BarrierTaskContext

一個TaskContext額外的上下文信息和工具的任務在舞台的一個障礙。

BarrierTaskInfo(地址)

所有任務信息的障礙。

InheritableThread(目標,* args, * * kwargs)

線程是推薦用於PySpark代替threading.Thread當固定線程模式啟用。

util.VersionUtils

提供了實用方法確定火花版本與給定的輸入字符串。

火花上下文api

SparkContext.PACKAGE_EXTENSIONS

SparkContext.accumulator(價值[accum_param])

創建一個蓄電池用給定的初始值,使用一個給定的AccumulatorParamhelper對象定義如何添加值的數據類型。

SparkContext.addArchive(路徑)

添加一個檔案下載這個火花每一個節點上工作。

SparkContext.addFile(路徑(遞歸)

添加一個文件下載,這引發的工作在每一個節點。

SparkContext.addPyFile(路徑)

添加一個. py或zip依賴這SparkContext上執行所有任務。

SparkContext.applicationId

火花的惟一標識符的應用程序。

SparkContext.binaryFiles(路徑[minPartitions])

從HDFS讀取二進製文件的目錄,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI作為一個字節數組。

SparkContext.binaryRecords(recordLength路徑)

加載數據從一個平坦的二進製文件,假設每個記錄是一組數字與指定的數值格式(見ByteBuffer),和每個記錄的字節數是恒定的。

SparkContext.broadcast(值)

廣播一個隻讀變量到集群,返回廣播對象閱讀它在分布式功能。

SparkContext.cancelAllJobs()

取消所有的工作計劃或正在運行。

SparkContext.cancelJobGroup(groupId)

取消指定集團積極工作。

SparkContext.defaultMinPartitions

默認最小數量的分區Hadoop抽樣時由用戶

SparkContext.defaultParallelism

默認級別的並行使用時由用戶(如。

SparkContext.dump_profiles(路徑)

概要文件轉儲數據目錄路徑

SparkContext.emptyRDD()

創建一個抽樣沒有分區或元素。

SparkContext.getCheckpointDir()

返回目錄抽樣檢查點。

SparkContext.getConf()

SparkContext.getLocalProperty(關鍵)

當地房地產在這個線程,或null如果是失蹤。

SparkContext.getOrCreate([設計])

獲取或實例化一個SparkContext並注冊它作為一個單例對象。

SparkContext.hadoopFile(道路,…[…])

讀一個“老”具有任意鍵和值的Hadoop InputFormat類HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。

SparkContext.hadoopRDD(inputFormatClass…)

讀一個“老”具有任意鍵和值的Hadoop InputFormat類,從任意Hadoop配置,這是作為一個Python字典傳遞

SparkContext.newAPIHadoopFile(道路,…[…])

閱讀的新API具有任意鍵和值的Hadoop InputFormat類從HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。

SparkContext.newAPIHadoopRDD(…[…])

閱讀的新API具有任意鍵和值的Hadoop InputFormat類,從任意Hadoop配置,這是作為一個Python字典傳遞

SparkContext.parallelize(c [, numSlices])

分配一個本地Python集合形成一個抽樣。

SparkContext.pickleFile(名字[minPartitions])

加載一個抽樣之前保存使用RDD.saveAsPickleFile ()方法。

SparkContext.range(開始、結束步驟,numSlices])

創建一個新的包含元素從抽樣的int開始結束(獨家),增加了一步每一個元素。

SparkContext.resources

SparkContext.runJob抽樣,partitionFunc […])

執行給定partitionFunc指定的分區上,返回結果的數組元素。

SparkContext.sequenceFile(道路、keyClass…)

讀了Hadoop SequenceFile任意鍵和值可寫的類從HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。

SparkContext.setCheckpointDir(目錄名)

設置的目錄抽樣將檢查點。

SparkContext.setJobDescription(值)

設置一個人類可讀的描述當前的工作。

SparkContext.setJobGroup(groupId,描述)

分配一個組ID的所有工作開始由這個線程,直到組ID設置為不同的值或清除。

SparkContext.setLocalProperty(關鍵字,值)

設置本地屬性影響工作從這個線程提交,如火花公平調度器池。

SparkContext.setLogLevel(logLevel)

控製我們的logLevel。

SparkContext.setSystemProperty(關鍵字,值)

設置一個Java係統屬性,如spark.executor.memory。

SparkContext.show_profiles()

打印配置文件數據發送到stdout

SparkContext.sparkUser()

獲得用戶的SPARK_USER SparkContext運行。

SparkContext.startTime

返回時代火花上下文時就開始了。

SparkContext.statusTracker()

返回StatusTracker對象

SparkContext.stop()

關閉SparkContext。

SparkContext.textFile(名稱、minPartitions…)

從HDFS讀取一個文本文件,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI,並返回一個字符串抽樣。

SparkContext.uiWebUrl

返回的URL由這個SparkContext SparkUI實例開始

SparkContext.union(抽樣)

建立聯盟的抽樣的列表。

SparkContext.version

火花的版本運行該應用程序。

SparkContext.wholeTextFiles(路徑[…])

從HDFS讀取文本文件的目錄,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。

抽樣的api

RDD.aggregate(seqOp zeroValue combOp)

集合的元素每個分區,然後所有的分區結果,使用給定的組合功能和一個中立的“零價值。”

RDD.aggregateByKey(seqFunc zeroValue combFunc)

聚合每個鍵的值,使用組合函數和一個中立的“零值”。

RDD.barrier()

標誌著當前階段作為一個障礙階段,火花必須共同推出所有任務。

RDD.cache()

堅持這個抽樣與默認的存儲水平(MEMORY_ONLY)。

RDD.cartesian(其他)

返回這個抽樣的笛卡兒積和另一個,也就是說,對所有元素的抽樣(一個b)在哪裏一個是在自我b是在其他

RDD.checkpoint()

馬克這對檢查點抽樣。

RDD.cleanShuffleDependencies((阻塞))

刪除一個抽樣的震蕩和non-persisted祖先。

RDD.coalesce(numPartitions[,洗牌])

返回一個新的抽樣降低numPartitions分區。

RDD.cogroup(其他[numPartitions])

為每個關鍵k自我其他,返回一個抽樣結果,其中包含的元組的值列表的關鍵自我以及其他

RDD.collect()

返回一個列表,其中包含所有的元素在這個抽樣。

RDD.collectAsMap()

返回鍵值在這個抽樣到主字典。

RDD.collectWithJobGroup(groupId,描述)

收集抽樣時,使用這種方法來指定工作小組。

RDD.combineByKey(mergeValue createCombiner…)

泛型函數結合的元素為每個聚合函數的主要使用一個自定義組。

RDD.context

SparkContext創建這個抽樣。

RDD.count()

返回元素的數量在這個抽樣。

RDD.countApprox(超時,信心)

近似的版本數(),它返回一個潛在的不完整的結果在一個超時,即使不是所有任務都完成了。

RDD.countApproxDistinct([relativeSD])

返回近似抽樣數量的不同的元素。

RDD.countByKey()

計數為每個關鍵元素的個數,並將結果返回給主作為一個字典。

RDD.countByValue()

返回每個獨特的計算值在這個抽樣的字典(價值,計數)對。

RDD.distinct([numPartitions])

返回一個新的包含不同的元素在這個抽樣的抽樣。

RDD.filter(f)

返回一個新的抽樣僅包含滿足謂詞的元素。

RDD.first()

在這個抽樣返回第一個元素。

RDD.flatMap(f [, preservesPartitioning])

返回一個新的抽樣,首先將一個函數應用於所有元素的抽樣,然後壓扁的結果。

RDD.flatMapValues(f)

通過每個值的鍵-值對抽樣通過flatMap功能在不改變的關鍵;這也保留原抽樣的分區。

RDD.fold(zeroValue op)

聚合每個分區的元素,然後所有的分區結果,使用給定的關聯函數和一個中立的“零價值。”

RDD.foldByKey(zeroValue func […])

合並每個鍵使用一個關聯函數的值函數和一個中立的“zeroValue”,可以添加到任意數量的時候,結果並不能改變結果(例如,0,或者1乘法。)。

RDD.foreach(f)

一個函數適用於這個抽樣的所有元素。

RDD.foreachPartition(f)

一個函數適用於每個分區的抽樣。

RDD.fullOuterJoin(其他[numPartitions])

執行一個右外連接自我其他

RDD.getCheckpointFile()

得到文件的名稱,這個抽樣是檢查點

RDD.getNumPartitions()

返回在抽樣數量的分區

RDD.getResourceProfile()

得到了pyspark.resource.ResourceProfile這個抽樣或沒有指定如果不是指定。

RDD.getStorageLevel()

抽樣的當前存儲的水平。

RDD.glom()

返回一個抽樣由合並每個分區內的所有元素列表。

RDD.groupBy(f [、numPartitions partitionFunc])

返回一個抽樣分組項。

RDD.groupByKey([numPartitions partitionFunc])

組中的每個鍵值抽樣為一個序列。

RDD.groupWith(其他*別人)

別名cogroup但支持多種抽樣。

RDD.histogram(桶)

使用提供的桶計算直方圖。

RDD.id()

一個惟一的ID抽樣(在其SparkContext)。

RDD.intersection(其他)

返回這個抽樣的十字路口和另一個。

RDD.isCheckpointed()

返回此抽樣是否檢查點和物化,可靠地或在本地。

RDD.isEmpty()

返回true當且僅當抽樣不包含任何元素。

RDD.isLocallyCheckpointed()

返回此抽樣是否標記為當地的檢查點。

RDD.join(其他[numPartitions])

返回一個包含所有成對的抽樣元素匹配的鑰匙自我其他

RDD.keyBy(f)

創建元組元素在這個抽樣的應用f

RDD.keys()

返回一個抽樣與每個元組的關鍵。

RDD.leftOuterJoin(其他[numPartitions])

執行左外連接自我其他

RDD.localCheckpoint()

馬克這個抽樣為當地檢查點使用火花現有的緩存層。

RDD.lookup(關鍵)

返回的列表值抽樣的關鍵關鍵

RDD.map(f [, preservesPartitioning])

通過應用一個函數返回一個新的抽樣,抽樣的每個元素。

RDD.mapPartitions(f [, preservesPartitioning])

通過應用一個函數返回一個新的抽樣,抽樣的每個分區。

RDD.mapPartitionsWithIndex(f […])

返回一個新的抽樣的抽樣函數應用到每個分區,同時跟蹤原始分區的索引。

RDD.mapPartitionsWithSplit(f […])

返回一個新的抽樣的抽樣函數應用到每個分區,同時跟蹤原始分區的索引。

RDD.mapValues(f)

通過每個值的鍵-值對抽樣通過映射函數不改變的關鍵;這也保留原抽樣的分區。

RDD.max([主要])

找到這個抽樣的最大項目。

RDD.mean()

計算均值的抽樣的元素。

RDD.meanApprox(超時,信心)

大致操作返回的意思是在超時或滿足的信心。

RDD.min([主要])

找到最小項抽樣。

RDD.name()

返回這個抽樣的名字。

RDD.partitionBy(numPartitions [partitionFunc])

返回一個抽樣分區使用指定的分區的副本。

RDD.persist([storageLevel])

設置這個抽樣後的存儲水平持續其值在業務第一次計算。

RDD.pipe(命令[,env, checkCode])

返回一個抽樣由管道元素一個分叉的外部過程。

RDD.randomSplit(重量、種子)

隨機分裂這個抽樣所提供的重量。

RDD.reduce(f)

減少抽樣的元素使用指定的交換和關聯二元運算符。

RDD.reduceByKey(函數[numPartitions,…)

合並每個鍵使用一個關聯的值和交換減少功能。

RDD.reduceByKeyLocally(函數)

合並每個鍵使用一個關聯的值和交換減少功能,但立即返回結果主字典。

RDD.repartition(numPartitions)

返回一個新的抽樣numPartitions分區。

RDD.repartitionAndSortWithinPartitions([…])

重新分配抽樣根據給定的分割者,在每個分區結果,記錄的鍵。

RDD.rightOuterJoin(其他[numPartitions])

執行一個右外連接自我其他

RDD.sample(withReplacement分數(、種子))

返回這個抽樣的樣本子集。

RDD.sampleByKey(withReplacement分數)

返回一個子集的抽樣樣本的關鍵(通過分層抽樣)。

RDD.sampleStdev()

計算樣本標準差抽樣的元素(糾正偏差的估計標準差除以N - 1而不是N)。

RDD.sampleVariance()

計算這個抽樣的樣本方差的元素(糾正偏差的估計方差除以N - 1而不是N)。

RDD.saveAsHadoopDataset(參看[…])

輸出一個Python抽樣的鍵-值對的形式抽樣[(K,V)))任何Hadoop文件係統,使用舊的Hadoop OutputFormat API (mapred包)。

RDD.saveAsHadoopFile(outputFormatClass路徑)

輸出一個Python抽樣的鍵-值對的形式抽樣[(K,V)))任何Hadoop文件係統,使用舊的Hadoop OutputFormat API (mapred包)。

RDD.saveAsNewAPIHadoopDataset(參看[…])

輸出一個Python抽樣的鍵-值對的形式抽樣[(K,V)))任何Hadoop文件係統,使用新的Hadoop OutputFormat API (mapreduce包)。

RDD.saveAsNewAPIHadoopFile(道路,…[…])

輸出一個Python抽樣的鍵-值對的形式抽樣[(K,V)))任何Hadoop文件係統,使用新的Hadoop OutputFormat API (mapreduce包)。

RDD.saveAsPickleFile(路徑[batchSize])

保存這個抽樣的SequenceFile序列化的對象。

RDD.saveAsSequenceFile(路徑[…])

輸出一個Python抽樣的鍵-值對的形式抽樣[(K,V)))任何Hadoop文件係統,使用“org.apache.hadoop.io。可寫“類型,我們將從抽樣的鍵和值類型。

RDD.saveAsTextFile(路徑[compressionCodecClass])

保存這個抽樣作為一個文本文件,使用元素的字符串表示。

RDD.setName(名字)

這個抽樣分配一個名稱。

RDD.sortBy(keyfunc[,提升,numPartitions])

鑒於keyfunc排序這個抽樣

RDD.sortByKey([提升、numPartitions…)

假定分類抽樣,由(鍵值)對。

RDD.stats()

返回一個StatCounter對象捕捉均值、方差和計數抽樣的元素在一個操作。

RDD.stdev()

計算標準偏差抽樣的元素。

RDD.subtract(其他[numPartitions])

返回每個值自我這不是包含在其他

RDD.subtractByKey(其他[numPartitions])

返回每個(關鍵字,值)對自我沒有一對匹配的關鍵其他

RDD.sum()

加起來的元素在這個抽樣。

RDD.sumApprox(超時,信心)

近似操作返回總和在超時或滿足的信心。

RDD.take(num)

第一次抽樣的num元素。

RDD.takeOrdered(num [,])

得到了N個元素從一個抽樣點按升序或指定的可選的關鍵功能。

RDD.takeSample(withReplacement num[,種子])

返回一個固定大小的樣本子集抽樣。

RDD.toDebugString()

這個抽樣及其遞歸依賴關係的描述進行調試。

RDD.toLocalIterator([prefetchPartitions])

返回一個迭代器,包含所有的元素在這個抽樣。

RDD.top(num [,])

從一個抽樣得到前N個元素。

RDD.treeAggregate(seqOp zeroValue combOp)

集合的元素的抽樣一個多級樹模式。

RDD.treeReduce(f[、深度])

減少抽樣的元素在一個多層次的樹模式。

RDD.union(其他)

返回這個抽樣的聯盟和另一個。

RDD.unpersist((阻塞))

馬克和非持久性抽樣,並刪除所有從內存和磁盤塊。

RDD.values()

返回一個抽樣與每個元組的值。

RDD.variance()

計算的方差這抽樣的元素。

RDD.withResources(概要)

指定一個pyspark.resource.ResourceProfile這個抽樣計算時使用。

RDD.zip(其他)

拉鏈這個抽樣與另一個,返回第一個元素的鍵值對每個抽樣的第二個元素在每個抽樣,等等。

RDD.zipWithIndex()

拉鏈這抽樣元素指標。

RDD.zipWithUniqueId()

拉鏈這個抽樣生成惟一的id。

廣播和蓄電池

Broadcast.destroy((阻塞))

消滅所有相關數據和元數據廣播變量。

Broadcast.dump(f值)

Broadcast.load(文件)

Broadcast.load_from_path(路徑)

Broadcast.unpersist((阻塞))

刪除緩存的副本這播出執行人。

Broadcast.value

返回播放的值

Accumulator.add(術語)

添加一個術語蓄電池的價值

Accumulator.value

蓄電池的價值;隻在驅動程序可用

AccumulatorParam.addInPlace(value1, value2)

添加兩個值累加器的數據類型,返回一個新的價值;為了提高效率,也可以更新value1並返回它。

AccumulatorParam.zero(值)

提供“零值”類型,兼容與所提供的尺寸價值(比如,一個零向量)

管理

inheritable_thread_target(f)

返回線程目標包裝建議用於PySpark固定線程模式時啟用。

SparkConf.contains(關鍵)

該配置包含一個給定的鍵嗎?

SparkConf.get(關鍵[defaultValue])

一些關鍵的配置值,或返回一個默認。

SparkConf.getAll()

把所有值作為鍵值對列表。

SparkConf.set(關鍵字,值)

設置一個配置屬性。

SparkConf.setAll(雙)

設置多個參數,通過一個鍵值對列表。

SparkConf.setAppName(值)

設置應用程序名稱。

SparkConf.setExecutorEnv((關鍵字,值,對))

設置一個環境變量傳遞給執行器。

SparkConf.setIfMissing(關鍵字,值)

設置一個配置屬性,如果不是已經設置。

SparkConf.setMaster(值)

設置主要連接的URL。

SparkConf.setSparkHome(值)

工作者節點上設置安裝路徑,火花。

SparkConf.toDebugString()

返回一個可打印版的配置,作為鍵=值對列表,每行一個。

SparkFiles.get(文件名)

通過添加文件的絕對路徑SparkContext.addFile ()

SparkFiles.getRootDirectory()

得到包含文件添加到根目錄SparkContext.addFile ()

StorageLevel.DISK_ONLY

StorageLevel.DISK_ONLY_2

StorageLevel.DISK_ONLY_3

StorageLevel.MEMORY_AND_DISK

StorageLevel.MEMORY_AND_DISK_2

StorageLevel.MEMORY_ONLY

StorageLevel.MEMORY_ONLY_2

StorageLevel.OFF_HEAP

TaskContext.attemptNumber()

TaskContext.get()

返回當前活躍TaskContext。

TaskContext.getLocalProperty(關鍵)

得到當地一個屬性集上遊的司機,或沒有失蹤。

TaskContext.partitionId()

抽樣的ID分區計算這一任務。

TaskContext.resources()

資源分配給的任務。

TaskContext.stageId()

階段,這個任務的ID。

TaskContext.taskAttemptId()

一個ID,這個任務是獨一無二的嚐試(在同一個SparkContext,沒有兩個任務嚐試嚐試將共享相同的ID)。

RDDBarrier.mapPartitions(f […])

通過應用一個函數返回一個新的抽樣的每個分區包裝抽樣,在任務啟動在舞台上的障礙。

RDDBarrier.mapPartitionsWithIndex(f […])

通過應用一個函數返回一個新的抽樣的每個分區包裝抽樣,而追蹤指數的原始分區。

BarrierTaskContext.allGather([信息])

這個功能塊,直到所有任務在同一階段達到了這個例程。

BarrierTaskContext.attemptNumber()

BarrierTaskContext.barrier()

集全球屏障和等待,直到所有任務在這個階段達到這一障礙。

BarrierTaskContext.get()

返回當前活動BarrierTaskContext

BarrierTaskContext.getLocalProperty(關鍵)

得到當地一個屬性集上遊的司機,或沒有失蹤。

BarrierTaskContext.getTaskInfos()

返回BarrierTaskInfo這個障礙階段,所有任務的命令通過分區ID。

BarrierTaskContext.partitionId()

抽樣的ID分區計算這一任務。

BarrierTaskContext.resources()

資源分配給的任務。

BarrierTaskContext.stageId()

階段,這個任務的ID。

BarrierTaskContext.taskAttemptId()

一個ID,這個任務是獨一無二的嚐試(在同一個SparkContext,沒有兩個任務嚐試嚐試將共享相同的ID)。

util.VersionUtils.majorMinorVersion(sparkVersion)

給定一個火花版本字符串,返回(主版本號,小版本號)。