火花的核心¶
公共類¶
|
主要入口點火花的功能。 |
|
一個彈性分布式數據集(抽樣),火花的基本抽象。 |
|
一個廣播變量創建 |
|
一個共享變量,可以積累。有一個交換和關聯“添加”操作。 |
Helper對象定義了如何給定類型的累積值。 |
|
|
為火花應用程序配置。 |
解決路徑文件通過補充道 |
|
|
旗幟的存儲控製抽樣。 |
上下文信息的任務在執行期間可以讀取或突變。 |
|
|
包裝一個抽樣障礙階段,這迫使火花發射任務的階段。 |
一個 |
|
|
所有任務信息的障礙。 |
|
線程是推薦用於PySpark代替 |
提供了實用方法確定火花版本與給定的輸入字符串。 |
火花上下文api¶
|
創建一個 |
添加一個檔案下載這個火花每一個節點上工作。 |
|
|
添加一個文件下載,這引發的工作在每一個節點。 |
添加一個. py或zip依賴這SparkContext上執行所有任務。 |
|
火花的惟一標識符的應用程序。 |
|
|
從HDFS讀取二進製文件的目錄,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI作為一個字節數組。 |
|
加載數據從一個平坦的二進製文件,假設每個記錄是一組數字與指定的數值格式(見ByteBuffer),和每個記錄的字節數是恒定的。 |
廣播一個隻讀變量到集群,返回 |
|
取消所有的工作計劃或正在運行。 |
|
|
取消指定集團積極工作。 |
默認最小數量的分區Hadoop抽樣時由用戶 |
|
默認級別的並行使用時由用戶(如。 |
|
概要文件轉儲數據目錄路徑 |
|
創建一個抽樣沒有分區或元素。 |
|
返回目錄抽樣檢查點。 |
|
當地房地產在這個線程,或null如果是失蹤。 |
|
|
獲取或實例化一個SparkContext並注冊它作為一個單例對象。 |
|
讀一個“老”具有任意鍵和值的Hadoop InputFormat類HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。 |
|
讀一個“老”具有任意鍵和值的Hadoop InputFormat類,從任意Hadoop配置,這是作為一個Python字典傳遞 |
|
閱讀的新API具有任意鍵和值的Hadoop InputFormat類從HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。 |
閱讀的新API具有任意鍵和值的Hadoop InputFormat類,從任意Hadoop配置,這是作為一個Python字典傳遞 |
|
|
分配一個本地Python集合形成一個抽樣。 |
|
加載一個抽樣之前保存使用 |
|
創建一個新的包含元素從抽樣的int開始來結束(獨家),增加了一步每一個元素。 |
|
執行給定partitionFunc指定的分區上,返回結果的數組元素。 |
|
讀了Hadoop SequenceFile任意鍵和值可寫的類從HDFS,本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。 |
設置的目錄抽樣將檢查點。 |
|
設置一個人類可讀的描述當前的工作。 |
|
|
分配一個組ID的所有工作開始由這個線程,直到組ID設置為不同的值或清除。 |
設置本地屬性影響工作從這個線程提交,如火花公平調度器池。 |
|
|
控製我們的logLevel。 |
設置一個Java係統屬性,如spark.executor.memory。 |
|
打印配置文件數據發送到stdout |
|
獲得用戶的SPARK_USER SparkContext運行。 |
|
返回時代火花上下文時就開始了。 |
|
返回 |
|
關閉SparkContext。 |
|
|
從HDFS讀取一個文本文件,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI,並返回一個字符串抽樣。 |
返回的URL由這個SparkContext SparkUI實例開始 |
|
建立聯盟的抽樣的列表。 |
|
火花的版本運行該應用程序。 |
|
|
從HDFS讀取文本文件的目錄,一個本地文件係統(可在所有節點),或任何文件係統Hadoop-supported URI。 |
抽樣的api¶
|
集合的元素每個分區,然後所有的分區結果,使用給定的組合功能和一個中立的“零價值。” |
|
聚合每個鍵的值,使用組合函數和一個中立的“零值”。 |
標誌著當前階段作為一個障礙階段,火花必須共同推出所有任務。 |
|
堅持這個抽樣與默認的存儲水平(MEMORY_ONLY)。 |
|
|
返回這個抽樣的笛卡兒積和另一個,也就是說,對所有元素的抽樣 |
馬克這對檢查點抽樣。 |
|
刪除一個抽樣的震蕩和non-persisted祖先。 |
|
|
返回一個新的抽樣降低numPartitions分區。 |
|
為每個關鍵k自我或其他,返回一個抽樣結果,其中包含的元組的值列表的關鍵自我以及其他。 |
返回一個列表,其中包含所有的元素在這個抽樣。 |
|
返回鍵值在這個抽樣到主字典。 |
|
|
收集抽樣時,使用這種方法來指定工作小組。 |
|
泛型函數結合的元素為每個聚合函數的主要使用一個自定義組。 |
的 |
|
返回元素的數量在這個抽樣。 |
|
|
近似的版本數(),它返回一個潛在的不完整的結果在一個超時,即使不是所有任務都完成了。 |
|
返回近似抽樣數量的不同的元素。 |
計數為每個關鍵元素的個數,並將結果返回給主作為一個字典。 |
|
返回每個獨特的計算值在這個抽樣的字典(價值,計數)對。 |
|
|
返回一個新的包含不同的元素在這個抽樣的抽樣。 |
|
返回一個新的抽樣僅包含滿足謂詞的元素。 |
在這個抽樣返回第一個元素。 |
|
|
返回一個新的抽樣,首先將一個函數應用於所有元素的抽樣,然後壓扁的結果。 |
通過每個值的鍵-值對抽樣通過flatMap功能在不改變的關鍵;這也保留原抽樣的分區。 |
|
|
聚合每個分區的元素,然後所有的分區結果,使用給定的關聯函數和一個中立的“零價值。” |
|
合並每個鍵使用一個關聯函數的值函數和一個中立的“zeroValue”,可以添加到任意數量的時候,結果並不能改變結果(例如,0,或者1乘法。)。 |
|
一個函數適用於這個抽樣的所有元素。 |
一個函數適用於每個分區的抽樣。 |
|
|
執行一個右外連接自我和其他。 |
得到文件的名稱,這個抽樣是檢查點 |
|
返回在抽樣數量的分區 |
|
得到了 |
|
抽樣的當前存儲的水平。 |
|
|
返回一個抽樣由合並每個分區內的所有元素列表。 |
|
返回一個抽樣分組項。 |
|
組中的每個鍵值抽樣為一個序列。 |
|
別名cogroup但支持多種抽樣。 |
使用提供的桶計算直方圖。 |
|
|
一個惟一的ID抽樣(在其SparkContext)。 |
|
返回這個抽樣的十字路口和另一個。 |
返回此抽樣是否檢查點和物化,可靠地或在本地。 |
|
返回true當且僅當抽樣不包含任何元素。 |
|
返回此抽樣是否標記為當地的檢查點。 |
|
|
返回一個包含所有成對的抽樣元素匹配的鑰匙自我和其他。 |
|
創建元組元素在這個抽樣的應用f。 |
|
返回一個抽樣與每個元組的關鍵。 |
|
執行左外連接自我和其他。 |
馬克這個抽樣為當地檢查點使用火花現有的緩存層。 |
|
|
返回的列表值抽樣的關鍵關鍵。 |
|
通過應用一個函數返回一個新的抽樣,抽樣的每個元素。 |
|
通過應用一個函數返回一個新的抽樣,抽樣的每個分區。 |
|
返回一個新的抽樣的抽樣函數應用到每個分區,同時跟蹤原始分區的索引。 |
|
返回一個新的抽樣的抽樣函數應用到每個分區,同時跟蹤原始分區的索引。 |
通過每個值的鍵-值對抽樣通過映射函數不改變的關鍵;這也保留原抽樣的分區。 |
|
|
找到這個抽樣的最大項目。 |
|
計算均值的抽樣的元素。 |
|
大致操作返回的意思是在超時或滿足的信心。 |
|
找到最小項抽樣。 |
|
返回這個抽樣的名字。 |
|
返回一個抽樣分區使用指定的分區的副本。 |
|
設置這個抽樣後的存儲水平持續其值在業務第一次計算。 |
|
返回一個抽樣由管道元素一個分叉的外部過程。 |
|
隨機分裂這個抽樣所提供的重量。 |
|
減少抽樣的元素使用指定的交換和關聯二元運算符。 |
|
合並每個鍵使用一個關聯的值和交換減少功能。 |
合並每個鍵使用一個關聯的值和交換減少功能,但立即返回結果主字典。 |
|
|
返回一個新的抽樣numPartitions分區。 |
重新分配抽樣根據給定的分割者,在每個分區結果,記錄的鍵。 |
|
|
執行一個右外連接自我和其他。 |
|
返回這個抽樣的樣本子集。 |
|
返回一個子集的抽樣樣本的關鍵(通過分層抽樣)。 |
計算樣本標準差抽樣的元素(糾正偏差的估計標準差除以N - 1而不是N)。 |
|
計算這個抽樣的樣本方差的元素(糾正偏差的估計方差除以N - 1而不是N)。 |
|
|
輸出一個Python抽樣的鍵-值對的形式 |
|
輸出一個Python抽樣的鍵-值對的形式 |
輸出一個Python抽樣的鍵-值對的形式 |
|
|
輸出一個Python抽樣的鍵-值對的形式 |
|
保存這個抽樣的SequenceFile序列化的對象。 |
|
輸出一個Python抽樣的鍵-值對的形式 |
|
保存這個抽樣作為一個文本文件,使用元素的字符串表示。 |
|
這個抽樣分配一個名稱。 |
|
鑒於keyfunc排序這個抽樣 |
|
假定分類抽樣,由(鍵值)對。 |
返回一個 |
|
計算標準偏差抽樣的元素。 |
|
|
返回每個值自我這不是包含在其他。 |
|
返回每個(關鍵字,值)對自我沒有一對匹配的關鍵其他。 |
|
加起來的元素在這個抽樣。 |
|
近似操作返回總和在超時或滿足的信心。 |
|
第一次抽樣的num元素。 |
|
得到了N個元素從一個抽樣點按升序或指定的可選的關鍵功能。 |
|
返回一個固定大小的樣本子集抽樣。 |
這個抽樣及其遞歸依賴關係的描述進行調試。 |
|
|
返回一個迭代器,包含所有的元素在這個抽樣。 |
|
從一個抽樣得到前N個元素。 |
|
集合的元素的抽樣一個多級樹模式。 |
|
減少抽樣的元素在一個多層次的樹模式。 |
|
返回這個抽樣的聯盟和另一個。 |
|
馬克和非持久性抽樣,並刪除所有從內存和磁盤塊。 |
返回一個抽樣與每個元組的值。 |
|
計算的方差這抽樣的元素。 |
|
指定一個 |
|
|
拉鏈這個抽樣與另一個,返回第一個元素的鍵值對每個抽樣的第二個元素在每個抽樣,等等。 |
拉鏈這抽樣元素指標。 |
|
拉鏈這個抽樣生成惟一的id。 |
廣播和蓄電池¶
|
消滅所有相關數據和元數據廣播變量。 |
|
|
|
|
|
刪除緩存的副本這播出執行人。 |
返回播放的值 |
|
|
添加一個術語蓄電池的價值 |
蓄電池的價值;隻在驅動程序可用 |
|
|
添加兩個值累加器的數據類型,返回一個新的價值;為了提高效率,也可以更新value1並返回它。 |
提供“零值”類型,兼容與所提供的尺寸價值(比如,一個零向量) |
管理¶
返回線程目標包裝建議用於PySpark固定線程模式時啟用。 |
|
該配置包含一個給定的鍵嗎? |
|
|
一些關鍵的配置值,或返回一個默認。 |
把所有值作為鍵值對列表。 |
|
|
設置一個配置屬性。 |
設置多個參數,通過一個鍵值對列表。 |
|
設置應用程序名稱。 |
|
|
設置一個環境變量傳遞給執行器。 |
|
設置一個配置屬性,如果不是已經設置。 |
設置主要連接的URL。 |
|
工作者節點上設置安裝路徑,火花。 |
|
返回一個可打印版的配置,作為鍵=值對列表,每行一個。 |
|
|
通過添加文件的絕對路徑 |
得到包含文件添加到根目錄 |
|
” |
|
返回當前活躍TaskContext。 |
|
得到當地一個屬性集上遊的司機,或沒有失蹤。 |
|
抽樣的ID分區計算這一任務。 |
|
資源分配給的任務。 |
|
階段,這個任務的ID。 |
|
一個ID,這個任務是獨一無二的嚐試(在同一個SparkContext,沒有兩個任務嚐試嚐試將共享相同的ID)。 |
|
|
通過應用一個函數返回一個新的抽樣的每個分區包裝抽樣,在任務啟動在舞台上的障礙。 |
通過應用一個函數返回一個新的抽樣的每個分區包裝抽樣,而追蹤指數的原始分區。 |
|
這個功能塊,直到所有任務在同一階段達到了這個例程。 |
|
” |
|
集全球屏障和等待,直到所有任務在這個階段達到這一障礙。 |
|
返回當前活動 |
|
得到當地一個屬性集上遊的司機,或沒有失蹤。 |
|
返回 |
|
抽樣的ID分區計算這一任務。 |
|
資源分配給的任務。 |
|
階段,這個任務的ID。 |
|
一個ID,這個任務是獨一無二的嚐試(在同一個SparkContext,沒有兩個任務嚐試嚐試將共享相同的ID)。 |
|
|
給定一個火花版本字符串,返回(主版本號,小版本號)。 |