轉換

免費試著磚

轉換是什麼?

在火花中,核心數據結構不可變的這意味著他們不能改變一旦創建。這可能似乎是一個奇怪的概念,如果你不能改變它,你應該如何使用它呢?為了“改變”DataFrame你需要指導火花有您想修改DataFrame成你想要的那一個。這些指令被稱為轉換。轉換是如何表達你的核心業務邏輯使用火花。有兩種類型的轉換,那些指定狹窄的依賴性和那些指定廣泛依賴關係。

狹窄的依賴關係是什麼?

轉換組成的狹窄的依賴關係(我們稱之為縮小轉換)是那些將有助於每個輸入分區分區隻有一個輸出。

狹窄的轉換

廣泛的依賴關係是什麼?

一個廣泛的依賴(或寬轉換)風格轉換輸入分區導致許多輸出分區。你會經常聽到這個稱為洗牌跨集群火花將交換分區。比較窄的轉換,火花就會自動執行操作稱為流水線上狹窄的依賴性,這意味著如果我們指定多個過濾器DataFrames將內存中執行。同樣不能說打亂。當我們執行一個洗牌,火花將結果寫入磁盤。你會看到很多討論改組優化在網絡上,因為它是一個重要的話題但是現在所有您需要了解,有兩種類型的轉換。

廣泛的轉換

額外的資源

回到術語表
Baidu
map