取消
顯示的結果
而不是尋找
你的意思是:

理解連接在PySpark PySpark /磚,“加入”操作結合行從兩個或兩個以上的數據集的基於一個共同的關鍵。它允許你…

Aviral-Bhardwaj
尊敬的貢獻者三世

了解加盟PySpark /磚

PySpark,“加入”操作結合行從兩個或兩個以上的數據集的基於一個共同的關鍵。它允許您將來自不同數據源的數據合並到一個單獨的數據集和潛在執行轉換的數據存儲或進一步處理之前。

這裏是一個例子在PySpark如何使用連接操作:

從pyspark。sql導入SparkSession #創建SparkSession火花= SparkSession.builder.appName (JoinExample) .getOrCreate() #數據加載到兩個DataFrames df1 = spark.read.csv (“file1。csv”,標題= True) df2 = spark.read.csv (“file2。csv”,頭= True) #加入df3 = df1數據在一個共同的關鍵。加入(df2 df1。鍵= = df2.key) #隻選擇你想要的列和重命名他們如果需要df4 = df3.select (df1.col1.alias (“col1_df1”), df2.col2.alias (“col2_df2”)) #顯示結果df4.show ()

在這個例子中,我們首先創建一個SparkSession然後兩個CSV文件的數據加載到兩個獨立DataFrames調用

df1和df2

。然後,我們執行連結操作兩個DataFrames使用

連接方法,指定的鍵列df1應該是匹配的

df2鍵列

結果DataFrame df3,包含所有列

df1 df2,行匹配的鑰匙將組合成一行。我們可以使用選擇方法隻選擇我們想要的列和潛在使用別名的方法重命名它們。最後,我們使用顯示方法顯示結果DataFrame。

重要的是要注意,為了執行連結操作,這兩個數據集必須有一個共同的鍵列。鍵列用於匹配的行從不同的數據集,以及由此產生的數據集隻包含匹配的行鍵。

您還可以指定額外的連接操作的條件,如加入的類型(例如,內部,外部,左,右)和任何額外的過濾器適用於加入數據集。

如果你喜歡這篇文章請點擊按鈕

謝謝

Aviral Bhardwaj

3回複3

Sravya
新的貢獻者三世

偉大的回答

ajaypanday6781
尊敬的貢獻者二世

感謝分享

Meghala
重視貢獻二世

非常有益的

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map