取消
顯示的結果
而不是尋找
你的意思是:

餘弦相似性成對數據集的所有行1億行

Databricks2005
新的貢獻者二世

大家好,

我麵臨的性能問題,而餘弦相似性計算pyspark dataframe大約1億條記錄。

我想做一個十字自我加入dataframe來計算它。

執行者都有相同數量的任務,當看到火花ui。

輸入大小執行人也幾乎相同。

執行人:20

核心:4核

任何輸入將高度讚賞

1接受解決方案

接受的解決方案

john_odwyer
新的貢獻者三世

相關的問題可能是自我之間加入1億行,我不敢肯定沒有看到和理解問題的代碼更好但是你可能要考慮使用窗口函數

https://blog.knoldus.com/using-windows-in-spark-to-avoid-joins/

在原帖子查看解決方案

4回複4

Kaniz
社區經理
社區經理

你好@Databricks2005!我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區有一個先回答你的問題。否則我將與我的團隊跟進,回到你soon.Thanks。

Databricks2005
新的貢獻者二世

Kaniz !謝謝你。我將等待一個答案:slightly_smiling_face:

john_odwyer
新的貢獻者三世

相關的問題可能是自我之間加入1億行,我不敢肯定沒有看到和理解問題的代碼更好但是你可能要考慮使用窗口函數

https://blog.knoldus.com/using-windows-in-spark-to-avoid-joins/

聲音的
新的貢獻者二世

有辦法散列記錄屬性,這樣就可以避免笛卡爾連接?我工作記錄相似性和模糊匹配和我們做一個基於學習的阻礙alorithm散列記錄成小桶散列連接。你可以檢查https://github.com/zinggAI/zingg的方法。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map