嗨,所有. .需要你的幫助在我麵臨這個問題。目前我們使用的是數據磚作為一個平台來構建管道和執行我們talend ETL中的轉Beplay体育安卓版本換成火花sql框架我們麵臨問題的曆史數據加載到平台的客戶。
在這個過程中我們看到好的結果維加載但來一些事實在執行我們麵臨很多問題。即使改變可擴展到的節點配置8個工作節點使用i3xlarge 30.5 gb 4核每個節點來執行它。
然而,我看到一些查詢運行超過4小時,當前查詢不是從6小時即使全部節點得到啟動。
表中的行數我看到是4337765617。我附加的查詢以及幾個快照日誌為你快速參考和指導來走出這個問題。感謝你的快速的幫助。
問候,
塔·
@All用戶群嗨. .我們試過幾個選項調優查詢通過選擇所需變量的選擇和後續條款。我看到其他查詢是小好。但附加查詢似乎無法從過去6小時8工人節點配置。我看到泄漏高,附加指標。任何人都可以提出優化技術在python中注意本研究作為我唯一的scala相關項目。請幫助優化最佳方法指導和材料更具體Pyspark & Sql。
@Ajay Pandey是的最初是運行在4工人. .現在擴展到8工作者也從過去的6小時後我不認為任何運動和它告訴過濾/屏幕截圖。不確定調整沒有什麼比插入和查詢中有其他合並幾個變量的函數。需要快速的幫助從優化和調試優化參數的問題