取消
顯示的結果
而不是尋找
你的意思是:

AppendDataExecV1花費大量的時間

alejandrofm
價值貢獻

嗨,我有一個Pyspark工作大約需要一個小時才能完成,查看SQL選項卡時火花UI我看到這個:

圖像這些流程上運行超過1分鍾一個60分鍾的過程。

這是那個時期神經節(最後一個快照,將調查現場競選最後一部分)圖像我進入通過火花UI在SQL任務18,這就是我所看到的:

和細節,字段,數據庫名稱替換占位符或遵從性目的的“…”

= = = =物理計劃AppendDataExecV1 (1) (1) AppendDataExecV1參數:[num_affected_rows # 1348 l, num_inserted_rows # 1349 l], DeltaTableV2 (org.apache.spark.sql.SparkSession@7ecdf898 dbfs: / mnt / eterlake / ..... /……,一些(CatalogTable(數據庫:數據庫表:表所有者:(基本牌.....創建時間:2019年7月13日16:06:20 UTC坐最後一次訪問:未知的創造者:火花測試盒框類型:外部提供者:δ表屬性:[三角洲。lastCommitTimestamp = 1662525805000,三角洲。lastUpdateVersion = 8134,三角洲。minReaderVersion = 1,三角洲。minWriterVersion = 2]統計:0字節,6260684735行位置:dbfs: / mnt /…/位置/…Serde庫:org.apache.hadoop.hive.serde2.lazy。LazySimpleSerDe InputFormat: org.apache.hadoop.mapred。SequenceFileInputFormat OutputFormat: org.apache.hadoop.hive.ql.io。HiveSequenceFileOutputFormat模式:根……..... .....)),一些(spark_catalog .......),沒有,地圖(),org.apache.spark.sql.util.CaseInsensitiveStringMap@1f)、項目[…26日多個字段),org.apache.spark.sql.execution.datasources.v2。DataSourceV2Strategyλ8007/1446072698@7a714f29美元美元,com.databricks.sql.transaction.tahoe.catalog.WriteIntoDeltaBuilder @1df0da7e $ $立刻1美元

你看到的東西可以改善嗎?

謝謝! ! !

4回複4

daniel_sahal
尊敬的貢獻者三世

@Alejandro馬丁內斯

我建議你去通過這個視頻:

https://www.youtube.com/watch?v=daXEp4HmS-E

特別是通過分區,數據傾斜,泄漏。

國際海事組織利用(avg負載)應該在70%左右。試圖優化你的工作負載。

將調查!謝謝,真的是一個非常簡單的過程中,正則表達式似乎是采取更多的時間,這和AppendDataExecV1。這是另一個任務,需要38分鍾。正則表達式的邏輯是這樣的

dataframe = self.spark。讀\

。text (source_files_path) \

.withColumn (source_file, source_file_derivation)

source_file_derivation在哪裏:

source_file_derivation的= regexp_replace(反向(分裂(反向(input_file_name ()),“/”) [0]), ' % 23 ', ' # ')

添加文件名的一列數據幀(我們讀多個文件)。

謝謝!

圖像

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

你好,

當你說它是花費大量的時間,有情況這是比運行時間了嗎?

同時,大約多少正在處理的數據量與這份工作?

它總是花這麼多時間嗎?

你可以也請確認的集群配置(DBR版本?)這是上運行?

也請標記@Debayan你的下一個反應,將通知我,謝謝!

Vartika
主持人
主持人

嗨@Alejandro馬丁內斯

希望一切都好!

隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map