儲蓄PySpark標準輸出和標準錯誤日誌……-磚- 14591

sage5616 · ‎07-05-2022

我跑步PySpark集群數據管道代碼標準磚。我需要保存所有Python / PySpark標準輸出和標準錯誤消息到一個文件在一個Azure BLOB帳戶。

當我運行Python代碼在本地我可以看到所有的信息包括終端中的錯誤並保存到日誌文件中。如何實現類似的磚和Azure BLOB PySpark數據管道代碼?這個可以做嗎?

Hubert_Dudek1 · ‎07-06-2022

您可以編寫一個腳本的出口工作輸出是通過REST API並將其保存為BLOB/ JobsRunsExport https://docs.www.eheci.com/dev-tools/api/latest/jobs.html操作

您還可以保存集群日誌dbfs在集群環境中,但是在REST API,你可以得到你需要的東西(如您需要標準輸出)。

Kaniz · ‎07-07-2022

嗨@Michael Okulik,我們一直沒有收到你最後的回應@Hubert杜德克,我檢查,看看他的建議幫助你。否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

sage5616 · ‎07-08-2022

從IPython.utils。進口CapturedIO捕獲= CapturedIO (sys。stdout, sys.stderr)……#的期望輸出值:cmem = capture.stdout

我寫的內容cmem BLOB變量到一個文件。BLOB DBFS安裝。

要看到一個工作示例支持@Hubert杜德克的REST API方法,他上麵提到的。

dasroya · ‎11-17-2022

這並不適用於磚11.0運行時。

代碼:

從IPython.utils.capture進口CapturedIO

進口sys

捕捉= CapturedIO (sys。stdout, sys.stderr)

print (“asdfghjkjhgf”)

cmem = capture.stdout

打印(cmem)

輸出:

asdfghjkjhgf

AttributeError:“OutStream”對象沒有屬性的getvalue

磚