取消
顯示的結果
而不是尋找
你的意思是:

在每個表上運行真空

alejandrofm
價值貢獻

嗨,符合我的問題優化這是下一步,保留7天我可以所有表上執行真空一周一次,這是一個推薦的過程嗎?

我如何知道我是否會從真空中獲得任何好處,沒有排練,運行所有但跳過最後一部分時刪除這些文件。

和任何一個腳本共享迭代每個表和運行一個命令,我發現類似的示例腳本,但沒有火花。

謝謝!

1接受解決方案

接受的解決方案

AmanSehgal
尊敬的貢獻者三世

理想情況下7天建議,但與數據討論利益相關者識別合適的是什麼?7/14/28天。

使用真空,首次運行一些對行為的分析你的數據。

識別%的操作執行更新和刪除和插入操作。這將告訴你有多少文件不再被引用了,需要清理。

了解真空之前和之後運行查詢的效率真空操作。提高性能的時間嗎?也許做真空在不同間隔7/14/28天。

和絕對使用真空如果有要求消滅特定場景的數據係統。

因此沒有腳本。但是,你可以試試這個:

% python # table_list =引發所有表的列表。sql(從<數據庫名稱>“顯示表”).select .rdd(“表”)。地圖(λx: x [0]) .collect table_name(表):火花。sql (f“真空{}”.format(表)

在原帖子查看解決方案

2回答2

AmanSehgal
尊敬的貢獻者三世

理想情況下7天建議,但與數據討論利益相關者識別合適的是什麼?7/14/28天。

使用真空,首次運行一些對行為的分析你的數據。

識別%的操作執行更新和刪除和插入操作。這將告訴你有多少文件不再被引用了,需要清理。

了解真空之前和之後運行查詢的效率真空操作。提高性能的時間嗎?也許做真空在不同間隔7/14/28天。

和絕對使用真空如果有要求消滅特定場景的數據係統。

因此沒有腳本。但是,你可以試試這個:

% python # table_list =引發所有表的列表。sql(從<數據庫名稱>“顯示表”).select .rdd(“表”)。地圖(λx: x [0]) .collect table_name(表):火花。sql (f“真空{}”.format(表)

美果欖
新的貢獻者二世

謝謝你的詳細解釋。:thumbs_up:

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map