取消
顯示的結果
而不是尋找
你的意思是:

功能表:合並非常緩慢

Ashley1
貢獻者

你好,

我們隻是開始看磚的特性存儲功能。我們第一次嚐試創建一個功能表導致非常緩慢的寫。為了避免所發生的時間特性的功能我生成dataframe相同鍵的,但從蘭德()生成的特征值。這是< 700 k行和列~ 280特性。它似乎不在乎我們是否使用合並模式或覆蓋,這是非常緩慢的獨立的4核心集群上(8.5分鍾)。我從Sparq連接SQL細節UI。是在3.5秒掃描文件匹配和近8.5分鍾重寫匹配的文件。雖然它似乎1.5 gb的輸出,似乎相當長時間重新更改。我試過和沒有分區,重新分區。誰能提供一些見解或建議改善的性能特性/δ表寫?

問候,

阿什利

曆史為集群0622 - 013318 zoqth84b火花UI,司機332737051535251367 - 352查詢詳細信息

5回複5

Hubert_Dudek1
尊敬的貢獻者三世

280年合並列嗎?不可以隻通過id來簡化它呢?

我將合並/ id和優化和zorder如果可能通過id在合並之前。

我相信主鍵上的合並是鉸鏈宣布創建功能表時。這個實驗我寫功能表首先隻有主鍵,然後後來添加的特性(280年~),加入到原始主鍵隻有dataframe寫道,使用:

fs.write_table (

name = ' dsci_features.ab_test ',

df = to_write_df,

模式=“合並”

)

主鍵是他們最初寫的順序,他們也(客戶id和觀察日期)。

如何創建表:

fs.create_table (

name = ' dsci_features.ab_test ',

primary_keys = (“customer_id”、“obs_date”),

#如果df,這個數據將被保存在一個三角洲表

# df = feature_df,

#如果提供模式,沒有數據將被保存

模式= base_df.schema,

# partition_columns = [' cal_quarter '),

描述= ' AB測試”

)

主鍵:

fs.write_table (

name = ' dsci_features.ab_test ',

df = base_df,

模式=“合並”

)

特性寫:

fs.write_table (

name = ' dsci_features.ab_test ',

df = base_df,

模式=“合並”

)

如果我隻是插入到新創建的功能表的特性,沒有啟動主鍵的表,有效地添加,需要5分鍾左右。主鍵的插入實驗是迫使一個合並。5分鍾僅供插入路徑似乎有點過度。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map