取消
顯示的結果
而不是尋找
你的意思是:

優化

匿名
不適用

我一直在測試優化一個巨大的數據集(大約7.75億行),得到不同的結果。當我試著在“字符串”列,查詢返回在2.5分鍾,使用相同的列作為“整數”,使用相同的查詢,它返回9.7秒。請建議。

我用9.1 LTS Azure環境。

1接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世

這取決於查詢,您所使用的表和優化(裝箱,z順序)。

三角洲湖前32列的默認情況下收集統計信息(可以修改)。

建築長字符串的統計數據也更昂貴的比遠東整數。

然後還有評估數字是速度比字符串的事實。

https://docs.microsoft.com/en-us/azure/databricks/spark/latest/spark-sql/language-manual/delta-copy-..。

也可以玩是集群自動伸縮功能,或現貨實例的廢棄等等。

所以,不容易定位的差異。

在原帖子查看解決方案

3回複3

Kaniz
社區經理
社區經理

你好@thbeh!我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區中有一個回答你的問題。否則我將盡快給你回電。謝謝。

werners1
尊敬的貢獻者三世

這取決於查詢,您所使用的表和優化(裝箱,z順序)。

三角洲湖前32列的默認情況下收集統計信息(可以修改)。

建築長字符串的統計數據也更昂貴的比遠東整數。

然後還有評估數字是速度比字符串的事實。

https://docs.microsoft.com/en-us/azure/databricks/spark/latest/spark-sql/language-manual/delta-copy-..。

也可以玩是集群自動伸縮功能,或現貨實例的廢棄等等。

所以,不容易定位的差異。

匿名
不適用

@Werner Stinckens謝謝你的解釋。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map