嗨@Erik,
這將是偉大的如果你能分享CSV文件。然而:-
這個頁麵給列可以用於ZORDER指南。
這個頁麵提供指導如何選擇正確的分區列。
ZORDER由
把同一組文件中列信息。使用Co-locality三角洲湖data-skipping算法極大地減少了需要讀取的數據量。您可以指定多個列ZORDER的逗號分隔列表。然而,當地的有效性下降與每個額外的列。
它是來自https://docs.www.eheci.com/spark/latest/spark-sql/language-manual/delta-optimize.html
所以δ文件一旦分區消失有z值是非常重要的,因為它將處理有效地查詢,所以你需要:
優化數據ZORDER (userid,日期)