我有一個表的數據每個月結束,想知道鉛和滯後每月數據點的兩側。例如:
選擇month_date、鉛(month_date) /(分區通過id命令month_date) next_month_date滯後(month_date) /(分區id ORDER BY month_date) previous_month_date從t
我想知道如果這比:
選擇month_date, t2。month_date next_month_date, t3。month_date previous_month_date從t離開加入t2 t。id = t2。id和t。month_date = ADD_MONTHS (t.month_date, 1)加入t3 t。id = t3。id和t。month_date = ADD_MONTHS (t.month_date, 1)
嗨@Matthew Elsham @Lakshay戈埃爾指出,我會相信窗戶會工作的更好,因為它將第一個分區基於分區鍵然後你聚合發生在該分區一個工人。但是很高興看到你的查詢計劃對這些病例和理解數據最適合你。
這是一個好的博客我檢查-https://blog.knoldus.com/using-windows-in-spark-to-avoid-joins/。請您看一看。
嗨@Matthew Elsham @Lakshay戈埃爾指出,我會相信窗戶會工作的更好,因為它將第一個分區基於分區鍵然後你聚合發生在該分區一個工人。但是很高興看到你的查詢計劃對這些病例和理解數據最適合你。
這是一個好的博客我檢查-https://blog.knoldus.com/using-windows-in-spark-to-avoid-joins/。請您看一看。