//www.eheci.com/notebooks/recitibikenycdraft/data-preparation.html
有人能幫看到在嗎第三步:準備日曆信息
#獲取日期之間的第一個和最後一個日期的完整列表
日期= (
火花
.range (0, days_between) .withColumnRenamed (“id”,“天”)
.withColumn (init_date,點燃(first_date))
.selectExpr(“鑄(date_add (init_date天)作為時間戳)日期”)
)
什麼“天”是指在過去selectExpr句子嗎?似乎我沒有定義。這意味著是“days_between”?如果我把“天”換成“days_between”,它也休息,因為它預計一個整數值,而不是一個變量。
謝謝。
是的,它應該同樣工作,謝謝。
鑄造(int)和演員(IntegerType()),我想都是一樣的嗎?
嗨@THIAM HUAT譚
在你的筆記本,你正在創建一個整數列days_between代碼
days_between = (last_date - first_date)。天+ 10
從邏輯上講,nb試圖做的就是獲取所有兩個日期之間的日期做一個預測。
所以,為了得到一個完整列表開始日期和x之間的日期的天數在未來(x = days_between),你使用spark.range (0, days_between)。什麼是是它獲取一列整數就像python範圍是如何工作的。列的名稱將在默認情況下“id”。
所以你重命名這個id列“天”隻是為了簡單起見表示你添加x天另一個參考列(你正在創造利用.withColumn (init_date,點燃(first_date)))和創建一個新的列包含日期的日期計算。
日期計算將除了first_date +天。
希望這有助於……
歡呼聲……