我試圖把我的日期列現在這是一個字符串類型為3列,月和日期。我使用(PySpark):
<代碼> split_date = pyspark.sql.functions。split (df(“日期”),“-”)df = df。withColumn(‘年’,split_date.getItem (0)) df = df。withColumn(‘月’,split_date.getItem (1) df = df。withColumn(‘天’,split_date.getItem (2) < br >
我遇到一個問題,因為我一半的日期由“-”,另一半由“/”。我怎麼能使用或操作將日期通過‘-’或‘/’根據用例。另外,當其由“/”分隔,格式是mm / dd / yyyy由“-”分隔,yyyy-mm-dd格式。
我想要日期列分為天、月、年。
在SCALA中,假設df1有“日期”列:
進口org.apache.spark.sql.functions。_進口org.apache.spark.sql.types。_進口org.apache.spark.sql._val df2 = df1。withColumn(“年”,一年(col(“日期”))).withColumn(“月”,月(col(“日期”))).withColumn(“天”,dayofmonth (col(“日期”))).withColumn(“小時”,小時(col(“日期”)))
df2.show (Int.MaxValue)