再保險:如何使用DataFrame投?-磚- 30634

cfregly · ‎04-28-2015

您可以使用HiveQL的演員()的類型轉換函數將一個元素嵌套映射在Python中如下:

從pyspark。sql行df = sqlContext進口。createDataFrame([行(a = {b: 1}))) str = df。selectExpr(“鑄([b]作為字符串)”)

或在Scala中,如下所示:

val df = Seq ((Map (“a”- > 1))) .toDF df (“a”)。selectExpr(“鑄([a]作為字符串)”)

嗯…… · ‎02-01-2017

如果你的df是注冊表你也可以用SQL調用:

df.createOrReplaceTempView(“表”)str =火花。sql(“選擇演員([b]作為字符串)從表”)

更多的代碼的簡單的例子,但在過去,當我發現這是組合成更複雜的查詢SQL格式可以從可讀性角度更友好。

DarrellUlm · ‎03-15-2017

還可以使用withColumn()沒有Spark-SQL,雖然性能可能會不同。問題是,創建一個新的列會比使用Spark-SQL更多的時間。

喜歡的東西:

val dfNew = df。withColumn (“newColName df.originalColName.cast (IntegerType)) .drop (“originalColName”)。withColumnRenamed (“newColName”、“originalColName”)

創建新列,鑄件從原始列,最初的下降,然後重命名新列回到原來的名字。有點迂回,但看起來像。

ShubhamGupta187 · ‎04-19-2018

它是將一個列包含空值安全嗎?

磚

我如何使用DataFrame投?