2022年5月16日由ram.sankarasubramanian更新

替換默認的庫jar

Databricks包含許多默認的Java和Scala庫。您可以使用集群範圍內的init腳本將其中任何一個庫替換為另一個版本,以刪除默認的庫jar,然後安裝所需的版本。刪除默認庫並安裝新版本可能會導致不穩定或完全破壞您的D…

1分鍾閱讀時間
2022年7月1日由ram.sankarasubramanian更新

從JSON字符串或Python字典創建一個DataFrame

在本文中,我們將回顧如何從包含JSON字符串或Python字典的變量創建Apache Spark DataFrame。從JSON字符串中添加JSON內容到列表中。%scala import scala.collection.mutable. listbuffer val json_content1 = "{'json_col1': 'hello', 'json_col2': 32…

2分鍾閱讀時間
2022年5月23日由ram.sankarasubramanian更新

生成唯一遞增的數值

本文向您展示如何使用Apache Spark函數在列中生成惟一遞增的數值。我們將回顧三種不同的使用方法。您應該選擇最適合您的用例的方法。zipWithIndex()函數隻在RDD中可用。你不能…

1分鍾閱讀時間
2022年3月8日由ram.sankarasubramanian更新

如何指定DBFS路徑

使用Databricks時,有時需要訪問Databricks文件係統(DBFS)。在DBFS上訪問文件是通過標準的文件係統命令完成的,但是語法取決於所使用的語言或工具。例如,取以下DBFS路徑:DBFS:/mnt/test_folder/test_folder1/ Apache Spark在Spark下,您應該規範…

0分鍾閱讀時間
2022年5月20日由ram.sankarasubramanian更新

cache()、count()和take()的最佳實踐

cache()是一個Apache Spark轉換,當你想執行多個操作時,可以在DataFrame、Dataset或RDD上使用它。cache()將指定的DataFrame、Dataset或RDD緩存到集群worker的內存中。因為cache()是一個轉換,所以緩存操作隻在Spark操作(例如count(),…

1分鍾閱讀時間
2022年5月31日由ram.sankarasubramanian更新

在JSON數據集上創建表

在本文中,我們將介紹如何使用SerDe在JSON數據集上創建表。下載JSON SerDe JAR打開hive-json-serde 1.3.8下載頁麵。單擊json-serde-1.3.8-jar-with-dependencies.jar下載文件json-serde-1.3.8-jar-with-dependencies.jar。你可以回顧Hive-JSON-Serde GitHub回購更多的信息JAR…

0分鍾閱讀時間
加載更多