數據管理

這些文章可以幫助您與數據集,DataFrames和其他使用Apache火花和磚結構數據的方法。

21這類文章

附加到一個DataFrame

附加到一個DataFrame,使用歐盟方法。% scala val firstDF = spark.range (3) .toDF (“myCol”) val啟動= Seq (20) val附加= firstDF.union (newRow.toDF())顯示(附加)% python firstDF = spark.range (3) .toDF (“myCol”)啟動= spark.createDataFrame([[20]])附加= firstDF.union(啟動)顯示(附加)…

最後更新:2022年3月4日,通過亞當Pavlacka

如何提高性能與用桶裝嗎

用桶裝在Apache火花SQL是一種優化技術。數據分配在指定數量的桶中,根據來自一個或多個用桶裝列值。用桶裝,從而改進了性能洗牌和排序數據表連接等下遊業務之前。是初始的權衡開銷洗牌和s…

最後更新:2022年3月4日,通過亞當Pavlacka

如何處理blob數據包含在一個XML文件嗎

如果你日誌事件的XML格式,那麼每個XML事件記錄為base64字符串。為了運行使用Apache火花,對這些數據的分析需要使用spark_xml庫和BASE64DECODER API將數據進行分析。問題需要分析base64編碼字符串使用火花從xml格式的日誌文件。例如……

最後更新:2022年3月4日,通過亞當Pavlacka

簡化鏈接轉換

有時你可能需要執行多個轉換DataFrame: % scala org.apache.spark.sql.functions進口。_進口org.apache.spark.sql。DataFrame val testDf = (1 - 10) .toDF (col) def func0 (Int x: = > Int y: Int) (: DataFrame): DataFrame = {。過濾器(' > x (y))} def func1上校(x: Int) (: DataFrame): DataFrame = {in.sele……

最後更新:2022年5月25日,通過亞當Pavlacka

如何在CSV轉儲表、JSON、XML、文本或HTML格式

您想要發送你的磚磚以外的計算結果。您可以使用BI工具連接到您的集群通過JDBC和出口BI工具的結果,或保存您的表在DBFS或blob存儲和複製數據通過REST API。本文介紹JSpark,一個簡單的控製台工具執行SQL查詢使用JDBC火花…

最後更新:2022年5月25日,通過亞當Pavlacka

獲取和設置Apache火花在筆記本配置屬性

在大多數情況下,您將火花配置集群級別(AWS | Azure)。然而,可能存在這樣的情況:您需要檢查(或一組)特定的火花配置屬性的值在一個筆記本上。本文向您展示了如何顯示火花配置屬性的當前值在一個筆記本上。它還向您展示了如何設置一個新的v…

最後更新:2022年5月26日,通過mathan.pillai

蜂巢udf

本文將展示如何創建一個蜂巢UDF,注冊在火花,火花SQL查詢並使用它。這裏有一個蜂巢UDF將長作為參數,並返回它的十六進製表示。% scala org.apache.hadoop.hive.ql.exec進口。進口org.apache.hadoop.io UDF。LongWritable / /這個UDF需要很長整數,並將其轉換為十六進製…

最後更新:2022年5月31日,通過亞當Pavlacka

當加入兩個DataFrames防止複製列

如果你執行加入火花和不正確地指定您加入你會得到重複的列名。這使它更難選擇列。本文和筆記本演示如何執行一個連接,這樣你就不會有重複的列。加入如果你加入列列上,得到複製列。Scala % Scala val llist……

最後更新:2022年5月31日,通過亞當Pavlacka

撤銷所有用戶權限

當用戶權限明確授予單獨的表和視圖,選中的用戶可以訪問這些表和視圖,即使他們沒有權限訪問底層數據庫。如果你想撤銷用戶的訪問,可以使用撤銷命令。然而,撤銷命令顯式,並嚴格限製的ob…

最後更新:2022年5月31日,通過pavan.kumarchalamcharla

如何在磚和刪除文件列表更快

場景假設您需要刪除一個表分區的年,月,日,區域,和服務。然而,桌子上是巨大的,每個分區將會有大約1000的部分文件。你能列出在每個分區的所有文件,然後刪除它們使用Apache火花工作。例如,假設您有一個表分區的,b,…

最後更新:2022年5月31日,通過亞當Pavlacka

如何處理損壞的鑲花的文件不同的模式嗎

假設你有一個大問題本質上是獨立的鑲花文件列表,與各種不同的模式。你要讀的隻有那些文件匹配一個特定的模式和跳過不匹配的文件。一個解決方案可以按順序讀取文件,識別模式和聯盟DataFrames在一起。然而,這種方法…

最後更新:2022年5月31日,通過亞當Pavlacka

沒有使用權限的數據庫

問題您正在使用一個集群運行磚運行時7.3 LTS及以上。你表啟用訪問控製您的工作區(AWS | Azure | GCP)作為管理用戶,並授予SELECT權限標準的次用戶組需要訪問的表。一個用戶試圖訪問一個對象數據庫中,拋出SecurityException錯誤我……

最後更新:2022年5月31日,通過rakesh.parija

null和空字符串在分區列保存為null

問題如果你保存數據包含空字符串和null值在表的一列是分區的,後兩個值成為零寫作和閱讀。為了說明這一點,創建一個簡單的DataFrame: % scala org.apache.spark.sql.types進口。_進口org.apache.spark.sql.catalyst.encoders。RowEncoder val data = Seq(行(" ")……

最後更新:2022年5月31日,通過亞當Pavlacka

randomSplit方法的行為

當使用randomSplit DataFrame,你可能會觀察到不一致的行為。這裏有一個例子:% python df = spark.read.format (inconsistent_data_source) .load () a, b = df.randomSplit ([0.5, 0.5]) a.join(廣播(b),在=“id”,如何=“內在”).count()通常這個查詢返回0。然而,根據基礎數據源或輸入…

最後更新:2022年5月31日,通過亞當Pavlacka

工作失敗當使用Spark-Avro十進製值寫入AWS紅移

問題5磚運行時版本。x和,當亞馬遜寫小數紅移使用Spark-Avro作為默認臨時文件格式,要麼寫操作失敗的例外:錯誤(代碼1207),數據加載到紅移:“無效的數字,值”,Pos 0,類型:小數”或寫操作寫null的……

最後更新:2022年5月31日,通過亞當Pavlacka

從用例類生成模式

火花提供了一種簡便的方法來生成一個模式從一個Scala類。case類,使用方法ScalaReflection.schemaFor[一].dataType.asInstanceOf [StructType]。例如:% scala org.apache.spark.sql.types進口。StructType org.apache.spark.sql.catalyst進口。ScalaReflection case類(關鍵:字符串,時間:java.sql。時間戳,日期:java ....

最後更新:2022年5月31日,通過亞當Pavlacka

如何指定斜在數據集和DataFrame-based加入命令提示嗎

當您執行一個連接命令DataFrame或數據集對象,如果你發現困在查詢完成少量的任務由於數據傾斜,您可以指定的斜提示提示(斜)方法:df.hint(“斜”)。傾斜連接優化(AWS | Azure | GCP)上執行指定的DataFrame斜提示。在…

最後更新:2022年5月31日,通過亞當Pavlacka

如何更新嵌套列

火花不支持添加新的列或刪除現有列嵌套結構。特別是,withColumn放數據集類的方法不允許您指定一個列名不同於任何頂級列。例如,假設您有一個數據集與以下模式:% scala val模式=(新StructType)。…

最後更新:2022年5月31日,通過亞當Pavlacka

不兼容的模式在一些文件

問題引發的工作失敗讀取拚花時異常如下文件:在SQL語句錯誤:SparkException:工作階段失敗而終止:任務20階段11227.0失敗了4次,最近的失敗:在舞台上失去了任務20.3 11227.0 (TID 868031、10.111.245.219執行人31):. lang。UnsupportedOperationException:方式org.a……

最後更新:2022年5月31日,通過亞當Pavlacka

拒絕訪問當編寫一個使用抽樣S3 bucket

問題寫一個S3 bucket使用抽樣失敗。司機節點可以寫,但工人(執行者)節點返回一個拒絕訪問錯誤。寫作與DataFrame API,但是效果很好。例如,假設你運行以下代碼:% scala . io .進口java文件導入。進口org.apache.spark可序列化的。{SparkConf, SparkContext}小鬼……

最後更新:2022年5月31日,通過亞當Pavlacka

無效的數據加載到亞馬遜紅移時的時間戳

問題當你使用spark-redshift寫操作時間戳數據保存到亞馬遜紅移,就可能發生以下錯誤,如果時間戳數據包括時區信息。錯誤(代碼1206),數據加載到紅移:“無效的時間戳格式或價值(YYYY-MM-DD HH24: MI: SSOF]”導致紅移表是使用飛機時間戳數據…

最後更新:2022年5月31日,通過亞當Pavlacka