加載數據使用統一目錄外部位置

預覽

這個特性是在公共預覽

本文描述了如何使用添加數據UI創建一個管理表從穀歌雲存儲中的數據使用統一目錄外的位置。外部的位置是一個對象,結合了雲存儲路徑和存儲憑證授權訪問雲存儲路徑。

對於其他方法來加載數據使用外部位置,明白了創建一個表從文件存儲在雲的房客

在你開始之前

在你開始之前,你必須有以下:

文件類型

以下文件類型支持:

  • CSV

  • TSV

  • JSON

  • AVRO

  • 拚花

步驟1:確認訪問外部的位置

確認訪問外部位置,做到以下幾點:

  1. 側邊欄的磚工作區,點擊數據

  2. 在數據資源管理器中,單擊外部數據>外部位置

步驟2:創建管理表

創建管理表,請執行以下操作:

  1. 側邊欄的工作區,點擊+新>添加數據

  2. 在添加數據界麵,單擊穀歌雲存儲

  3. 從下拉列表中選擇一個外部位置。

  4. 選擇你想要的文件夾和文件加載到磚,然後單擊預覽表

  5. 從下拉列表選擇一個目錄和一個模式。

  6. (可選)編輯表名。

  7. (可選)文件類型設置advanced format選項,點擊先進的屬性,關掉自動檢測文件類型,然後選擇一個文件類型。

    格式選項的列表,請參閱下一節。

  8. (可選)編輯列名稱,點擊輸入框頂部的列。

    列名不支持逗號,反斜杠或者unicode字符(如emojis)。

  9. (可選)編輯列類型,單擊圖標類型。

  10. 點擊創建表

文件類型格式選項

以下格式可供選擇,根據不同的文件類型:

格式選項

描述

支持的文件類型

分隔符

列之間的分隔符。隻允許一個字符,不支持反斜杠。

默認是一個逗號。

CSV

逃避字符

解析數據時使用的轉義字符。

默認是一個引號。

CSV

第一個包含

這個選項指定文件是否包含一個頭。

默認啟用。

CSV

自動檢測類型

從文件內容自動檢測列類型。您可以編輯預覽表類型。如果這是設置為false,所有列類型推斷是字符串。

默認啟用。

  • CSV

  • JSON

跨度多個

一個列的值是否能跨越多個文件中。

默認情況下禁用。

  • CSV

  • JSON

合並模式多個文件

是否來推斷模式跨多個文件和每個文件的合並模式。

默認啟用。

CSV

允許評論

是否允許在文件的評論。

默認啟用。

JSON

允許報價

單引號是否允許在文件中。

默認啟用。

JSON

推斷出時間戳

是否嚐試推斷時間戳字符串作為TimestampType

默認啟用。

JSON

獲救數據

是否保存列不匹配模式。有關更多信息,請參見獲救的數據列是什麼?

默認啟用。

  • CSV

  • JSON

  • Avro

  • 拚花

列的數據類型

下麵的列數據類型支持。關於個人數據類型的更多信息SQL數據類型

數據類型

描述

長整型數字

8字節整數數字簽名。

布爾

布爾(真正的,)的值。

日期

一天,沒有一個時區。

小數(P, S)

以最大的精密數字P規模和固定年代

8字節雙精度浮點數。

字符串

字符串值。

時間戳

字段的值組成的值年,月,日,小時,分鍾,第二,當地時區與會話。

已知的問題

  • 你可能會經曆複雜數據類型中的特殊字符的問題,比如一個JSON對象鍵包含一個撇號或冒號。

  • 一些JSON文件可能需要您手動選擇JSON文件類型。手動選擇一個文件類型選擇文件後,點擊先進的屬性,關掉自動檢測文件類型,然後選擇JSON

  • 內嵌套的時間戳和小數複雜類型可能會遇到問題。