自動加載程序選項
配置選項的cloudFiles
源是前綴cloudFiles
所以他們在一個單獨的名稱空間從其他結構化流源選項。
常見的自動加載程序選項
您可以配置以下選項或文件目錄清單通知模式。
選項 |
---|
cloudFiles.allowOverwrites 類型: 是否允許輸入目錄文件更改覆蓋現有的數據。在磚運行時7.6及以上。 關於啟用此配置有一些警告。請參考自動加載器常見問題解答獲取詳細信息。 默認值: |
cloudFiles.backfillInterval 類型: 自動裝載器可以在一個給定的時間間隔觸發異步回填,如。 默認值:無 |
cloudFiles.format 類型: 的數據文件格式在源路徑中。允許的值包括: 默認值:無(所需選項) |
cloudFiles.includeExistingFiles 類型: 是否在流處理的輸入包括現有的文件路徑或隻處理新文件初始設置後到達。評估這個選項隻有當你開始為第一次流。改變這個選項後重啟流沒有影響。 默認值: |
cloudFiles.inferColumnTypes 類型: 是否當利用模式推理推斷出準確的列類型。默認情況下,列是推斷作為字符串當推斷JSON和CSV數據集。看到模式推理為更多的細節。 默認值: |
cloudFiles.maxBytesPerTrigger 類型: 新處理字節的最大數量在每一個觸發器。您可以指定一個字節字符串等 默認值:無 |
cloudFiles.maxFileAge 類型: 多長時間重複數據刪除的文件事件跟蹤目的。磚不建議調整該參數除非你攝入數據順序的數以百萬計的文件一個小時。上看到的部分事件保留為更多的細節。 默認值:無 |
cloudFiles.maxFilesPerTrigger 類型: 處理新文件的最大數量在每一個觸發器。一起使用時 默認值:1000 |
cloudFiles.partitionColumns 類型: 蜂巢的逗號分隔列表樣式分區列你想從文件的目錄結構推斷。蜂巢式分區列是鍵值對組合等一個平等的跡象
指定 默認值:無 |
cloudFiles.schemaEvolutionMode 類型: 發展模式的模式中發現新列數據。默認情況下,列是推斷作為字符串當推斷JSON數據集。看到模式演化為更多的細節。 默認值: |
cloudFiles.schemaHints 類型: 模式信息期間,您提供自動加載程序模式推理。看到模式提示為更多的細節。 默認值:無 |
cloudFiles.schemaLocation 類型: 存儲位置推斷模式和後續更改。看到模式推理為更多的細節。 默認值:無(推斷模式時需要) |
cloudFiles.useStrictGlobber 類型: 是否使用默認的globbing行為相匹配的嚴格的水珠Apache引發的其他文件來源。看到常見的數據加載模式為更多的細節。在磚運行時12.0及以上。 默認值: |
cloudFiles.validateOptions 類型: 是否驗證自動加載程序選項並返回一個錯誤對於未知或不一致的選項。 默認值: |
目錄列表選項
以下選項相關目錄清單模式。
選項 |
---|
cloudFiles.useIncrementalListing 類型: 是否使用增量清單而不是目錄清單模式下的完整清單。默認情況下,自動加載程序將自動檢測最好的努力如果給定目錄適用於增量清單。您可以顯式地使用清單或使用增量設置它的完整的目錄清單 使用Azure數據存儲Gen2(湖 可以在磚運行時9.1 LTS及以上。 默認值: 可用值: |
文件通知選項
以下選項相關文件通知模式。
選項 |
---|
cloudFiles.fetchParallelism 類型: 數量的線程從隊列獲取消息時使用服務。 默認值:1 |
cloudFiles.pathRewrites 類型:一個JSON字符串 如果你指定一個隻需要 默認值:無 |
cloudFiles.resourceTag 類型: 一係列的鍵-值對標簽幫助聯係和確定相關資源,例如:
AWS的更多信息,請參閱Amazon SQS成本分配標簽和為亞馬遜SNS配置標簽的話題。(1) Azure的更多信息,請參閱命名隊列和元數據的報道 默認值:無 |
cloudFiles.useNotifications 類型: 是否使用文件通知模式來確定當有新的文件。如果 默認值: |
(1)自動加載程序添加以下力所能及默認鍵-值對的標簽:
供應商
:磚
路徑
:加載位置的數據。不可用GCP由於標簽的局限性。checkpointLocation
:流的檢查點的位置。不可用GCP由於標簽的局限性。streamId
流:一個全球唯一標識符。
這些關鍵的名字是保留和你不能覆蓋他們的價值觀。
文件格式選項
使用自動加載器可以攝取JSON
,CSV
,拚花
,AVRO
,文本
,BINARYFILE
,獸人
文件。
通用選項
以下選項適用於所有文件格式。
選項 |
---|
ignoreCorruptFiles 類型: 是否忽略腐敗文件。如果這是真的,火花的工作將繼續運行,當遇到損壞文件和已讀過的內容仍將返回。可見, 默認值: |
ignoreMissingFiles 類型: 是否忽略丟失的文件。如果這是真的,火花的工作將繼續運行,當遇到丟失的文件和內容閱讀仍將返回。在磚運行時11.0及以上。 默認值: |
modifiedAfter 類型: 一個可選的時間戳來攝取文件修改時間戳後提供時間戳。 默認值:無 |
modifiedBefore 類型: 一個可選的時間戳來攝取文件修改時間戳之前提供的時間戳。 默認值:無 |
pathGlobFilter或fileNamePattern 類型: 一個潛在的水珠模式提供選擇文件。相當於 默認值:無 |
recursiveFileLookup 類型: 是否加載數據基地內遞歸目錄和跳過分區推斷。 默認值: |
JSON
選項
選項 |
---|
allowBackslashEscapingAnyCharacter 類型: 是否允許反斜杠轉義字符的任何成功。如果未啟用,隻有那些顯式列出字符由JSON規範可以逃脫。 默認值: |
allowComments 類型: 是否允許使用Java, C和c++風格的評論( 默認值: |
allowNonNumericNumbers 類型: 是否允許的集合不是一個數字( 默認值: |
allowNumericLeadingZeros 類型: 是否允許積分數字開始額外(循環)0(例如,000001)。 默認值: |
allowSingleQuotes 類型: 是否允許使用單引號(撇號,性格 默認值: |
allowUnquotedControlChars 類型: 是否允許JSON字符串包含保有的控製字符(ASCII字符值小於32,包括選項卡並換行字符)。 默認值: |
allowUnquotedFieldNames 類型: 是否允許使用非掛牌字段名稱(允許JavaScript,但不是通過JSON規範)。 默認值: |
badRecordsPath 類型: 存儲文件的路徑記錄壞JSON的信息記錄。 默認值:無 |
columnNameOfCorruptRecord 類型: 列存儲記錄,是畸形的,不能被解析。如果 默認值: |
dateFormat 類型: 解析日期的格式字符串。 默認值: |
dropFieldIfAllNull 類型: 是否要忽略所有空值的列或空數組和結構體在模式推理。 默認值: |
編碼或字符集 類型: JSON編碼的文件的名稱。看到 默認值: |
inferTimestamp 類型: 是否嚐試推斷作為時間戳字符串 默認值: |
lineSep 類型: 兩個連續的JSON記錄之間的字符串。 默認值:沒有,涵蓋 |
語言環境 類型: 一個 默認值: |
模式 類型: 解析器模式在處理畸形的記錄。之一 默認值: |
多行 類型: JSON記錄是否跨越多個行。 默認值: |
prefersDecimal 類型: 試圖推斷出字符串 默認值: |
primitivesAsString 類型: 是否要推斷數字和布爾值等基本類型 默認值: |
rescuedDataColumn 類型: 是否收集所有的數據不能被解析由於模式數據類型不匹配或不匹配(包括列套管)到一個單獨的列中。這一列包含在默認情況下使用時自動加載程序。有關更多細節,請參考獲救的數據列是什麼?。 默認值:無 |
timestampFormat 類型: 解析時間戳的格式字符串。 默認值: |
時區 類型: 的 默認值:無 |
CSV
選項
選項 |
---|
badRecordsPath 類型: 存儲文件的路徑記錄壞CSV信息記錄。 默認值:無 |
charToEscapeQuoteEscaping 類型: 使用的用來逃避字符轉義引號。例如,對於以下記錄:
默認值: |
columnNameOfCorruptRecord 類型: 一列來存儲記錄畸形,不能被解析。如果 默認值: |
評論 類型: 定義了字符代表一行評論時發現一行文本的開始。使用 默認值: |
dateFormat 類型: 解析日期的格式字符串。 默認值: |
emptyValue 類型: 空值的字符串表示。 默認值: |
編碼或字符集 類型: CSV文件的編碼的名稱。看到 默認值: |
enforceSchema 類型: 是否強行指定或推斷模式應用到CSV文件。如果啟用了選擇,CSV文件的標題將被忽略。這個選項默認是忽略了在使用自動加載程序來拯救數據並允許模式演化。 默認值: |
逃避 類型: 解析數據時使用的轉義字符。 默認值: |
頭 類型: CSV文件是否包含一個頭。自動加載程序假設推斷模式時文件頭。 默認值: |
ignoreLeadingWhiteSpace 類型: 是否忽略主要空白每個解析值。 默認值: |
ignoreTrailingWhiteSpace 類型: 是否忽略尾隨的空格為每個解析值。 默認值: |
inferSchema 類型: 是否來推斷的數據類型解析CSV或假設所有列的記錄 默認值: |
lineSep 類型: 兩個連續的CSV記錄之間的字符串。 默認值:沒有,涵蓋 |
語言環境 類型: 一個 默認值: |
maxCharsPerColumn 類型: 最大數量的角色期望從一個值來解析。可以用來避免內存錯誤。默認為 默認值: |
maxColumns 類型: 有多少列的硬限製記錄。 默認值: |
mergeSchema 類型: 是否來推斷模式跨多個文件和每個文件的合並模式。默認啟用推斷模式時自動加載程序。 默認值: |
模式 類型: 解析器模式在處理畸形的記錄。之一 默認值: |
多行 類型: CSV檔案是否跨越多個行。 默認值: |
nanValue 類型: 當解析non-a-number值的字符串表示 默認值: |
negativeInf 類型: 當解析的字符串表示負無窮 默認值: |
nullValue 類型: 空值的字符串表示。 默認值: |
parserCaseSensitive(棄用) 類型: 在閱讀文件,是否對齊列的標題模式中聲明的情況下敏感。這是 默認值: |
positiveInf 類型: 當解析的字符串表示正無窮 默認值: |
preferDate 類型: 試圖推斷出字符串作為日期的時間戳。您還必須使用模式推理,通過啟用 默認值: |
報價 類型: 使用的字符轉義值字段分隔符的值。 默認值: |
readerCaseSensitive 類型: 當指定大小寫敏感性行為 默認值: |
rescuedDataColumn 類型: 是否收集所有數據不能被解析由於:一個數據類型不匹配,不匹配和模式(包括列套管)到一個單獨的列中。這一列包含在默認情況下使用時自動加載程序。更多細節請參考獲救的數據列是什麼?。 默認值:無 |
9月或分隔符 類型: 列之間的分隔符字符串。 默認值: |
skipRows 類型: 的行數從一開始就應該被忽略的CSV文件(包括注釋和空行)。如果 默認值: |
timestampFormat 類型: 解析時間戳的格式字符串。 默認值: |
時區 類型: 的 默認值:無 |
unescapedQuoteHandling 類型: 策略來處理非轉義引號。允許選擇:
默認值: |
拚花
選項
選項 |
---|
datetimeRebaseMode 類型: 控製變基之間的日期和時間戳值朱利安和預期的公曆日曆。允許的值: 默認值: |
int96RebaseMode 類型: 控製的變基INT96時間戳值之間朱利安和預期的公曆日曆。允許的值: 默認值: |
mergeSchema 類型: 是否來推斷模式跨多個文件和每個文件的合並模式。 默認值: |
readerCaseSensitive 類型: 當指定大小寫敏感性行為 默認值: |
rescuedDataColumn 類型: 是否收集所有數據不能被解析由於:一個數據類型不匹配,不匹配和模式(包括列套管)到一個單獨的列中。這一列包含在默認情況下使用時自動加載程序。更多細節請參考獲救的數據列是什麼?。 默認值:無 |
AVRO
選項
選項 |
---|
avroSchema 類型: Avro格式的用戶提供的可選模式。閱讀Avro時,這個選項可以設置為一種進化模式,這是兼容與實際Avro但是不同的模式。反序列化的模式將與進化模式一致。例如,如果您設置一個進化模式包含一個額外的列的默認值,讀取結果將包含新列。 默認值:無 |
datetimeRebaseMode 類型: 控製變基之間的日期和時間戳值朱利安和預期的公曆日曆。允許的值: 默認值: |
mergeSchema 類型: 是否來推斷模式跨多個文件和每個文件的合並模式。 默認值: |
readerCaseSensitive 類型: 當指定大小寫敏感性行為 默認值: |
rescuedDataColumn 類型: 是否收集所有數據不能被解析由於:一個數據類型不匹配,不匹配和模式(包括列套管)到一個單獨的列中。這一列包含在默認情況下使用時自動加載程序。更多細節請參考獲救的數據列是什麼?。 默認值:無 |
BINARYFILE
選項
二進製文件沒有任何額外的配置選項。
文本
選項
選項 |
---|
編碼 類型: 文本文件的編碼的名稱。看到 默認值: |
lineSep 類型: 兩個連續的文本記錄之間的字符串。 默認值:沒有,涵蓋 |
wholeText 類型: 是否要讀取一個文件作為一個單獨的記錄。 默認值: |
獸人
選項
選項 |
---|
mergeSchema 類型: 是否來推斷模式跨多個文件和每個文件的合並模式。 默認值: |
雲特定選項
自動加載器配置雲基礎設施的提供了許多選項。
AWS特定選項
隻提供以下選項如果你選擇cloudFiles.useNotifications
=真正的
和你想要自動加載程序設置通知為您服務:
選項 |
---|
cloudFiles.region 類型: 源S3 bucket所在地區和AWS SNS和SQS服務將被創建。 默認值:在磚運行時的9.0及以上的區域EC2實例。下麵的磚8.4運行時,您必須指定該地區。 |
隻提供以下選項如果你選擇cloudFiles.useNotifications
=真正的
和你想要的汽車加載器使用一個隊列,您已經設置:
選項 |
---|
cloudFiles.queueUrl 類型: SQS隊列的URL。如果提供,自動加載程序直接從這個隊列,而不是消耗事件設立自己的AWS SNS和SQS服務。 默認值:無 |
您可以使用以下選項提供憑據訪問AWS SNS和SQS我角色時不可用或當你攝入數據從不同的雲。
選項 |
---|
cloudFiles.awsAccessKey 類型: AWS訪問密鑰為用戶ID。必須提供的 默認值:無 |
cloudFiles.awsSecretKey 類型: AWS秘密為用戶訪問密鑰。必須提供的 默認值:無 |
cloudFiles.roleArn 類型: 我的攻擊角色承擔。角色可以從你認為集群的實例配置文件或通過提供憑證 默認值:無 |
cloudFiles.roleExternalId 類型: 使用一個標識符時提供假設的作用 默認值:無 |
cloudFiles.roleSessionName 類型: 假設一個角色時使用一個可選的會話名稱使用 默認值:無 |
cloudFiles.stsEndpoint 類型: 一個可選的端點提供用於訪問AWS STS當假設一個角色使用 默認值:無 |
Azure特定選項
必須提供以下選項如果你指定的值cloudFiles.useNotifications
=真正的
和你想要自動加載程序設置通知為您服務:
選項 |
---|
cloudFiles.clientId 類型: 客戶端服務主體的ID或應用程序ID。 默認值:無 |
cloudFiles.clientSecret 類型: 客戶端服務主體的秘密。 默認值:無 |
cloudFiles.connectionString 類型: 連接字符串存儲賬戶,根據帳戶訪問密鑰或共享訪問簽名(SAS)。 默認值:無 |
cloudFiles.resourceGroup 類型: 的Azure資源組存儲創建帳戶。 默認值:無 |
cloudFiles.subscriptionId 類型: 的Azure訂閱ID創建資源組。 默認值:無 |
cloudFiles.tenantId 類型: 的Azure承租者ID創建服務主體。 默認值:無 |
重要的
自動化通知設置可以在Azure中國和政府與磚運行9.1和以後的區域。你必須提供一個queueName
在這些地區使用自動加載程序文件通知老DBR版本。
隻提供以下選項如果你選擇cloudFiles.useNotifications
=真正的
和你想要的汽車加載器使用一個隊列,您已經設置:
選項 |
---|
cloudFiles.queueName 類型: Azure隊列的名稱。如果提供,雲文件源直接從這個隊列,而不是消耗事件設置自己的Azure事件網格和隊列存儲服務。在這種情況下,你的 默認值:無 |
穀歌特定選項
自動加載程序可以自動為您設置通知服務利用穀歌服務帳戶。您可以配置您的集群承擔的服務帳戶穀歌服務設置。你的服務帳戶需要指定的權限自動加載程序文件通知模式是什麼?。否則,您可以提供以下選項進行身份驗證如果你想設置自動加載程序通知為您服務。
選項 |
---|
cloudFiles.client 類型: Google服務的客戶機ID賬戶。 默認值:無 |
cloudFiles.clientEmail 類型: 穀歌的電子郵件服務帳戶。 默認值:無 |
cloudFiles.privateKey 類型: 的私鑰生成的穀歌服務帳戶。 默認值:無 |
cloudFiles.privateKeyId 類型: id的私鑰生成的穀歌服務帳戶。 默認值:無 |
cloudFiles.projectId 類型: 項目的id, GCS桶。穀歌雲Pub / Sub訂閱也將被創建在這個項目。 默認值:無 |
隻提供以下選項如果你選擇cloudFiles.useNotifications
=真正的
和你想要的汽車加載器使用一個隊列,您已經設置:
選項 |
---|
cloudFiles.subscription 類型: 穀歌雲的名字發布/訂閱訂閱。如果提供,雲文件從這個隊列,而不是源消耗事件設立自己的GCS通知和穀歌雲發布/訂閱服務。 默認值:無 |