這裏有一些問題和答案的10/12辦公時間(注意:某些問題和答案已經凝聚新任命的目的):
問:什麼是最好的方法把數據從on-prem S3存儲到雲blob存儲到δ表?有任何數據磚樣例代碼用於這個用例?
答:這不會是磚具體。我的意思是,你當然可以直接從on-prem讀取使用火花。讀或jdbc但這不是很好的機製將結核病的在性能方麵的數據。這依賴於原生雲工具你會更好。如果AWS,類似他們的雲數據遷移服務。這樣你可以移動的大多數最性能的方法。對於正在進行的,您還可以設置中心來源(例如如果來源是RDBMS)轉儲那些日誌S3,然後使用類似於磚自動裝卸機攝取S3。
問:我們有一個很大的數據源。有時候,我們隻需要找到不同的字段值在這個數據源對於一次性的情況。查詢即使優化分區需要很長時間。有任何最佳實踐或指導這個過程,我們可以遵循緩解呢?
答:這僅僅是查詢的價格幾乎任何類型的來源不是δ。三角洲可以分析表和優化器可以使用這些統計數據以及統計數據捕獲與三角洲日誌,“跳過”文件閱讀,有時讀元數據本身的統計數據。對於任何其他來源,您很可能需要閱讀完整的數據每次你需要做這個操作將是昂貴的。如果源是一個RDBMS,那麼除非火花可以下推到RDMS引擎,你會得到同樣的問題。是你o複製數據到雲存儲(δ表),然後你的分析嗎?
磚數據清理的問:我的問題是,你如何推薦檢查我們地址嗎?磚提供服務或建議清洗的地址嗎?
你需要讀取數據和定義過濾器的邏輯。沒有磚,甚至引發特定的方法。您將需要使用一個開源庫,能做到這一點,或支付一些真正的地址如LexisNexis清洗服務。不確定(如果有的話)有一個開源自由這些類型的服務。
問:什麼是磚的shell命令的限製嗎?不確定數據磚的人現在都熟悉它,但我成功安裝texlive生成pdf。然而,當使用“pdflatex”命令在指定我得到一個奇怪的錯誤,不彈出當我在本地運行相同的代碼。日誌結尾:\ openout4 =
“report.ist”。{/ var / lib / texmf /字體/地圖/ pdftex / updmap / pdftex。地圖}。沒有錯誤日誌所示。然而磚還控製台添加這個文本日誌結束後“pdflatex:報告:操作不支持”的報告。特克斯是文件我想的過程
答:錯誤代碼表明,磚無法繼續操作,pdf生成很可能失敗。檢查驅動程序日誌當你得到這個錯誤會幫助理解/為什麼它發生。
問:你認為作為首選方法插入值到一個更大的三角洲表從一個較小的一個基於單一鍵列?(較大的表有幾萬行,小有數百個,有2000列)。
答:如果您使用的是δ,盡可能有效地合並將為你這樣做,你將提供關鍵的連接鍵合並。注意,這仍然意味著重寫文件1行修改,即使是1 GB的文件。就像鋪文件需要寫因為你不能更新鑲花的文件。但磚來預覽功能稱為“刪除向量”,這是要讓這個更有效率,減少通過重寫,使用邏輯標誌來確定連續更新(和重寫隻有隻需要重寫的行)。還一定要添加盡可能多的條件邏輯合並,所以你不必重寫一行,如果你不想。
問:有人隻寫了鬆弛”是我今天還是磚慢?”——這個人是一個“用戶”,描述她的經驗,沒有真正目標是減緩或提供更多的細節——問:我該怎麼調查呢?
在這兩種情況下你需要創建一個支持票或聯係您的客戶服務團隊(如果你還沒有支付支持)。UI“慢”可能是一個問題,如果是這樣,它將隻是一個應用問題磚控製飛機上或者如果慢的工作,那麼你需要深入研究日誌/支持。支持將獲得比你後台日誌,幫助他們診斷和修複。同時,檢查status.www.eheci.com(建議訂閱本)是否有任何宣布中斷您的雲/地區。
問:如何連接OneDrive數據磚筆記本嗎?
請檢查這個鏈接這細節從OneDrive API,允許用戶下載文件。
問:我們使用Azure起程拓殖創建基礎設施——多個keyvaults不同“租戶”——和需要設置秘密範圍。然而,隻有一個用戶AAD令牌可以用來創建keyvault支持秘密範圍——推薦的處理方法是什麼?
答:目前,隻有可以創建Azure關鍵庫範圍Azure CLI身份驗證而不是服務主體。這意味著,az登錄——服務主體——用戶名ARM_CLIENT_ID美元——密碼ARM_CLIENT_SECRET——租戶ARM_TENANT_ID美元不會工作。這是潛在的雲資源的限製。你可以看一下文檔在這裏額外的細節。
問:有什麼認證考試實踐我可以練習嗎?
你可以檢查我們的認證的網站,我們提供模擬考試的考試。
問:什麼是最快的方法攝取雲存儲的數據,在路徑位置並不遵循lexographical訂購,我們有成千上萬的文件和目錄創建日報,這意味著列出所有目錄使它效率低下
答:自動裝卸機將是最好的工具。請檢查文檔在這裏
問:筆記本是首選方法運行的火花作業或使用的罐子首選方法運行工作嗎?
你可以使用筆記本或Jar文件。兩者都是偉大的工具,您可以使用。
謝謝你偉大的問題列表