Re:在蜂巢Metastore可以s3的位置啊…頁2 -磚- 39493

尼諾 · 一個星期前

我有一些磚集群,一些共享一個蜂巢Metastore (HMS),稱之為PROD_CLUSTERS,和一個額外的集群,ADHOC_CLUSTER,自己的號。

我所有的數據存儲在S3,磚三角洲表:PROD_CLUSTERS讀寫這些S3 bucket, ADHOC_CLUSTER隻有讀權限。

我需要設置ADHOC_CLUSTER以便它有一組視圖頂部的表(s3路徑)由PROD_CLUSTERS定義。

例如,如果一個PROD_CLUSTERS創建了一個表prod_schema.employees與位置“s3: / / somebucket /員工”,然後在ADHOC_CLUSTER我會運行(通過一個磚筆記本):

live_views_prod_schema創建視圖。員工從delta. SELECT *的s3: / / somebucket /員工

我試著什麼

我的想法是在ADHOC_CLUSTER腳本,運行一個選擇的HMS PROD_CLUSTERS(這意味著MySQL HMS JDBC,直接查詢關係數據庫),讓所有的表名和s3位置和所有必要的編程問題在ADHOC_CLUSTER創建視圖語句。

我想象這將是簡單的HMS SDS表將位置(s3: / / somebucket /員工)列SDS.location,for每一個三角洲表由PROD_CLUSTERS(和一些基於Json的表)。現在的問題是:在SDS我隻找到正確的位置的一些表。

對於其他表,s3 HMS中列出的路徑SDS.location是指向的默認鬥模式(表上創建不同的桶),路徑,喜歡嗎

s3a: / / < default-bucket > / prod_schema.db /雇員-__PLACEHOLDER__

找不到過去,也沒有找到實際的數據文件位置HMS的其他地方。

我的問題

一個查詢HMS如何得到所有數據文件的完整路徑表中定義的號嗎?

謝謝!

尼諾 · 一個星期前

嘿@Mo,謝謝你的輸入!

是的,點1 & 2是正確的

一般來說,您建議的解決方案是:

運行“描述細節table_name”集群PROD_CLUSTERS集團之一,對於所有表,生成table_name & table_s3_location的列表
複製/移動ADHOC_CLUSTER這個列表,並遍曆列表為每個表創建視圖

實際上,作為一個解決方案,我已經有一個類似的解決方案:在* * * * * *發出嗶嗶聲遍曆它來創建視圖,在ADHOC_CLUSTER。

工作都安排在一天,新表刺激——創建新的視圖生成臨時安排的。

這個沒問題,但有點麻煩(因為它總是需要2為每一對刺激和臨時安排的工作,一些同步,等等)。

我的目的是簡化這個架構。

事情是這樣的,在上麵步驟1中,“描述”語句運行PROD_CLUSTERS之一。這就是迫使我使用2工作:一個清單表的定義(運行在刺激)當閱讀列表和生成視圖(特別)。

“描述細節table_name”不能運行在ADHOC_CLUSTER——這集群使用一種不同的號,沒有table_name。

要明確,有兩個不同的蜂巢Metastores:

PROD_CLUSTERS——prod_HMS
ADHOC_CLUSTER——adhoc_HMS

於是我嚐試JDBC prod_HMS,直接到MySQL實例,從ADHOC_CLUSTER筆記本運行和運行一個選擇,“模仿”“描述細節table_name”的功能。

尼諾 · 一個星期前

抱歉中途被切斷

尼諾 · 一個星期前

這裏有一個例子查詢我從ADHOC_CLUSTER運行:

df_sds =(火花。讀.format (jdbc) .option(“司機”,司機).option (“url”, " jdbc: mysql: / / .... / prod_hms”) .option(“數據表”,“(選擇SD_ID、CD_ID位置從SDS)“) .option .option(“用戶”、“prod_hms_mysql_user”)(“密碼”,密碼).load ())

我預期的“位置”將S3 * * * *發出嗶嗶聲* *在最初發布)。

謝謝!

尼諾 · 一個星期前

事情錯了,最後一句話:我期望“位置”將s3路徑但不是總是如此(闡述了原始發布)。

謝謝!

磚

在蜂巢Metastore s3磚表的位置可以找到嗎?