穀歌BigQuery

本文描述了如何讀和寫穀歌在磚BigQuery表。

你必須連接BigQuery能夠使用基於密鑰的認證。

需求

磚運行時

磚集群運行磚運行時7.3 LTS或以上。

權限

你的項目必須有特定的穀歌使用BigQuery讀寫權限。

請注意

本文討論了BigQuery物化視圖。,穀歌的文章介紹了物化視圖。學習其他BigQuery術語和BigQuery安全模型,看到穀歌BigQuery文檔。

讀寫數據與BigQuery取決於兩個穀歌雲項目:

項目(項目):磚的穀歌雲項目ID讀取或寫入BigQuery表。
父項目(parentProject):父項目的ID,這是穀歌雲項目ID為閱讀和寫作。設置這個穀歌雲項目與穀歌相關服務帳戶,您將生成密鑰。

您必須顯式地提供項目和parentProject在訪問BigQuery的代碼值。使用代碼類似如下:

              火花。讀。格式(“bigquery”)\。選項(“表”,表)\。選項(“項目”,<項目- - - - - -id>)\。選項(“parentProject”,<父- - - - - -項目- - - - - -id>)\。負載()
             

所需的權限取決於穀歌雲項目項目和parentProject都是一樣的。下麵的章節列表為每個場景所需的權限。

如果需要權限`項目`和`parentProject`匹配

如果你的id項目和parentProject是相同的,使用下麵的表格來確定最小權限:

磚的任務

穀歌在這個項目所需的權限

讀BigQuery表沒有物化視圖

在項目項目:

BigQuery讀會話的用戶
BigQuery數據查看器(可選格蘭特在數據集/表級別而不是在項目級別)

讀BigQuery表與物化視圖

在項目項目:

BigQuery工作用戶
BigQuery讀會話的用戶
BigQuery數據查看器(可選格蘭特在數據集/表級別而不是在項目級別)

實體化的項目:

BigQuery數據編輯器

寫一個BigQuery表

在項目項目:

BigQuery工作用戶
BigQuery數據編輯器

如果需要權限`項目`和`parentProject`是不同的

如果你的id項目和parentProject是不同的,使用下麵的表格來確定最小權限:

磚的任務

穀歌需要權限

讀BigQuery表沒有物化視圖

在parentProject項目:

BigQuery讀會話的用戶

在項目項目:

BigQuery數據查看器(可選格蘭特在數據集/表級別而不是在項目級別)

讀BigQuery表與物化視圖

在parentProject項目:

BigQuery讀會話的用戶
BigQuery工作用戶

在項目項目:

BigQuery數據查看器(可選格蘭特在數據集/表級別而不是在項目級別)

實體化的項目:

BigQuery數據編輯器

寫一個BigQuery表

在parentProject項目:

BigQuery工作用戶

在項目項目:

BigQuery數據編輯器

步驟1:設置穀歌雲

啟用BigQuery存儲API

BigQuery存儲API是默認啟用BigQuery啟用新的穀歌雲項目。然而,如果你有一個現有的項目和BigQuery存儲API不啟用,遵循本節中的步驟來啟用它。

您可以啟用BigQuery存儲API使用穀歌雲CLI或穀歌雲控製台。

使雲CLI BigQuery存儲API使用穀歌

gcloud服務啟用bigquerystorage.googleapis.com

使BigQuery存儲API使用穀歌雲控製台

點擊api和服務在左側導航窗格。
單擊使api和服務按鈕。
類型bigquery存儲api在搜索欄並選擇第一個結果。
確保啟用了BigQuery存儲API。

創建一個穀歌服務占磚

創建一個服務帳戶的磚集群。磚推薦給這個服務帳戶所需的最小特權來執行其任務。看到BigQuery角色和權限。

您可以創建一個服務帳戶使用Google雲CLI或穀歌雲控製台。

創建一個穀歌服務帳戶使用穀歌雲CLI

               gcloud我服務帳戶創建<服務帳戶名稱> gcloud項目add-iam-policy-binding <項目名稱>\角色/ bigquery.user——的作用\——成員=“serviceAccount: <服務帳戶名稱> @ <項目名稱> .iam.gserviceaccount.com”gcloud項目add-iam-policy-binding <項目名稱>\角色/ bigquery.dataEditor——的作用\——成員=“serviceAccount: <服務帳戶名稱> @ <項目名稱> .iam.gserviceaccount.com”
              

為您的服務帳戶創建的關鍵:

               gcloud我服務- - - - - -賬戶鍵創建- - -我- - - - - -賬戶\“<服務帳戶名稱> @ <項目名稱> .iam.gserviceaccount.com”\<項目- - - - - -的名字> - - -xxxxxxxxxxx。json
              

創建一個穀歌服務帳戶使用穀歌雲控製台

創建帳戶:

點擊我和管理在左側導航窗格。
點擊服務帳戶。
點擊+創建服務帳戶。
輸入服務帳戶名稱和描述。
點擊創建。
對你的服務帳戶指定的角色。在選擇一個角色下拉,類型BigQuery,並添加以下角色:
點擊繼續。
點擊完成。

為您的服務帳戶創建密鑰:

服務帳戶列表中,單擊您新創建的帳戶。
在關鍵部分,選擇添加鍵>創建新的鍵按鈕。
接受JSON密鑰類型。
點擊創建。JSON關鍵文件被下載到你的電腦。

重要的

JSON密鑰文件生成的服務帳戶是一個應該共享隻有授權用戶的私鑰,因為它控製訪問數據集和資源雲在你的穀歌賬戶。

創建一個穀歌雲存儲(GCS)為臨時存儲桶

BigQuery能夠寫入數據,數據來源需要訪問GCS桶。

點擊存儲在左側導航窗格。
點擊創建桶。
配置桶的細節。
點擊創建。
單擊權限選項卡,添加成員。
提供以下的服務帳戶權限桶。
點擊保存。

第二步:設置數據磚

集群配置訪問BigQuery表,你必須提供JSON作為火花配置密鑰文件。使用本地工具base64編碼你的JSON密鑰文件。為了安全目的不使用網絡或遠程工具可以訪問你的鑰匙。

當你配置您的集群:

設置磚的運行時版本的磚運行時7.3 LTS或以上。

在火花配置選項卡中,添加以下引發配置。取代< base64-keys >與你的base64編碼JSON密鑰文件。更換其他物品在括號中(如< client_email >這些字段的值來自你的JSON密鑰文件。

               憑證< base64-keys >spark.hadoop.google.cloud.auth.service.account。實現真正的spark.hadoop.fs.gs.auth.service.account。電子郵件< client_email >spark.hadoop.fs.gs.project。id < project_id >spark.hadoop.fs.gs.auth.service.account.private。關鍵< private_key >spark.hadoop.fs.gs.auth.service.account.private.key。id < private_key_id >
              

讀和寫BigQuery表

閱讀BigQuery表,指定

             df=火花。讀。格式(“bigquery”)。選項(“表”,<表- - - - - -的名字>)。負載()
            

寫信給一個BigQuery表,指定

             df。寫。格式(“bigquery”)。模式(“<模式>”)。選項(“temporaryGcsBucket”,“< bucket名>”)。選項(“表”,<表- - - - - -的名字>)。保存()
            

在哪裏< bucket名>鬥中創建的名稱嗎創建一個穀歌雲存儲(GCS)為臨時存儲桶。

從BigQuery創建外部表

重要的

這個功能不支持統一目錄。

你可以聲明一個非托管表數據磚將直接從BigQuery讀取數據:

             創建表chosen_dataset。test_table使用bigquery選項(parentProject“gcp-parent-project-id”,項目“gcp-project-id”,temporaryGcsBucket“some-gcp-bucket”,materializationDataset“some-bigquery-dataset”,表“some-bigquery-dataset.table-to-copy”)
            

穀歌BigQuery

需求

磚運行時

權限

如果需要權限`項目`和`parentProject`匹配

如果需要權限`項目`和`parentProject`是不同的

步驟1:設置穀歌雲

啟用BigQuery存儲API

使雲CLI BigQuery存儲API使用穀歌

使BigQuery存儲API使用穀歌雲控製台

創建一個穀歌服務占磚

創建一個穀歌服務帳戶使用穀歌雲CLI

創建一個穀歌服務帳戶使用穀歌雲控製台

創建一個穀歌雲存儲(GCS)為臨時存儲桶

第二步:設置數據磚

讀和寫BigQuery表

從BigQuery創建外部表

例如筆記本電腦

穀歌BigQuery Python示例筆記本

穀歌BigQuery Scala樣本筆記本

穀歌BigQuery

需求

磚運行時

權限

如果需要權限項目和parentProject匹配

如果需要權限項目和parentProject是不同的

步驟1:設置穀歌雲

啟用BigQuery存儲API

使雲CLI BigQuery存儲API使用穀歌

使BigQuery存儲API使用穀歌雲控製台

創建一個穀歌服務占磚

創建一個穀歌服務帳戶使用穀歌雲CLI

創建一個穀歌服務帳戶使用穀歌雲控製台

創建一個穀歌雲存儲(GCS)為臨時存儲桶

第二步:設置數據磚

讀和寫BigQuery表

從BigQuery創建外部表

例如筆記本電腦

穀歌BigQuery Python示例筆記本

穀歌BigQuery Scala樣本筆記本

如果需要權限`項目`和`parentProject`匹配

如果需要權限`項目`和`parentProject`是不同的