取消
顯示的結果
而不是尋找
你的意思是:

如何從一個表中讀取數據到一個dataframe磚以外的環境?

AnuVat
新的貢獻者三世

你好,

我毫升項目工作的,我需要訪問表中的數據駐留在我的磚集群通過一個筆記本,我在本地運行。這非常容易當我運行磚中的筆記本電腦但是我不能找出如何做到這一點在我當地的筆記本。

我想要完成相同的功能在以下代碼片段。

spark_dataframe = spark.read.table (table_name)

我怎樣才能得到這樣的數據幀,當我不是在磚環境?

謝謝提前:slightly_smiling_face:

7回複7

匿名
不適用

集群,磚筆記本和表都在雲中。你的本地機器上不是雲。如果你想讀數據機有幾個選項供您選擇:

  1. 在磚筆記本有一個下載按鈕,會讓你在本地下載數據作為一個csv文件
  2. 你可以使用任何存儲(S3, ADL2)工具下載數據
  3. 你可以連接到一個磚集群從你當地的筆記本。DBX可以在這裏

說,最好的選擇是使用磚毫升毫升項目運行時。mlflow建在,會給你比在本地做事情更好的上升趨勢。它還有automl這將成為一個偉大的起始步驟數據分析和簡單的模型構建。

AnuVat
新的貢獻者三世

這是超級有幫助。謝謝你澄清約瑟夫。

嗨@Anu缸,

隻是一個友好的後續。約瑟夫反應幫助你解決你的問題嗎?如果是,請其標記為最好。

Mickeylopez
新的貢獻者二世

從一個表中讀取數據到一個dataframe磚以外的環境中,您可以使用一個可用的許多Python庫,如熊貓或PyODBC,這取決於類型的表和數據庫使用。這裏是您可以遵循的一般步驟:

安裝必要的庫:如果您使用的是圖書館和熊貓一樣,您可以使用pip安裝它。例如,您可以打開一個終端或命令提示符和類型:pip安裝熊貓。

導入庫:在Python腳本或筆記本,使用Import語句導入庫。例如:大熊貓作為pd導入。

連接到數據庫:根據您所使用的類型的數據庫,您將需要提供連接細節,如服務器地址、數據庫名稱、用戶名和密碼。如果您使用的是PyODBC,您可以使用PyODBC。連接功能創建一個連接對象。例如:

進口pyodbc

康涅狄格州= pyodbc。連接(“司機= {SQL Server};

“服務器= myServerName;”

“數據庫= myDatabaseName;”

“Trusted_Connection =是的,”)

讀取數據到一個dataframe:一旦你建立了一個連接,你可以使用pd。read_sql函數熊貓dataframe讀取數據。例如:

df = pd。康涅狄格州read_sql (' SELECT * FROM myTable ')

這將從“myTable”表讀取所有數據到一個dataframe稱為“df”。然後您可以操作數據根據需要使用熊貓的功能。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map