取消
顯示的結果
而不是尋找
你的意思是:

過濾條件在火花dataframe工作如何?

senthilkumar
新的因素

我有一個表在hbase 1數十億記錄。我想過濾記錄基於某些條件(按日期)。

例如:

Dataframe.filter (col(日期)= = = todayDate)

過濾器將應用在從表中所有記錄將被加載到內存或我將過濾記錄?

1回複1

muk1
新的貢獻者二世

你好@senthil庫馬爾

通過外部值過濾器(或地方)轉換可以使用“點燃”功能在以下方式:

Dataframe.filter(坳(日期)= =點燃(todayDate))

不知道如果´,幫助。小心dataframe模式的推導。如果你有,你列的字符串類型然後嚐試通過一個字符串。如果你正在與時間戳“todayDate”一個時間戳,等等。

你應該以同樣的方式導入“點燃”功能當你導入“上校”功能:

從pyspark.sql。功能導入點燃,上校

這是在python中。我不能說如果這適用於scala。變量todayDate可以改變變量的循環。讓´s說

dates_list =(“25-03-1990”、“25-04-1990”、“25-05-1990”)在dates_list todayDate: Dataframe.filter(坳(日期)= =點燃(todayDate)) # # # #你想做轉換或行動

我認為有一個更好的方法激發函數,但是我沒有機會看。

過濾器將應用在從表中所有記錄將被加載到內存或我將過濾記錄?

我想從數據文件讀已經與dataframe“dataframe”。Apache火花不修改數據,它隻是跟蹤轉換和行動是你想做的事情在他們然後過程所需的計算輸出你選擇。這是完成了重新分配(和執行人)和懶惰的評估。我可以´t找到“溫柔介紹apache火花”這有助於理解這些概念。這個鏈接可以幫助:https://databricks-prod-cloudfront.cloud.www.eheci.com/public/4027ec902e239c93eaaa8714f173bcfc/3463..。

祝你好運! !:slightly_smiling_face:

muk ! !

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map