取消
顯示的結果
而不是尋找
你的意思是:

誤差在導入PyDeequ包

hf_santos
新的貢獻者三世

大家好!

我想做一些關於數據質量和測試,我假裝使用PyDeequ磚的筆記本。記住,我很新磚和火花。

首先,我創建了一個集群的運行時版本“10.4 LTS(包括Apache火花3.2.1之上,Scala 2.12)”和添加到環境變量

SPARK_VERSION = 3.2

存儲庫中所稱的GitHub。

由於可用的PyPI包不是最新的我試著安裝包通過以下comand notebook-scoped庫嗎

% pip安裝numpy pip安裝git = = 1.22% + https://github.com/awslabs/python-deequ.git

(第一行隻是為了防止衝突numpy版本。)

然後,當在做

進口pydeequ

我得到

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - IndexError回溯(最近調用最後)<命令- 3386600260354339 > <模塊> - - - - - > 1導入pydeequ /磚/ python_shell / dbruntime / PythonPackageImportsInstrumentation / __init__。py import_patch(名稱、全局當地人,fromlist,級別)165 #進口所需的模塊。如果你看到這個調試失敗的導入,166 #看看前麵的堆棧幀相關的錯誤信息。- - > 167 original_result = python_builtin_import(名稱、全局當地人,fromlist,級別)168 169 is_root_import = thread_local。_nest_level = = 1 / local_disk0 / .ephemeral_nfs / env / pythonenv - 5 - ccb9322 - 9 - b7e 4 - caf - b370 - 843 c10304472 / lib / python3.8 /網站/ pydeequ / __init__。從pydeequ py <模塊> 19。分析從pydeequ進口AnalysisRunner 20。檢查導入檢查,從pydeequ CheckLevel - - - > 21。配置從pydeequ進口DEEQU_MAVEN_COORD 22。配置文件導入ColumnProfilerRunner 23 /磚/ python_shell / dbruntime / PythonPackageImportsInstrumentation / __init__。py import_patch(名稱、全局當地人,fromlist,級別)165 #進口所需的模塊。如果你看到這個調試失敗的導入,166 #看看前麵的堆棧幀相關的錯誤信息。- - > 167 original_result = python_builtin_import(名稱、全局當地人,fromlist,級別)168 169 is_root_import = thread_local。_nest_level = = 1 / local_disk0 / .ephemeral_nfs / env / pythonenv - 5 - ccb9322 - 9 - b7e 4 - caf - b370 - 843 c10304472 / lib / python3.8 /網站/ pydeequ /款。py in  35 36 ---> 37 DEEQU_MAVEN_COORD = _get_deequ_maven_config() 38 IS_DEEQU_V1 = re.search("com\.amazon\.deequ\:deequ\:1.*", DEEQU_MAVEN_COORD) is not None /local_disk0/.ephemeral_nfs/envs/pythonEnv-5ccb9322-9b7e-4caf-b370-843c10304472/lib/python3.8/site-packages/pydeequ/configs.py in _get_deequ_maven_config() 26 27 def _get_deequ_maven_config(): ---> 28 spark_version = _get_spark_version() 29 try: 30 return SPARK_TO_DEEQU_COORD_MAPPING[spark_version[:3]] /local_disk0/.ephemeral_nfs/envs/pythonEnv-5ccb9322-9b7e-4caf-b370-843c10304472/lib/python3.8/site-packages/pydeequ/configs.py in _get_spark_version() 21 ] 22 output = subprocess.run(command, stdout=subprocess.PIPE, stderr=subprocess.PIPE) ---> 23 spark_version = output.stdout.decode().split("\n")[-2] 24 return spark_version 25 IndexError: list index out of range

你能幫我找到這個原因或另一個沒有PyPI的圖書館。

提前謝謝!

1接受解決方案

接受的解決方案

hf_santos
新的貢獻者三世

我以為我不需要添加Deequ庫。顯然,所有我要做的就是把它通過Maven坐標,它解決了這個問題。

在原帖子查看解決方案

4回複4

Aviral-Bhardwaj
尊敬的貢獻者三世

是的這是合法的我也麵臨著同樣的,很快我將更新你工作

Aviral-Bhardwaj
尊敬的貢獻者三世

嘿@Humberto桑托斯我得到這個答案

這正在發生,因為與你pydeequ Numpy版本不兼容

看到它工作

圖像

此包numpy = = 1.20.1兼容

請像這樣或upvote這個答案,你也可以選擇這個作為一個最好的答案

謝謝

Aviral Bhardwaj

hf_santos
新的貢獻者三世

這不是問題所在。我沒有安裝了Deequ從Maven庫

hf_santos
新的貢獻者三世

我以為我不需要添加Deequ庫。顯然,所有我要做的就是把它通過Maven坐標,它解決了這個問題。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map