解決方案——“PythonException:“ModuleNotFoundEr……-磚- 12071

Vicky1215 · ‎01-13-2023

我試圖從文本列中提取形容詞和名詞短語在火花數據幀的我寫的udf和應用清潔文本列。然而,我得到這個錯誤。

從pyspark.sql。功能導入udf

從pyspark.sql。類型進口ArrayType StringType

進口寬大的

#負載寬大的模型

nlp = spacy.load (“en_core_web_sm”)

#定義UDF來提取關鍵短語

def extract_adjective_noun_key_phrases(文本):

醫生= nlp(文本)

key_phrases = []

令牌的醫生:

如果令牌。pos_ = =“調節”和token.nbor ()。pos_ = =“名詞”)或(令牌。pos_ = =“名詞”和token.nbor ()。pos_ = =“的”):

key_phrases.append(令牌。文本+ " " + token.nbor ()。text)

返回key_phrases

extract_adjective_noun_key_phrases_udf = udf (extract_adjective_noun_key_phrases ArrayType (StringType ()))

# DataFrame UDF適用於文本列

pqms = pqms。withColumn (“adjective_noun_key_phrases extract_adjective_noun_key_phrases_udf (col (“cleaned_text”)))

#打印結果DataFrame

顯示器(pqms)

預期的輸出來提取短語和創建一個新的列相同的引發數據幀。任何幫助或建議,這將是一個偉大的幫助。

謝謝,

LandanG · ‎01-13-2023

嗨@Aditya辛格

集群節點類型和DBR你用的版本?還你手動安裝寬大的嗎?通常,ModuleNotFoundError表明你導入的庫沒有安裝或正確安裝。你可以試穿DBR 11.3 LTS毫升,用寬大的預裝

Vicky1215 · ‎01-13-2023

嗨LandanG,謝謝你的快速反應。我用DBR 9.1 LTS(包括Apache火花3.1.2,Scala 2.12),不確定集群節點類型是什麼意思,我試圖安裝寬大的使用——手動導入係統

!{係統。可執行}- m pip安裝寬大的

有沒有其他方式可以安裝寬大的我沒有直接訪問安裝庫集群從pypi或maven庫嗎?

謝謝,

LandanG · ‎01-13-2023

@Aditya辛格

你可以嚐試安裝它

% pip安裝寬大的

而不是?這將是一個notebook-scoped圖書館,您可以運行一個筆記本電池。希望這工作。

謝謝,

Vicky1215 · ‎01-13-2023

謝謝你的建議LandanG。現在,我能夠安裝notebook-scoped寬大的圖書館,可以看到當我運行% pip凍結。然而,當我導入,導入寬大的

現在把新的錯誤——ModuleNotFoundError:沒有模塊命名“寬大的”。

磚