取消
顯示的結果
而不是尋找
你的意思是:

PythonException:“RuntimeError:在標量輸出迭代器的長度熊貓UDF應該相同的輸入;然而,輸出是1的長度和輸入的長度是2。'。

Ancil
因素二世

pandas_udf,其工作4行,但我試著超過4行得到以下錯誤。

PythonException:“RuntimeError:在標量輸出迭代器的長度熊貓UDF應該相同的輸入;然而,輸出是1的長度和輸入的長度是2。'。

請找到下麵的代碼

data = [{“inputData”:“< html > Tanuj Eina以上。奇比Tanuj年長。Eina比奇。如果第一個2聲明是真的,第三語句”},{:“inputData < html >鋼筆花費超過鉛筆。筆費用不到橡皮擦。橡皮擦的成本比鉛筆和鋼筆。如果前兩個語句是真的,第三個聲明是“},{:“inputData < html >如果我們有n個節點的樹,邊緣會有多少?"},{" inputData”:“< div >下麵哪個數據結構可以處理在log (n)的時間更新和查詢數組?”}]
df = spark.createDataFrame(數據)
#刪除HTML標記從輸入文本@pandas_udf (StringType ()) def clean_html (raw_htmls:迭代器[pd.Series]) (pd - >迭代器。係列:pd.set_option(“顯示。max_colwidth ', 10000)在raw_htmls raw_html: cleanr_regx = re.compile (“<。* ? > | & ((a-z0-9) + | # 0 - 9 {1,6} | # x [0-9a-f] {1,6});”) cleantext = re.sub (cleanr_regx、”“raw_html.to_string(指數= False)) cleantext = re.sub (“+”、“cleantext)收益率pd.Series (cleantext)
df = df.withColumn(“問題”,clean_html (“inputData”))顯示(df)

它的工作好。但是如果我加多一行數據,得到上述錯誤。

data = {”inputData”:“< div >看看這個係列:36歲,34歲,30日,28日,24日…應該下什麼號碼?”},{:“inputData < html > Tanuj Eina以上。奇比Tanuj年長。Eina比奇。如果第一個2聲明是真的,第三語句”},{:“inputData < html >鋼筆花費超過鉛筆。筆費用不到橡皮擦。橡皮擦的成本比鉛筆和鋼筆。如果前兩個語句是真的,第三個聲明是“},{:“inputData < html >如果我們有n個節點的樹,邊緣會有多少?"},{" inputData”:“< div >下麵哪個數據結構可以處理在log (n)的時間更新和查詢數組?”}]

在我的項目從json文件讀取數據,也有同樣的問題,如果其一行工作,但是超過1點相同,

請幫助我,任何一個對同樣的錯誤感到困了一個星期。

集群:11.3 LTS(包括Apache火花3.3.0,Scala 2.12)

1回複1

Ancil
因素二世

@Kaniz Fatma pandas_udf你能幫助我嗎?

以上情況我用正則表達式,我們有火花的方法,但我有其他pandas_udf有同樣的問題。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map