取消
顯示的結果
而不是尋找
你的意思是:

通過Azure毫升CountVectorizer不再工作

dsiu
新的貢獻者二世

你好。我試圖使用CountVectorizer模塊作為我們的工程特性的一部分。它直接作用於磚的筆記本,但是當我試著運行代碼通過Azure磚連接,它將拋出一個錯誤。這不是我第一次與CountVectorizer有一個問題。最奇怪的是,同樣的代碼工作直到上周四(07/28)。我已經嚐試以下解決以前的問題。

  1. 推出一個新的幹淨的集群
  2. 變化的火花。序列化器回到默認,因為kyro序列化程序導致的問題
  3. 改變各種spark-defaults.conf

有些事情我的搜索建議我還沒試過哦

  1. 恢複Java 11 - > Java 8
  2. Python序列化器

提前感謝您的幫助!

代碼:

從pyspark.ml。功能導入CountVectorizer df =火花。createDataFrame ([(“A”, [A, b]), (“b”, [A]), (“C”, [A, b ' C ']), (“D”, [' D ']), (“E”, [A, b ' C ']),], [“ID”,“類別”])簡曆= CountVectorizer (inputCol =“類別”,outputCol =“向量”)模型= cv.fit (df) model.transform (df),告訴()

控製台輸出和錯誤:

22/08/01 13:10:39警告跑龍套:設置SPARK_LOCAL_IP如果需要綁定到另一個地址警告:一個非法反射訪問操作發生警告:非法org.apache.spark.unsafe反射訪問。Beplay体育安卓版本平台(文件:/蟒蛇/ env / major_medical_env_adb_py38 / lib / python3.8 /網站/ pyspark /罐/ spark-unsafe_2.12-3.1.1-SNAPSHOT.jar),構造函數java.nio.DirectByteBuffer(長,int)警告:請考慮報告這org.apache.spark.unsafe的維護者。Beplay体育安卓版本平台警告:使用——非法存取=警告,使進一步的警告非法反射訪問操作警告:所有非法訪問操作將在將來的版本否認22/08/01 13:10:40 NativeCodeLoader警告:無法加載native-hadoop庫為您的平台……使用builtin-java類,適用的使用引發的違約log4j配置文件:org/apache/spark/log4j-defaults。屬性默認日誌級別設置為“警告”。調整日誌級別使用sc.setLogLevel(中的)。對於SparkR,使用setLogLevel(中的)。22/08/01 13:10:41警告MetricsSystem:使用默認名稱SparkStatusTracker因為無論是spark.metrics.namespace還是spark.app來源。id被設置。回溯(最近的電話最後):test_sparse_adb_bare文件”。py”第14行,在<模塊>模型= cv.fit (df)文件“/蟒蛇/ env / major_medical_env_adb_py38 / lib / python3.8 /網站/ pyspark /毫升/基地。py”, 161行,在適合返回self._fit(數據)文件“/蟒蛇/ env / major_medical_env_adb_py38 / lib / python3.8 /網站/ pyspark /毫升/包裝。py”, 335行,在_fit java_model = self._fit_java(數據)文件“/蟒蛇/ env / major_medical_env_adb_py38 / lib / python3.8 /網站/ pyspark /毫升/包裝。py", line 332, in _fit_java return self._java_obj.fit(dataset._jdf) File "/anaconda/envs/major_medical_env_adb_py38/lib/python3.8/site-packages/py4j/java_gateway.py", line 1304, in __call__ return_value = get_return_value( File "/anaconda/envs/major_medical_env_adb_py38/lib/python3.8/site-packages/pyspark/sql/utils.py", line 117, in deco return f(*a, **kw) File "/anaconda/envs/major_medical_env_adb_py38/lib/python3.8/site-packages/py4j/protocol.py", line 326, in get_return_value raise Py4JJavaError( py4j.protocol.Py4JJavaError: An error occurred while calling o41.fit. : java.io.StreamCorruptedException: invalid type code: 01

1回複1

Noopur_Nigam
重視貢獻二世

嗨@Danny Siu dbconnect請檢查您使用的是最新版本的DBR版本,您正在使用的磚集群。你可以在這裏檢查最新的dbr版本:https://pypi.org/project/databricks-connect/曆史

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map