2022年5月19日更新arjun.kaimaparambilrajan

如何從Python腳本運行SQL查詢

你可能想要訪問你的表外的磚筆記本。除了通過JDBC連接BI工具(AWS | Azure),您還可以通過使用Python腳本訪問表。你可以通過JDBC連接到一個火花集群使用PyHive然後運行一個腳本。你應該PyHive安裝在機器上運行的Python腳本。信息Pytho……

1分鍾的閱讀時間
2022年5月19日更新arjun.kaimaparambilrajan

如何導入一個定製的CA證書嗎

使用Python時,您可能想要導入一個定製的CA證書,以避免端點連接錯誤。ConnectionError: HTTPSConnectionPool(主機= my_server_endpoint,端口= 443):馬克斯重試超過url: /端點(NewConnectionError (“< urllib3.connection所致。VerifiedHTTPSConnection對象在0 x7fb73dc3b3d0 >: t失敗…

1分鍾的閱讀時間
2022年2月25日更新arjun.kaimaparambilrajan

AWS服務失敗,沒有地區提供錯誤

問題你的代碼片段使用AWS服務失敗. lang。IllegalArgumentException:沒有在磚運行時7.0及以上的地區提供錯誤。相同的代碼在磚6.6運行時,下麵的工作。您可以驗證這個問題通過運行示例代碼片段在一個筆記本上。在磚運行時的7.0及以上,它將返回前女友……

0分鍾的閱讀時間
2022年5月19日更新arjun.kaimaparambilrajan

在Python中使用HDFS API來讀取文件

有些時候你想直接讀文件不使用第三方庫。這可以用於閱讀小文件當你定期存儲blob和桶不能作為當地DBFS坐騎。AWS為S3 bucket存儲使用以下示例代碼。% python URI = = sc._gateway.jvm.org.apa sc._gateway.jvm.java.net.URI路徑…

1分鍾的閱讀時間
2022年3月15日更新arjun.kaimaparambilrajan

S3連接重置錯誤

問題您的Apache火花工作失敗當試圖S3操作。造成的錯誤消息:java.net.SocketException:連接重置出現在堆棧跟蹤。堆棧跟蹤例子從一個S3讀操作:由:javax.net.ssl.SSLException:連接重置;請求ID: XXXXX,擴展請求ID: XXXXX,雲提供商:AWS實例,我…

1分鍾的閱讀時間
2022年6月1日更新arjun.kaimaparambilrajan

GeoSpark未定義的函數與DBConnect錯誤

問題你想使用GeoSpark函數st_geofromwkt DBConnect (AWS | Azure | GCP)得到一個Apache引發錯誤消息。錯誤:org.apache.spark.sql。AnalysisException:未定義的功能:“st_geomfromwkt”。這個函數既不是注冊臨時函數也不是一個永久的函數注冊數據庫中的“默認”。T…

1分鍾的閱讀時間
更新5月16日,2022年由arjun.kaimaparambilrajan

在機器學習Python命令失敗集群

問題您正在使用一個磚集群運行時對機器學習和Python的筆記本是失敗的。你日誌中發現一個無效的語法錯誤。SyntaxError:無效語法文件“/ local_disk0 / tmp / 1593092990800 - 0 / PythonShell。py”,第363行def __init__(自我,* args, condaMagicHandler = None, * * kwargs):導致/etc/environmen鍵值……

0分鍾的閱讀時間
2022年3月4日更新arjun.kaimaparambilrajan

設置Apache Hadoop核心位點。xml屬性

你有一個場景,需要設置Apache Hadoop屬性。你在核心位點通常會這樣做。xml文件。在本文中,我們解釋了如何設置核心位點。xml在一個集群中。創建核心位點。xml文件DBFS你需要創建一個核心位點。xml文件並將其保存到DBFS集群。一個簡單的方法來創建這個文件是通過…

1分鍾的閱讀時間
2022年3月4日更新arjun.kaimaparambilrajan

集群經濟放緩由於Ganglia指標填充根分區

注意這篇文章適用於磚運行時7.3 LTS下麵。問題集群開始放緩,可能顯示的結合以下症狀:不健康的集群事件報道:請求超時。司機暫時不可用。Metastore下降。DBFS下降。你看不到任何高GC事件或相關的內存利用率w……

1分鍾的閱讀時間
2022年3月4日更新arjun.kaimaparambilrajan

在init腳本中啟用重試

Init腳本通常用於配置數據磚集群。有些情況你可能想在一個init腳本實現重試。init腳本這個示例init腳本例子向您展示了如何實現一個基本的複製操作重試。您可以使用該示例代碼為基礎實現重試的init腳本。% scala…

0分鍾的閱讀時間
2022年3月4日更新arjun.kaimaparambilrajan

重播Apache引發事件在一個集群中

火花UI是常用的作為火花的調試工具的工作。如果火花UI不可訪問,你可以加載另一個集群的事件日誌和使用事件日誌重播筆記本重播引發事件。警告集群日誌交付在默認情況下不啟用。您必須啟用集群日誌開始您的集群前交貨,否則……

1分鍾的閱讀時間
更新5月16日,2022年由arjun.kaimaparambilrajan

PyPMML失敗找不到py4j jar錯誤

PyPMML問題是一個Python PMML得分圖書館。在安裝PyPMML在磚集群中,不能Py4JError:找不到py4j jar錯誤。%從pypmml python導入模型modelb = Model.fromFile (/ dbfs / shyam / DecisionTreeIris.pmml)錯誤:Py4JError:找不到py4j jar導致這個錯誤發生由於依賴defa……

1分鍾的閱讀時間
2022年5月19日更新arjun.kaimaparambilrajan

Python REPL未能在碼頭工人

問題當你使用一個碼頭工人的容器,包括預先構建的Python庫,Python命令失敗並不是創建虛擬環境。下麵的錯誤消息是可見的在司機日誌。20/02/29 16:38:35警告PythonDriverWrapper:未能開始repl replid - 5 - b591 - 0 - ce42 - 78 - ef3 - 7 . io .IOException:不能運行程序”/ local_disk0 /…

1分鍾的閱讀時間
加載更多