如何使用SparkNLP圖書館和JohnSnowLabs maven……-磚- 9087

ssy · ‎02-19-2023

你好,

我在SparkNLP圖書館的第一次。我使用集群是企業和不能連接到互聯網。我隻能下載包提供給我們或通過使用jar文件。

我三個問題:

什麼jar文件我需要安裝SparkNLP圖書館為NLP的工作。我將需要伯特變壓器和編碼器以及其他包使用SparkNLP庫尼珥工作所需。
我如何添加適當的johnsnowlabsmaven坐標和jar文件到我的集群的時候沒有連接到互聯網
如何引用這些庫安裝在我的筆記本上運行的集群包安裝嗎

謝謝!

Kaniz · ‎02-20-2023

嗨@Samy Syed,

火花NLP圖書館和所有pretrained模型/管道完全可以使用離線沒有互聯網接入。假設你是在代理或防火牆沒有訪問到Maven存儲庫(下載包)或/和沒有訪問S3(自動下載模型和管道)。在這種情況下,您可以簡單地按照說明火花NLP離線沒有任何限製:

而不是使用Maven的包,你需要加載F / JAR
而不是使用PretrainedPipeline pretrained管道或.pretrained()函數來下載pretrained模型,您必須手動下載你的管道/模型模型中心,將其解壓縮,並加載它。

的例子與F / SparkSession JAR火花NLP離線:

火花= SparkSession。構建器\ .appName(火花NLP) \部分(“地方[*]”)\ config (“spark.driver.memory”、“16 g”) \ config (“spark.driver。maxResultSize”、“0”) \ config (“spark.kryoserializer.buffer.max”,“2000”) \ config(“火花。瓶”、“/ tmp / spark-nlp-assembly-4.3.0.jar”) \ .getOrCreate ()

你可以下載提供了F /從每個jar發行通知;請注意選擇適合您的環境的一個根據設備(CPU / GPU)和Apache火花™版本(3。x)
如果你是本地的,您可以從您的本地文件係統加載的F / JAR;然而,如果你是在一個集群的設置中,您需要把F / JAR分布式文件係統上,如HDFS DBFS, S3,等等(即。hdfs: / / / tmp / spark-nlp-assembly-4.3.0.jar)

使用pretrained模型和管道離線的例子:

#而不是使用pretrained()在線:# french_pos = PerceptronModel。pretrained (“pos_ud_gsd lang =“fr”) #你下載這個模型,提取,並使用.load french_pos = PerceptronModel.load (“/ tmp / pos_ud_gsd_fr_2.0.2_2.4_1556531457346 /”) \ .setInputCols(“文檔”,“令牌”)\ .setOutputCol (pos) #管道的示例#而不是使用PretrainedPipeline #管道= PretrainedPipeline (explain_document_dl, lang = en) #你下載這個管道,提取,使用PipelineModel PipelineModel.load (“/ tmp / explain_document_dl_en_2.0.2_2.4_1556530585689 /”)

因為你是手動下載和加載模型/管道、火花NLP不是下載最新的和兼容的模型/管道。選擇合適的模型/管道。
如果你是本地的,您可以從您的本地文件係統加載模型/管道;然而,如果你是在一個集群的設置中,您需要將模型/管道分布式文件係統上,如HDFS DBFS, S3,等等(即。hdfs: / / / tmp / explain_document_dl_en_2.0.2_2.4_1556530585689 /)

源

Vidula_Khanna · ‎04-21-2023

嗨@Samy Syed

希望一切進行得很順利。

隻是想檢查如果你能解決你的問題。如果是的,你會很高興的答案標記為最好,其他成員可以找到解決方案更快嗎?如果不是,請告訴我們,我們可以幫助你。

幹杯!

磚

如何使用SparkNLP圖書館和JohnSnowLabs maven坐標集群不連接網絡嗎