你好,
我在SparkNLP圖書館的第一次。我使用集群是企業和不能連接到互聯網。我隻能下載包提供給我們或通過使用jar文件。
我三個問題:
謝謝!
嗨@Samy Syed,
火花NLP圖書館和所有pretrained模型/管道完全可以使用離線沒有互聯網接入。假設你是在代理或防火牆沒有訪問到Maven存儲庫(下載包)或/和沒有訪問S3(自動下載模型和管道)。在這種情況下,您可以簡單地按照說明火花NLP離線沒有任何限製:
的例子與F / SparkSession JAR火花NLP離線:
火花= SparkSession。構建器\ .appName(火花NLP) \部分(“地方[*]”)\ config (“spark.driver.memory”、“16 g”) \ config (“spark.driver。maxResultSize”、“0”) \ config (“spark.kryoserializer.buffer.max”,“2000”) \ config(“火花。瓶”、“/ tmp / spark-nlp-assembly-4.3.0.jar”) \ .getOrCreate ()
使用pretrained模型和管道離線的例子:
#而不是使用pretrained()在線:# french_pos = PerceptronModel。pretrained (“pos_ud_gsd lang =“fr”) #你下載這個模型,提取,並使用.load french_pos = PerceptronModel.load (“/ tmp / pos_ud_gsd_fr_2.0.2_2.4_1556531457346 /”) \ .setInputCols(“文檔”,“令牌”)\ .setOutputCol (pos) #管道的示例#而不是使用PretrainedPipeline #管道= PretrainedPipeline (explain_document_dl, lang = en) #你下載這個管道,提取,使用PipelineModel PipelineModel.load (“/ tmp / explain_document_dl_en_2.0.2_2.4_1556530585689 /”)