開始
加載和管理數據
處理數據
政府
引用和資源
2023年6月23日更新
給我們反饋
您可以執行自然語言處理任務等磚使用流行的開源庫的火花毫升和spark-nlp或專有庫通過磚與約翰·斯諾合作實驗室。
與擁抱NLP的例子的臉,看到額外的資源
火花毫升包含一係列的文本處理工具來創建特性從文本列。您可以創建從文本輸入功能直接在你的模型訓練算法火花毫升管道用火花毫升。火花毫升支持的範圍文字處理器,包括標記、障礙處理、word2vec散列和特性。
你可以擴展出許多深刻的學習方法對自然語言處理引發使用開源火花NLP庫。該庫支持自然語言處理標準操作,如分詞,命名實體識別,使用包括向量化注釋器。你也可以總結,進行命名實體識別、翻譯,並生成文本使用許多pre-trained深度學習模型的基礎上火花NLP的變形金剛如伯特和T5馬裏昂。
火花NLP提供了許多pre-trained模型可以使用最少的代碼。這部分包含一個例子使用機器翻譯的瑪麗安變壓器。全套的例子,請參閱火花NLP文檔。
用火花NLP,創建或者使用集群運行任何兼容運行時。
安裝火花NLP在集群上使用最新的Maven坐標引發NLP,等com.johnsnowlabs.nlp: spark-nlp_2.12:4.1.0。
com.johnsnowlabs.nlp: spark-nlp_2.12:4.1.0
筆記本電池,安裝sparknlppython庫:
sparknlp
%皮普安裝sparknlp
構造一個管道進行翻譯並運行它在一些示例文本:
從sparknlp.base進口DocumentAssembler從sparknlp.annotator進口SentenceDetectorDLModel,MarianTransformer從pyspark.ml進口管道document_assembler=DocumentAssembler()。setInputCol(“文本”)。setOutputCol(“文檔”)sentence_detector=SentenceDetectorDLModel。pretrained(“sentence_detector_dl”,“xx”)\。setInputCols(“文檔”)。setOutputCol(“句子”)marian_transformer=MarianTransformer。pretrained()\。setInputCols(“句子”)。setOutputCol(“翻譯”)管道=管道()。setStages([document_assembler,sentence_detector,marian_transformer])數據=火花。createDataFrame([[“你可以使用火花NLP翻譯文本。”+\“這個例子管道翻譯英語,法語”]])。toDF(“文本”)#創建一個管道模型,可以跨多個數據幀被重用模型=管道。適合(數據)#你可以使用模型在任何一個“文本”列的數據幀結果=模型。變換(數據)顯示(結果。選擇(“文本”,“translation.result”))
筆記本的例子說明了如何使用火花NLP培訓命名實體識別模型,MLflow保存模型,使用該模型推理在文本。指的是約翰·斯諾為火花NLP實驗室文檔學習如何訓練更多的自然語言處理模型。
在新標簽頁打開筆記本
約翰·斯諾實驗室火花NLP為醫療保健是一個私有庫臨床和生物醫學文本挖掘。這個庫提供pre-trained模型識別和處理臨床實體,藥物,風險因素,解剖學、人口、和敏感數據。你可以試著火花NLP醫療使用合作夥伴連接與約翰·斯諾集成實驗室。你需要與約翰·斯諾實驗室試驗或支付帳戶。閱讀更多關於約翰·斯諾的全部功能實驗室火花NLP醫療和文檔在使用網站。