亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何將斯坦福NLP 工具(POSTagger 和 Parser)與已標記化的文件一起使用?

如何將斯坦福NLP 工具(POSTagger 和 Parser)與已標記化的文件一起使用?

富國滬深 2023-07-05 17:55:50
我有一個標記化文件,我想使用斯坦福自然語言處理(StanfordNLP)用 POS 和依賴解析標簽來注釋它。我正在使用具有以下配置的 Python 腳本:config = {'processors': 'pos,lemma,depparse','lang': 'de','pos_model_path': './de_gsd_models/de_gsd_tagger.pt','pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt','lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt','depparse_model_path': './de_gsd_models/de_gsd_parser.pt','depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'nlp = stanfordnlp.Pipeline(**config)doc = nlp(text)但是,我收到以下消息:缺失:{'tokenize'} 為此管道提供的處理器列表無效。請確保每個處理器都滿足所有先決條件。是否可以使用 Python 腳本跳過標記化步驟?提前致謝!
查看完整描述

1 回答

?
函數式編程

TA貢獻1807條經驗 獲得超9個贊

您需要包含處理器并包含設置為 的tokenize屬性。這將假設文本在空格上被標記,并且句子被換行符分割。您還可以傳遞字符串列表的列表,每個列表代表一個句子,條目是標記。tokenize_pretokenizedTrue

查看完整回答
反對 回復 2023-07-05
  • 1 回答
  • 0 關注
  • 133 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號