我有一個標記化文件,我想使用斯坦福自然語言處理(StanfordNLP)用 POS 和依賴解析標簽來注釋它。我正在使用具有以下配置的 Python 腳本:config = {'processors': 'pos,lemma,depparse','lang': 'de','pos_model_path': './de_gsd_models/de_gsd_tagger.pt','pos_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt','lemma_model_path': './de_gsd_models/de_gsd_lemmatizer.pt','depparse_model_path': './de_gsd_models/de_gsd_parser.pt','depparse_pretrain_path': './de_gsd_models/de_gsd.pretrain.pt}'nlp = stanfordnlp.Pipeline(**config)doc = nlp(text)但是,我收到以下消息:缺失:{'tokenize'} 為此管道提供的處理器列表無效。請確保每個處理器都滿足所有先決條件。是否可以使用 Python 腳本跳過標記化步驟?提前致謝!
1 回答

函數式編程
TA貢獻1807條經驗 獲得超9個贊
您需要包含處理器并包含設置為 的tokenize
屬性。這將假設文本在空格上被標記,并且句子被換行符分割。您還可以傳遞字符串列表的列表,每個列表代表一個句子,條目是標記。tokenize_pretokenized
True
添加回答
舉報
0/150
提交
取消