我正在嘗試使用 spacy 獲取文檔中所有標記的引理(即 token.lemma_)。代碼:sentence = 'I'm looking for all of the lemmas. Please help me find them!'
nlp = spacy.load('en', disable=['parser', 'NER])
doc = nlp(sentence)
tokens = [tokens.lemma_ for token in doc]預期結果:['look', 'lemma', 'help', 'find']實際結果:[-PRON-, 'be', 'look', 'all', 'of', 'the', 'lemma', '.', 'please', 'help', '-PRON-', 'find', '-PRON', '!']我是否缺少 spacy 中的某種預處理功能,或者我是否必須單獨進行預處理?我希望在詞形還原之前刪除所有標點符號和停用詞。
1 回答

人到中年有點甜
TA貢獻1895條經驗 獲得超7個贊
您可以使用
>>> [token.lemma_ for token in doc if not token.is_stop and not token.is_punct] ['look', 'lemma', 'help', 'find']
添加了以下部分:
if not token.is_stop
- 如果標記是停用詞and
- 和not token.is_punct
- 如果標記是標點符號,則省略它們。
添加回答
舉報
0/150
提交
取消