亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

我是否缺少 spaCy 詞形還原中的預處理功能?

我是否缺少 spaCy 詞形還原中的預處理功能?

翻閱古今 2023-10-06 11:00:03
我正在嘗試使用 spacy 獲取文檔中所有標記的引理(即 token.lemma_)。代碼:sentence = 'I'm looking for all of the lemmas. Please help me find them!' nlp = spacy.load('en', disable=['parser', 'NER]) doc = nlp(sentence) tokens = [tokens.lemma_ for token in doc]預期結果:['look', 'lemma', 'help', 'find']實際結果:[-PRON-, 'be', 'look', 'all', 'of', 'the', 'lemma', '.', 'please', 'help', '-PRON-', 'find', '-PRON', '!']我是否缺少 spacy 中的某種預處理功能,或者我是否必須單獨進行預處理?我希望在詞形還原之前刪除所有標點符號和停用詞。
查看完整描述

1 回答

?
人到中年有點甜

TA貢獻1895條經驗 獲得超7個贊

您可以使用

>>> [token.lemma_ for token in doc if not token.is_stop and not token.is_punct]
['look', 'lemma', 'help', 'find']

添加了以下部分:

  • if not token.is_stop- 如果標記是停用詞

  • and- 和

  • not token.is_punct - 如果標記是標點符號,則省略它們。


查看完整回答
反對 回復 2023-10-06
  • 1 回答
  • 0 關注
  • 102 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號