亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

我該如何詞干或詞法去除?

我該如何詞干或詞法去除?

撒科打諢 2019-12-09 09:26:50
我已經嘗試過PorterStemmer和Snowball,但都無法使用所有單詞,缺少一些非常常見的單詞。我的測試詞是:“ 貓跑了仙人掌仙人掌社區仙人掌 ”,并且兩人都獲得了不到一半的權利。
查看完整描述

3 回答

?
湖上湖

TA貢獻2003條經驗 獲得超2個贊

我使用斯坦福大學nlp進行詞條還原。最近幾天,我一直在遇到類似的問題。感謝stackoverflow幫助我解決問題。


import java.util.*; 

import edu.stanford.nlp.pipeline.*;

import edu.stanford.nlp.ling.*; 

import edu.stanford.nlp.ling.CoreAnnotations.*;  


public class example

{

    public static void main(String[] args)

    {

        Properties props = new Properties(); 

        props.put("annotators", "tokenize, ssplit, pos, lemma"); 

        pipeline = new StanfordCoreNLP(props, false);

        String text = /* the string you want */; 

        Annotation document = pipeline.process(text);  


        for(CoreMap sentence: document.get(SentencesAnnotation.class))

        {    

            for(CoreLabel token: sentence.get(TokensAnnotation.class))

            {       

                String word = token.get(TextAnnotation.class);      

                String lemma = token.get(LemmaAnnotation.class); 

                System.out.println("lemmatized version :" + lemma);

            }

        }

    }

}

如果停用詞稍后在分類器中使用,則最好使用停用詞來最小化輸出引理。請看一下John Conwell編寫的coreNlp擴展。


查看完整回答
反對 回復 2019-12-09
?
慕姐4208626

TA貢獻1852條經驗 獲得超7個贊

我在這個雪球演示網站上嘗試了您的術語列表,結果看起來還不錯。...


貓->貓

運行->運行

跑->跑

仙人掌->仙人掌

仙人掌->仙人掌

社區->社區

社區->社區

詞干被認為可以將詞的變形形式轉化為某些共同的詞根。使該詞根成為“適當的”字典詞并不是真正的工作。為此,您需要查看形態/正交分析儀。


我認為這個問題或多或少是同一件事,而Kaarel對這個問題的回答是我從第二個鏈接中獲得的。


查看完整回答
反對 回復 2019-12-09
  • 3 回答
  • 0 關注
  • 517 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號