3 回答
TA貢獻1877條經驗 獲得超1個贊
Q1:“[..]英語詞干器今天有用嗎?因為我們有大量的英語詞法化工具”
是。Stemmers比lemmatizers更簡單,更小,通常更快,對于許多應用,它們的結果足夠好。使用lemmatizer是浪費資源。例如,考慮信息檢索中的維數減少。您可以在搜索到的文檔和查詢中通過driv替換所有驅動器/驅動器。你不介意它是驅動器或DRIV或x17a $只要聚類inflectionally相關詞放在一起。
Q2:“[..]我們應該如何繼續構建強大的引理器,這些引理器可以采用名詞化,verbify,adjectify和adverbify preprocesses?
什么是你的一個引理的定義,它包括推導(驅動 - 驅動程序)或只拐點(驅動器 - 驅動器 - 開)?它是否考慮了語義?
如果你想包括派生(大多數人會說包括修改名詞等),那么請記住,派生比變形更不規則。有很多特質,差距等等。你真的想要改變(改變火車)和改變(作為硬幣)以獲得相同的引理嗎?如果沒有,你在哪里繪制邊界?如何神經 - 失去勇氣,地球 - 墳 - 世人,......這真的取決于應用程序。
如果你考慮到語義(根據具體情況,銀行會被標記為銀行貨幣或銀行河流),你有多深(你是否將銀行機構與銀行建設區分開來)?有些應用程序可能根本不關心這個問題,有些應用程序可能想要區分基本語義,有些可能希望它被罰款。
問題3:“如何將詞形還原任務輕松擴展到與英語具有相似形態結構的其他語言?”
“與英語相似的形態結構”是什么意思?英語的屈折形態非常少。對于其他形態類型的語言(真正的屈折,凝聚,模板......),有很好的詞形推理器。
除了粘合語言之外,我認為查找表(比如壓縮的trie)是最好的解決方案。(可能有一些未知單詞的備份規則,如專有名稱)。查找之后是某種消歧(范圍從微不足道 - 采取第一個,或采取與POS標簽一致的第一個,更復雜)。更復雜的消歧通常是監督的隨機算法(例如TreeTagger或更快),盡管機器學習和手動創建的規則的組合也已經完成(參見例如此)。
顯然,對于大多數語言,您不希望手動創建查找表,而是根據該語言的形態描述生成查找表。對于屈折語言,你可以采用捷克語的Hajic或俄語的Mikheev的工程方式,或者,如果你大膽,你可以使用兩級形態學。或者您可以在兩者之間做一些事情,例如Hana(我自己)(請注意,這些都是包含詞形還原的完整形態分析器)。或者你可以用無人監督的方式學習變形器 a yarowsky和Wicentowski,可能需要手動后處理,糾正最頻繁的單詞。
有太多的選擇,它實際上取決于你想要對結果做什么。
TA貢獻1799條經驗 獲得超6個贊
詞干或詞形還原的一個經典應用是搜索引擎結果的改進:通過對查詢以及(在索引之前)對所有索引的索引應用詞干(或詞形還原),搜索“擁有”的用戶能夠找到包含“has”的結果。
(可以說,動詞在大多數搜索查詢中有點不常見,但同樣的原則適用于名詞,特別是在具有豐富名詞形態的語言中。)
出于搜索結果改進的目的,干(或引理)是否有意義(“有”)或不有(“hav”)實際上并不重要。它只需要能夠代表有問題的詞及其所有的屈折形式。事實上,有些系統使用數字或其他類型的id-strings而不是詞干或引理(或基本形式或任何它可能被稱為)。
因此,這是一個應用程序的示例,其中詞干分析器(根據您的定義)與詞形變換器一樣好。
但是,我并不完全相信你的(隱含的)“詞干分子”和“詞形變換器”的定義是普遍接受的。我不確定這些術語是否有普遍接受的定義,但我定義它們的方式如下:
Stemmer:使用已知后綴的規則和列表,將屈折形式減少為詞干或基本形式的函數。
Lemmatizer:一個執行相同縮減的函數,但使用全面的完整形式字典來處理不規則形式。
基于這些定義,一個詞形變換器本質上是一個更高質量(也更昂貴)的詞干分析器版本。
- 3 回答
- 0 關注
- 653 瀏覽
添加回答
舉報
