首頁猿問如何判斷句子中是否提到了主題？-自...

如何判斷句子中是否提到了主題？-自然語言處理

Python

慕桂英546537 2023-10-11 16:11:44

我對 NLP 還很陌生，我正在尋找最適合我的問題的解決方案。為了簡單起見，我想從標題創建一個“標簽列表”。標簽是預定義的，我可以輕松標記訓練示例。簡單的例子：格式“示例句子”-“示例標簽列表”“世界上最大的大象”——【動物】“我喜歡芒果和大猩猩” - [動物、水果]“我有 3 只貓和 4 只狗” - [動物]“我患有糖尿病” - [疾病]“我沒有糖尿病，但我有一只貓” - [動物]我不需要標簽的具體值例如tags = { Animal: Elephant }和一樣有用tags = [Animals]我可以找到提取實體的唯一解決方案。我只想出了一個匹配器的構建列表，然后嘗試所有這些，有什么聰明且高性能的方法來做到這一點嗎？感謝您的任何建議、提示和資源，祝您有美好的一天:)

查看完整描述

2 回答

慕桂英3389331

TA貢獻2036條經驗獲得超8個贊

您可以構建自己的自定義分類器（按照 polm23 的建議），但考慮到您是 NLP 新手，這可能過于復雜且耗時。

一種令人興奮的新方法是所謂的“零樣本分類”。這基本上意味著您采用其他人以非常通用的方式預先訓練的通用機器學習模型進行文本分類，并且您只需將其應用到您的特定用例，而無需訓練/微調它。

具體應用于您的用例，這看起來像這樣：

# pip install transformers==3.1.0? # pip install in terminal

from transformers import pipeline

classifier = pipeline("zero-shot-classification")

sequence = "The biggest elephant in the world"

candidate_labels = ["animals", "fruits", "diseases"]

classifier(sequence, candidate_labels)

# output: {'sequence': 'The biggest elephant in the world',?

# 'labels': ['animals', 'diseases', 'fruits'],?

# 'scores': [0.9948041439056396, 0.0035726651549339294, 0.0016232384368777275]}

如果您希望算法為文本分配多個標簽，您可以激活多標簽分類，它會為每個文本考慮多個標簽。

sequence = "I like mangos and gorillas"

candidate_labels = ["animals", "fruits", "diseases"]

classifier(sequence, candidate_labels, multi_class=True)

# output: {'sequence': 'I like mangos and gorillas',?

# 'labels': ['animals', 'fruits', 'diseases'],?

# 'scores': [0.9978452920913696, 0.989518404006958, 0.00015786082076374441]}

=>用你的話來說：它為每個文本“創建一個‘標簽列表’”。即對于每個預定義標簽，它提供一個置信度分數，然后您可以為“真實標簽列表”選擇具有最高置信度分數的標簽。

我測試了它，實際輸出在上面的代碼中。它對所有內容進行了正確分類:)

它在其他用例上進行了嘗試，雖然不是 100% 準確，但它相當不錯，因為代碼非常簡單，而且您不必自己訓練模型。

反對回復 2023-10-11

PIPIONE

TA貢獻1829條經驗獲得超9個贊

你要做的就是所謂的多標簽分類。您的“標簽”是labels，每個文檔可以有多個標簽。

實現此目的的典型方法是為每個標簽訓練二元分類器，然后將預測中高于閾值的標簽視為陽性。

spaCy 支持多標簽分類。

反對回復 2023-10-11

2 回答
0 關注
153 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

如何判斷句子中是否提到了主題？-自然語言處理

如何判斷句子中是否提到了主題？-自然語言處理

2 回答

添加回答

如何判斷句子中是否提到了主題？-自然語言處理