我有大約 138,000 條用戶反饋記錄,我想對其進行分析,以了解用戶最常說的話的大致模式。每一個的評分都在 1-5 星之間,所以我不需要做任何類型的情感分析。我最感興趣的是將數據集分成 >=4 顆星,看看我們在哪些方面做得很好,以及 <= 3 顆星,看看我們需要改進哪些地方。我遇到的一個關鍵問題是我希望看到很多 n 元語法。其中一些我知道,比如“HOV 車道”、“拼車車道”、“繞道時間”、“讓開”等。但我也想以編程方式檢測常見的二元組和三元組。我一直在玩Spacy,但它似乎沒有任何能力在語料庫級別上進行分析,只能在文檔級別上進行分析。理想情況下,我的管道看起來像這樣(我認為):將已知 n 元語法列表導入到分詞器中將每個字符串處理為標記化文檔,刪除標點符號、停用詞等,同時在標記化期間尊重已知的 n 元語法(即“HOV Lane”應該是單個名詞標記)找出我錯過的語料庫中最常見的二元組和三元組使用找到的 n 元模型重新標記按評級劃分(>=4 和 <=3)查找語料庫中每個數據分割的最常見主題我似乎找不到一個工具,甚至是一組工具,可以讓我在這里做我想做的事情。我是否以某種錯誤的方式處理這個問題?任何有關如何開始的指示將不勝感激!
1 回答

largeQ
TA貢獻2039條經驗 獲得超8個贊
Bingo 為您的問題提供最先進的結果!
它被稱為——零短期學習。最先進的 NLP 模型,用于無需注釋數據的文本分類。
讓我知道它是否適合您或有任何其他幫助。

子衿沉夜
TA貢獻1828條經驗 獲得超3個贊
VADER工具非常適合情感分析和基于 NLP 的應用程序。
我認為建議的工作流程適合本案例研究。與您的特征提取密切合作,因為它非常重要。大多數時候,三元組對于這些用例來說是有意義的。
使用Spacy將是一個更好的決定,因為 SpaCy 基于規則的匹配引擎和組件不僅可以幫助您找到正在搜索的術語和句子,而且還允許您訪問文本內的標記及其與正則表達式相比的關系。
添加回答
舉報
0/150
提交
取消