我不確定如何解決以下問題,我正在尋找一些指導:我有一個文件,其中每行包含一個隨機廣告標題。我需要做的是將每個標題分類為smartphone或not-smartphone,具體取決于廣告是否銷售手機。很抱歉文件不是英文的,但這里有一張截圖顯示了它的一點點: 完整文件在這里我遇到的問題:一些廣告標題與智能手機有關,但它們實際上并不是在銷售手機,而是與其相關的東西(配件)。示例:銷售 Iphone X 手機殼的廣告有些廣告標題甚至沒有手機品牌,只有型號。示例:“白色小米 Mi Mix 2s Global 64GB”或“J7 Pro 64gb 4g J730”。如果有一種方法可以從標題中提取準確的手機型號,那就太完美了,但是由于每個廣告標題的格式不同,我找不到方法來做到這一點。通常品牌會生產多種產品,而智能手機只是其中一種產品。因此,當我按品牌名稱過濾時,它通常會返回與智能手機(平板電腦、電視、充電器等)完全無關的廣告。需要更多過濾即使允許我使用它,我也找不到包含所有智能手機型號列表的數據庫,或者我不知道如何從中檢索信息。到目前為止我的想法是:如果我可以訪問包含大量智能手機型號的數據庫,我可以直接在文件中搜索每個型號名稱(例如“Iphone 5s”或“Moto G6”)。我嘗試使用 FonoAPI https://fonoapi.freshpixl.com(這是一個智能手機數據庫,用于使用 java、php 等查詢有關手機的數據)來搜索特定品牌的智能手機型號,但 api 只會返回一個最大值每次 100 個結果。所以為了使用它,我需要從標題中提取產品型號名稱,這樣我就可以檢查它是否列在 FonoAPI 數據庫中因此,由于文件中的每個廣告標題的格式都不同,我正在尋找有關如何執行此操作的一些想法,因為我找不到從標題中提取產品模型以與 FonoAPI 數據庫進行比較的方法,兩者都無法訪問一些包含大量模型的大數據庫直接在文件中查找它們。
1 回答

holdtom
TA貢獻1805條經驗 獲得超10個贊
我的回答不是很準確,更像是我想提出的想法(因為我喜歡這個問題并且很樂意得到文件,似乎不可能從你的鏈接中得到它)。
首先,對于所有 NLP 問題,您需要確保所有文本的格式都相同。
獲取手機型號數據庫。我會嘗試獲取包含手機品牌的數據庫。然后去一個銷售網站做網頁抓取。這樣你會得到很多手機型號。
我會嘗試使用像 LDA 這樣的 NLP 模型,但使用另一種格式化方式(比如在 gb 和手機品牌之后去掉超出限制的詞。我們希望所有的手機都接近這些詞)。
這可能是愚蠢的想法,但我想分享(我不能評論 :D)。
添加回答
舉報
0/150
提交
取消