1 回答

TA貢獻1951條經驗 獲得超3個贊
自然語言處理(簡稱NLP),是研究計算機處理人類語言的一門技術,包括:
1.句法語義分析:對于給定的句子,進行分詞、詞性標記、命名實體識別和鏈接、句法分析、語義角色識別和多義詞消歧。
2.信息抽?。簭慕o定文本中抽取重要的信息,比如,時間、地點、人物、事件、原因、結果、數字、日期、貨幣、專有名詞等等。通俗說來,就是要了解誰在什么時候、什么原因、對誰、做了什么事、有什么結果。涉及到實體識別、時間抽取、因果關系抽取等關鍵技術。
3.文本挖掘(或者文本數據挖掘):包括文本聚類、分類、信息抽取、摘要、情感分析以及對挖掘的信息和知識的可視化、交互式的表達界面。目前主流的技術都是基于統計機器學習的。
4.機器翻譯:把輸入的源語言文本通過自動翻譯獲得另外一種語言的文本。根據輸入媒介不同,可以細分為文本翻譯、語音翻譯、手語翻譯、圖形翻譯等。機器翻譯從最早的基于規則的方法到二十年前的基于統計的方法,再到今天的基于神經網絡(編碼-解碼)的方法,逐漸形成了一套比較嚴謹的方法體系。
5.信息檢索:對大規模的文檔進行索引。可簡單對文檔中的詞匯,賦之以不同的權重來建立索引,也可利用1,2,3的技術來建立更加深層的索引。在查詢的時候,對輸入的查詢表達式比如一個檢索詞或者一個句子進行分析,然后在索引里面查找匹配的候選文檔,再根據一個排序機制把候選文檔排序,最后輸出排序得分最高的文檔。
6.問答系統: 對一個自然語言表達的問題,由問答系統給出一個精準的答案。需要對自然語言查詢語句進行某種程度的語義分析,包括實體鏈接、關系識別,形成邏輯表達式,然后到知識庫中查找可能的候選答案并通過一個排序機制找出最佳的答案。
7.對話系統:系統通過一系列的對話,跟用戶進行聊天、回答、完成某一項任務。涉及到用戶意圖理解、通用聊天引擎、問答引擎、對話管理等技術。此外,為了體現上下文相關,要具備多輪對話能力。同時,為了體現個性化,要開發用戶畫像以及基于用戶畫像的個性化回復。
隨著深度學習在圖像識別、語音識別領域的大放異彩,人們對深度學習在NLP的價值也寄予厚望。再加上AlphaGo的成功,人工智能的研究和應用變得炙手可熱。自然語言處理作為人工智能領域的認知智能,成為目前大家關注的焦點。很多研究生都在進入自然語言領域,寄望未來在人工智能方向大展身手。但是,大家常常遇到一些問題。俗話說,萬事開頭難。如果第一件事情成功了,學生就能建立信心,找到竅門,今后越做越好。否則,也可能就灰心喪氣,甚至離開這個領域。這里針對給出我個人的建議,希望我的這些粗淺觀點能夠引起大家更深層次的討論。
- 1 回答
- 0 關注
- 1243 瀏覽
添加回答
舉報