作為未來科技發(fā)展的前沿領域,人工智能在技術應用方面有很多細分領域,比如深度學習、推薦引擎、計算機視覺、智能機器人、自然語言處理、實時語音翻譯、視覺內(nèi)容自動識別等。其中的自然語言處理,是人工智能領域中的一個重要方向。從整體來看,人工智能自然語言處理推動著語言智能的持續(xù)發(fā)展和快速突破,并越來越多地應用于各個行業(yè)。
綜合來看,自然語言處理是人工智能的一種應用程序,它為需要快速可靠地分析文本數(shù)據(jù)的公司提供了各種各樣的應用程序。這有效地實現(xiàn)了人機交互,并允許對以前未使用的大量數(shù)據(jù)進行分析、格式化。
從2008年到現(xiàn)在,在圖像識別和語音識別領域的成果激勵下,人們也逐漸開始引入深度學習來做自然語言處理研究,由最初的詞向量到2013年word2vec,將深度學習與自然語言處理的結合推向了高潮。
近兩年,人工智能自然語言處理已實現(xiàn)的應用包括機器翻譯、信息檢索、智能問答系統(tǒng)。在智能問答方面,借助人工智能自然語言處理,人們能夠精確地分析用戶所需要的知識,通過與用戶交互,為用戶提供個性化、實時性的信息服務。例如,瀏覽知乎時,會有相關問答推送、熱點詞、焦點問題排行等。
企業(yè)進軍人工智能自然語言處理領域,也為相關產(chǎn)業(yè)發(fā)展注入了更多活力,百度就是其中之一。當前,百度不僅在自然語言處理技術和產(chǎn)業(yè)應用中取得豐碩成果,更秉承開源開放、合作共贏的理念,構建了以飛槳深度學習平臺為基礎、集成語言與知識核心技術及多樣化場景解決方案的開源開放大生產(chǎn)平臺,這就為廣大開發(fā)者技術創(chuàng)新提供了相應支持。
放眼國外,在閱讀理解領域,斯坦福大學于2016年通過Amazon眾包平臺建立了基于維基百科的數(shù)據(jù)集SQuAD,Microsoft亞洲研究院于2016年開放了基于必應搜索記錄的數(shù)據(jù)集MSMARCO。
在醫(yī)療領域,基于云端平臺,使用人工智能和自然語言處理,實時為患者護理過程中的關鍵算法提供支持。基于集成電子健康記錄的軟件,并直接在照顧病患的當下使用預測建模、機器學習、臨床NLP和人工智能就可以輔助醫(yī)療人員進行實時決策。
有分析人士指出,面對當前人工智能自然語言處理模型規(guī)模與計算機算力需求的日益增長,軟件和計算機硬件層面的協(xié)同創(chuàng)新具有重大意義。多模態(tài)融合的核心模態(tài),應由具體的任務所決定,自然語言可視為符號系統(tǒng)。但如果不探究符號所表示的實際對象,將很難學習符號潛在本質(zhì)。
隨著人類進入智能時代,智能設備和各類數(shù)據(jù)數(shù)量都快速增長。自然語言處理領域經(jīng)過多年發(fā)展,雖然取得了長足的進步但同時也面臨很多挑戰(zhàn),其中最主要的主要問題有兩個:即語義理解(知識、常識的學習問題)和低資源問題。
面對標注數(shù)據(jù)資源貧乏的問題,比如客服系統(tǒng)、小語種的機器翻譯、特定領域?qū)υ捪到y(tǒng)、多輪問答系統(tǒng)等,自然語言處理尚無通用的高效解決辦法。而要想攻克相關難題,還需要一定的時間。
自然語言處理是人工智能禮帽上的明珠,而填補語言鴻溝的機器翻譯則是自然語言處理十分典型的應用技術之一。機器翻譯的發(fā)展從剛開始運用規(guī)則系統(tǒng),到統(tǒng)計的機器學習方法,后又解決算法、算力等各方面的問題,不斷邁上新臺階。
隨著技術的快速發(fā)展,人們會越來越深入地理解自然語言、掌握知識,推動人工智能技術發(fā)揮更大的價值,以此為社會進步和產(chǎn)業(yè)發(fā)展提供更多的推動力。