什么是百度的技術(shù)基石?自然語言處理

作者微博@互聯(lián)網(wǎng)阿超,微信SuperSofter
百度是中國最具技術(shù)基因的互聯(lián)網(wǎng)企業(yè),一定程度可以說技術(shù)是其根基。中文搜索、知識(shí)圖譜、大數(shù)據(jù)、自然語言處理、智能廣告等細(xì)分技術(shù)已成為百度獨(dú)有優(yōu)勢,所有這些技術(shù)的基石又是什么呢?答案或許是NLP:自然語言處理。
NLP是搜索引擎的技術(shù)之本
搜索引擎最基本的模式是自動(dòng)化地聚合足夠多的“內(nèi)容”,對之進(jìn)行解析、處理和組織,響應(yīng)用戶的搜索請求找到對應(yīng)結(jié)果返回。每一個(gè)環(huán)節(jié),都需要用到自然語言處理。
爬取網(wǎng)頁時(shí)要分析HTML頁面以及處理爬取到的網(wǎng)頁內(nèi)容時(shí),需要對起進(jìn)行解析、分詞、變換等,這十分依賴自然語言處理技術(shù)。搜索引擎要聽懂用戶的“人話”,用戶的搜索請求又是千奇百怪的,關(guān)鍵詞組合的方式越來越少,直接用自然語言搜索已成為不少人的習(xí)慣,人們更傾向于搜索“廣州到北京的航班信息”而不是“廣州 北京 航班”,因此搜索引擎必須理解用戶意圖才可以幫助其去找到準(zhǔn)確答案。
每一個(gè)環(huán)節(jié)自然語言處理都十分重要。這是NLP技術(shù)致力于解決的問題。自然語言處理(Natural Language Processing:NLP)是計(jì)算機(jī)科學(xué)、人工智能以及語言學(xué)的交叉學(xué)科,旨在解決計(jì)算機(jī)與人類語言之間的交互問題,這其中包括對自然語言的分析、理解、生成、檢索、變換及翻譯等方面。
不只是搜索本身,搜索引擎衍生產(chǎn)品大都會(huì)應(yīng)用到NLP技術(shù)。譬如百度、Google均提供的翻譯服務(wù)就是最經(jīng)典的自然語言應(yīng)用,它可以智能化地翻譯大段文章,支持多種語言之間的互相翻譯。還有百度知道,它可以智能化地識(shí)別相似的問題避免用戶重復(fù)提問。再比如Siri掀起的語音助手浪潮最后反而被百度、Google等搜索玩家搶得先機(jī),就是因?yàn)樗阉饕娓瞄L于NLP技術(shù),百度語音助手和Google Now在中文和英文語音領(lǐng)域表現(xiàn)都比Siri更為突出。
總之,搜索引擎連接人與信息,它要能幫助人們更加高效地獲取信息就必須學(xué)會(huì)像人類一樣去讀取信息,它要能夠理解人們對信息的需求就需要去聽懂“人話”,這都注定了NLP技術(shù)將成為搜索引擎的技術(shù)之本。
無處不在的NLP讓百度更智能
百度從第一天處理用戶的第一次搜索開始便開始應(yīng)用NLP技術(shù)。十多年來,百度的用戶數(shù)已經(jīng)超過5億,百度公司員工規(guī)模超過3萬人,百度市值則逼近1000億美金。伴隨著百度的快速發(fā)展,百度NLP團(tuán)隊(duì)在同步地、甚至更快地發(fā)展壯大,NLP技術(shù)本身也在發(fā)生著劇變,但總的來說,就是它幫助百度變得更加聰明。
2010年春,國際頂級(jí)自然語言處理專家王海峰博士加盟百度后,對百度NLP的工作進(jìn)行了重新梳理與規(guī)劃,除分詞、專名識(shí)別、query需求分析、query改寫等傳統(tǒng)方向得到加強(qiáng)外,拓展了機(jī)器翻譯、機(jī)器學(xué)習(xí)、語義搜索、語義理解、智能交互、深度問答、篇章理解等新的技術(shù)方向。現(xiàn)在NLP團(tuán)隊(duì)已經(jīng)由當(dāng)初僅10余人發(fā)展成為今天超過200人規(guī)模的團(tuán)隊(duì),操盤手正是王海峰博士。因?yàn)槔碚撛煸勔约霸诎俣鹊墓こ虒?shí)踐成就,王海峰成為自然語言處理領(lǐng)域世界上影響力最大的國際學(xué)術(shù)組織ACL(Association for Computational Linguistics)50多年歷史上唯一華人主席。
現(xiàn)在NLP團(tuán)隊(duì)的技術(shù)正應(yīng)用在百度的方方面面。
搜索引擎是NLP技術(shù)最大的用武之地。相比當(dāng)年用戶需要學(xué)習(xí)如何使用搜索引擎而言,今天的用戶完全可以直接輸入任何想到的需求或者問題,甚至直接通過話筒向百度語音助手提問。譬如用戶可以搜“天氣”、“日歷”、“機(jī)票”、“匯率”這樣的模糊需求,百度會(huì)直接在搜索結(jié)果呈現(xiàn)結(jié)果。再比如用戶可以搜索“5000港幣是多少人民幣”百度結(jié)果中會(huì)直接呈現(xiàn)一個(gè)計(jì)算器。用戶還可以搜索“演過還珠格格的臺(tái)灣演員”“張柏芝的兒子的爺爺是誰”這樣的復(fù)雜問題,百度都可以準(zhǔn)確地回答。
基于知識(shí)圖譜技術(shù)的“百度知心”同樣處處用到NLP技術(shù)。知識(shí)圖譜是讓搜索引擎結(jié)果可以聯(lián)想出更多相關(guān)結(jié)構(gòu)化信息技術(shù),百度結(jié)果頁面右側(cè)的結(jié)構(gòu)化信息便是知識(shí)圖譜結(jié)果集。舉個(gè)例子,用戶搜索“虎嗅網(wǎng)”搜索引擎右側(cè)便會(huì)展示與之相似的其他科技媒體譬如“36kr”。用戶搜索’青藏高原’和’小威’的時(shí)候,知心右側(cè)都會(huì)推薦‘李娜’,但前者推薦的是歌唱家李娜,后者推薦的是網(wǎng)球明星李娜,這便是基于NLP的實(shí)體消歧技術(shù)。
深度問答技術(shù)則是機(jī)遇NLP技術(shù)和深度學(xué)習(xí)技術(shù)的問答產(chǎn)品。百度出品的智能問答機(jī)器人在江蘇衛(wèi)視《芝麻開門》節(jié)目中取得了卓越成就,答題準(zhǔn)確率遠(yuǎn)超人類選手,正是得益于百度深厚的知識(shí)沉淀以及百度對用戶問題的精準(zhǔn)理解。不過這項(xiàng)技術(shù)并不只是用于比賽,在百度語音助手、百度知道以及百度搜索等產(chǎn)品之中,深度問答技術(shù)均被廣泛應(yīng)用,它可以精準(zhǔn)理解用戶的復(fù)雜問題,并且可以結(jié)合上下文、結(jié)合場景對問題做出不同理解。
例如,當(dāng)我們在百度中搜索“花生發(fā)芽了還能吃嗎”,得到的答案已不再是互聯(lián)網(wǎng)上五花八門的原始網(wǎng)頁答案,而是讓人一目了然的匯總式答案摘要。除了這樣的“一問一答”,用戶還可以與百度對話,問它一個(gè)又一個(gè)問題,NLP最終可以讓用戶使用自然語言進(jìn)行搜索,并且采用多輪交互的方式來逐步澄清和滿足需求,從而完成深度決策型的搜索任務(wù)。百度NLP團(tuán)隊(duì)研發(fā)的“交互搜索技術(shù)”便可以做到多輪問答,而“多模(multi-modal)交互技術(shù)”則可以讓用戶通過文字、語音、圖片、LBS等多種輸入形式進(jìn)行更加人性化、更加簡單易用的搜索,未來擴(kuò)展到通過視頻作為輸入進(jìn)行搜索也是有可能的。
深度問答技術(shù)還可以應(yīng)用到許多垂直領(lǐng)域。比如與教育結(jié)合的“百度考霸”就成為高中生填報(bào)高校志愿的得力助手,它今年一共服務(wù)畢業(yè)生550萬次,幫助他們更加高效、簡單和全面地了解高校和專業(yè)。再比如與醫(yī)療健康結(jié)合就可以實(shí)現(xiàn)尋醫(yī)問藥,我們可以搜索“頭疼怎么辦”百度便會(huì)給出結(jié)構(gòu)化的疑似病癥列表甚至用藥建議。在“泛需求搜索”上百度可以很好地理解用戶的模糊需求,在百度中搜索“家常菜”,搜索引擎將返回的3萬多種家常菜按照“菜系”、“功效”和“口味”進(jìn)行歸類展現(xiàn),層次分明、一目了然。
不論是搜索引擎還是知識(shí)圖譜還是深度問答,最關(guān)鍵的技術(shù)點(diǎn)就是NLP。NLP做好了還將形成壁壘,因?yàn)楸M管對手可以做出類似的搜索頻道或者子產(chǎn)品,但在智能化、準(zhǔn)確性以及易用性上要趕上百度卻并不容易。NLP技術(shù)即需要數(shù)據(jù)積累,在算法的積累、團(tuán)隊(duì)的沉淀上都需要時(shí)間,后來者很難追平。
NLP未來對百度會(huì)愈發(fā)重要
NLP(自然語言處理)技術(shù)對百度而言只會(huì)更加重要。
搜索引擎的職責(zé)已經(jīng)不單單是幫助用戶找到答案,而是幫助用戶找到所求,連接人與實(shí)體世界的服務(wù),成為用戶的智能化助理。無限接近人類的智慧是人類賦予機(jī)器的終極目標(biāo)。對于百度而言,一是要從搜索引擎上升到服務(wù)連接平臺(tái),二是要大力發(fā)展人工智能、大數(shù)據(jù)、深度學(xué)習(xí)等面向未來的新興技術(shù),這些目標(biāo)均離不開“理解用戶需求、智能化地組織信息和服務(wù)”,這均十分依賴NLP技術(shù)。
NLP技術(shù)本身也在升級(jí)。從名稱來看它是語言處理技術(shù),能夠理解文本似乎就夠了。實(shí)際上現(xiàn)在它要理解的是語言所表征的人類的需求。除了文字之外,語音、圖像也是人類需求表達(dá)的載體。同時(shí),用戶所處的環(huán)境(LBS)、用戶的個(gè)人特征(用戶畫像)、用戶發(fā)出請求的時(shí)間也會(huì)賦予同一個(gè)請求不同的目的。因此,NLP技術(shù)在處理用戶語言本身的時(shí)候,還需要結(jié)合上述因素去理解用戶背后的需求。看上去NLP正在升級(jí)成為一項(xiàng)全新的“人類信息識(shí)別和需求理解技術(shù)”。
技術(shù)是百度的基因,技術(shù)和數(shù)據(jù)積累形成的用戶、產(chǎn)品和品牌優(yōu)勢是百度的護(hù)城河。NLP則是百度技術(shù)的基石,它賦予了百度技術(shù)“智能化”的基因,在過去智能化的搜索讓百度越來越好用為其在中文搜索市場奠定了王者地位;在未來智能化連接用戶與服務(wù)成為百度與阿里騰訊等巨頭最大的區(qū)隔時(shí),NLP技術(shù)只會(huì)更加重要。因此毫不夸張地說,NLP就是百度的技術(shù)基石。