“研究自然語言處理技術(NLP)的目的是讓機器能夠理解人類語言,用自然語言的方式與人類交流,最終擁有智能。”12月15日召開的第五屆中國企業新媒體年會上,百度自然語言處理部高級技術總監吳甜這樣介紹NLP的研究意義。今年中國企業新媒體年會的主題聚焦“新時代、新媒體、新智能”,吳甜發表了“自然語言處理技術與新媒體”的主題演講,介紹百度相關技術及其在新媒體領域的應用實踐。
百度自然語言處理部高級技術總監吳甜
中國企業新媒體年會由國務院國資委新聞中心、中央企業媒體聯盟主辦,已成功舉辦四屆,是國內具有極高影響力的新媒體交流平台。大會吸引了來自政府、企業、媒體、學界數百人到場,並針對新媒體與人工智能展開對話交流。
吳甜表示,AI時代,我們希望計算機擁有視覺、聽覺、語言和行動的能力,其中語言是人類區別於動物的最重要特征之一,語言是人類思維的載體,也是知識凝練和傳承的載體。在人工智能領域,研究NLP的目的就是讓機器理解並生成人類的語言,從而和人類平等流暢地溝通交流。
吳甜介紹,經過十多年的積累與沉澱,百度在自然語言處理技術上已經具備了最前沿、最全面、最領先的技術布局。百度NLP技術在語言學知識、大數據、知識圖譜的基礎上,基於NLP基礎技術的積累,研發領先的自然語言理解與生成應用技術,由此構建起對話系統、閱讀理解、機器翻譯和智能寫作系統,並以開放平台——NLP基礎技術平台、語言理解與交互平台UNIT、機器翻譯開放平台的形式支持更多產品。目前,百度NLP技術不僅廣泛應用於百度眾多產品,也為廣大開發者和合作伙伴提供NLP技術能力和解決方案,賦能行業應用。
隨著移動互聯網的發展,信息流推薦成為用戶獲取信息的主要方式之一。面對海量的內容,如何理解並讓用戶更好的獲取內容,是NLP要解決的關鍵問題之一。通過打標簽、內容質量分析和情感分析等技術,百度NLP能夠深度理解媒體內容,並以清晰、友好的方式呈現給用戶。
給文章打標簽,是信息流實現個性化推薦的核心基礎。一篇文章通常會被打上主題、話題、實體三類標簽,這些標簽從多個角度描述文章內容,進而滿足不同應用需求,為用戶提供最佳的內容推薦。吳甜以一篇關於李彥宏在烏鎮演講的新聞為例,介紹文章如何被打上標簽。比如《李彥宏在烏鎮演講:有了無人駕駛,人們可以坐在車裡喝酒》這篇文章包含“無人駕駛”、“人工智能”、“科技”三個主題,“世界互聯網大會”話題,關聯“百度”、“李彥宏”、“烏鎮”、“百度無人駕駛汽車”等實體,由此文章將被推送至關注或有可能對這些標簽內容有需求的用戶。目前,標簽技術可以應用在個性化推薦、主題劃分、話題聚合和關聯推薦中。
“打標簽”的背后,是經典NLP方法、知識圖譜和大規模數據統計機器學習技術聯合在發揮作用。會議現場,吳甜用一個淺顯的例子解讀了標簽技術背后的“知識”,同一篇文章,小學生、大學生、專業人士的理解相差懸殊,他們各自背后的知識體系起到決定性作用。小學生的知識體系相當於為通用常識,大學生具備了體系化的書本知識積累,而行業專家則擁有大量的、深入的行業知識。機器背后的知識體系,就是知識圖譜。機器基於大量的閱讀提取知識,加上推理能力的運用,能夠讀懂新的文章。
新媒體的發展帶來了紛繁多樣的內容,但內容質量良莠不齊的問題也隨之而來,平台如何分辨內容質量,打造良性的優質內容生態至關重要。依托數據挖掘與標注、機器學習等技術,百度NLP建立了一套文章質量分析的方法,能夠准確判別文章質量。比如從可讀性、信息量、新穎性、深度等方面判斷文章是否具備優質特征,而標題黨、低俗等則被視為低質特征。該技術的運用可以有效減少低質文章,為用戶提供並推薦更多優質內容。
吳甜介紹,情感分析技術可以用來分析人們對各種對象的觀點、情感、情緒等,為用戶提供主觀傾向性的參考。在用戶評價全聚德“鴨子現烤現片,皮酥肉嫩”的觀點中,百度NLP技術能夠判斷這是一個正向評價,並挖掘出是關於全聚德味道上的積極評價。該技術可廣泛應用於輿情分析、商品或服務推薦等。
百度NLP不僅能夠准確理解內容,更能自動生成內容。吳甜介紹,百度智能寫作基於大數據分析、內容理解和自然語言生成等技術,能夠第一時間聚合全網信息和百度優質資源,快速生產文章,實現用戶興趣點的快速、高效的高覆蓋,以及資訊內容的深度定制和個性化推薦。百度智能寫作文章目前涵蓋社會、財經、娛樂等 15個大類,可實現體育新聞、熱點新聞等多領域全機器創作。
吳甜表示,百度通過開放平台向開發者與合作伙伴提供技術支持。NLP基礎技術平台開放語法分析、語言模型、依存句法分析等一系列NLP領域基礎且核心的技術,可應用於精准推薦、營銷分析等。語言理解與交互平台UNIT則搭載了業界領先的需求理解與對話管理技術,以及百度多年積累的自然語言處理、機器學習、大數據等核心能力,能夠幫助開發者賦予產品智能對話交互的能力。機器翻譯開放平台擁有全球首個神經網絡翻譯系統,支持28種語言互譯、756個翻譯方向,翻譯質量全球領先,目前已有超過5萬開發者接入。同時,百度今年還推出了一款兼具Wi-Fi與翻譯雙重功能的共享Wi-Fi翻譯機,自帶80多個國家的移動數據流量,支持實時語音翻譯。
近年來,AI已經被廣泛應用到各領域,其中,NLP技術的發展和應用正推動人機交互走進一個新的時代。吳甜表示,NLP技術讓機器更“懂”人類,百度NLP也將砥礪前行,為開發者、合作伙伴賦能,共創AI未來。