您的位置:首頁>>互聯網

語言智能的發展近期又有哪些突破?來聽百度王海峰的最新演講

發布時間:2019-04-20 17:00:42  來源:互聯網    采編:張玉翠  背景:

  “理解和運用自然語言是人工智能的核心問題之一。大數據、機器學習、深度學習和知識圖譜等技術的發展,正在給語言與智能的發展帶來突破。”4月20日,第十四屆中國電子信息技術年會上,百度高級副總裁、AI技術平臺體系(AIG)和基礎技術體系(TG)總負責人王海峰發表題為《語言與智能》的演講,以翻譯為例介紹了人工智能技術的演進,闡釋近期語言與知識技術和大數據、深度學習等技術結合帶來的突破、行業應用,以及技術趨勢和挑戰。

圖片包含 監視器, 室內, 陳列, 電子產品

描述已自動生成

  王海峰是人工智能研究及應用,尤其是自然語言處理領域的領軍者,在國內外學界和工業界享有盛譽。他先后為百度開創和發展了自然語言處理、機器翻譯、語音、圖像、深度學習、數據挖掘、知識圖譜等技術方向,帶領百度AI取得了大量領先業界的技術成果,并推動百度大腦對外開放賦能,被業界稱譽為少有的學術與工程并舉的科學家。他主導研發的“百度大腦核心技術及開放平臺”,著眼于人工智能的前沿技術研發及大規模產業化應用,打造世界級的人工智能開放平臺,助力國家人工智能產業發展,推動各行各業的智能化升級,為國家創新驅動發展戰略提供有力支撐,榮獲2018年度中國電子學會科學技術獎科技進步一等獎。

  王海峰表示,通俗來講,人工智能是讓機器可以像人一樣,具備聽覺、視覺、語言、行為能力,可以進行邏輯計算和推理規劃,并基于知識學習持續進化。

  語言是人類思考的媒介,是人類特有的高級智力活動。早期的簡單符號,到甲骨文,到紙質的書,以及現代互聯網上的文本,語言文字這一載體讓知識得以凝煉和傳承,可以說,語言文字促進了人類文明的發展。因此,如何理解和運用自然語言,是人工智能需要解決的核心問題之一。當下,大數據、知識圖譜、機器學習、深度學習等技術快速發展,并與自然語言處理密切結合,推動語言智能持續發展和突破,并越來越多地應用于各個行業。

  自然語言處理是人工智能皇冠上的明珠,而填補語言鴻溝的機器翻譯則是自然語言處理最典型的應用技術之一。王海峰在這一領域深耕近30年,他從親歷的機器翻譯發展史中以小窺大,梳理介紹了人工智能技術的發展和演化歷程。

  從現代計算機誕生之初,就開始有人提出用計算機來進行語言翻譯的設想。在早期發展過程中,研究者們很多采用理性主義、規則系統、知識工程的方法來進行研究。王海峰從1993年開始從事機器翻譯的相關研究,初期便采用基于規則的方法,在國家“863”評測獲得第一。早在1999年,王海峰在博士論文中即開始探索神經網絡機器翻譯的可能性,但由于當時算力和數據的制約,他轉而嘗試統計機器翻譯與大規模規則翻譯系統的結合,并開創性地提出樞軸語言翻譯方法以解決小語種翻譯語料稀缺的難題。2008年,王海峰主持研發的統計機器翻譯系統參加了國際口語機器翻譯評測比賽IWSLT,在所參加的 5項任務15個評測指標中,共取得12項第一、3項第二的優異成績,展露出明顯的技術領先優勢。

  2010年加入百度后,他帶領團隊融合統計與規則、實例和神經網絡等方法,實現了多方面的技術創新,打造出服務億萬用戶的百度翻譯,并在2015年率先發布互聯網神經網絡翻譯系統。目前,百度翻譯可支持全球28種語言互譯,覆蓋756個翻譯方向,超過15萬家第三方應用接入百度翻譯API,每日翻譯字符數超過千億。百度翻譯因此榮獲2015年國家科技進步二等獎。2018年的百度世界大會上,百度又發布了世界上首個集成了預測和可控延遲的語音實時翻譯系統,這是自然語言處理方面的重大技術突破。

  王海峰表示,機器翻譯的發展從最初運用規則系統,到統計的機器學習方法,后又解決算法、算力等各方面的問題,不斷登上新的臺階。人工智能的發展脈絡與此相似,經歷多種方法的探索和實踐,有過低谷和高潮,總的趨勢是在持續進步。

  近年來,深度學習的崛起,及其與大數據的結合,使人工智能得到飛躍式的發展。

  在自然語言處理領域,深度學習模型具有比傳統機器學習模型更強的數據學習能力,使得基于深度學習的依存句法分析等自然語言處理系統準確率得到大幅提升。

  目前,深度學習領域主要有強化學習、監督學習、無/自監督學習三種學習范式,而無/自監督學習可以類比人類學習,是重要的一種學習方式。

  自監督學習讓基于大規模無標記語料的語言模型得到了長足的發展。近期, Google、百度分別提出了無監督文本的預訓練語言模型BERT、ERNIE,將NLP任務的性能提升到新高度。百度提出的基于知識增強的ERNIE 模型,通過建模海量數據中的實體概念等先驗語義知識,學習真實世界的語義關系。相較于Google BERT基于字單元的語義建模,ERNIE直接對先驗語義知識單元進行建模,并通過海量文本數據學習實體間的語義關系。這種融合知識的語義建模大幅增強了模型語義表示能力,在包括語言推斷、語義相似度、命名實體識別、情感分析、問答匹配等自然語言處理各類任務上的多個公開中文數據集上,ERNIE均取得了優于BERT的效果。

  依托深度學習技術的發展,語音、圖像等感知技術取得了巨大進步,但認知技術的突破,會越來越依賴知識,需要提升對知識和大規模知識圖譜的運用。在物理世界、人類社會和網絡空間中,匯聚了大量的多元、異構、多模態的數據,百度借助無標簽大數據開放域知識挖掘、知識體系自動擴展、知識整合等技術,基于海量數據構建起了超大規模知識圖譜。目前,百度擁有世界上最大的多元異構知識圖譜,除了包含數億實體、千億級事實,能夠滿足90%用戶需求的實體圖譜,針對不同的應用場景和知識形態,百度還建立起關注點圖譜、行業知識圖譜、POI圖譜、事件圖譜等多種知識圖譜。比如在醫療領域,能夠從病歷等原始文本中,抽取出實體及多元關系,并進行文本結構化,最終構建起醫療圖譜,同時結合醫療大數據、醫療認知計算,應用于醫療臨床輔助決策服務中。

  多模態知識與語言、視覺等技術結合,發展進入“多模態深度語義理解”階段。例如,基于知識圖譜的視頻理解技術,能夠視頻中抽取結構化語義知識,真正“看懂”視頻。

  語言理解技術持續發展,并通過與知識圖譜、深度學習等技術融合,不斷提高各種應用的智能化程度。

  王海峰在演講中介紹,百度創新地融合知識圖譜、自然語言處理及深度學習技術,研發了能夠深刻理解用戶意圖、精準滿足搜索需求、提供更豐富知識內容的智能搜索引擎,并結合語音、圖像、AR等感知技術能力,更便捷地與用戶交互,為用戶提供更精準高效的信息服務。

  例如,用戶用自然語言搜索“林徽因的丈夫的父親是誰”,智能搜索引擎能夠理解用戶的意圖,并結合知識圖譜以圖文并茂的形式把答案“梁啟超”精準呈現給用戶。又如,用戶搜索“上面草字頭下面句子的句是什么字”,智能搜索引擎能夠為用戶提供“茍”的讀音、筆畫、釋義等豐富的信息。

  除了智能搜索方面的應用,百度還基于語言理解和生成技術提供智能寫作等能力。智能寫作適用于財經、體育、天氣、熱點與娛樂事件等多領域的輔助與自動寫作,大幅提升創作效率。比如,基于結構化的股票數據,可以生成關于股市的快訊新聞。結合視覺技術的智能春聯,可通過刷臉檢測出人物性別、年齡、微笑程度、性格特征等,生成特征詞,然后基于神經網絡生成技術創作出應景的春聯,讓人工智能技術融入大眾的文化娛樂生活。

  智能客服是結合自然語言處理、知識圖譜和語音等技術打造的行業解決方案。在智能客服場景中,基于語音語義一體化技術,百度大腦可以準確識別出用戶的話語,理解用戶意圖,進而通過行業知識圖譜的賦能理解業務流程,為用戶提供相應的服務。整個服務過程流暢自然,實現了與用戶無障礙溝通,提升業務效率并滿足用戶需求。

  百度領先的語言與知識技術,不僅廣泛應用于智能搜索、深度問答、對話系統、智能寫作、機器翻譯等領域,為廣大用戶提供更智能的體驗,滿足用戶對信息和服務的需求,還通過百度大腦平臺全面開放,促進行業應用和創新。

  當然,自然語言理解技術也面臨著數據稀疏、知識未被有效利用、結合場景的語用研究等挑戰。但王海峰表示,“隨著技術發展,我們會越來越深入地理解自然語言、掌握知識,推動人工智能發揮更大的價值,為人類社會發展提供更大的助力。”




關注ITBear科技資訊公眾號(itbear365 ),每天推送你感興趣的科技內容。

特別提醒:本網內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。


返回網站首頁 本文來源:互聯網

本文評論
2019世界地球日 來看看互聯網公司都做了什么?
  1970年的4月22日,美國各地超2000萬人組織了聲勢浩天的游和集會,呼吁人們對環境的保護和對地球資源...
日期:04-23
“圍鯤救鰻”成時下最火熱詞,百度貼吧討論量直奔千萬
最近幾天,又有一個熱詞火遍了全網絡,百度貼吧討論量更是直奔千萬,那就是從百度貼吧誕生的“...
日期:04-22
東方明珠九號卡丁體驗中心盛大開業 探索全新服務模式
4月21日,位于上海東方明珠塔的九號卡丁體驗中心正式投入運營。開業當天,現場活動高潮迭起、驚喜不斷...
日期:04-22
《向往的生活》第三季劇透:除了黃磊、何炅、彭昱暢 還有新人“小度”?
終于,《向往的生活第三季》要在4月8日正式回歸了,跟去年形式一樣,明星們遠離城市的喧囂,一起拙...
日期:04-21
傳百度贊助《向往的生活》 引發網友三大猜想
4月21日,在湖南衛視《向往的生活》第三季媒體看片會后,有網友爆出,百度是本季《向往的生活》贊助...
日期:04-21
再次爆發!FGS倫敦賽17頭名出線
自4月16日以來,絕地求生全球巔峰聯賽Faceit Global Summit)在倫敦正式開賽。在經過了三日的循環賽...
日期:04-20
語言智能的發展近期又有哪些突破?來聽百度王海峰的最新演講
“理解和運用自然語言是人工智能的核心問題之一。大數據、機器學習、深度學習和知識圖譜等技術...
日期:04-20
AI DAY驚現“異形”?原來是百度大腦的AR能力在“作怪”
4月19日,高通在深圳舉辦了一年一度的“Qualcomm人工智能開放日”(又稱AI DAY)。其中,一...
日期:04-20
英特爾“退群”背后的5G之戰
美國當地時間4月16日,此前一直“忙于法院見”的蘋果與高通在圣地亞哥聯邦法院達成和解協...
日期:04-20
思嵐科技發布新品雷達RPLIDAR S1,測距可達40米
2019年4月17日,專注于機器人自主定位導航領域的思嵐科技,對外發布其最新一代激光雷達產品RPLIDAR ...
日期:04-19
三星Galaxy A70首銷火爆,斬獲蘇寧手機銷量王
4月18日,三星Galaxy A70新品首銷當天,蘇寧易購舉辦三星超級新品日,為消費者帶來更多的福利。4月1...
日期:04-19
為什么大家都喜歡跟小度“嘮嗑”?百度地圖AI加持長語音識別更準確
在經歷了五一假期“升級”后,湊夠四天的小驚喜勾起了許多人外出游玩的心。那么如何在旅...
日期:04-19
WPS上架Mac蘋果商店首日便登頂,一場源自用戶的勝利!
北京時間4月19日凌晨,WPS Office for Mac版正式登陸蘋果Mac App Store應用商店一天后,直接躍升至...
日期:04-19
智能音箱三巨頭差距縮小 百度出貨量環比增速第一
Canalys日前發布報告稱,全球智能音箱的出貨量有望于2019年達到2億。中國智能音箱出貨量有望于2019...
日期:04-19
禧云國際聯合團餐謀發布《中國團餐行業信息化發展報告》
4月14日,在杭州舉辦的2019中國國際團餐產業大會上,禧云國際聯合團餐謀發布了《中國團餐行業信息化...
日期:04-19
復聯4喚醒寶爸英雄情結 漫威系列玩具同比增長826%
蘇寧418大促熱度一直居高不下。蘇寧大數據顯示,母嬰家庭趁機囤貨,奶粉尿褲銷量再創新高。復仇者聯...
日期:04-19
一夜之間5G芯片格局大變:天下五分 中國已有其三!
2019年4月17日,科技界發生了三件與5G手機基帶芯片相關大事:1、高通與蘋果之間的專利授權糾紛終于...
日期:04-19
讓AI無所不及,華為云EI使能行業智能化轉型
日前,華為第十六屆全球分析師大會在中國深圳召開。在“讓Cloud無處不在,讓AI無所不及”...
日期:04-18
奔馳漏油和996哪個事兒更大?巴黎圣母院:都不大…
  最近幾天,熱搜上的“瓜”可謂是一個接一個,熱點目不暇接,究竟誰拯救了誰,成為吃瓜群眾們津津樂道的話題。
日期:04-17
 
高清性色生活片