专访 | 德国大神Hans Uszkoreit:语言才是AI的关键,深度学习无法解决NLP的核心问题...
德國人工智能研究中心科技總監(jiān)Hans Uszkoreit博士認(rèn)為:語言技術(shù)是人工智能的核心部分,但當(dāng)前的深度學(xué)習(xí)方法還不足以解決NLP領(lǐng)域的核心問題。
在AI科技大本營微信公眾號(rgznai100)會(huì)話回復(fù)“語言”,打包下載Hans Uszkoreit大神被引用的TOP10論文。
記者 | 胡永波
7月22 - 23日,由中國人工智能學(xué)會(huì)、阿里巴巴集團(tuán)&螞蟻金服主辦,CSDN、中國科學(xué)院自動(dòng)化研究所承辦的第三屆中國人工智能大會(huì)(CCAI 2017)將在杭州國際會(huì)議中心盛大開幕。
會(huì)前,我們采訪到了大會(huì)Keynote嘉賓、德國人工智能研究中心科技總監(jiān)Hans Uszkoreit博士。
Uszkoreit博士是中德兩國人工智能合作的核心人物,負(fù)責(zé)德國人工智能研究中心在中國的所有合作項(xiàng)目,今年3月,他剛被任命為在北京新成立的人工智能技術(shù)中心(AITC)總監(jiān)兼首席科學(xué)家。在訪談中,Uszkoreit博士談到了人工智能在工業(yè)4.0和商業(yè)智能上的應(yīng)用,以及中、美、歐在人工智能領(lǐng)域的差異。
對于他的老本行,Uszkoreit博士認(rèn)為:
語言技術(shù)是人工智能的核心部分,但當(dāng)前的深度學(xué)習(xí)方法還不足以解決NLP領(lǐng)域的核心問題。
他提到漢語在語義理解上的潛力。
說起不久前NLP領(lǐng)域的大論戰(zhàn),Uszkoreit博士認(rèn)為Yoav Goldberg敢于倡導(dǎo)正確科研行為的嚴(yán)格規(guī)則,是個(gè)英雄。
以下是訪談全文:
中國AI研究需要覆蓋所有領(lǐng)域
CSDN:最近,媒體常常拿中美兩國的AI行業(yè)和研究成果進(jìn)行對比。對于中美、中歐在AI領(lǐng)域的差異,您有什么看法?以您的理解,哪一方能引領(lǐng)這一輪的人工智能革命?
HansUszkoreit:歐美的AI研究有著長期的廣泛基礎(chǔ),但中國正以驚人的力量和熱情追趕上來。在某些研究領(lǐng)域,中國的研發(fā)速度可能比美國還快。然而,中國的AI研究只是集中在少數(shù)幾個(gè)熱門領(lǐng)域,可熱點(diǎn)和趨勢總是來了又去。下一代AI架構(gòu),將會(huì)用到具備大量認(rèn)知任務(wù)和能力的、廣泛擅長于AI的系統(tǒng)。我希望中國的研究人員能有足夠的動(dòng)力迅速來覆蓋所有的AI研究領(lǐng)域。
我個(gè)人所期待的人工智能突破,是多種感官信息輸入的交叉領(lǐng)域,以及AI在常識性知識與直覺的獲取。
歐洲在語義學(xué)技術(shù)、神經(jīng)網(wǎng)絡(luò)與機(jī)器翻譯等領(lǐng)域的研發(fā)投入上往往準(zhǔn)備充足,但研究成果在科學(xué)上的成熟與商業(yè)上的收獲更多發(fā)生在美國。其中的例外,是制造業(yè)領(lǐng)域的AI,它是歐洲、特別是德國的強(qiáng)項(xiàng)。而今中國在AI領(lǐng)域的下游應(yīng)用研究與上游資金投入上同美國的大力競爭,則相當(dāng)耐人尋味。前者是今天AI應(yīng)用的關(guān)鍵,后者則有可能逆轉(zhuǎn)我們過去的AI創(chuàng)新流程。
CSDN:在深度學(xué)習(xí)近年來的進(jìn)展上,有許多像李飛飛這樣的華人AI科學(xué)家和AI研究者,他們在其中做出了突出的貢獻(xiàn)。據(jù)我了解,您的許多研究伙伴也是華人,您能說說選擇他們的理由嗎?華人在AI研究領(lǐng)域有什么優(yōu)勢呢?
HansUszkoreit:長期以來,我都非常喜歡跟中國的博士生或博士后研究員們一起工作。他們頭腦聰明、積極主動(dòng)、精力充沛而又注重實(shí)效。一般說來,中國研究者的高中和大學(xué)基礎(chǔ)都非常扎實(shí)。我個(gè)人的體會(huì)是,中國和西方研究者的混合團(tuán)隊(duì),其合作效果出奇的好。我會(huì)在北京繼續(xù)推動(dòng)這種跨文化的合作。我相當(dāng)期待接下來同過往的親密同事和學(xué)生們的交流,他們現(xiàn)在大都在中科院、中國的大學(xué)和公司工作。
投資環(huán)境和早期市場是AI創(chuàng)業(yè)成功的保障
CSDN:前不久,您剛?cè)温毐本┤斯ぶ悄芗夹g(shù)中心(AITC)總監(jiān)兼首席科學(xué)家。您能跟我們介紹一下您這份新工作,以及這個(gè)新的研究機(jī)構(gòu)嗎?
HansUszkoreit:AITC在今年3月份成立于北京的亦莊經(jīng)濟(jì)技術(shù)開發(fā)區(qū)。它的使命,是把AI技術(shù)從研究成果轉(zhuǎn)化為工業(yè)應(yīng)用。在德國,我們還沒有特別成功的商業(yè)化AI案例。有好多次,我參與創(chuàng)立的公司都是過早進(jìn)入市場,好在歷經(jīng)多年的掙扎,這些公司都活下來了。但更多的情況是,由于缺乏資金,我們只能眼睜睜看著美國的競爭對手取得成功。他們不光有著更好的投資環(huán)境,同時(shí)還擁有一個(gè)更大的早期市場。
在中國,我也同時(shí)注意到了這兩大因素的存在:一種友善的投資氛圍,加上一個(gè)需求龐大而前衛(wèi)的B2B市場。在我的老東家DFKI(德國人工智能研究中心),我們同20多家工業(yè)股東進(jìn)行過合作研究,還創(chuàng)立過超過80家衍生企業(yè),在AI技術(shù)轉(zhuǎn)化方面的這些經(jīng)驗(yàn)都來之不易。
基于這樣的經(jīng)歷,AITC有能力實(shí)現(xiàn)這樣的技術(shù)轉(zhuǎn)化及其研究機(jī)制,以及成功的商業(yè)化AI的最佳實(shí)踐,這讓我們同時(shí)也有能力來幫助這一領(lǐng)域的其他人。
CSDN:工業(yè)4.0和商業(yè)智能將成為主流的AI應(yīng)用場景,但這兩大領(lǐng)域的不同之處在哪里?對于AI在此所取得的突出成績,有沒有什么具體的實(shí)例?
HansUszkoreit:第四次工業(yè)革命是由工業(yè)界所有的部門、設(shè)備、人員之間完全的數(shù)字化連接所觸發(fā)的,工業(yè)4.0是一個(gè)針對于此的廣泛說法。這種完全的數(shù)字化連接是由物聯(lián)網(wǎng)來實(shí)現(xiàn)的,其中還包括機(jī)器、產(chǎn)品、車輛和建筑之間的連接。
商業(yè)智能適用于所有的公司,不只針對制造業(yè)。它的基礎(chǔ)是組織內(nèi)部有關(guān)從戰(zhàn)略決策到日常運(yùn)作的所有決策過程的數(shù)據(jù)。這些數(shù)據(jù)大多來自公司內(nèi)部,但很多重要的信號來自于外部的消費(fèi)者、投資者、政策制定者、供應(yīng)商和承包商,以及員工們的生活領(lǐng)域。對所有這些數(shù)據(jù)的分析,有助于做出更好的決策,甚至優(yōu)化并調(diào)整決策的過程。
對于制造業(yè)來說,商業(yè)智能是工業(yè)4.0的一部分。今天我們所能看到的,只是商業(yè)智能與工業(yè)4.0的第一步。這里的數(shù)據(jù)通常是需要去主動(dòng)獲取與整合的。對于數(shù)據(jù)解釋,特別是針對非結(jié)構(gòu)化的數(shù)據(jù),AI將扮演一個(gè)重要角色,并從數(shù)據(jù)中不斷學(xué)習(xí)。物流與供應(yīng)鏈領(lǐng)域的控制、優(yōu)化以及預(yù)測管理,就是這方面AI應(yīng)用的具體實(shí)例。
語言技術(shù)是AI的核心
CSDN:您是語言技術(shù)頂級專家。就語言技術(shù)來說,它在AI中的角色是怎樣的?前景如何?對于自然語言處理,它是否也存在一個(gè)突破性的時(shí)刻,正如深度學(xué)習(xí)之于圖像識別、語音識別那樣?
HansUszkoreit:語言是知識的鑰匙,而知識正是AI的終極目標(biāo)。人類社會(huì)的知識,正是通過語言來代代相傳的。僅靠觀察他人,人類是無法獲取到廣泛的可復(fù)用知識的。對于下一代智能系統(tǒng)所需的知識,人工智能必須能同時(shí)進(jìn)行“閱讀”和“聆聽”才能獲取到。而此等程度的機(jī)器學(xué)習(xí),其關(guān)鍵技術(shù)正是NLP。NLP還是實(shí)現(xiàn)人與AI之間成功溝通的技術(shù)關(guān)鍵。所以說,語言技術(shù)是AI的核心部分,并將在很大程度上同知識技術(shù)相結(jié)合。
CSDN:您怎么看當(dāng)前的消費(fèi)級語言技術(shù)?特別是當(dāng)下大熱的智能語音助手,比如亞馬遜的Echo、蘋果的HomePod等?
HansUszkoreit:這些智能助理正在成為我們?nèi)粘I畹囊徊糠?。我自己也每天都在使用。它們還遠(yuǎn)未完美,但能被快速改進(jìn),因?yàn)槠淝靶l(wèi)的用戶每天都在提供大量的免費(fèi)數(shù)據(jù)給它們。
漢語在語義理解上有一定潛力
CSDN:對于不同的語言,其語言處理技術(shù)有何差異?比如說,漢語和英語。
HansUszkoreit:不同的語言差異確實(shí)很大。盡管作為口語,漢語和英語都能在同樣的時(shí)間內(nèi)被小孩學(xué)會(huì)。但細(xì)節(jié)上,漢語沒有詞法,句法也相當(dāng)簡單。二者作為書面語,絕無可能在同樣的時(shí)間內(nèi)被人學(xué)會(huì)。事實(shí)上,漢語的復(fù)雜性絕無僅有。這對NLP來說更為棘手:漢語詞匯甚至都沒有起始標(biāo)識。除了語言本身所固有的復(fù)雜性,漢語更難于用電腦處理的原因還有另外一個(gè):NLP一直是被以英格蘭為中心的研究所主導(dǎo)。
但如果NLP未來的研究方法和算法在處理漢語和其他東亞語言時(shí)的效果能超過英語,我也不會(huì)特別意外。這有一個(gè)先決條件,即找到語義理解上的改進(jìn)辦法,畢竟句法在漢語中的重要性要遠(yuǎn)小于西方語言。
CSDN:上個(gè)月,Yann LeCun對陣Yoav Goldberg的那場NLP大爭論十分引人注目。您如何看待這場爭論,特別是深度學(xué)習(xí)和NLP的關(guān)系?您支持哪一邊的說法?為什么?
HansUszkoreit:我認(rèn)為這場爭論被誤讀了,它不是一場NLP領(lǐng)域的深度學(xué)習(xí)倡導(dǎo)者與懷疑論者之間爭執(zhí),它不是那樣開始的。Yoav Goldberg不是反對深度學(xué)習(xí),他也不是反對深度學(xué)習(xí)在NLP領(lǐng)域的應(yīng)用。相反,Yoav大力推動(dòng)了深度學(xué)習(xí)在NLP領(lǐng)域的應(yīng)用。
Yoav Goldberg只是對那篇自然語言生成(NLG)領(lǐng)域的標(biāo)題黨論文表示不滿,它只是在吹噓一些很小的成果。Yoav的說法并沒有錯(cuò):那篇標(biāo)題黨論文對于NLG領(lǐng)域的研究進(jìn)展毫無意義,它未能解決NLG領(lǐng)域所公認(rèn)的任何問題。
而Yann LeCun和Fernande Pereira認(rèn)為他們應(yīng)該站在論文作者一邊的原因,是確實(shí)有很多的NLP研究者極端懷疑深度學(xué)習(xí)在語言分析和生成上的作用。LeCun和Pereira把這種懷疑主義視為過時(shí)的研究范式反抗深度學(xué)習(xí)大法的無力嘗試。保守派對陣革新派,這是科學(xué)革命中的古老游戲。但這絕非是Goldberg此次爭論的目的。
我個(gè)人的看法是
當(dāng)前的深度學(xué)習(xí)方法還不足以解決NLP領(lǐng)域的核心問題。但它們已經(jīng)改善并實(shí)現(xiàn)了NLP技術(shù)的很多應(yīng)用。深度學(xué)習(xí)此處的不足,并不在于當(dāng)前所用的各種人工神經(jīng)網(wǎng)絡(luò)及其各自的學(xué)習(xí)算法,而在于我們還沒有正確類型與足夠數(shù)量的語言類標(biāo)注數(shù)據(jù)。
人類語言和人腦共同進(jìn)化的方式,是語言能被用來表達(dá)信息和知識的同時(shí),還能讓兒童用很短的時(shí)間就能學(xué)會(huì)。語言的這種可習(xí)得性與基本知識概念的可習(xí)得性緊密相連。沒有語言就無法學(xué)到概念,不與概念想結(jié)合也無法學(xué)到語言。
如果我們可以找出一個(gè)能同時(shí)教會(huì)人工智能語言和概念的方法,問題就解決了。這里的第一步就是基于人工神經(jīng)網(wǎng)絡(luò)的可復(fù)用知識的機(jī)器學(xué)習(xí)。
在這樣的技術(shù)變革形勢下,Goldberg只是在倡導(dǎo)正確的科研行為的嚴(yán)格規(guī)則。但我們都清楚,面對這樣的環(huán)境,慣常的行為標(biāo)準(zhǔn)并不總是適用。在社會(huì)變革中,有勇氣在正確的時(shí)刻說話的人,往往都是我們歷史上的英雄。
給年輕從業(yè)者的三條建議
CSDN:在您的人工智能生涯中,最寶貴的經(jīng)驗(yàn)是什么?對于新一代的AI從業(yè)者,您有哪些建議?
HansUszkoreit:我有三條小建議。
擴(kuò)展視野:多去國外看看,或至少能在跨國企業(yè)工作一段時(shí)間。我在美國待了將近十年,并領(lǐng)導(dǎo)過多個(gè)國際項(xiàng)目。我一直都是一個(gè)國際博士生項(xiàng)目的共同負(fù)責(zé)人,我還主持過一個(gè)國際研究生項(xiàng)目。我在國際項(xiàng)目、暑期學(xué)校與會(huì)議中的經(jīng)歷,極大地豐富了我的專業(yè)能力和個(gè)人生活。
愛上數(shù)據(jù),盡量為你所愛的數(shù)據(jù)工作:它可能屬于商業(yè)統(tǒng)計(jì)、圖片、音頻、視頻或文本,所有這些數(shù)據(jù)都有它們各自獨(dú)特、豐富且有意義的內(nèi)在結(jié)構(gòu)。盡量弄懂這里的結(jié)構(gòu),盡量靠自己來解釋數(shù)據(jù)。一定要堅(jiān)持做高質(zhì)量的錯(cuò)誤分析,甚至要自己去讀這些錯(cuò)誤數(shù)據(jù)。盡量把算法的特性和數(shù)據(jù)的特性聯(lián)系起來去看。
盡量去接觸自身領(lǐng)域之外的研究:至少,要能不時(shí)地去考量你的子領(lǐng)域同相鄰領(lǐng)域的關(guān)系、你的數(shù)據(jù)同其他類型數(shù)據(jù)的關(guān)系、你的方法同其他方法間的關(guān)系。不要因?yàn)槟悴焕斫饩头胚^同其他領(lǐng)域?qū)<疫M(jìn)行交流的機(jī)會(huì),敦促他們用最簡單的方式來解釋他們的問題和解決方案,同時(shí)嘗試以同樣的方式來解釋你自己的研究工作。多了解人類的認(rèn)知機(jī)制,即便機(jī)器智能的機(jī)制是一種完全不同的方式。
CCAI演講亮點(diǎn)
CSDN:您在CCAI演講主題是“結(jié)合機(jī)器學(xué)習(xí)和知識解釋的商務(wù)智能應(yīng)用”,但相對于上一代基于規(guī)則的人工智能,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)近年來突飛猛進(jìn)、碩果累累,那么,我們?yōu)槭裁催€需要這種基于規(guī)則的知識工程?
HansUszkoreit:當(dāng)前,深度學(xué)習(xí)主要用來獲取某種形式的“智能”行為。對于給定的輸入,系統(tǒng)能夠習(xí)得人類的方法并做出反應(yīng)。這些系統(tǒng)還沒有外在的可復(fù)用知識,但能夠獲取到一些內(nèi)在知識。只是這樣的知識通常無法被復(fù)用于其他任務(wù)。我并不支持人工智能像30年前所嘗試的那樣來使用知識工程,但我堅(jiān)信人工智能終將找出辦法來使用人類已有的海量的外在知識(如維基百科或結(jié)構(gòu)化的DBpedia等),并且它很快就能自動(dòng)獲取更多的外在知識。
與其討論深度學(xué)習(xí)與深層知識間的競爭關(guān)系,我更愿意去思考這兩大技術(shù)有效結(jié)合起來的前景:只要機(jī)器能夠從人類身上學(xué)習(xí),它就有可能學(xué)會(huì)數(shù)以百萬計(jì)的人的知識。
CSDN:您對本屆CCAI大會(huì)有何期待?您最想聽的演講時(shí)哪一場?
HansUszkoreit:中國有很多我還不知道的AI研究團(tuán)隊(duì)和研究中心,對于他們的研究成果與應(yīng)用創(chuàng)新,我特別期待。對于中國公司所能貢獻(xiàn)的AI成果,我相當(dāng)好奇。
總結(jié)
以上是生活随笔為你收集整理的专访 | 德国大神Hans Uszkoreit:语言才是AI的关键,深度学习无法解决NLP的核心问题...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 我的webpack学习笔记(二)
- 下一篇: 第1章列表处理——1.1 Lisp列表