语音识别真的比肩人类了?听听阿里iDST初敏怎么说
生活随笔
收集整理的這篇文章主要介紹了
语音识别真的比肩人类了?听听阿里iDST初敏怎么说
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
語音識別真的比肩人類了?聽聽阿里iDST初敏怎么說阿里云云棲社區(qū)百家號|06-28 12:49關注摘要:語音識別真的比肩人類了嗎?各種算法之間該如何選擇?如何提升語音交互的用戶體驗?帶著這些問題,云棲社區(qū)采訪了阿里云iDST智能交互總監(jiān)初敏,聽聽她是怎么說的。編者按:由中國人工智能學會、阿里巴巴以及螞蟻金服聯(lián)合主辦,CSDN、中國科學院自動化研究所承辦的第三屆中國人工智能大會(CCAI 2017)將于7月22-23日正式召開,大會期間阿里云iDST智能交互總監(jiān)初敏將在“語言智能與應用”論壇上分享語音交互技術的趨勢,在此之前,阿里云云棲社區(qū)作為獨家直播合作伙伴采訪了初敏。圍繞語音交互的入口之爭正愈演愈烈,siri、echo這些產(chǎn)品風靡全球的同時,國內(nèi)外科技巨頭、創(chuàng)業(yè)團隊也在暗流涌動,各種智能音箱以及語音解決方案層出不窮。毫無疑問,語音交互已經(jīng)成為人工智能領域最成熟也是落地最快的技術。尤其是深度學習的起勢,讓語音識別、語音合成以及自然語言處理的發(fā)展速度提升到了一個新的高度。于是乎,各種美化宣傳撲面而來!“XXX產(chǎn)品識別準確率高達99%,識別準確率比肩人類!”然而,事實并非如此。市面上已有的語音交互產(chǎn)品或多或少都存在一些通病:在特定領域效果不錯,但超出指定范圍就差強人意了,這樣的問題讓用戶整體體驗大打折扣…語音識別真的比肩人類了嗎?各種算法之間該如何選擇?如何提升語音交互的用戶體驗?帶著這些問題,云棲社區(qū)采訪了阿里云iDST智能交互總監(jiān)初敏,聽聽她是怎么說的。(注: iDST語音識別團隊曾在2016年以0.67%的準確率優(yōu)勢擊敗了世界速記大賽亞軍蔣毅,據(jù)了解,iDST團隊使用了BLSTM算法,這種算法對單位時間內(nèi)的計算量要求很高,為此他們做了很多針對性的優(yōu)化工作,才能讓這個算法提供實時服務,并第一次在工業(yè)界進行了大規(guī)模部署。)以下內(nèi)容整理自采訪錄音:云棲社區(qū):從國內(nèi)外的趨勢來看,語音交互技術的應用越來越多,您認為推動語音技術普及的主要原因是什么?初敏:語音有兩個大的方向在用,第一個把語音當成數(shù)據(jù),例如在講座、法院,或者是客服這些場景中,之前有的會錄音,有的不錄音,講完就過去了,而現(xiàn)在這些語音都會記錄下來,而且還會識別成文字,這實際上是一個數(shù)據(jù)積累的過程,我們可以對這些文本化的數(shù)據(jù)進行各種分析、挖掘和加工等等。另外一個就是大家更關注的語音交互,語音交互之所以越來越被重視,我覺得是因為互聯(lián)網(wǎng)、智能硬件的普及。未來智能電視、智能音箱,甚至到以后的日常設備,都可以變成一個互聯(lián)網(wǎng)的入口,語音就是最簡單的,最直接的交互方式,是通用的輸入模式。當然現(xiàn)有的很多語音產(chǎn)品還沒有那么成功,我認為雖然現(xiàn)在產(chǎn)品比較多,但是真正好用的,讓人經(jīng)常想用的卻不多。云棲社區(qū):就像您提到的現(xiàn)在語音識別產(chǎn)品用起來其還會有各種各樣的問題,要達到真正完全可用的狀態(tài)我們還需要克服哪些難題?初敏:我覺得脫離了應用場景講識別準確率、講產(chǎn)品根本就是不靠譜的,大家談到的百分之多少的識別準確率理論上不存在,任何一個準確率都是在特定場景下測出來的,不同的場景測出來不一樣,做一套模型在所有場景上都達到非常高的準確率,是不太現(xiàn)實的。以云棲大會為例,云棲大會的Talk,語音識別準確率基本上能做到95%以上,但如果突然邀請一個特殊領域的講演者,比如醫(yī)療領域,可能就很難達到同樣好的效果,因為現(xiàn)有模型在醫(yī)療領域的知識積累不夠。所以,要把語音技術在各種領域普及開來,能快速針對不同場景進行模型調(diào)優(yōu)和定制變得非常重要,這也是我們下面主要推進的一個方向。云棲社區(qū):阿里在語音交互上重點做了哪些事?初敏:這兩年來我們其實做了很多工作。一方面是在算法方面的嘗試,語音這兩年進步的比較快實際上就是深度學習的成功應用,我們嘗試了各種深度學習模型,如DNN、CNN、BLSTM(雙向長短時記憶神經(jīng)網(wǎng)絡),特別是在業(yè)界最先大規(guī)模上線了基于BLSTM的系統(tǒng)。同時,我們也會嘗試各種新算法。需要提到的是有些算法比較復雜,實驗效果好,但是上線就有些難度,所以我們需要進行大量的嘗試。另外,現(xiàn)在這些模型的訓練是復雜度挺高的,訓練的時間一般會很長,特別是當你的數(shù)據(jù)特別多的時候。 模型訓練的很大一部分任務要由GPU處理,在多臺機器上的多塊GPU卡上并行訓練,才能提升模型優(yōu)化的效率,因此我們也需要進行一些這種底層基礎設施的建設。另一方面,我們也在在建模單元上做一些嘗試,傳統(tǒng)的做法是對狀態(tài)建模(通常把一個音素切成三個狀態(tài)),現(xiàn)在我們成功的使用音素作為建模單元,在準確率保持的前提下,解碼效率提升高三到五倍。更大的建模單元也在嘗試中。除了語音識別,我們在語音合成、對話管理,問答等方面也做了很多工作,還包括在不同端上的信號處理,例如麥克風陣列等等都是要去實踐的。這樣才能完成語音交互的完整過程。云棲社區(qū):在算法的選擇上是怎么考量的?初敏:算法實際上有很多,DNN是全連接的,CNN是有卷積的,然后RNN基本上是序列的,我們實驗最成功的是雙向的BLSTM,而現(xiàn)在還是有些其他的選擇,包括優(yōu)化準則方面的變化。最終在線上系統(tǒng)采用什么算法,需要綜合考慮,既要看效果,同時還要考慮到計算效率,部署成本等因素。云棲社區(qū):去年雙十一阿里ET語音交互系統(tǒng)有亮相,它還有哪些提升空間?初敏:ET語音交互系統(tǒng)確實還有改善的空間,我們平常準確率能做到95%、96%的水平,但當時主持人講的語速太快,準確率也就不盡如人意了。此外,跟主持人交互的自由度方面,也還有很多可以做的事情。云棲社區(qū):團隊做了哪些改善方案?初敏:要在更多的場景用好就必須要有大量的數(shù)據(jù)。因為場景的磨合都是和數(shù)據(jù)有關,數(shù)據(jù)是什么場景來的,它就可以在這個場景下取得好的效果。之前我們在客服領域的數(shù)據(jù)特別多,然后還有一些就手機端的,比如說手淘,但是視頻類的就會差一些。因此,我們就有針對性的增加數(shù)據(jù),同時增加各種可能的背景噪聲,在專門優(yōu)化后,視頻里的語音的識別效果就大幅提升了。因此,快速的模型定制對語音技術的廣泛應用非常重要。我們現(xiàn)在花了很多時間研發(fā)系統(tǒng)的定制能力,這樣用戶在系統(tǒng)上提交數(shù)據(jù)就可以通過我們的自動流程來定制他們的模型,這個模型在他們需要的場景下可以取得比通用模型更好的效果。我們現(xiàn)在很多的工作是從這個角度來看。我認為將來這方面是誰的能力最強,誰就能真正在市場上快速把它用起來。目前市面上,基本上還沒有哪個團隊在提供快速定制化服務,我們是非常領先的。云棲社區(qū):下個月舉行的CCAI大會上開設了“語言智能與應用”論壇,針對這一方向,您認為現(xiàn)在學術界和產(chǎn)業(yè)界還存在哪些痛點?初敏:就像你剛才問到的,語音識別宣傳得很好,但很多時候用起來還沒有預期的那么好,主要是因為技術到產(chǎn)品的落地之間還有很多工作沒有做好、做細致。語音識別不是萬能的,隨便一接就可以的用的很順暢的。技術使用起來往往需要一個迭代的過程的,需要先上線,然后在場景里收集數(shù)據(jù)去評估,優(yōu)化模型,改善用戶體驗。經(jīng)過幾輪迭代,才可以發(fā)揮最佳效果。其他AI技術也是相似的。今天很多AI技術的用戶很容易把技術的能力理想化,感覺一引入,就應該立竿見影的看到效果。看到實際效果不盡人意時,就會感覺有很大的落差,失望和放棄。所以,我想強調(diào)的是,一方面智能語音技術已經(jīng)達到廣發(fā)應用的水平,同時在真正落地的時候,要充分認識到可能遇到的困難,有持久戰(zhàn)的思想準備。云棲社區(qū):下個月您會在CCAI語音交互分論壇上分享,作為演講嘉賓您希望能給開發(fā)者帶來什么樣的幫助?初敏:語音交互技術在未來三五年內(nèi)會大規(guī)模應用,這是大家都看到的趨勢,但是換句話說,大家都希望產(chǎn)品在目標場景中取得好的效果,但現(xiàn)實很殘酷,并不是每個人都是算法或者人工智能領域的資深專家,需要一個不斷學習和迭代的過程。AI技術的應用是一個系統(tǒng)工程,我們要有足夠的耐心去打通產(chǎn)品和體驗的優(yōu)化鏈路,在應用中不斷提升效果。
總結(jié)
以上是生活随笔為你收集整理的语音识别真的比肩人类了?听听阿里iDST初敏怎么说的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在Kaggle上赢得大数据竞赛的技巧和窍
- 下一篇: 蚂蚁金服发布「定损宝」,推动图像定损技术