语音识别系列1:语音识别Speech recognition综述
名詞約定:
語(yǔ)聲識(shí)別----- VOICE RECOGNITION
語(yǔ)音識(shí)別-----SPEECH?RECOGNITION
1 什么是語(yǔ)聲識(shí)別VOICE RECOGNITION?
????????語(yǔ)音或說(shuō)話者識(shí)別是程序根據(jù)其獨(dú)特的聲紋識(shí)別人的能力。它通過(guò)掃描語(yǔ)音并與所需的語(yǔ)音指紋建立匹配來(lái)工作。人工智能的發(fā)展為計(jì)算機(jī)科學(xué)的這一子領(lǐng)域開(kāi)辟了廣闊的機(jī)遇。它使我們能夠在不接觸機(jī)器的情況下與機(jī)器進(jìn)行交互。它發(fā)展迅速,開(kāi)發(fā)人員正在尋找越來(lái)越多的方法將其應(yīng)用到各個(gè)領(lǐng)域。
2 語(yǔ)聲識(shí)別(VOICE RECOGNITION)和語(yǔ)音識(shí)別(SPEECH?RECOGNITION)有什么區(qū)別?
????????了解這兩個(gè)學(xué)科之間的差異至關(guān)重要。語(yǔ)音識(shí)別的目的是識(shí)別語(yǔ)音所有者。語(yǔ)言識(shí)別的目的是識(shí)別說(shuō)話者的話。在第一種情況下,程序需要說(shuō)話人的獨(dú)特聲紋進(jìn)行比較。在第二種情況下,程序需要一個(gè)巨大的字典來(lái)識(shí)別說(shuō)話者的意義表達(dá)。
3 語(yǔ)聲識(shí)別(VOICE RECOGNITION)系統(tǒng)的類型
? ? ? ? 語(yǔ)音識(shí)別有兩類,它們是:
- 文本相關(guān)——系統(tǒng)經(jīng)過(guò)訓(xùn)練,可以識(shí)別說(shuō)話者預(yù)先確定的語(yǔ)音密碼;
- 文本獨(dú)立 - 它不需要預(yù)先確定的密碼。分析的主題是會(huì)話語(yǔ)音。
4? 語(yǔ)音識(shí)別系統(tǒng)的類型
????????我們可以將自動(dòng)話語(yǔ)識(shí)別(ASR)分為不同的類別。首先,它依賴于揚(yáng)聲器。從這方面來(lái)看,有兩種類型是已知的,它們是:
- 取決于說(shuō)話者——程序經(jīng)過(guò)訓(xùn)練可以識(shí)別特定的聲音,類似于語(yǔ)音識(shí)別。說(shuō)話者必須與程序“交談”并賦予程序分析聲音的能力。這樣的系統(tǒng)更容易實(shí)現(xiàn)。它們?cè)谡Z(yǔ)音識(shí)別方面提供了高精度;
- 說(shuō)話者獨(dú)立——這種類型的語(yǔ)音識(shí)別軟件有更廣泛的用途。它不需要訓(xùn)練來(lái)分析聲音。重點(diǎn)是說(shuō)話者的單詞識(shí)別。此類程序的典型示例是 IVR 系統(tǒng)。
另一種分類方法是基于用戶說(shuō)話的方式。這些類別是:
- 離散語(yǔ)音識(shí)別——ASR 應(yīng)用程序從早期版本開(kāi)始就使用這種方法。 Т說(shuō)話者必須分別發(fā)音每個(gè)單詞,在它們之間插入停頓。使用這樣的程序,工作起來(lái)更加困難。口語(yǔ)頻率不易保證;
- 連續(xù)語(yǔ)音識(shí)別——這是一種相對(duì)較新的 ASR 方法,需要更多的努力來(lái)開(kāi)發(fā)。在這種情況下,說(shuō)話者的語(yǔ)速接近正常。
????????在人工智能語(yǔ)音識(shí)別領(lǐng)域,另一種技術(shù)是眾所周知的。它是自然語(yǔ)言處理(NLP)。 Тhe 語(yǔ)音識(shí)別系統(tǒng)的任務(wù)是理解單詞。 NLP 系統(tǒng)的任務(wù)是理解和回答說(shuō)話者。那是模仿人與機(jī)器之間的交流。 NLP 接近語(yǔ)音/語(yǔ)音識(shí)別,但基于不同的算法。
5 語(yǔ)音識(shí)別簡(jiǎn)史
????????這項(xiàng)技術(shù)的第一個(gè)重要步驟始于 IBM 的貝爾實(shí)驗(yàn)室。 1952 年,IBM 推出了奧黛麗 Audrey,這是第一個(gè)記錄在案的語(yǔ)音識(shí)別器。奧黛麗是一個(gè)完全類比系統(tǒng),可以理解單個(gè)數(shù)字,中間有停頓。十年后,IBM 推出了 Shoebox,能夠識(shí)別 0 到 9 的 16 個(gè)英文單詞和數(shù)字。在 1970 年代初期,這項(xiàng)技術(shù)的發(fā)展有了飛躍。這主要?dú)w功于美國(guó)國(guó)防部的研發(fā)機(jī)構(gòu) DARPA。經(jīng)過(guò)五年的研究,卡內(nèi)基梅隆大學(xué)誕生了 Harpy。一臺(tái)能夠理解 1011 個(gè)單詞的機(jī)器。此外,Harpy 與它的前輩有很大不同。它可以理解句子。 80 年代初,語(yǔ)音識(shí)別系統(tǒng)的詞匯量增加到幾千個(gè)單詞。這主要?dú)w功于隱馬爾可夫統(tǒng)計(jì)模型。語(yǔ)音識(shí)別從基于模式的數(shù)字信號(hào)處理轉(zhuǎn)變?yōu)槭褂媒y(tǒng)計(jì)模型從未知聲音中預(yù)測(cè)單詞。
????????此外,機(jī)器在識(shí)別單詞方面變得更加準(zhǔn)確。 IBM 的語(yǔ)音識(shí)別小組在 80 年代中期推出了實(shí)驗(yàn)性轉(zhuǎn)錄系統(tǒng) Tangora。 Tangora 能夠識(shí)別 20000 個(gè)單詞。從 1990 年代開(kāi)始,借助個(gè)人電腦,DragonDictate 等語(yǔ)音識(shí)別產(chǎn)品開(kāi)始為消費(fèi)者所用。在過(guò)去的二十年里,許多科技巨頭都在從事這項(xiàng)技術(shù)。在本文后面,您將熟悉他們的產(chǎn)品。
6 語(yǔ)音識(shí)別的工作原理
現(xiàn)代 ASR 系統(tǒng)基于三種模型:聲學(xué)、發(fā)音和語(yǔ)言。
- 聲學(xué)建模使區(qū)分語(yǔ)音信號(hào)和音素(聲音單位)成為可能。隱馬爾可夫模型 (HMM) 是一種常見(jiàn)的聲學(xué)建模方法。其他方法使用深度神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)等;
- 發(fā)音模型定義了如何組合音素來(lái)造詞;
- 語(yǔ)言建模是一門有助于區(qū)分發(fā)音相同的單詞和短語(yǔ)的學(xué)科。
????????錄制語(yǔ)音后,噪聲被清除,有用信號(hào)從錄音中過(guò)濾掉。 Т他的記錄被分成小片段。之后,每個(gè)片段都通過(guò)聲學(xué)模型。這些片段與音素進(jìn)行比較,音素是一個(gè)最初構(gòu)建的統(tǒng)計(jì)模型,用于描述語(yǔ)音中每個(gè)聲音的發(fā)音。基于這些匹配,從音素中收集單詞。 Тhe 查找單詞的效率很大程度上取決于預(yù)先準(zhǔn)備好的音素?cái)?shù)據(jù)庫(kù)的大小。
6.1 錄制你的聲音
????????在任何設(shè)備上,都使用麥克風(fēng)進(jìn)行錄音。如果設(shè)備沒(méi)有,則需要連接麥克風(fēng)耳機(jī)或?qū)I(yè)麥克風(fēng)。為此,您可以使用預(yù)安裝的應(yīng)用程序,例如 Windows 10 上的錄音機(jī)、Apple 產(chǎn)品上的語(yǔ)音備忘錄等。還有大量具有高級(jí)功能的應(yīng)用程序。它們提供了選擇記錄質(zhì)量、比特率或格式來(lái)保存記錄的機(jī)會(huì)。有些是基于人工智能的,可以讓你擺脫錄音中不必要的噪音。
6.2 注冊(cè)
????????用戶注冊(cè)需要記錄說(shuō)話人的聲音并提取獨(dú)特的聲紋作為每個(gè)說(shuō)話人識(shí)別軟件的第一階段。下一階段是驗(yàn)證。將錄制的語(yǔ)音與不同語(yǔ)音的數(shù)據(jù)庫(kù)進(jìn)行比較,以找到最佳匹配或與特定語(yǔ)音。
7 語(yǔ)音識(shí)別工具
如果您不想構(gòu)建語(yǔ)音識(shí)別系統(tǒng),可以使用各種開(kāi)源工具。其中有:
- CMU Sphinx——卡內(nèi)基梅隆大學(xué)開(kāi)發(fā)的獨(dú)立于說(shuō)話者的連續(xù)語(yǔ)音識(shí)別系統(tǒng)。 CMU Sphinx 包括一組為不同目的而設(shè)計(jì)的產(chǎn)品。可從 GitHub 網(wǎng)頁(yè)下載。此外,您還可以在那里找到用戶文檔。支持多種流行的編程語(yǔ)言,如C/C++、C#、Java、Python;
- HTK 工具包——用于處理隱馬爾可夫模型的工具包。它由機(jī)器智能實(shí)驗(yàn)室在劍橋大學(xué)開(kāi)發(fā),主要用于語(yǔ)音識(shí)別研究。它不是完全開(kāi)源的。用戶可以在 HTK 官方網(wǎng)站上找到有關(guān)使用該產(chǎn)品的信息。支持的編程語(yǔ)言是 C 和 Python;
- Kaldi——這是一個(gè)用于語(yǔ)音識(shí)別和信號(hào)處理的開(kāi)源工具包。該工具包本身可從 GitHub 存儲(chǔ)庫(kù)下載。該文檔可在官方網(wǎng)站上找到。支持的編程語(yǔ)言是 C++ 和 Python。
8?如何使用語(yǔ)音識(shí)別
????????由于個(gè)人電腦和智能手機(jī)以及人工智能的快速發(fā)展,語(yǔ)音和語(yǔ)音識(shí)別軟件已經(jīng)進(jìn)入我們的日常生活。他們讓我們通過(guò)交談來(lái)控制我們的設(shè)備。第一個(gè)值得一提的產(chǎn)品是虛擬助手。谷歌和蘋果正在發(fā)布帶有內(nèi)置虛擬助手的操作系統(tǒng)。微軟已將其虛擬助手 Cortana 添加到 Windows。智能揚(yáng)聲器與虛擬助手集成。此類設(shè)備的示例包括嵌入 Alexa 的 Amazon Echo 和在 Siri 上運(yùn)行的 Apple HomePod。語(yǔ)音識(shí)別在呼叫中心的 IVR 系統(tǒng)、醫(yī)療設(shè)備中實(shí)現(xiàn)。它用于具有語(yǔ)音生物特征的安全系統(tǒng)。在人類需要與機(jī)器交互的任何地方,這項(xiàng)技術(shù)都會(huì)很有幫助。
9 為什么語(yǔ)音識(shí)別好?
????????語(yǔ)音識(shí)別技術(shù)提高了用戶的工作效率。它捕捉人類語(yǔ)音的速度比我們打字的速度要快得多。此外,當(dāng)您的手忙于其他工作時(shí),您可以與您的設(shè)備交談,同時(shí)執(zhí)行兩個(gè)操作。對(duì)于不能用手的殘疾人來(lái)說(shuō),這是必不可少的。它們從安全方面增加了一層額外的可靠性,因?yàn)閭卧飒?dú)特的聲紋并不容易。
10 語(yǔ)音識(shí)別的優(yōu)缺點(diǎn)
????????語(yǔ)音識(shí)別是一門相對(duì)較新的科學(xué)。它已經(jīng)從能夠識(shí)別單一語(yǔ)言中的數(shù)十個(gè)單詞的簡(jiǎn)單程序發(fā)展為基于人工智能的復(fù)雜系統(tǒng)。幾十年來(lái),它得到了長(zhǎng)足的發(fā)展,并開(kāi)始解決更廣泛的任務(wù)。盡管如此,要改進(jìn)它還有很多工作要做。讓我們總結(jié)一下它有哪些優(yōu)點(diǎn)和缺點(diǎn)。
10.1 語(yǔ)音識(shí)別優(yōu)勢(shì)
- 提高企業(yè)的生產(chǎn)力;
- 自動(dòng)化企業(yè)和客戶之間的互動(dòng);
- 添加額外的安全級(jí)別;
- 捕捉語(yǔ)音的速度比人類打字的速度更快;
- 幫助殘疾人;
- 幫助控制您的家庭設(shè)備;
- 協(xié)助駕駛員使用車內(nèi) ASR 系統(tǒng)等。
10.2 語(yǔ)音識(shí)別的缺點(diǎn)
- 如果說(shuō)話者說(shuō)話快速且不清楚,系統(tǒng)將無(wú)法完全識(shí)別語(yǔ)音;
- 需要大詞匯量來(lái)提高識(shí)別準(zhǔn)確率;
- 每種語(yǔ)言都需要單獨(dú)的 ASR 培訓(xùn);
- 企業(yè)可以在未經(jīng)其許可的情況下收集和使用用戶的語(yǔ)音數(shù)據(jù);
- 時(shí)間和財(cái)務(wù)成本高;
- ASR 軟件消耗大量?jī)?nèi)存并需要大量 RAM。
11 語(yǔ)音識(shí)別技術(shù)應(yīng)用
我們談到了語(yǔ)音識(shí)別系統(tǒng)的廣泛使用。讓我們看看它在特定領(lǐng)域有哪些應(yīng)用。
11.1 衛(wèi)生保健
在醫(yī)學(xué)上,語(yǔ)音識(shí)別主要用于編寫患者文檔。存在兩種不同的文檔過(guò)程方法。
前端文檔是將語(yǔ)音實(shí)時(shí)翻譯成文本的過(guò)程。在這種情況下,系統(tǒng)更有可能出錯(cuò)。醫(yī)生必須修正文本。所以最好用它來(lái)做個(gè)人筆記;
后端文檔的作用相同,但還將說(shuō)話者的錄音附加到文本中。系統(tǒng)提供文本草稿,以便醫(yī)生修復(fù)錯(cuò)誤。
11.2 軍隊(duì)
在這個(gè)領(lǐng)域,它主要用于對(duì)機(jī)器和設(shè)備的指揮和控制。語(yǔ)音命令要快得多。在戰(zhàn)斗中,這可以在贏得戰(zhàn)斗中發(fā)揮關(guān)鍵作用。
11.3 教育用途
學(xué)生可以在學(xué)習(xí)語(yǔ)言的同時(shí)檢查他們的發(fā)音。它可以幫助避免語(yǔ)法、標(biāo)點(diǎn)錯(cuò)誤。編寫大文本的挑戰(zhàn)性較小。學(xué)生可以輸入大文本而不會(huì)感到疲倦。
11.4 殘疾人
手殘學(xué)生或盲人可以不受限制地書(shū)寫。 ASR 使他們能夠跟上學(xué)習(xí)進(jìn)度。
11.4 車載系統(tǒng)
汽車中的語(yǔ)音識(shí)別降低了道路上發(fā)生事故的風(fēng)險(xiǎn)。諸如撥號(hào)、使用 MP3 播放器或收音機(jī)等操作無(wú)需將手從方向盤上移開(kāi)。
11.5 語(yǔ)音控制的視頻游戲
它可以幫助您學(xué)習(xí)游戲。玩家需要時(shí)間來(lái)記住游戲控制鍵。相反,他們可以使用語(yǔ)音命令。
12 不同語(yǔ)音識(shí)別(虛擬助手)軟件
虛擬助理系統(tǒng)相當(dāng)復(fù)雜且昂貴。科技巨頭的解決方案主要主導(dǎo)市場(chǎng)。讓我們了解一下他們。
APPLE'S SIRI
此個(gè)人助理僅適用于 Apple 用戶。它首先出現(xiàn)在 iPhone 4S 中,并成為新 Apple 產(chǎn)品不可或缺的一部分。 Siri 可以在 Twitter 或 Facebook 上發(fā)帖、解決復(fù)雜的數(shù)學(xué)問(wèn)題、保存筆記、進(jìn)行預(yù)訂等。
AMAZON ALEXA
亞馬遜正在運(yùn)送帶有 Alexa 的智能揚(yáng)聲器。它于 2013 年首次亮相。與 Siri 不同,它可以集成到第三方設(shè)備中。它能夠進(jìn)行語(yǔ)音交互、管理在線購(gòu)物和音樂(lè)播放。它還可以控制多個(gè)智能設(shè)備。
MICROSOFT'S CORTANA
它是微軟于 2014 年發(fā)布的虛擬助手,主要供 Windows 操作系統(tǒng)用戶使用,但也適用于 Android 和 IOS 用戶。 Cortana 允許您管理日歷、在 Microsoft Teams 中加入會(huì)議、設(shè)置提醒以及在計(jì)算機(jī)上打開(kāi)應(yīng)用程序。
GOOGLE ASSISTANT
Google 通過(guò) Google Now 開(kāi)始了創(chuàng)建虛擬助手的旅程。這是谷歌搜索的一項(xiàng)功能,允許用戶使用語(yǔ)音搜索信息。幾年后,谷歌停止了該項(xiàng)目的開(kāi)發(fā),并于 2016 年發(fā)布了 Google Assistant。它最初被集成到 Google Home 智能揚(yáng)聲器和 Google Pixel 智能手機(jī)中。
NUANCE'S DRAGON ASSISTANT AND?DRAGON NATURALLY SPEAKING
Dragon Naturally speak 是由 Nuance Communications 開(kāi)發(fā)的語(yǔ)音識(shí)別軟件。在本文前面,我們提到了 Dragon Dictate 應(yīng)用程序。多年來(lái),它得到了改進(jìn),現(xiàn)在被稱為龍自然說(shuō)話。該公司還為個(gè)人電腦提供個(gè)人助理 Dragon Assistant。
13 語(yǔ)音識(shí)別需要訓(xùn)練嗎?
要使用語(yǔ)音識(shí)別系統(tǒng),您不需要長(zhǎng)時(shí)間的培訓(xùn)課程。互聯(lián)網(wǎng)上有很多關(guān)于如何啟用和使用它們的信息。它們可以在制造商的官方網(wǎng)站或其他平臺(tái)上找到。這里有一些有用的鏈接。
- Apple 關(guān)于如何在 MAC 上使用語(yǔ)音控制的文章。 Youtube 上的視頻;
- 一篇關(guān)于如何在 Windows 上使用語(yǔ)音控制和 Youtube 上的視頻的文章;
- Nuance 通信產(chǎn)品的在線大學(xué)。
14?語(yǔ)音識(shí)別技術(shù)的未來(lái)用途
語(yǔ)音識(shí)別的未來(lái)非常有前景。 ASR 系統(tǒng)不僅可以識(shí)別單詞,還可以識(shí)別一個(gè)人的情緒。語(yǔ)音識(shí)別將應(yīng)用于航空航天、家庭自動(dòng)化、機(jī)器人、遠(yuǎn)程信息處理和視頻游戲等領(lǐng)域。
參考文章:
What is Voice Recognition? Voice & Speech Recognition Overview — RecFaces
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的语音识别系列1:语音识别Speech recognition综述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: halcon知识:ncc_model模板
- 下一篇: halcon知识:对空图像的系列操作