當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

语音识别系列1：语音识别Speech recognition综述

發(fā)布時(shí)間：2025/3/21 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了语音识别系列1：语音识别Speech recognition综述小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

名詞約定：

語(yǔ)聲識(shí)別----- VOICE RECOGNITION

語(yǔ)音識(shí)別-----SPEECH?RECOGNITION

1 什么是語(yǔ)聲識(shí)別VOICE RECOGNITION？

????????語(yǔ)音或說(shuō)話者識(shí)別是程序根據(jù)其獨(dú)特的聲紋識(shí)別人的能力。它通過(guò)掃描語(yǔ)音并與所需的語(yǔ)音指紋建立匹配來(lái)工作。人工智能的發(fā)展為計(jì)算機(jī)科學(xué)的這一子領(lǐng)域開(kāi)辟了廣闊的機(jī)遇。它使我們能夠在不接觸機(jī)器的情況下與機(jī)器進(jìn)行交互。它發(fā)展迅速，開(kāi)發(fā)人員正在尋找越來(lái)越多的方法將其應(yīng)用到各個(gè)領(lǐng)域。

2 語(yǔ)聲識(shí)別（VOICE RECOGNITION）和語(yǔ)音識(shí)別(SPEECH?RECOGNITION)有什么區(qū)別？

????????了解這兩個(gè)學(xué)科之間的差異至關(guān)重要。語(yǔ)音識(shí)別的目的是識(shí)別語(yǔ)音所有者。語(yǔ)言識(shí)別的目的是識(shí)別說(shuō)話者的話。在第一種情況下，程序需要說(shuō)話人的獨(dú)特聲紋進(jìn)行比較。在第二種情況下，程序需要一個(gè)巨大的字典來(lái)識(shí)別說(shuō)話者的意義表達(dá)。

3 語(yǔ)聲識(shí)別（VOICE RECOGNITION）系統(tǒng)的類型

? ? ? ? 語(yǔ)音識(shí)別有兩類，它們是：

文本相關(guān)——系統(tǒng)經(jīng)過(guò)訓(xùn)練，可以識(shí)別說(shuō)話者預(yù)先確定的語(yǔ)音密碼；
文本獨(dú)立 - 它不需要預(yù)先確定的密碼。分析的主題是會(huì)話語(yǔ)音。

4? 語(yǔ)音識(shí)別系統(tǒng)的類型

????????我們可以將自動(dòng)話語(yǔ)識(shí)別（ASR）分為不同的類別。首先，它依賴于揚(yáng)聲器。從這方面來(lái)看，有兩種類型是已知的，它們是：

取決于說(shuō)話者——程序經(jīng)過(guò)訓(xùn)練可以識(shí)別特定的聲音，類似于語(yǔ)音識(shí)別。說(shuō)話者必須與程序“交談”并賦予程序分析聲音的能力。這樣的系統(tǒng)更容易實(shí)現(xiàn)。它們?cè)谡Z(yǔ)音識(shí)別方面提供了高精度；
說(shuō)話者獨(dú)立——這種類型的語(yǔ)音識(shí)別軟件有更廣泛的用途。它不需要訓(xùn)練來(lái)分析聲音。重點(diǎn)是說(shuō)話者的單詞識(shí)別。此類程序的典型示例是 IVR 系統(tǒng)。

另一種分類方法是基于用戶說(shuō)話的方式。這些類別是：

離散語(yǔ)音識(shí)別——ASR 應(yīng)用程序從早期版本開(kāi)始就使用這種方法。 Т說(shuō)話者必須分別發(fā)音每個(gè)單詞，在它們之間插入停頓。使用這樣的程序，工作起來(lái)更加困難。口語(yǔ)頻率不易保證；
連續(xù)語(yǔ)音識(shí)別——這是一種相對(duì)較新的 ASR 方法，需要更多的努力來(lái)開(kāi)發(fā)。在這種情況下，說(shuō)話者的語(yǔ)速接近正常。

????????在人工智能語(yǔ)音識(shí)別領(lǐng)域，另一種技術(shù)是眾所周知的。它是自然語(yǔ)言處理（NLP）。 Тhe 語(yǔ)音識(shí)別系統(tǒng)的任務(wù)是理解單詞。 NLP 系統(tǒng)的任務(wù)是理解和回答說(shuō)話者。那是模仿人與機(jī)器之間的交流。 NLP 接近語(yǔ)音/語(yǔ)音識(shí)別，但基于不同的算法。

5 語(yǔ)音識(shí)別簡(jiǎn)史

????????這項(xiàng)技術(shù)的第一個(gè)重要步驟始于 IBM 的貝爾實(shí)驗(yàn)室。 1952 年，IBM 推出了奧黛麗 Audrey，這是第一個(gè)記錄在案的語(yǔ)音識(shí)別器。奧黛麗是一個(gè)完全類比系統(tǒng)，可以理解單個(gè)數(shù)字，中間有停頓。十年后，IBM 推出了 Shoebox，能夠識(shí)別 0 到 9 的 16 個(gè)英文單詞和數(shù)字。在 1970 年代初期，這項(xiàng)技術(shù)的發(fā)展有了飛躍。這主要?dú)w功于美國(guó)國(guó)防部的研發(fā)機(jī)構(gòu) DARPA。經(jīng)過(guò)五年的研究，卡內(nèi)基梅隆大學(xué)誕生了 Harpy。一臺(tái)能夠理解 1011 個(gè)單詞的機(jī)器。此外，Harpy 與它的前輩有很大不同。它可以理解句子。 80 年代初，語(yǔ)音識(shí)別系統(tǒng)的詞匯量增加到幾千個(gè)單詞。這主要?dú)w功于隱馬爾可夫統(tǒng)計(jì)模型。語(yǔ)音識(shí)別從基于模式的數(shù)字信號(hào)處理轉(zhuǎn)變?yōu)槭褂媒y(tǒng)計(jì)模型從未知聲音中預(yù)測(cè)單詞。

????????此外，機(jī)器在識(shí)別單詞方面變得更加準(zhǔn)確。 IBM 的語(yǔ)音識(shí)別小組在 80 年代中期推出了實(shí)驗(yàn)性轉(zhuǎn)錄系統(tǒng) Tangora。 Tangora 能夠識(shí)別 20000 個(gè)單詞。從 1990 年代開(kāi)始，借助個(gè)人電腦，DragonDictate 等語(yǔ)音識(shí)別產(chǎn)品開(kāi)始為消費(fèi)者所用。在過(guò)去的二十年里，許多科技巨頭都在從事這項(xiàng)技術(shù)。在本文后面，您將熟悉他們的產(chǎn)品。

6 語(yǔ)音識(shí)別的工作原理

現(xiàn)代 ASR 系統(tǒng)基于三種模型：聲學(xué)、發(fā)音和語(yǔ)言。

聲學(xué)建模使區(qū)分語(yǔ)音信號(hào)和音素（聲音單位）成為可能。隱馬爾可夫模型 (HMM) 是一種常見(jiàn)的聲學(xué)建模方法。其他方法使用深度神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)等；
發(fā)音模型定義了如何組合音素來(lái)造詞；
語(yǔ)言建模是一門有助于區(qū)分發(fā)音相同的單詞和短語(yǔ)的學(xué)科。

????????錄制語(yǔ)音后，噪聲被清除，有用信號(hào)從錄音中過(guò)濾掉。 Т他的記錄被分成小片段。之后，每個(gè)片段都通過(guò)聲學(xué)模型。這些片段與音素進(jìn)行比較，音素是一個(gè)最初構(gòu)建的統(tǒng)計(jì)模型，用于描述語(yǔ)音中每個(gè)聲音的發(fā)音。基于這些匹配，從音素中收集單詞。 Тhe 查找單詞的效率很大程度上取決于預(yù)先準(zhǔn)備好的音素?cái)?shù)據(jù)庫(kù)的大小。

6.1 錄制你的聲音

????????在任何設(shè)備上，都使用麥克風(fēng)進(jìn)行錄音。如果設(shè)備沒(méi)有，則需要連接麥克風(fēng)耳機(jī)或?qū)I(yè)麥克風(fēng)。為此，您可以使用預(yù)安裝的應(yīng)用程序，例如 Windows 10 上的錄音機(jī)、Apple 產(chǎn)品上的語(yǔ)音備忘錄等。還有大量具有高級(jí)功能的應(yīng)用程序。它們提供了選擇記錄質(zhì)量、比特率或格式來(lái)保存記錄的機(jī)會(huì)。有些是基于人工智能的，可以讓你擺脫錄音中不必要的噪音。

6.2 注冊(cè)

????????用戶注冊(cè)需要記錄說(shuō)話人的聲音并提取獨(dú)特的聲紋作為每個(gè)說(shuō)話人識(shí)別軟件的第一階段。下一階段是驗(yàn)證。將錄制的語(yǔ)音與不同語(yǔ)音的數(shù)據(jù)庫(kù)進(jìn)行比較，以找到最佳匹配或與特定語(yǔ)音。

7 語(yǔ)音識(shí)別工具

如果您不想構(gòu)建語(yǔ)音識(shí)別系統(tǒng)，可以使用各種開(kāi)源工具。其中有：

CMU Sphinx——卡內(nèi)基梅隆大學(xué)開(kāi)發(fā)的獨(dú)立于說(shuō)話者的連續(xù)語(yǔ)音識(shí)別系統(tǒng)。 CMU Sphinx 包括一組為不同目的而設(shè)計(jì)的產(chǎn)品。可從 GitHub 網(wǎng)頁(yè)下載。此外，您還可以在那里找到用戶文檔。支持多種流行的編程語(yǔ)言，如C/C++、C#、Java、Python；
HTK 工具包——用于處理隱馬爾可夫模型的工具包。它由機(jī)器智能實(shí)驗(yàn)室在劍橋大學(xué)開(kāi)發(fā)，主要用于語(yǔ)音識(shí)別研究。它不是完全開(kāi)源的。用戶可以在 HTK 官方網(wǎng)站上找到有關(guān)使用該產(chǎn)品的信息。支持的編程語(yǔ)言是 C 和 Python；
Kaldi——這是一個(gè)用于語(yǔ)音識(shí)別和信號(hào)處理的開(kāi)源工具包。該工具包本身可從 GitHub 存儲(chǔ)庫(kù)下載。該文檔可在官方網(wǎng)站上找到。支持的編程語(yǔ)言是 C++ 和 Python。

8?如何使用語(yǔ)音識(shí)別

????????由于個(gè)人電腦和智能手機(jī)以及人工智能的快速發(fā)展，語(yǔ)音和語(yǔ)音識(shí)別軟件已經(jīng)進(jìn)入我們的日常生活。他們讓我們通過(guò)交談來(lái)控制我們的設(shè)備。第一個(gè)值得一提的產(chǎn)品是虛擬助手。谷歌和蘋果正在發(fā)布帶有內(nèi)置虛擬助手的操作系統(tǒng)。微軟已將其虛擬助手 Cortana 添加到 Windows。智能揚(yáng)聲器與虛擬助手集成。此類設(shè)備的示例包括嵌入 Alexa 的 Amazon Echo 和在 Siri 上運(yùn)行的 Apple HomePod。語(yǔ)音識(shí)別在呼叫中心的 IVR 系統(tǒng)、醫(yī)療設(shè)備中實(shí)現(xiàn)。它用于具有語(yǔ)音生物特征的安全系統(tǒng)。在人類需要與機(jī)器交互的任何地方，這項(xiàng)技術(shù)都會(huì)很有幫助。

9 為什么語(yǔ)音識(shí)別好？

????????語(yǔ)音識(shí)別技術(shù)提高了用戶的工作效率。它捕捉人類語(yǔ)音的速度比我們打字的速度要快得多。此外，當(dāng)您的手忙于其他工作時(shí)，您可以與您的設(shè)備交談，同時(shí)執(zhí)行兩個(gè)操作。對(duì)于不能用手的殘疾人來(lái)說(shuō)，這是必不可少的。它們從安全方面增加了一層額外的可靠性，因?yàn)閭卧飒?dú)特的聲紋并不容易。

10 語(yǔ)音識(shí)別的優(yōu)缺點(diǎn)

????????語(yǔ)音識(shí)別是一門相對(duì)較新的科學(xué)。它已經(jīng)從能夠識(shí)別單一語(yǔ)言中的數(shù)十個(gè)單詞的簡(jiǎn)單程序發(fā)展為基于人工智能的復(fù)雜系統(tǒng)。幾十年來(lái)，它得到了長(zhǎng)足的發(fā)展，并開(kāi)始解決更廣泛的任務(wù)。盡管如此，要改進(jìn)它還有很多工作要做。讓我們總結(jié)一下它有哪些優(yōu)點(diǎn)和缺點(diǎn)。

10.1 語(yǔ)音識(shí)別優(yōu)勢(shì)

提高企業(yè)的生產(chǎn)力；
自動(dòng)化企業(yè)和客戶之間的互動(dòng)；
添加額外的安全級(jí)別；
捕捉語(yǔ)音的速度比人類打字的速度更快；
幫助殘疾人；
幫助控制您的家庭設(shè)備；
協(xié)助駕駛員使用車內(nèi) ASR 系統(tǒng)等。

10.2 語(yǔ)音識(shí)別的缺點(diǎn)

如果說(shuō)話者說(shuō)話快速且不清楚，系統(tǒng)將無(wú)法完全識(shí)別語(yǔ)音；
需要大詞匯量來(lái)提高識(shí)別準(zhǔn)確率；
每種語(yǔ)言都需要單獨(dú)的 ASR 培訓(xùn)；
企業(yè)可以在未經(jīng)其許可的情況下收集和使用用戶的語(yǔ)音數(shù)據(jù)；
時(shí)間和財(cái)務(wù)成本高；
ASR 軟件消耗大量?jī)?nèi)存并需要大量 RAM。

11 語(yǔ)音識(shí)別技術(shù)應(yīng)用

我們談到了語(yǔ)音識(shí)別系統(tǒng)的廣泛使用。讓我們看看它在特定領(lǐng)域有哪些應(yīng)用。

11.1 衛(wèi)生保健

在醫(yī)學(xué)上，語(yǔ)音識(shí)別主要用于編寫患者文檔。存在兩種不同的文檔過(guò)程方法。

前端文檔是將語(yǔ)音實(shí)時(shí)翻譯成文本的過(guò)程。在這種情況下，系統(tǒng)更有可能出錯(cuò)。醫(yī)生必須修正文本。所以最好用它來(lái)做個(gè)人筆記；
后端文檔的作用相同，但還將說(shuō)話者的錄音附加到文本中。系統(tǒng)提供文本草稿，以便醫(yī)生修復(fù)錯(cuò)誤。

11.2 軍隊(duì)

在這個(gè)領(lǐng)域，它主要用于對(duì)機(jī)器和設(shè)備的指揮和控制。語(yǔ)音命令要快得多。在戰(zhàn)斗中，這可以在贏得戰(zhàn)斗中發(fā)揮關(guān)鍵作用。

11.3 教育用途

學(xué)生可以在學(xué)習(xí)語(yǔ)言的同時(shí)檢查他們的發(fā)音。它可以幫助避免語(yǔ)法、標(biāo)點(diǎn)錯(cuò)誤。編寫大文本的挑戰(zhàn)性較小。學(xué)生可以輸入大文本而不會(huì)感到疲倦。

11.4 殘疾人

手殘學(xué)生或盲人可以不受限制地書(shū)寫。 ASR 使他們能夠跟上學(xué)習(xí)進(jìn)度。

11.4 車載系統(tǒng)

汽車中的語(yǔ)音識(shí)別降低了道路上發(fā)生事故的風(fēng)險(xiǎn)。諸如撥號(hào)、使用 MP3 播放器或收音機(jī)等操作無(wú)需將手從方向盤上移開(kāi)。

11.5 語(yǔ)音控制的視頻游戲

它可以幫助您學(xué)習(xí)游戲。玩家需要時(shí)間來(lái)記住游戲控制鍵。相反，他們可以使用語(yǔ)音命令。

12 不同語(yǔ)音識(shí)別（虛擬助手）軟件

虛擬助理系統(tǒng)相當(dāng)復(fù)雜且昂貴。科技巨頭的解決方案主要主導(dǎo)市場(chǎng)。讓我們了解一下他們。

APPLE'S SIRI

此個(gè)人助理僅適用于 Apple 用戶。它首先出現(xiàn)在 iPhone 4S 中，并成為新 Apple 產(chǎn)品不可或缺的一部分。 Siri 可以在 Twitter 或 Facebook 上發(fā)帖、解決復(fù)雜的數(shù)學(xué)問(wèn)題、保存筆記、進(jìn)行預(yù)訂等。

AMAZON ALEXA

亞馬遜正在運(yùn)送帶有 Alexa 的智能揚(yáng)聲器。它于 2013 年首次亮相。與 Siri 不同，它可以集成到第三方設(shè)備中。它能夠進(jìn)行語(yǔ)音交互、管理在線購(gòu)物和音樂(lè)播放。它還可以控制多個(gè)智能設(shè)備。

MICROSOFT'S CORTANA

它是微軟于 2014 年發(fā)布的虛擬助手，主要供 Windows 操作系統(tǒng)用戶使用，但也適用于 Android 和 IOS 用戶。 Cortana 允許您管理日歷、在 Microsoft Teams 中加入會(huì)議、設(shè)置提醒以及在計(jì)算機(jī)上打開(kāi)應(yīng)用程序。

GOOGLE ASSISTANT

Google 通過(guò) Google Now 開(kāi)始了創(chuàng)建虛擬助手的旅程。這是谷歌搜索的一項(xiàng)功能，允許用戶使用語(yǔ)音搜索信息。幾年后，谷歌停止了該項(xiàng)目的開(kāi)發(fā)，并于 2016 年發(fā)布了 Google Assistant。它最初被集成到 Google Home 智能揚(yáng)聲器和 Google Pixel 智能手機(jī)中。

NUANCE'S DRAGON ASSISTANT AND?DRAGON NATURALLY SPEAKING

Dragon Naturally speak 是由 Nuance Communications 開(kāi)發(fā)的語(yǔ)音識(shí)別軟件。在本文前面，我們提到了 Dragon Dictate 應(yīng)用程序。多年來(lái)，它得到了改進(jìn)，現(xiàn)在被稱為龍自然說(shuō)話。該公司還為個(gè)人電腦提供個(gè)人助理 Dragon Assistant。

13 語(yǔ)音識(shí)別需要訓(xùn)練嗎？

要使用語(yǔ)音識(shí)別系統(tǒng)，您不需要長(zhǎng)時(shí)間的培訓(xùn)課程。互聯(lián)網(wǎng)上有很多關(guān)于如何啟用和使用它們的信息。它們可以在制造商的官方網(wǎng)站或其他平臺(tái)上找到。這里有一些有用的鏈接。

Apple 關(guān)于如何在 MAC 上使用語(yǔ)音控制的文章。 Youtube 上的視頻；
一篇關(guān)于如何在 Windows 上使用語(yǔ)音控制和 Youtube 上的視頻的文章；
Nuance 通信產(chǎn)品的在線大學(xué)。

14?語(yǔ)音識(shí)別技術(shù)的未來(lái)用途

語(yǔ)音識(shí)別的未來(lái)非常有前景。 ASR 系統(tǒng)不僅可以識(shí)別單詞，還可以識(shí)別一個(gè)人的情緒。語(yǔ)音識(shí)別將應(yīng)用于航空航天、家庭自動(dòng)化、機(jī)器人、遠(yuǎn)程信息處理和視頻游戲等領(lǐng)域。

參考文章：

What is Voice Recognition? Voice & Speech Recognition Overview — RecFaces

《新程序員》：云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作，文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的语音识别系列1：语音识别Speech recognition综述的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： halcon知识：ncc_model模板
下一篇： halcon知识：对空图像的系列操作