基于内容的音频检索
李國輝·
返回
----?對于人的感官來說,有視覺、聽覺、觸覺和味覺等方面的感知。在視覺方面,可以感知位置、運動、顏色、紋理、形狀、符號等;在聽覺方面,可以感知位置、運動、音調、音量、旋律等;另外還有觸覺(機械的、熱的、電的、肌肉運動方面的)和嗅覺(氣味、味道等)。除了視覺、觸覺和嗅覺外,人們可以從聽覺中獲得許多信息,如我們日常收聽的電臺節目、欣賞的音樂、聆聽的自然聲響等。有許多與音頻相關的應用,如音頻數據庫、廣播、音頻編輯、監控、在線音樂等。
----音頻是多媒體中的一種重要媒體。我們能夠聽見的音頻頻率范圍是60Hz~20kHz,其中語音大約分布在300Hz~4kHz之內,而音樂和其他自然聲響是全范圍分布的。聲音經過模擬設備記錄或再生,成為模擬音頻,再經數字化成為數字音頻。數字化時的采樣率必須高于信號帶寬的2倍,才能正確恢復信號。樣本可用8 位或16位比特表示。
----以前的許多研究工作涉及到語音信號的處理,如語音識別。機器容易自動識別孤立的字詞,如用在專用的聽寫和電話應用方面,而對連續的語音識別則較困難,錯誤較多,但目前在這方面已經取得了突破性的進展,同時還研究了辨別說話人的技術。這些研究成果將為音頻信息的檢索提供很大幫助。
----常規的信息檢索(IR)研究主要是基于文本,例如我們已經非常熟悉的諸如Yahoo!和AltaVista這樣的搜索引擎。經典的IR問題是利用一組關鍵字組成的查詢來定位需要的文本文檔,即定位文檔中的查詢關鍵字來發現匹配的文檔。如果一個文檔中包含較多的查詢項,那么,它就被認為比其他包含較少查詢項的文檔更“相關”。于是,文檔可以按照“相關”度來排序,并顯示給用戶,以便進一步搜索。雖然這種一般的IR過程是為文本設計的,但顯然也適用于音頻或其他多媒體信息的檢索。但是,如果我們把數字音頻當成一種不透明的位流來管理,雖然可以賦予名字、文件格式、采樣率等屬性,但其中沒有可以確認的詞或可比較的實體,因此,不能像文本那樣搜索或檢索其內部的內容。對于音樂和非語音聲響也是這樣。
----基于人工輸入的屬性和描述來進行音頻檢索是我們首先想到的方法。該方法的主要缺點反映在以下幾個方面:當數據量越來越多時,人工的注釋強度加大;人對音頻的感知,如音樂的旋律、音調、音質等,難以用文字注釋表達清楚。這些正是基于內容的音頻檢索需要研究和解決的問題。但我們同時注意到音頻檢索可以利用的一個優勢,那就是語音是一種特殊類型的音頻,它與文本可以互相轉換,因此,可以利用文本檢索技術進行概念檢索。
----本文將從信息存取的角度介紹基于內容的音頻檢索概念和方法。
查詢方式
----音頻是聲音信號的形式。作為一種信息載體,音頻可以分為三種類型:
----波形聲音 對模擬聲音數字化而得到的數字音頻信號。它可以代表語音、音樂、自然界和合成的聲響。
----語音 具有字詞、語法等語素,是一種高度抽象的概念交流媒體。語音經過識別可以轉換為文本。文本是語音的一種腳本形式。
----音樂 具有節奏、旋律或和聲等要素,是人聲或/和樂器音響等配合所構成的一種聲音。音樂可以用樂譜來表示。
----不同的類型將具有不同的內在內容。但從整體看,音頻內容分為三個級別:最低層的物理樣本級、中間層的聲學特征級和最高層的語義級,如下圖所示。從低級到高級,其內容逐級抽象,內容的表示逐級概括。
----在物理樣本級,音頻內容呈現的是流媒體形式,用戶可以通過時間刻度,檢索或調用音頻的樣本數據。如現在常見的音頻錄放程序接口。
----中間層是聲學特征級。聲學特征是從音頻數據中自動抽取的。一些聽覺特征表達用戶對音頻的感知,可以直接用于檢索;一些特征用于語音的識別或檢測,支持更高層的內容表示。另外還有音頻的時空結構。
----最高層是語義級,是音頻內容、音頻對象的概念級描述。具體來說,在這個級別上,音頻的內容是語音識別、檢測、辨別的結果,音樂旋律和敘事的說明,以及音頻對象和概念的描述。
----后兩層是基于內容的音頻檢索技術最關心的。在這兩個層次上,用戶可以提交概念查詢或按照聽覺感知來查詢。
----音頻的聽覺特性決定其查詢方式不同于常規的信息檢索系統。基于內容的查詢是一種相似查詢,它實際上是檢索出與用戶指定的要求非常相似的所有聲音。查詢中可以指定返回的聲音數或相似度的大小。另外,可以強調或關閉(忽略)某些特征成分,甚至可以施加邏輯“非”(或模糊的less匹配關系)來指定檢索條件,檢索那些不具有或少有某種特征成分(如指定沒有“尖銳”或少有“尖銳”)的聲音。另外,還可以對給定的一組聲音,按照聲學特征進行排序,如按聲音的嘈雜程度排序。
----在查詢接口上,用戶可以采用以下形式提交查詢:
----示例 用戶選擇一個聲音例子表達其查詢要求,查找出與該聲音在某些特征方面相似的所有聲音。如查詢與飛機的轟鳴聲相似的所有聲音。
----直喻 通過選擇一些聲學/感知物理特性來描述查詢要求,如亮度、音調和音量等。這種方式與可視查詢中的描繪查詢相似。
----擬聲 發出與要查找的聲音性質相似的聲音來表達查詢要求。如用戶可以發出嗡嗡聲來查找蜜蜂或電氣嘈雜聲。
----主觀特征 用個人的描述語言來描述聲音。這需要訓練系統理解這些描述術語的含義,如用戶可能要尋找“歡快”的聲音。
----瀏覽 這是信息發現的一種重要手段,尤其是對于音頻這種時基媒體。除了在分類的基礎上瀏覽目錄外,重要的是基于音頻的結構進行瀏覽。
----根據對音頻媒體的劃分可以知道,語音、音樂和其他聲響具有顯著不同的特性,因而目前的處理方法可以分為相應的三種:處理包含語音的音頻和不包含語音的音頻,后者又把音樂單獨劃分出來。換句話說,第一種是利用自動語音識別技術,后兩種是利用更一般性的音頻分析,以適合更廣泛的音頻媒體,如音樂和聲音效果,當然也包含數字化語音信號。音頻信息檢索分為以下幾方面:
----1.基于語音技術的檢索
----語音檢索是以語音為中心的檢索,采用語音識別等處理技術。如電臺節目、電話交談、會議錄音等。
----基于語音技術的檢索是利用語音處理技術檢索音頻信息。過去人們對語音信號處理開展了大量的研究,許多成果可以用于語音檢索。
----(1)利用大詞匯語音識別技術進行檢索
----這種方法是利用自動語音識別(ASR)技術把語音轉換為文本,從而可以采用文本檢索方法進行檢索。雖然好的連續語音識別系統在小心地操作下可以達到90%以上的詞語正確度,但在實際應用中,如電話和新聞廣播等,識別率并不高。即使這樣,ASR識別出來的腳本仍然對信息檢索有用,這是因為檢索任務只是匹配包含在音頻數據中的查詢詞句,而不是要求一篇可讀性好的文章。例如,采用這種方法把視頻的語音對話軌跡轉換為文本腳本,然后組織成適合全文檢索的形式支持檢索。
----(2)基于子詞單元進行檢索
----當語音識別系統處理各方面無限制主題的大范圍語音資料時,識別性能會變差,尤其當一些專業詞匯(如人名、地點)不在系統詞庫中時。一種變通的方法是利用子詞(SubWord)索引單元,當執行查詢時,用戶的查詢首先被分解為子詞單元,然后將這些單元的特征與庫中預先計算好的特征進行匹配。
----(3)基于識別關鍵詞進行檢索
----在無約束的語音中自動檢測詞或短語通常稱為關鍵詞的發現(Spotting)。利用該技術,識別或標記出長段錄音或音軌中反映用戶感興趣的事件,這些標記就可以用于檢索。如通過捕捉體育比賽解說詞中“進球”的詞語可以標記進球的內容。
----(4)基于說話人的辨認進行分割
----這種技術是簡單地辨別出說話人話音的差別,而不是識別出說的是什么。它在合適的環境中可以做到非常準確。利用這種技術,可以根據說話人的變化分割錄音,并建立錄音索引。如用這種技術檢測視頻或多媒體資源的聲音軌跡中的說話人的變化,建立索引和確定某種類型的結構(如對話)。例如,分割和分析會議錄音,分割的區段對應于不同的說話人,可以方便地直接瀏覽長篇的會議資料。
----2.音頻檢索
----音頻檢索是以波形聲音為對象的檢索,這里的音頻可以是汽車發動機聲、雨聲、鳥叫聲,也可以是語音和音樂等,這些音頻都統一用聲學特征來檢索。
----雖然ASR可以對語音內容給出有價值的線索,但是,還有大量其他的音頻數據需要處理,從聲音效果到動物叫聲以及合成聲音等。因此,對于一般的音頻,僅僅有語音技術是不夠的,使用戶能從大型音頻數據庫中或一段長錄音中找到感興趣的音頻內容是音頻檢索要做的事。音頻數據的訓練、分類和分割方便了音頻數據庫的瀏覽和查找,基于聽覺特征的檢索為用戶提供高級的音頻查詢接口。這里指的音頻檢索就是針對廣泛的聲音數據的檢索,分析和檢索的音頻可以包含語音和音樂,但是采用的是更一般性的聲學特性分析方法。
----(1)聲音訓練和分類
----通過訓練來形成一個聲音類。用戶選擇一些表達某類特性的聲音例子(樣本),如“腳步聲”。對于每個進入數據庫中的聲音,先計算其N維聲學特征矢量,然后計算這些訓練樣本的平均矢量和協方差矩陣,這個均值和協方差就是用戶訓練得出的表達某類聲音的類模型。
----聲音分類是把聲音按照預定的類組合。首先計算被分類聲音與以上類模型的距離,可以利用Euclidean或 Manhattan距離度量,然后距離值與門限(閾值)比較,以確定是否該聲音納入或不屬于比較的聲音類。也有某個聲音不屬于任何比較的類的情況發生,這時可以建立新的類,或納入一個“其他”類,或歸并到距離最近的類中。
----(2) 聽覺檢索
----聽覺感知特性,如基音和音高等,可以自動提取并用于聽覺感知的檢索,也可以提取其他能夠區分不同聲音的聲學特征,形成特征矢量用于查詢。
----例如,按時間片計算一組聽覺感知特征:基音、響度、音調等。考慮到聲音波形隨時間的變化,最終的特征矢量將是這些特征的統計值,例如用平均值、方差和自相關值表示。這種方法適合檢索和對聲音效果數據進行分類,如動物聲、機器聲、樂器聲、語音和其他自然聲等。
----(3)音頻分割
----以上方法適合單體聲音的情況,如一小段電話鈴聲、汽車鳴笛聲等。但是,一般的情況是一段錄音包含許多類型的聲音,由多個部分組成。更為復雜的情況是,以上各種聲音可能會混在一起,如一個有背景音樂的朗誦、同聲翻譯等。這需要在處理單體聲音之前先分割長段的音頻錄音。另外,還涉及到區分語音、音樂或其他聲音。例如對電臺新聞節目進行分割,分割出語音、靜音、音樂、廣告聲和音樂背景上的語音等。
----通過信號的聲學分析并查找聲音的轉變點就可以實現音頻的分割。轉變點是度量特征突然改變的地方。轉變點定義信號的區段,然后這些區段就可以作為單個的聲音處理。例如,對一段音樂會的錄音,可通過自動掃描找到鼓掌聲音,以確定音樂片斷的邊界。這些技術包括:暫停段檢測、說話人改變檢測、男女聲辨別,以及其他的聲學特征。
----音頻是時基線性媒體。現在我們看到的典型音頻播放接口是與磁帶錄音機相似的界面,具有停止、暫停、播放、快進、倒帶等按鈕。為了不丟失其中的重要東西,必須從頭到尾聽一遍聲音文件,這樣要花費很多時間,即使使用“快進”,也容易丟失重要的片斷,不能滿足信息技術的要求。因此,在分割的基礎上,就可以結構化表示音頻的內容,建立超越常規的順序瀏覽界面和基于內容的音頻瀏覽接口。
----3.音樂檢索
----音樂檢索是以音樂為中心的檢索,利用音樂的音符和旋律等音樂特性來檢索。如檢索樂器、聲樂作品等。
----音樂是我們經常接觸的媒體,像MIDI、MP3和各種壓縮音樂制品、實時的音樂廣播等。音樂檢索雖然可以利用文本注釋,但音樂的旋律和感受并不都是可以用語言講得清楚的。通過在查詢中出示例子,基于內容的檢索技術在某種程度上可以解決這種問題。
----音樂檢索利用的是諸如節奏、音符、樂器特征。節奏是可度量的節拍,是音樂中一種周期特性和表示。音樂的樂譜典型地以事件形式描述,如以起始時間、持續時間和一組聲學參數(基音、音高、顫音等)來描述一個音樂事件。注意到許多特征是隨時間變化的,所以,我們應該用統計方法來度量音樂的特性。
----人的音樂認知可以基于時間和頻率模式,就像其他聲音分析一樣。時間結構的分析基于振幅統計,得到現代音樂中的拍子。頻譜分析獲得音樂和聲的基本頻率,可以用這些基本頻率進行音樂檢索。有的方法是使用直接獲得的節奏特征,即假設低音樂器更適合提取節拍特征,通過歸一化低音時間序列得到節奏特征矢量。
----除了用示例進行音樂查詢之外,用戶甚至可以唱或哼出要查找的曲調。基音抽取算法把這些錄音轉換成音符形式的表示,然后用于對音樂數據庫的查詢。但是,抽取樂譜這樣的屬性,哪怕是極其簡單的一段也是非常困難的。研究人員現在改用MIDI音樂數據格式解決這個問題。用戶可以給出一個旋律查詢,然后搜索 MIDI文件,就可以找出相似的旋律。
近期研究的問題
----在基于內容的多媒體檢索研究中,許多方法是通過自動提取的媒體特征來檢索的,如圖像中的顏色和紋理。現在的研究關注于語義級的檢索,這需要一些語義分析或知識,例如分析注釋或對象的標題、字幕等。而語義檢索是理想的,因為它是人類所希望的一種檢索方式,但是,它需要高強度的人工注釋,或者需要難以實現的復雜的自動內容分析。從圖像中提取語義非常困難,例如,如果沒有關鍵字的注釋,找出“長城”的照片非常困難,但現在的自動語音識別技術使音頻檢索可以達到語義級,可以自動識別出音頻流中的詞語,而完全可能自動定位到某人,他正在談論長城,或是真正找出有關長城的記錄片或鏡頭。因此,音頻檢索具有其自身的優勢,并且可以達到較好的效果。
----在音頻數據庫領域,許多研究是有關語音方面的,因為語音是音頻中一種重要的信息載體。非語音的音頻數據檢索和混合系統方面的研究工作也開始引起重視。這項研究涉及多學科,包括語音識別、信息檢索、音頻分析、信號處理、心理聲學、機器學習等。
----目前關注的研究問題有:
----集成的檢索方法 把音頻特征與視頻檢索技術以及其他媒體特征相結合,以提高檢索效率和檢索能力。
----?WWW上基于內容的音頻檢索 需要研究快速的大規模音頻庫的瀏覽、檢索和連續音頻媒體的提交。
----長音頻的瀏覽和檢索 結構化表示音頻流,并設計出新形式的音頻內容瀏覽界面。研究通用的基于片段級的內容檢索,在時間軌跡上匹配一組特征,這需要研究模糊的匹配方法。
----其他音頻特征 繼續研究有效的可區分性的聽覺解析特征,以支持通用的和專用的音頻檢索問題。
----?用戶的音頻查詢接口 需要一種友善的和易用的用戶接口來提交音頻查詢,包括音頻軌跡的可視表示、查詢表達、交互和求精、結構化瀏覽等。
----音頻索引 多維特征索引結構的建立,以滿足大容量數據庫和WWW檢索的要求。
總結
- 上一篇: 增强现实(Augmented Reali
- 下一篇: 车道线检测(opencv)