高清音质背后:网易云信音乐教学方案技术解密
近日,網(wǎng)易云信推出全球首個(gè)音樂教學(xué)解決方案,該方案依托網(wǎng)易云信18年的音視頻技術(shù)和經(jīng)驗(yàn),可以全方位支持在線音樂教學(xué)場(chǎng)景。實(shí)時(shí)音視頻的應(yīng)用市場(chǎng)隨著基礎(chǔ)技術(shù)的不斷成熟,基礎(chǔ)設(shè)施(如網(wǎng)絡(luò))的不斷升級(jí),以及用戶需求的不斷豐富而持續(xù)擴(kuò)張。作為一個(gè)跨越物理距離實(shí)現(xiàn)人與人溝通交流的最重要的網(wǎng)絡(luò)解決方案,人們對(duì)于實(shí)時(shí)音視頻的需求和期望也越來越高。今天就來討論下傳統(tǒng)的VOIP在應(yīng)用在在線音樂場(chǎng)景下面臨的痛點(diǎn),以及網(wǎng)易云信是如何設(shè)計(jì)一個(gè)端到端的在線音樂教學(xué)解決方案的。
首先我們先來介紹下一般的VOIP框架。VOIP即Voiceover Internet Protocol,用中文簡單描述就是將模擬信號(hào)(Voice)數(shù)字化,再進(jìn)行前處理,編碼,以數(shù)據(jù)封包(Data Packet)的形式在IP網(wǎng)絡(luò)(IPNetwork)上做實(shí)時(shí)傳遞。VOIP區(qū)別于傳統(tǒng)電話的最大變化就是不再獨(dú)占信道,采用數(shù)據(jù)包發(fā)送至IP網(wǎng)絡(luò)。它的優(yōu)點(diǎn)是成本低、信道利用率高,缺點(diǎn)也很明顯,就是網(wǎng)絡(luò)狀況的好壞直接影響通話的質(zhì)量。VOIP的通話的首要目標(biāo)是對(duì)抗網(wǎng)絡(luò)狀況實(shí)現(xiàn)語音的流暢、可理解、實(shí)時(shí)性,在很多子模塊設(shè)計(jì)也都是以這個(gè)為目標(biāo)的。在VOIP框架下(如圖一所示),聲音從一端到達(dá)另一端一般是要經(jīng)過:采集,前處理,編碼,網(wǎng)絡(luò)傳輸,解碼,播放幾個(gè)模塊的。
圖片1-VOIP框架
為了達(dá)到流暢、可理解、實(shí)時(shí)性這樣的目標(biāo),一般VOIP的每個(gè)環(huán)節(jié)這么做的:
采集/播放模塊:由于一般的人聲都是中低頻為主,高頻的諧波不多。大部分采集模塊都選用性價(jià)比最高的16KHz采樣率,早期的采集模塊的采樣率則是更低的窄帶8KHz。16KHz采樣率不僅能保存絕大部分的人聲,也降低了后面模塊如前處理和編碼器的計(jì)算量,同時(shí)還大大減少了編碼的輸出碼率(相對(duì)于48Khz采樣率)。
前處理:一般的音頻前處理主要有:回聲消除,噪聲抑制,自動(dòng)增益控制等。任何的前處理都是希望保留或放大我們想要的聲音,消除或抑制不想要的聲音。所以處理一定是對(duì)本體聲音造成影響的。在一般的VOIP框架下,前處理算法不僅可以扔掉高頻信息來保證計(jì)算量,同時(shí)在算法的偏向性上也更偏向于去除掉不想要保留的聲音如噪音,回聲等。最大限度保證可理解即可。
編解碼器:一般的VOIP系統(tǒng)除了會(huì)使用國際電信聯(lián)盟的G.711、G.722、G.723等編碼器(如:IP電話等),更多的即時(shí)通訊軟件則會(huì)使用針對(duì)網(wǎng)絡(luò)傳輸設(shè)計(jì)的Opus 等編碼器,Opus在人聲場(chǎng)景下,會(huì)使用口腔發(fā)音模型建模silk語音編碼器,可以實(shí)現(xiàn)高壓縮比,大大提升低帶寬下表現(xiàn)。
網(wǎng)絡(luò)傳輸:在對(duì)抗網(wǎng)絡(luò)傳輸?shù)牟环€(wěn)定,包括:隨機(jī)丟包,擁塞,抖動(dòng)等,常見的對(duì)抗技術(shù)和策略有:FEC(Forward Error Correction)前向糾錯(cuò)技術(shù),PLC(Packet loss concealment)丟包隱藏技術(shù),ARQ(Automatic Repeat Request)自動(dòng)重傳機(jī)制,JitterBuffer 抖動(dòng)緩存區(qū)策略,帶寬與冗余包分配策略等等。一般VOIP在設(shè)計(jì)這些策略和方案的時(shí)候會(huì)最大限度的保留流暢性和實(shí)時(shí)性的同時(shí),利用盡量少的帶寬來恢復(fù)更多的數(shù)據(jù),滿足可理解性,同時(shí)也能兼顧低帶寬純音頻場(chǎng)景以及正常帶寬下的音視頻混合場(chǎng)景。
這些環(huán)節(jié)的設(shè)計(jì),可以讓人聲場(chǎng)景下節(jié)約計(jì)算量的同時(shí)又比較高效的被壓縮最大限度的利益網(wǎng)絡(luò)帶寬,來達(dá)到最高的性價(jià)比的語音通話。但是切換到音樂場(chǎng)景下,由于聲音的內(nèi)容的豐富程度大大增加,加上人對(duì)于音樂內(nèi)容的要求更高,普通的VOIP框架的設(shè)計(jì)就顯得有些不夠用了,痛點(diǎn)如下:
圖片2-音樂內(nèi)容痛點(diǎn)
采集/播放模塊:由于音樂內(nèi)容的高頻諧波非常豐富,16Khz的采集相對(duì)于絕大多數(shù)44.1KHz的音樂源來說,造成了大量的高頻損失。經(jīng)過對(duì)比測(cè)試,人耳可以在幾秒內(nèi)明顯感知。
前處理:一些前處理算法,考慮到計(jì)算量會(huì)直接扔掉高頻信息,這個(gè)效果會(huì)和16Khz采樣的最后效果差不多,但是信息少了,大小卻沒有變,最后造成編碼器計(jì)算量的增加和編碼碼率的提高。除此之外,前處理在語音內(nèi)容的處理目標(biāo)是可理解,在對(duì)本體語音的損傷較大,在語音內(nèi)容下不易感知,但是在音樂內(nèi)容下就非常容易感知了,極端情況下會(huì)帶來非常不好的體驗(yàn)。
編解碼器:普通的語音編碼器一般是口腔發(fā)聲模型建模的,在編碼由樂器彈奏出來的曲子的時(shí)候由于模型不匹配將造成很多聲音細(xì)節(jié)的丟失。所以音樂通常會(huì)使用基于人耳聽覺模型建模的音樂編碼器如Opus里面的celt編碼器。相比于語音編碼器,音樂編碼器在高碼率輸出的時(shí)候還原度要好很多,但是壓縮比要明顯低一些,帶來的直接影響是低碼率下的音樂編碼失真非常嚴(yán)重。
網(wǎng)絡(luò)傳輸:傳統(tǒng)的VOIP基于實(shí)時(shí)性、可理解以及順暢的目標(biāo)下,會(huì)給音頻預(yù)留較低的帶寬,冗余包的信息較少,jitterbuffer等策略的設(shè)計(jì)也是滿足基本可理解聲音的要求下盡量的降低時(shí)延。在音樂的內(nèi)容下,整體的音質(zhì)在對(duì)抗網(wǎng)絡(luò)的狀況中變化較大,用戶體驗(yàn)不好。
網(wǎng)易云信,在設(shè)計(jì)在線音樂內(nèi)容解決方案的時(shí)候,首先去了解了類似VIP陪練等在線音樂教學(xué)類的痛點(diǎn),再加上技術(shù)框架下的重新思考,旨在給用戶提供端到端的音樂內(nèi)容解決方案。
圖片3-音樂內(nèi)容VS傳統(tǒng)方案
采集/播放模塊:采用48KHz全頻帶方案采集方案,在采集和播放處最大限度的減少音質(zhì)的損失。針對(duì)Android等移動(dòng)端系統(tǒng),會(huì)在前處理可以處理的范圍內(nèi),盡量選擇適合音樂內(nèi)容采集播放的模式,減少由于系統(tǒng)硬件前后處理帶來的音質(zhì)的損失。
前處理:支持48KHz的全頻帶處理能力,同時(shí)針對(duì)音樂內(nèi)容做部分偏向性優(yōu)化,希望能盡量減少音質(zhì)的損失。
編解碼器:設(shè)置更加適合音樂編碼器的碼率范圍,在注重編碼效率的同時(shí)兼顧音樂內(nèi)容的音質(zhì),實(shí)現(xiàn)最大限度的高保真。
網(wǎng)絡(luò)傳輸:重新定義了音頻,視頻,冗余音頻,冗余視頻等部分的優(yōu)先級(jí),定制化的調(diào)整了音頻的整體帶寬分配策略,以及冗余音頻的大小。在實(shí)時(shí)性和質(zhì)量的平衡中針對(duì)音樂場(chǎng)景做了定制化調(diào)優(yōu),最大限度的減少音質(zhì)的變化帶來的用戶體驗(yàn)不佳。
除了在音質(zhì)上對(duì)端到端音樂內(nèi)容體驗(yàn)有了全新定義之外,我們還創(chuàng)新性地打造極速相應(yīng)機(jī)制,讓用戶在無感知的情況下快速解決問題。事實(shí)上,面對(duì)成百上千的設(shè)備差異性,聲音的效果在部分設(shè)備上表現(xiàn)會(huì)非常不理想。傳統(tǒng)方案流程中用戶發(fā)現(xiàn)問題、反饋問題再到手機(jī)適配解決問題的流程,版本迭代周期長、升級(jí)成本高、用戶體驗(yàn)修復(fù)慢,這些都是非常大的弊端。云信下發(fā)極速響應(yīng)機(jī)制,使分析問題、解決問題、實(shí)時(shí)同步部署成為可能,最快可以使用戶從反饋問題到下一通電話就在用戶無感知的情況下解決,大大提升了聲音類問題從發(fā)現(xiàn)到解決到用戶使用的閉環(huán)時(shí)間。
網(wǎng)易云信推出的全球首個(gè)音樂教學(xué)解決方案(點(diǎn)擊【閱讀原文】即可了解詳情),是云信在音樂場(chǎng)景下完成的端到端系統(tǒng)性、框架性優(yōu)化邁出的重要一步,方案考慮并設(shè)計(jì)了各個(gè)環(huán)節(jié)的策略和定制優(yōu)化,我們也會(huì)在接下來的版本里針對(duì)在線音樂教學(xué)場(chǎng)景進(jìn)行持續(xù)優(yōu)化!
↓↓↓
與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的高清音质背后:网易云信音乐教学方案技术解密的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【版本更新】网易云信IM微信小程序上线啦
- 下一篇: 网易MCTalk聚焦前沿技术 助力传统