音视频技术开发周刊(第125期)
每周一期,縱覽音視頻技術(shù)領(lǐng)域的干貨和新聞投稿:contribute@livevideostack.com。
架構(gòu)
基于WebRTC的云游戲解決方案和技術(shù)優(yōu)化
本次演講主要內(nèi)容將包括云游戲整體方案的架構(gòu)介紹、使用開Open WebRTC ToolKit (OWT)實(shí)現(xiàn)流和控制命令的傳輸,以及為實(shí)現(xiàn)云游戲所需的超低延遲所做的優(yōu)化。
傳輸網(wǎng)絡(luò)
靈魂一問:一個(gè)TCP連接可以發(fā)多少個(gè)HTTP請(qǐng)求??
一道經(jīng)典的面試題是從 URL 在瀏覽器被輸入到頁面展現(xiàn)的過程中發(fā)生了什么,大多數(shù)回答都是說請(qǐng)求響應(yīng)之后 DOM 怎么被構(gòu)建,被繪制出來。
Demuxed 2019 演講視頻選
基于蘋果低延遲HLS的技術(shù)實(shí)踐/視頻指標(biāo)分析/無狀態(tài)音頻處理系統(tǒng)
第一場(chǎng)演講的演講者是來自M2A Media的Marina Kalkanis,演講者介紹了M2A 實(shí)時(shí)系統(tǒng)的工作流程組件,并給出了每個(gè)組件帶來的延遲。
第二場(chǎng)演講的演講者是來自Snap的Bendodson,演講主題是視頻指標(biāo)分析。演講者從Richard Feynman算法引入,說明了解指標(biāo)固有屬性的重要性,然后闡述了視頻啟動(dòng)延時(shí)對(duì)用戶的影響,最后講述了解決棘手問題的方式。
第三場(chǎng)演講的演講者是來自Twitter的Michael Hill,演講主題是無狀態(tài)音頻處理系統(tǒng)。演講者首先對(duì)比了有狀態(tài)系統(tǒng)和無狀態(tài)系統(tǒng)的特點(diǎn),接著說明了無狀態(tài)系統(tǒng)在Twitter實(shí)時(shí)系統(tǒng)中的應(yīng)用,具體講述了音頻處理器的工作流程,然后詳細(xì)介紹了客戶端和服務(wù)器端的工作,最后介紹了下一步的工作。
netflix公司在AV1上做的一些工作/強(qiáng)化學(xué)習(xí)在ABR中的應(yīng)用
第一場(chǎng)演講的演講者是來自Netflix的Guo LiWei和Andrey Norkin,首先LiWei介紹了Neiflix公司在編碼優(yōu)化方面做的一系列工作,包括07年的"One-size-fits-all",15年的"Per-title",16年的"Per-chunk"和17年的"Per-shot"編碼。然后介紹了他們對(duì)于AV1的關(guān)注點(diǎn),包括根據(jù)內(nèi)容的優(yōu)化和基于"Per-shot"的壓縮。
第二場(chǎng)演講的演講者是來自Hotstar的Sahil Budhiraja,演講者首先介紹了ABR(Adaptive Bitrate Switching),以及其最優(yōu)化QOE的目標(biāo)。然后介紹了最近的ABR算法,包括吞吐量估計(jì)、基于buffer的和混合的算法,這些算法都是啟發(fā)式的。
編解碼
關(guān)于VMAF,內(nèi)容感知編碼和無參指標(biāo)的思考
獨(dú)立于所使用的編碼器,內(nèi)容感知編碼(Content-Aware Encoding, CAE)和內(nèi)容感知傳輸(Context-Aware Delivery, ?CAD)代表了目前視頻流的最先進(jìn)技術(shù)。
用Elevator優(yōu)化AV1視頻播放
AOM會(huì)員Vimeo通過Elevator改善AV1解碼過程中的丟幀和質(zhì)量下降問題。感謝Google軟件工程師姜健對(duì)本文做的技術(shù)審校。
新型試驗(yàn)編碼工具簡(jiǎn)述
本文是來自AOMedia 2019研討會(huì)上的演講,演講者是來自谷歌編解碼團(tuán)隊(duì)的Sarah Parker。本文主要介紹了在現(xiàn)行AV1標(biāo)準(zhǔn)的基礎(chǔ)上,為下一代編碼器性能的優(yōu)化而提出的一些新型編碼工具和做出的一些嘗試,這些工具尚處于實(shí)驗(yàn)階段。
使用基于分層深度學(xué)習(xí)的分塊預(yù)測(cè)加速VP9幀內(nèi)編碼
本文是來自AOMedia 2019 Research Symposium的演講,演講者是來自得克薩斯大學(xué)奧斯汀分校的Somdyuti Paul,題目是”Speeding up VP9 IntraEncoder with Hierarchical Deep Learning Based Partition Prediction”,主題是使用基于分層深度學(xué)習(xí)的分塊預(yù)測(cè)加速VP9幀內(nèi)編碼。
嗶哩嗶哩H.265編碼器在直播和點(diǎn)播的實(shí)踐和應(yīng)用
作為一個(gè)視頻網(wǎng)站,隨著B站的視頻種類的增多,網(wǎng)站的成本壓力增加,考慮到降低成本,就要選擇一個(gè)超低碼率的編碼器。本文來自B站視頻云技術(shù)部的技術(shù)專家葉天曉在LiveVideoStackCon2019北京站上的精彩分享,文章中詳細(xì)介紹了B站自研的H.265軟件編碼器(yhevc)研發(fā)歷程, 以及針對(duì)實(shí)際的點(diǎn)播和直播業(yè)務(wù)做的一些優(yōu)化與實(shí)踐。
音視頻封裝小總結(jié)(PS TS 和FLV)
PS、TS、FLV這三種簡(jiǎn)單封裝格式,里面包含了對(duì)國(guó)標(biāo)流的PS流處理方法,同時(shí)解析了HLS的TS文件格式以及常用的FLV文件,更詳細(xì)內(nèi)容可參考文內(nèi)鏈接的往期文章。
感知優(yōu)化深度圖像壓縮
本文是來自alliance for open media research symposium2019的演講,作者是來自于UT Austin的PhD,Li-Heng Chen。本次演講主要講述如何在感知上優(yōu)化深度圖像壓縮。
視頻技術(shù)
視頻監(jiān)控?cái)z像頭的互聯(lián)網(wǎng)化實(shí)踐思路
本文介紹了視頻監(jiān)控?cái)z像頭的互聯(lián)網(wǎng)化實(shí)踐思路,本篇就拋磚引玉說下視頻監(jiān)控設(shè)備上云的一些實(shí)踐和思考。文章核心內(nèi)容大致分為下面幾個(gè)部分,為什么監(jiān)控?cái)z像頭要上云?互聯(lián)網(wǎng)化?要上云怎么實(shí)踐?有哪些大坑需要填?未來這塊還有哪些改進(jìn)空間和期待?
視頻體驗(yàn)質(zhì)量指標(biāo)的標(biāo)準(zhǔn)
本文是來自MHV(Mile High Video)2019的演講,演講者是來自于Mux的Steve He?ernan。本次演講主要接受了CTA標(biāo)準(zhǔn)工作組R04 WG20 在視頻體驗(yàn)質(zhì)量指標(biāo)標(biāo)準(zhǔn)上的近期工作。
Hangouts Meet 中的語音識(shí)別
關(guān)于谷歌 Meet 中語音識(shí)別工作原理的有趣分析 (涉及 data channel)
人物專訪
Beamr構(gòu)建的工具VISTA/內(nèi)容聚合和衡量OTT成功與否
第一段音頻的訪談?wù)逿amar Shoham是Beamr技術(shù)和算法VP,他們討論了Beamr構(gòu)建的一個(gè)工具VISTA,該工具使用眾包資源進(jìn)行大規(guī)模ITU BT.500風(fēng)格的主觀質(zhì)量評(píng)價(jià)測(cè)試。
第二段音頻的訪談?wù)逥an Rayburn是流媒體專家,他們討論了Disney+、Quibi、HBO Max、Hulu、ViacomCBS以及即將推出的D2C對(duì)包括Netflix和付費(fèi)電視運(yùn)營(yíng)商在內(nèi)的現(xiàn)任者意味著什么。
UHD的現(xiàn)狀/HEVC虛擬現(xiàn)實(shí)編碼的最新進(jìn)展/P2P內(nèi)容分發(fā)
第一段音頻的訪談?wù)逿hierry Fautier是UHD論壇主席,他們討論了UHD的現(xiàn)狀以及UHD論壇為確保盡可能多的用戶獲得UHD體驗(yàn)所做的工作。
第二段音頻的訪談?wù)逺ob Koenen是TileMedia的聯(lián)合創(chuàng)始人,他們討論了HEVC虛擬現(xiàn)實(shí)編碼的最新進(jìn)展,探討了HEVC tile編碼、8K、高分辨率視頻的MP4元數(shù)據(jù)優(yōu)化等內(nèi)容。
第三段音頻的訪談?wù)逪adar Weiss是Peer5的CEO兼聯(lián)合創(chuàng)始人,他們討論了P2P內(nèi)容分發(fā),以及他們的多CDN解決方案為何能夠成為全球最快的交付網(wǎng)絡(luò)之一。
如何確保交付的HDR視頻能提供最佳的消費(fèi)者體驗(yàn)/IP-Only如何在北歐建立領(lǐng)先的CDN業(yè)務(wù)/云游戲
第一段音頻的訪談?wù)呤莵碜訫ystery Box的Sam Bilodeau,他是一個(gè)HDR以及色彩專家,它同時(shí)具有HDR分發(fā)中的視頻采集,視頻處理和視頻編碼經(jīng)驗(yàn)。
第二段音頻的訪談?wù)逬ohan Danckwardt是IP-Only的CDN負(fù)責(zé)人,他講述了IP-Only如何在北歐建立領(lǐng)先的CDN業(yè)務(wù),為一些全球最大、最成熟的媒體公司和OTT服務(wù)商分發(fā)內(nèi)容。
第三段音頻的訪談?wù)逽haron Carmel是Beamr創(chuàng)始人兼CEO,他談到了云游戲,以及為什么他認(rèn)為云游戲是推動(dòng)視頻編碼技術(shù)發(fā)展的一個(gè)令人興奮的前沿領(lǐng)域。
VVC的新特點(diǎn)/主觀質(zhì)量評(píng)價(jià)對(duì)于視頻評(píng)估的重要性/從事視頻業(yè)務(wù)要了解標(biāo)準(zhǔn)
第一段音頻的訪談?wù)呤莵碜晕④浀腉ary Sullivan,他也是MPEG和ITU多媒體研究小組創(chuàng)建VVC的共同主席。VVC計(jì)劃于2020年發(fā)布,是繼HEVC之后的下一代標(biāo)準(zhǔn),Gary Sullivan解釋了VVC的新特點(diǎn)和令人興奮之處。
第二段音頻的訪談?wù)呤莵碜訠itmovin的Richard Fliam,他解釋了除了客觀質(zhì)量評(píng)價(jià),主觀質(zhì)量評(píng)價(jià)也是視頻評(píng)估的一個(gè)重要部分。
第三段音頻的訪談?wù)連ruce Devlin是SMPTE VP。技術(shù)標(biāo)準(zhǔn)如MXF、ST-2110、IMF等快速發(fā)展,隨著視頻技術(shù)和標(biāo)準(zhǔn)的不斷發(fā)展,有些標(biāo)準(zhǔn)是在傳統(tǒng)框架之外開發(fā)的。
AI智能
NeurIPS 2019丨是呆頭伯勞鳥還是南灰伯勞鳥?深度雙線性轉(zhuǎn)換幫AI準(zhǔn)確區(qū)分
雙線性特征在學(xué)習(xí)細(xì)粒度圖像表達(dá)上效果很好,但計(jì)算量極大,無法在深層的神經(jīng)網(wǎng)絡(luò)中被多次使用。因此,微軟亞洲研究院設(shè)計(jì)了一種深度雙線性轉(zhuǎn)換模塊,能夠深層地將雙線性表達(dá)應(yīng)用在卷積神經(jīng)網(wǎng)絡(luò)中,來學(xué)習(xí)細(xì)粒度圖像特征。這項(xiàng)工作發(fā)表在了 NeurIPS 2019 上。
顯著提升圖像識(shí)別網(wǎng)絡(luò)效率,Facebook提出IdleBlock混合組成方法
Facebook AI 近日一項(xiàng)研究提出了一種新的卷積模塊 IdleBlock 以及使用該模塊的混合組成(HC)方法。實(shí)驗(yàn)表明這種簡(jiǎn)潔的新方法不僅能顯著提升網(wǎng)絡(luò)效率,而且還超過絕大多數(shù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的工作,在同等計(jì)算成本下取得了 SOTA 表現(xiàn),相信這項(xiàng)研究能給圖像識(shí)別網(wǎng)絡(luò)的開發(fā)、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索甚至其他領(lǐng)域網(wǎng)絡(luò)設(shè)計(jì)思路帶來一些新的啟迪。
圖像
全面梳理:圖像配準(zhǔn)綜述
圖像配準(zhǔn)與相關(guān)是圖像處理研究領(lǐng)域中的一個(gè)典型問題和技術(shù)難點(diǎn),其目的在于比較或融合針對(duì)同一對(duì)象在不同條件下獲取的圖像,例如圖像會(huì)來自不同的采集設(shè)備,取自不同的時(shí)間,不同的拍攝視角等等,有時(shí)也需要用到針對(duì)不同對(duì)象的圖像配準(zhǔn)問題。
資源推薦
使用自己的數(shù)據(jù)集訓(xùn)練MobileNet、ResNet實(shí)現(xiàn)圖像分類
對(duì)MobileNet的圖像分類模型的訓(xùn)練。
點(diǎn)擊“閱讀原文”可查看更多詳細(xì)信息,請(qǐng)大家科學(xué)上網(wǎng)。
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊(第125期)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 展望二十一世纪第三个十年
- 下一篇: 基于Xilinx FPGA生态,加速提升