Zoe Liu:传统算法与深度学习各有所长
第一次MSU視頻編碼大賽就取得了“主觀評分”第一,微幀團隊到底做了哪些創新的嘗試?深度學習真的是編解碼的未來嗎?LiveVideoStack通過郵件采訪了微幀聯合創始人Zoe Liu,向我們揭開參加MSU視頻編碼大賽背后的故事。
文 / ZoeLiu
策劃 / LiveVideoStack
LiveVideoStack:Zoe你好,這是第二次和你通過郵件采訪的方式對話,和上次對話不一樣,你的身份已經發生了變化。能否借此向LiveVideoStack的讀者介紹下自己?
Zoe:嗯,上一次我還是在谷歌做軟件工程師,現在已經是微幀團隊的聯合創始人了。我是去年2018年7月從谷歌離職,跟我的合伙人朱政一起創建了微幀科技(Visionular)。時間逝去還是蠻快的,我從谷歌離職時,正好是開放媒體聯盟(AOM)新一代開源視頻編碼標準AV1剛剛結束并推出的時候。我們微幀,現在在杭州和硅谷同時設置有研發團隊,并在北京設有專注于產品、運營和市場的團隊。我們主要致力于視頻AI+編碼和處理技術的打造,提供面向企業的相關產品和服務,力圖視頻帶寬需求更小、畫質更清晰的極致解決方案。我們在做AV1編碼內核優化的同時,也對H.264等主流編碼標準,推出了智能編碼和處理引擎,結合AI技術在視頻處理和編碼的多個環節,推出了不同形態的產品,包括私有云部署解決方案,以及公用云SaaS方案的嘗試。
在微幀之前,我曾就職于谷歌5年,是AOM/AV1的主要貢獻者之一。從學校到現在,對圖像/視頻編碼標準及相應編解碼器優化技術,有相對比較長時間的研發經歷。我曾參與過蘋果公司的FaceTime、TangoMe跨移動平臺VideoCallAPP、以及GoogleGlass的VideoCall研發和最終的delivery。之前還曾在一些實驗室工作過,包括BellLabs,NokiaResearchCenter,SunLabs,以及HPLabs。
我跟LiveVideoStack音視頻社區算是很有緣份吧。2017年10月是LiveVideoStack推出的第一次技術大會,當時我還是代表谷歌來做AV1相關的Keynote,結果機緣巧合碰到了我的合伙人,也看到了國內音視頻領域的迅猛發展,此后一步步,改變了我的職業道路,開始加入了創業者的行列。之后的每一次LiveVideoStack大會,我都沒有缺席過。LiveVideoStack目前也成長為國內公認的音視頻領域最有影響力的技術社區了。我們很期待跟LiveVideoStack一起的成長。在這里,也很期待與業界前輩和朋友們更多的交流,一起推進技術的演進和發展。
LiveVideoStack:Visionular的AV1Codec在2019年MSU視頻編碼大賽“主觀評分”中排名第一,也是此次參賽的唯一的AV1代表。能聊聊這背后的故事嗎?
Zoe:前面有提到,我們團隊的核心,是對視頻編碼以及將AI應用于視頻編碼算法和技術上的打造。我自己從谷歌AV1團隊出來,經歷了AV1從無到有的整個周期,我們微幀也是中國市場上與愛奇藝同時加入AOM最早的兩家會員。
我們去年團隊成立伊始,就有跟谷歌合作,對于AV1目前最具代表性的開源codebase、名為libaom的優化,有比較多的貢獻。libaom里面有200條以上的代碼貢獻,均來自于我們的團隊成員,既包括對AV1標準本身的貢獻,也有對libaom編碼器的早期加速。與此同時,我們參與了AOM比較多的生態建設。AOM前主席MattFrost先生在去年、今年兩次蒞臨杭州,都有跟我們的團隊當面交流。
AV1不僅是開源的編碼標準、不涉及版權,編碼工具打造上也具有一定的先進性,MSU早些時候的評估數據,即呈現了AV1相對于H.265、VP9等主流編碼標準的標準優勢。另外,AOM成員,包括有海外主要的視頻內容制作商,諸如YouTube、Facebook等UGC平臺,Netflix、AmazonPrimeVideo等PGC平臺等;咱們國內的互聯網巨頭企業阿里巴巴、騰訊等也相繼成為AOM的重要成員。
盡管AV1的生態,在標準制定不久后確實還需要一定時間的積累;其實,現在Chrome等主流瀏覽器都早已支持AV1的解碼播放,AndroidQ也會全面支持AV1,移動端、尤其Android端的解碼芯片在全力打造,再加上蘋果也是AOM成員之一。我們相對對AV1的優化研發,起始的比較早,外加我們的團隊在H.265等編碼器優化上的積累,在AV1上的努力會相對超前一些。我們現在不僅針對點播場景,還包括直播、RTC場景,都在努力的將AV1實現產品落地。我們在技術打磨的同時,非常關注客戶的實際需求。
我們在今年阿姆斯特丹全球最大的IBC媒體技術展會上,被GoogleCloud邀請,特別介紹了我們的AV1技術和相應的產品。在9月的杭州阿里云棲大會上,我們也參與了5G+視頻為主題的圓桌論壇,與其他業界的學者和技術同仁探討各類視頻編碼標準的發展前景。在10月舊金山舉行的AOM全球第一次Summit上,我們也被AOM邀請,介紹了我們AV1的技術概況以及性能更新。這次AOMSummit的全部演講PPT已在AOM網站上分享(https://aomedia.org/aomedia-research-symposium-2019/),其中對AV1編解碼優化發展現狀,下一代標準AV2規劃,以及AI+編碼技術,均有一定的探討。
我們參與MSU評估,最主要的初衷,是希望可以在MSU嚴格、客觀的視頻編碼評估流程中,檢驗一下我們自己編碼器的性能。MSU測試有比較嚴格的編碼速度要求。即使是慢速檔,包括主觀評估檔,他們均要求對于他們內部給定的1080p視頻,在一定的機型上面,達到編碼速度每秒一幀的指標。MSU這次的報名截止日期是今年3月底,當時我們還在AV1全力優化的相對早期階段,AV1編碼工具相對復雜,提速的同時保持編碼性能,確實是充滿了挑戰的。我們能代表AV1標準參比,有我們自身的努力,同時也很感謝AV1的開源社區。AV1開源代碼,包括liabom、SVT-AV1的打造,提供給了大家許多的借鑒。我們是站在巨人的肩膀上向上走的。
LiveVideoStack:我注意到Visionular只出現在“主觀評分”報告中,沒有出現在“客觀評分”報告中,這是什么原因?
Zoe:我們的編碼器優化,包括我們集中研發主力在AV1上的優化,以及我們對264編碼技術和產品的進一步打磨,主要是針對客戶需求推進的。我們是一家2B企業,我們的研發和技術是客戶需求反推的。我們的客戶最關注的,是視頻的主觀質量,因此我們的產品以及背后的研發算法,主要也是針對主觀質量優化展開的。這應該是我們在MSU主觀評估類別上表現突出的一個原因。
今年的MSU“HEVC/AV1VideoCodecsComparison2019”評估報告,分為免費版和企業版。企業版提供詳盡完整的報告,可以從如下鏈接中付費獲取。
http://www.compression.ru/video/codec_comparison/hevc_2019/
MSU近兩年免費公開版,只給出基于客觀質量評估指標SSIM的評估結果。如果可以看到MSU完整的客觀數據報告,就會看到MSU按照3種客觀質量評估指標,包括SSIM/PSNR/VMAF的詳盡評估結果,包括客觀質量評估類別中,我們在100個不同1080p視頻上的具體編碼性能數據,以及相應指標下的排名。
我們在客觀質量評估中的表現,雖然沒有主觀質量評估類別中的結果那樣顯赫,卻同樣是有相當的競爭力的,尤其是在YComponent的PSNR數據上的表現,可圈可點。PSNR的評測數據需要在MSU企業版中才可以看到。
前面有講到,我們參比,主要是想檢驗一下我們自己的編碼器,并沒有為比賽而比賽的想法。MSU評估分為多個類別,我們今年主要參加兩個類別:一是主觀質量類別評估,另一個名為Rippingusecase類別,主要是指慢速檔。這兩個類別,均要求視頻編碼速度必須達到1fps,即一秒內要完成對指定1080p視頻一幀圖像的編碼。對于AV1來講,這個挑戰還是蠻大的,因為AV1相比VP9,增添了70+新的編碼工具,編碼決策復雜度大幅提升,需要達到這個編碼速度、同時保持標準優勢,讓AV1足夠體現它的標準優勢,并不是很輕而易舉的事情。
我們客觀指標下的數據,在一些視頻序列中確實出現了badcase,一些RD曲線表現異常;在MSU主觀類別測試中,應該是我們相對幸運,這些badcase并沒有出現那么頻繁。
MSU每年的測試評估,相對非常全面而細致,評測周期也比較長。現在看到的MSU評測結果,是我們今年3月底提交的WZAuroraAV1編碼器的性能結果。我們一直在持續優化,包括編碼速度、編碼性能,以及編碼器的多線程、內存損耗等多項指標,我們在全方位的提升。與此同時,我們在WZAurora上增添了不同的速度檔,針對點播、直播、RTC實時等不同應用場景,我們均在做努力細致的打造。期待未來我們會有更好的成績,尤其期待我們有更優質的產品,可以提供給我們的企業客戶。
LiveVideoStack:你認為,AI壓縮技術有可能追趕甚至超越傳統的編碼技術嗎?
Zoe:AI多媒體壓縮技術,目前在圖片領域,應該是早于視頻開始嘗試的。尤其是基于各種深度神經網絡模型的圖片壓縮嘗試,在顛覆傳統的圖片編碼技術,取代小波變換、DCT變換,并取得了與傳統圖片編碼框架相近或相當的編碼性能。目前完全基于機器學習的圖片編碼技術,還沒有進入編碼標準,也沒有非常成熟的產品落地,主要受限于編解碼的復雜度,但確實表現出一定的潛力。
機器學習應用于視頻編碼,業界一直有許多的嘗試,包括AV1開源編解碼codebase中,會有不少實現范例。大家可以checkAV1的開源codebaselibaom中每次貢獻的CL(ChangeList),在comment中查詢NeuralNetworks等關鍵字,應該會看到不少機器學習的實際應用,包括碼控的優化,RD指標的快速估算,基于NN的快速編碼算法等。不過視頻相比圖片,增加了一個時間維度,相應編碼算法的overall復雜度是數量級上的區別。在最新視頻編碼標準VVC(akaH266)、AVS3、AV1等編碼工具提案以及相應參考模型的開源實現中,我們了解到的基于機器學習的AI算法工具,主要是在傳統混合編碼框架下(運動估計+2D變換),對于編碼各個模塊的進一步優化,并沒有顛覆視頻編碼的基本架構。
AI的出現,5G的大規模推廣,應該會給視頻帶來許多新的展示方式,包括Stadia云游戲平臺的推出,未來VR與全景視頻的深度推廣,視頻編碼后續應該會與AI技術有更多的耦合,尤其是編碼與視頻分析、處理的綜合自適應運用。不同視頻內容的細分類,有可能會出現更為專注的編碼工具,比如針對屏幕內容、游戲內容、動漫內容等的特定編碼工具,以及基于ROI(感興趣區域)的編碼算法等,可以相對自然的引入視頻內容的分類以及特定物體的檢測,這些都給AI與編碼的結合提供了比較廣闊的空間。
我們是以技術打造為核心的企業,很多時候,我們會比較看重傳統視頻編碼、處理算法,與機器學習算法的結合。我這里給大家舉一個實例:我的一位清華同系創業的師兄,幾年來一直在專注打磨眼球跟蹤、FOV檢測的穿戴式軟硬件一體的產品,他們目前已經可以做到識別出人在讀書時眼睛在文字上掃描的pattern(包括移動速度、移動平穩度、變換方向等),也可以在博物館等大空間場景下檢測出眼睛所關注的物體。他們目前的核心算法,并沒有用到當下比較hot的深度學習技術,而是基于傳統的計算機視覺和模式識別技術實現的。我用這個實例,是想突出下傳統算法的價值和潛力。大家公認的機器學習應用比較成功的幾大場景,包括計算機視覺、自然語言處理(NLP)、大數據分析等,而在計算機視覺這一機器學習如此被追捧的領域,傳統算法同樣擁有許多突出的優勢。視頻編碼,其實是有更多將深度學習和傳統算法可以融合的領域,值得我們去探尋的。
LiveVideoStack:最近我體驗了TutorABC的AV1客戶端(瀏覽器),上直播課的延遲完全可以接受,但只能在PC端應用,無法部署在移動設備上。關于AV1的移動端硬件編解碼支持有最新的消息可以分享嗎?
Zoe:很開心聽到你們也體驗了AV1在TutorABC平臺上的實用展示。我們與TutorABC團隊合作,一起將AV1RTC檔推到了他們的在線平臺,應該是在線教育場景中AV1的第一款部署上線產品了。在線教育大課場景一般是以教師端視頻為主,并且PC是老師主要采用的設備,可以充分支持AV1編碼;解碼端我們則是采用開源AV1解碼器dAV1d,在Android和iOS移動設備上支持是沒有問題的。
AOM成立之初,AV1最早的版本是由VP9衍生而來,一定意義上講,VP9可以看成AV1的一個子集。將AV1中計算復雜工具悉數關掉,即可推出AV1編碼快速甚至實時檔,但與VP9的編碼性能可能只會差之毫厘。我們將AV1推到RTC場景,是希望保持AV1的標準優勢,同時縮短首屏時間,減少編碼所需占用的CPU以及memory資源。我們力求相同質量條件下,可大幅降低碼率以減少視頻卡頓,或從另外的角度,相同帶寬、碼率條件下,可提供更加高清的畫質,從而最終服務于用戶體驗的提升。
視頻目前在移動端上的實用,確實占比是主要的。AV1開源軟件解碼器dAV1d,已經在移動端表現了相當大的潛力。我們當然也很期待,可以把AV1軟件編碼方案盡快推到移動端,但還需要一段時間的打磨的。
硬件編解碼器的支持,尤其是硬件解碼器在手機終端的支持,是AV1生態推廣中非常重要的一環。AOM中的主要硬件廠商,都有在研制AV1編解碼相關芯片。其中Realtek、Broadcom等,是比較早推出AV1硬件解碼IP原型的廠商。高通(Qualcomm)、聯發科(Mediatek)等非AOM成員廠商,應市場趨勢,也同樣在打造相關的芯片方案。我們從手機廠商了解到的訊息,解碼芯片2020上半年預計會大規模推出,尤其是針對Android平臺的。iOS上的支持,以蘋果的風格,永遠都會是在其產品已經完全ready時才會公諸于世,不過蘋果早已是AOM成員,一定程度上體現了他們對于AOM/AV1這一開源編碼標準的支持立場。在已經正式開始討論的AV2編碼標準前期策劃中,蘋果也是AOM中非常活躍的一員。
另外,也有業界人士提到,電視終端,有可能先于移動端,推出AV1的硬件顯示設備。
編碼芯片,包括面對IPC、移動手機終端的芯片產品,應該會接踵而至的。業界早有注意到,包括谷歌、華為海思等團隊,很早就開始跟進AV1的標準制定,躍躍欲試于AV1編碼芯片的打造了。我們也直接了解到,其他廠商的AV1編碼IP和產品,也已經跟市場上相應的終端客戶以及云廠商,在實際售賣交易階段。
推薦閱讀:
????? ?華人的戰場——MSU視頻編碼大賽
????? ?宋利:許多高手并未參加MSU評測
????? ?蘭華峰:商業模式驅動企業參與MSU評測
????? ?MSU高清/極慢檔Codec對比:AV1壓縮效率第一速度慢
????? ?MSU發布2018年視頻壓縮評比報告
LiveVideoStack?秋季招聘
LiveVideoStack正在招募編輯/記者/運營,與全球頂尖多媒體技術專家和LiveVideoStack年輕的伙伴一起,推動多媒體技術生態發展。同時,也歡迎你利用業余時間、遠程參與內容生產。了解崗位信息請在BOSS直聘上搜索“LiveVideoStack”,或通過微信“Tony_Bao_”與主編包研交流。
總結
以上是生活随笔為你收集整理的Zoe Liu:传统算法与深度学习各有所长的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: LiveVideoStackCon深圳-
- 下一篇: 音视频技术开发周刊(第122期)
