當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

Zoe Liu：传统算法与深度学习各有所长

發布時間：2024/4/11 pytorch 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 Zoe Liu：传统算法与深度学习各有所长小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

第一次MSU視頻編碼大賽就取得了“主觀評分”第一，微幀團隊到底做了哪些創新的嘗試？深度學習真的是編解碼的未來嗎？LiveVideoStack通過郵件采訪了微幀聯合創始人Zoe Liu，向我們揭開參加MSU視頻編碼大賽背后的故事。

文 / ZoeLiu

策劃 / LiveVideoStack

LiveVideoStack：Zoe你好，這是第二次和你通過郵件采訪的方式對話，和上次對話不一樣，你的身份已經發生了變化。能否借此向LiveVideoStack的讀者介紹下自己？

Zoe：嗯，上一次我還是在谷歌做軟件工程師，現在已經是微幀團隊的聯合創始人了。我是去年2018年7月從谷歌離職，跟我的合伙人朱政一起創建了微幀科技（Visionular）。時間逝去還是蠻快的，我從谷歌離職時，正好是開放媒體聯盟（AOM）新一代開源視頻編碼標準AV1剛剛結束并推出的時候。我們微幀，現在在杭州和硅谷同時設置有研發團隊，并在北京設有專注于產品、運營和市場的團隊。我們主要致力于視頻AI+編碼和處理技術的打造，提供面向企業的相關產品和服務，力圖視頻帶寬需求更小、畫質更清晰的極致解決方案。我們在做AV1編碼內核優化的同時，也對H.264等主流編碼標準，推出了智能編碼和處理引擎，結合AI技術在視頻處理和編碼的多個環節，推出了不同形態的產品，包括私有云部署解決方案，以及公用云SaaS方案的嘗試。

在微幀之前，我曾就職于谷歌5年，是AOM/AV1的主要貢獻者之一。從學校到現在，對圖像/視頻編碼標準及相應編解碼器優化技術，有相對比較長時間的研發經歷。我曾參與過蘋果公司的FaceTime、TangoMe跨移動平臺VideoCallAPP、以及GoogleGlass的VideoCall研發和最終的delivery。之前還曾在一些實驗室工作過，包括BellLabs,NokiaResearchCenter,SunLabs，以及HPLabs。

我跟LiveVideoStack音視頻社區算是很有緣份吧。2017年10月是LiveVideoStack推出的第一次技術大會，當時我還是代表谷歌來做AV1相關的Keynote，結果機緣巧合碰到了我的合伙人，也看到了國內音視頻領域的迅猛發展，此后一步步，改變了我的職業道路，開始加入了創業者的行列。之后的每一次LiveVideoStack大會，我都沒有缺席過。LiveVideoStack目前也成長為國內公認的音視頻領域最有影響力的技術社區了。我們很期待跟LiveVideoStack一起的成長。在這里，也很期待與業界前輩和朋友們更多的交流，一起推進技術的演進和發展。

LiveVideoStack：Visionular的AV1Codec在2019年MSU視頻編碼大賽“主觀評分”中排名第一，也是此次參賽的唯一的AV1代表。能聊聊這背后的故事嗎？

Zoe：前面有提到，我們團隊的核心，是對視頻編碼以及將AI應用于視頻編碼算法和技術上的打造。我自己從谷歌AV1團隊出來，經歷了AV1從無到有的整個周期，我們微幀也是中國市場上與愛奇藝同時加入AOM最早的兩家會員。

我們去年團隊成立伊始，就有跟谷歌合作，對于AV1目前最具代表性的開源codebase、名為libaom的優化，有比較多的貢獻。libaom里面有200條以上的代碼貢獻，均來自于我們的團隊成員，既包括對AV1標準本身的貢獻，也有對libaom編碼器的早期加速。與此同時，我們參與了AOM比較多的生態建設。AOM前主席MattFrost先生在去年、今年兩次蒞臨杭州，都有跟我們的團隊當面交流。

AV1不僅是開源的編碼標準、不涉及版權，編碼工具打造上也具有一定的先進性，MSU早些時候的評估數據，即呈現了AV1相對于H.265、VP9等主流編碼標準的標準優勢。另外，AOM成員，包括有海外主要的視頻內容制作商，諸如YouTube、Facebook等UGC平臺，Netflix、AmazonPrimeVideo等PGC平臺等；咱們國內的互聯網巨頭企業阿里巴巴、騰訊等也相繼成為AOM的重要成員。

盡管AV1的生態，在標準制定不久后確實還需要一定時間的積累；其實，現在Chrome等主流瀏覽器都早已支持AV1的解碼播放，AndroidQ也會全面支持AV1，移動端、尤其Android端的解碼芯片在全力打造，再加上蘋果也是AOM成員之一。我們相對對AV1的優化研發，起始的比較早，外加我們的團隊在H.265等編碼器優化上的積累，在AV1上的努力會相對超前一些。我們現在不僅針對點播場景，還包括直播、RTC場景，都在努力的將AV1實現產品落地。我們在技術打磨的同時，非常關注客戶的實際需求。

我們在今年阿姆斯特丹全球最大的IBC媒體技術展會上，被GoogleCloud邀請，特別介紹了我們的AV1技術和相應的產品。在9月的杭州阿里云棲大會上，我們也參與了5G+視頻為主題的圓桌論壇，與其他業界的學者和技術同仁探討各類視頻編碼標準的發展前景。在10月舊金山舉行的AOM全球第一次Summit上，我們也被AOM邀請，介紹了我們AV1的技術概況以及性能更新。這次AOMSummit的全部演講PPT已在AOM網站上分享(https://aomedia.org/aomedia-research-symposium-2019/)，其中對AV1編解碼優化發展現狀，下一代標準AV2規劃，以及AI+編碼技術，均有一定的探討。

我們參與MSU評估，最主要的初衷，是希望可以在MSU嚴格、客觀的視頻編碼評估流程中，檢驗一下我們自己編碼器的性能。MSU測試有比較嚴格的編碼速度要求。即使是慢速檔，包括主觀評估檔，他們均要求對于他們內部給定的1080p視頻，在一定的機型上面，達到編碼速度每秒一幀的指標。MSU這次的報名截止日期是今年3月底，當時我們還在AV1全力優化的相對早期階段，AV1編碼工具相對復雜，提速的同時保持編碼性能，確實是充滿了挑戰的。我們能代表AV1標準參比，有我們自身的努力，同時也很感謝AV1的開源社區。AV1開源代碼，包括liabom、SVT-AV1的打造，提供給了大家許多的借鑒。我們是站在巨人的肩膀上向上走的。

LiveVideoStack：我注意到Visionular只出現在“主觀評分”報告中，沒有出現在“客觀評分”報告中，這是什么原因？

Zoe：我們的編碼器優化，包括我們集中研發主力在AV1上的優化，以及我們對264編碼技術和產品的進一步打磨，主要是針對客戶需求推進的。我們是一家2B企業，我們的研發和技術是客戶需求反推的。我們的客戶最關注的，是視頻的主觀質量，因此我們的產品以及背后的研發算法，主要也是針對主觀質量優化展開的。這應該是我們在MSU主觀評估類別上表現突出的一個原因。

今年的MSU“HEVC/AV1VideoCodecsComparison2019”評估報告，分為免費版和企業版。企業版提供詳盡完整的報告，可以從如下鏈接中付費獲取。

http://www.compression.ru/video/codec_comparison/hevc_2019/

MSU近兩年免費公開版，只給出基于客觀質量評估指標SSIM的評估結果。如果可以看到MSU完整的客觀數據報告，就會看到MSU按照3種客觀質量評估指標，包括SSIM/PSNR/VMAF的詳盡評估結果，包括客觀質量評估類別中，我們在100個不同1080p視頻上的具體編碼性能數據，以及相應指標下的排名。

我們在客觀質量評估中的表現，雖然沒有主觀質量評估類別中的結果那樣顯赫，卻同樣是有相當的競爭力的，尤其是在YComponent的PSNR數據上的表現，可圈可點。PSNR的評測數據需要在MSU企業版中才可以看到。

前面有講到，我們參比，主要是想檢驗一下我們自己的編碼器，并沒有為比賽而比賽的想法。MSU評估分為多個類別，我們今年主要參加兩個類別：一是主觀質量類別評估，另一個名為Rippingusecase類別，主要是指慢速檔。這兩個類別，均要求視頻編碼速度必須達到1fps，即一秒內要完成對指定1080p視頻一幀圖像的編碼。對于AV1來講，這個挑戰還是蠻大的，因為AV1相比VP9，增添了70+新的編碼工具，編碼決策復雜度大幅提升，需要達到這個編碼速度、同時保持標準優勢，讓AV1足夠體現它的標準優勢，并不是很輕而易舉的事情。

我們客觀指標下的數據，在一些視頻序列中確實出現了badcase，一些RD曲線表現異常；在MSU主觀類別測試中，應該是我們相對幸運，這些badcase并沒有出現那么頻繁。

MSU每年的測試評估，相對非常全面而細致，評測周期也比較長。現在看到的MSU評測結果，是我們今年3月底提交的WZAuroraAV1編碼器的性能結果。我們一直在持續優化，包括編碼速度、編碼性能，以及編碼器的多線程、內存損耗等多項指標，我們在全方位的提升。與此同時，我們在WZAurora上增添了不同的速度檔，針對點播、直播、RTC實時等不同應用場景，我們均在做努力細致的打造。期待未來我們會有更好的成績，尤其期待我們有更優質的產品，可以提供給我們的企業客戶。

LiveVideoStack：你認為，AI壓縮技術有可能追趕甚至超越傳統的編碼技術嗎？

Zoe：AI多媒體壓縮技術，目前在圖片領域，應該是早于視頻開始嘗試的。尤其是基于各種深度神經網絡模型的圖片壓縮嘗試，在顛覆傳統的圖片編碼技術，取代小波變換、DCT變換，并取得了與傳統圖片編碼框架相近或相當的編碼性能。目前完全基于機器學習的圖片編碼技術，還沒有進入編碼標準，也沒有非常成熟的產品落地，主要受限于編解碼的復雜度，但確實表現出一定的潛力。

機器學習應用于視頻編碼，業界一直有許多的嘗試，包括AV1開源編解碼codebase中，會有不少實現范例。大家可以checkAV1的開源codebaselibaom中每次貢獻的CL（ChangeList），在comment中查詢NeuralNetworks等關鍵字，應該會看到不少機器學習的實際應用，包括碼控的優化，RD指標的快速估算，基于NN的快速編碼算法等。不過視頻相比圖片，增加了一個時間維度，相應編碼算法的overall復雜度是數量級上的區別。在最新視頻編碼標準VVC（akaH266）、AVS3、AV1等編碼工具提案以及相應參考模型的開源實現中，我們了解到的基于機器學習的AI算法工具，主要是在傳統混合編碼框架下（運動估計+2D變換），對于編碼各個模塊的進一步優化，并沒有顛覆視頻編碼的基本架構。

AI的出現，5G的大規模推廣，應該會給視頻帶來許多新的展示方式，包括Stadia云游戲平臺的推出，未來VR與全景視頻的深度推廣，視頻編碼后續應該會與AI技術有更多的耦合，尤其是編碼與視頻分析、處理的綜合自適應運用。不同視頻內容的細分類，有可能會出現更為專注的編碼工具，比如針對屏幕內容、游戲內容、動漫內容等的特定編碼工具，以及基于ROI（感興趣區域）的編碼算法等，可以相對自然的引入視頻內容的分類以及特定物體的檢測，這些都給AI與編碼的結合提供了比較廣闊的空間。

我們是以技術打造為核心的企業，很多時候，我們會比較看重傳統視頻編碼、處理算法，與機器學習算法的結合。我這里給大家舉一個實例：我的一位清華同系創業的師兄，幾年來一直在專注打磨眼球跟蹤、FOV檢測的穿戴式軟硬件一體的產品，他們目前已經可以做到識別出人在讀書時眼睛在文字上掃描的pattern（包括移動速度、移動平穩度、變換方向等），也可以在博物館等大空間場景下檢測出眼睛所關注的物體。他們目前的核心算法，并沒有用到當下比較hot的深度學習技術，而是基于傳統的計算機視覺和模式識別技術實現的。我用這個實例，是想突出下傳統算法的價值和潛力。大家公認的機器學習應用比較成功的幾大場景，包括計算機視覺、自然語言處理（NLP）、大數據分析等，而在計算機視覺這一機器學習如此被追捧的領域，傳統算法同樣擁有許多突出的優勢。視頻編碼，其實是有更多將深度學習和傳統算法可以融合的領域，值得我們去探尋的。

LiveVideoStack：最近我體驗了TutorABC的AV1客戶端（瀏覽器），上直播課的延遲完全可以接受，但只能在PC端應用，無法部署在移動設備上。關于AV1的移動端硬件編解碼支持有最新的消息可以分享嗎？

Zoe：很開心聽到你們也體驗了AV1在TutorABC平臺上的實用展示。我們與TutorABC團隊合作，一起將AV1RTC檔推到了他們的在線平臺，應該是在線教育場景中AV1的第一款部署上線產品了。在線教育大課場景一般是以教師端視頻為主，并且PC是老師主要采用的設備，可以充分支持AV1編碼；解碼端我們則是采用開源AV1解碼器dAV1d，在Android和iOS移動設備上支持是沒有問題的。

AOM成立之初，AV1最早的版本是由VP9衍生而來，一定意義上講，VP9可以看成AV1的一個子集。將AV1中計算復雜工具悉數關掉，即可推出AV1編碼快速甚至實時檔，但與VP9的編碼性能可能只會差之毫厘。我們將AV1推到RTC場景，是希望保持AV1的標準優勢，同時縮短首屏時間，減少編碼所需占用的CPU以及memory資源。我們力求相同質量條件下，可大幅降低碼率以減少視頻卡頓，或從另外的角度，相同帶寬、碼率條件下，可提供更加高清的畫質，從而最終服務于用戶體驗的提升。

視頻目前在移動端上的實用，確實占比是主要的。AV1開源軟件解碼器dAV1d，已經在移動端表現了相當大的潛力。我們當然也很期待，可以把AV1軟件編碼方案盡快推到移動端，但還需要一段時間的打磨的。

硬件編解碼器的支持，尤其是硬件解碼器在手機終端的支持，是AV1生態推廣中非常重要的一環。AOM中的主要硬件廠商，都有在研制AV1編解碼相關芯片。其中Realtek、Broadcom等，是比較早推出AV1硬件解碼IP原型的廠商。高通（Qualcomm）、聯發科（Mediatek）等非AOM成員廠商，應市場趨勢，也同樣在打造相關的芯片方案。我們從手機廠商了解到的訊息，解碼芯片2020上半年預計會大規模推出，尤其是針對Android平臺的。iOS上的支持，以蘋果的風格，永遠都會是在其產品已經完全ready時才會公諸于世，不過蘋果早已是AOM成員，一定程度上體現了他們對于AOM/AV1這一開源編碼標準的支持立場。在已經正式開始討論的AV2編碼標準前期策劃中，蘋果也是AOM中非常活躍的一員。

另外，也有業界人士提到，電視終端，有可能先于移動端，推出AV1的硬件顯示設備。

編碼芯片，包括面對IPC、移動手機終端的芯片產品，應該會接踵而至的。業界早有注意到，包括谷歌、華為海思等團隊，很早就開始跟進AV1的標準制定，躍躍欲試于AV1編碼芯片的打造了。我們也直接了解到，其他廠商的AV1編碼IP和產品，也已經跟市場上相應的終端客戶以及云廠商，在實際售賣交易階段。

總結

以上是生活随笔為你收集整理的Zoe Liu：传统算法与深度学习各有所长的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： LiveVideoStackCon深圳-
下一篇：音视频技术开发周刊（第122期）

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频 在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操

pytorch

Zoe Liu：传统算法与深度学习各有所长

總結

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操