音视频技术开发周刊 | 198
每周一期,縱覽音視頻技術領域的干貨。
新聞投稿:contribute@livevideostack.com。
小提示:鏈接跳轉僅支持公眾號相關鏈接
可編程的流式計算框架:YoMo
音視頻領域的新技術應用非常多,但是在工業和IoT領域,新技術的應用卻鮮有耳聞。本次LiveVideoStackCon 2021 上海站大會我們邀請到了熹樂科技YoMo框架負責人——洪小堅,為我們分享熹樂科技和YoMo會為工業和IoT帶來哪些新鮮血液。
使用Workers, Durable Objects和Unity制作實時游戲
Durable Objective是對Workers開發生態系統的一個了不起的補充,允許您在特定的Worker中處理和工作,以提供應用程序的一致性。為了更好地理解為什么Durable Objective很重要,以及像WebSockets這樣的工人生態系統中的更新公告是如何使用Durable Objective的,我轉向了一個我在幾個月的業余時間里一直在開發的軟件類別:視頻游戲。
https://blog.cloudflare.com/building-real-time-games-using-workers-durable-objects-and-unity/
WebRTC對你意味著什么
WebRTC作為一個工具箱相較于傳統的視頻會議關于安全性、良好的兼容性、增強網絡的優勢。
如何利用 AWS WebSocket API 進行無服務器 WebRTC 信號傳輸
在這篇文章中,Edward 展示了他們如何利用無服務器架構來設置 WebRTC 信號。他們使用 AWS 的 API Gateway WebSocket API 來終止 WebSockets 并調用 AWS 無服務器 Lambda 函數。雖然沒有通用或最佳的方式來處理 WebRTC 的信令,但這是一個很好的例子。
https://webrtchacks.com/leverage-aws-websocket-api-for-webrtc-signaling/
在Facebook上實現自動化
互聯網上的流量通過許多不同類型的鏈接傳播。在不同的網絡和服務提供商之間交換流量的一種快速而可靠的方法是通過對等。最初,我們通過一個耗時的手動過程來管理對等。可靠的對等網絡對Facebook和所有人的互聯網使用都至關重要。但是,對于如何建立一個可擴展的、自動對等管理系統,目前還沒有行業標準。因此,我們開發了一種新的自動化方法,它允許更快的自助對等配置。我們正在分享我們在公共對等自動化方面學到的一些最佳實踐,希望我們的方法能在互聯網社區得到更廣泛的采用。
https://engineering.fb.com/2021/05/20/networking-traffic/peering-automation/
AV1和開放媒體聯盟(AOM)的發展、成果與未來
Alliance for Open Media(開放媒體聯盟)是由亞馬遜、思科、谷歌、英特爾、微軟、Mozilla以及Netflix等互聯網公司成立。該聯盟旨在通過制定全新、開放、免版權費的視頻編碼標準和視頻格式,為下一代多媒體體驗創造新的機遇。AV1是開放媒體聯盟Alliance for Open Media (AOM) 開發的第一代視頻編碼標準。本次分享,我們邀請到了AOM的通信和會員發展副總裁——Matt Frost先生,他向我們分享了開放媒體聯盟的產生,成立六年來所取得的成就及開放媒體聯盟在下一代視頻編解碼器方面所做的進展。
基于SVM的VVC幀內快速CU劃分算法
為了降低編碼復雜度,我們對VVC幀內編碼提出了一種基于支持向量機(SVM)的快速 CU 劃分算法,該算法通過使用紋理信息預測 CU 的劃分來提前終止冗余劃分。
新的Google Lyra音頻編解碼器對實時視頻流意味著什么?
通過語言編碼中的碼率縮減趨勢,Lyra與Opus中的區別比較,Lyra的作用,XDN平臺上的高效語音編碼技術幾個方面探討新的Google Lyra音頻編解碼器對實時視頻流的意義。
三星電子發布關于語音發送/接收 方法和裝置發明專利
北京時間,6月1日,三星電子申請專利:《語音發送方法和裝置以及語音接收方法和裝置、電子設備》,正式發布!該專利的發布旨在解決現有技術中,終端發送和接收語音時進行采樣率轉換的效果較差,無法向用戶提供優質的聽覺體驗。此外,此項專利的核心特點是基于神經網絡的語音發送方法和裝置以及語音接收方法和裝置。
支持情感控制的音頻驅動3D人臉動畫
本文來自NVIDIA GTC21的一篇演講,演講者是NVIDIA Graphic-AI的高級開發技術工程師Yeongho Seol,他主要介紹了一種全新的基于深度神經網絡的音頻驅動3D人臉動畫技術。
高性能視頻推理引擎優化技術
本文整理自騰訊高級技術專家鮑金龍在LiveVideoStack線上分享上的演講。他通過自身的實踐經驗,詳細講解了高性能視頻推理引擎優化技術。
媒體和娛樂的云服務 - 處理、播放和分發
本文來自2021年1月27日SMPTE NY Meeting,演講者為Evan Statton,亞馬遜網絡服務(AWS)首席架構師和Liam Morrison,亞馬遜網絡服務(AWS)機器學習首席架構師。
視頻播放優化淺析
本文嘗試從播放器的原理開始著手,梳理一下在Android客戶端上的播放架構的演進,以及在播放體驗的核心指標的優化上,針對不同場景所作出的各種優化。
全球最快AI超算Perlmutter問世,將繪制宇宙最大3D地圖
5 月 27 日,位于美國勞倫斯伯克利實驗室的國家能源研究科學計算中心(NERSC)正式發布其下一代超級計算機 Perlmutter(又名 NERSC-9)。Perlmutter 由 HPE 制造,同時采用 AMD CPU 和英偉達 CPU,理論上可提供接近 3.8 exaflop/s 的 AI 性能,或約 60 petaflops 的峰值雙精度(標準 FP64)HPC 性能。
Google推出“文本到圖像生成”的跨模態對比學習
最先進的圖像合成結果通常是使用生成對抗網絡(GAN) 實現的,該網絡訓練兩個模型——一個生成器,試圖創建逼真的圖像,以及一個鑒別器,它試圖確定圖像是真實的還是捏造的。
https://ai.googleblog.com/2021/05/cross-modal-contrastive-learning-for.html
Dropbox 的圖片搜索工作原理
在這篇文章中,我們將基于機器學習技術描述我們的圖像內容搜索方法背后的核心思想,然后討論我們如何在 Dropbox 現有的搜索基礎架構上構建一個高性能的實現。
https://dropbox.tech/machine-learning/how-image-search-works-at-dropbox
分享有關Twitter圖像裁剪算法的知識
我們的圖像裁剪算法的分析是與來自ML模型、透明度和問責制 (META) 團隊的Kyra Yee和Tao Tantipongpipat以及來自我們內容理解研究團隊的Shubhanshu Mishra合作完成的,該團隊專門改進我們的ML模型,用于推文中的內容類型。在我們的研究中,我們針對基于性別和種族的偏見測試了我們的模型,并考慮了我們的模型是否符合我們的目標,即讓人們能夠在我們的平臺上做出自己的選擇。
https://blog.twitter.com/engineering/en_us/topics/insights/2021/sharing-learnings-about-our-image-cropping-algorithm.html
深度學習在計算機視覺領域(包括圖像,視頻,3-D點云,深度圖)的應用一覽
計算機視覺不是深度學習最早看到突破的領域,真正讓大家大吃一驚的顛覆傳統方法的應用領域是語音識別,做出來的公司是微軟,而不是當時如日中天的谷歌。計算機視覺應用深度學習堪稱突破的成功點是2012年ImageNet比賽,采用的模型是CNN,而不是Hinton搞的RBM和DBN之類,就是Hinton學生做出來以他命名的AlexNet。
用不需要手工標注分割的訓練數據來進行圖像分割
只需要標注包圍框就可以進行圖像分割的訓練。
Google新作 | 詳細解讀 Transformer那些有趣的特性
本文發現了Transformer的一些重要特性,如Transformer對嚴重的遮擋,擾動和域偏移具有很高的魯棒性、與CNN相比,ViT更符合人類視覺系統,泛化性更強,等等... ?代碼即將開源!
為了讓步行在VR中更逼真,腳部VR力回饋方案誕生
與萬向跑步機相比,滑輪鞋或圓形底盤適合坐著玩VR,你通過原地踏步或原地移動腳面就能控制VR運動,適合休閑類VR應用。但是,這些足部控制器主要功能只是模擬行走的動作,無法給你帶來走在地上的逼真體感,你可能感受不到阻力或是踩在地上的彈力。因此為了解決這一問題,由豐橋技術科學大學和東京大學科研人員組成的團隊想出了另一種模擬真實行走的VR方案,他們結合足部震動反饋來模擬踩在地面上行走的反作用力/摩擦力,這樣當你坐著玩VR的時候,也能體驗到接近走路的體感。
自動駕駛的 6 個關鍵連接要求
雖然汽車行業的未來仍然充滿未知,但我們知道:行業領導者需要掌握連接性,以實現完全自動駕駛的 V2X(Vehicle-to-everything)功能。
https://spectrum.ieee.org/transportation/advanced-cars/6-key-connectivity-requirements-of-autonomous-driving
谷歌正式發布Fuchsia操作系統,從第一代Nest hub開始
谷歌長期開發、從頭開始的操作系統Fuchsia現在運行在真正的Made by谷歌設備上,即第一代Nest Hub。
https://9to5google.com/2021/05/25/google-releases-fuchsia-os-nest-hub/
HarmonyOS 2面世!是沒有退路還是時機成熟?中國操作系統崛起元年或已到來
6月2日晚間,華為鴻蒙操作系統HarmonyOS迎來重要時刻,華為正式發布多款搭載HarmonyOS 2的新產品,包括HUAWEI Mate 40系列新版本、Mate X2新版本、HUAWEI WATCH 3系列、HUAWEI MatePad Pro等手機、智能手表、平板產品。同時,華為手機、平板等“百”款設備將陸續啟動HarmonyOS 2升級。
OBS Studio 27發布,具有撤銷/重做,支持macOS、Linux等系統下的瀏覽器docks訪問
經過一段時間的測試,我們很高興地宣布OBS Studio 27現在對每個人都可用!如果你已經安裝了OBS,下次啟動它時,你會收到一個更新提示。如果你是第一次下載在線存儲服務,或者想使用便攜式版本,你可以從我們的網站上下載。如果您關閉更新通知,可以從Windows和macOS上的幫助菜單手動下載。
https://obsproject.com/blog/obs-studio-27-released
Oppo 通過第三方收購為產品組合增加了 1,400 多項專利
Oppo在大約5年前開始迅速增長,在新的地區面臨新的風險,比如專利糾紛。為了解決這一問題,該公司實施了一項雙管齊下的戰略,以增強其運營自由:一方面加強內部研發,另一方面在二級市場購買關鍵技術的專利。
https://www.iam-media.com/defensive-aggregation/oppo-adds-over-1400-patents-portfolio-through-third-party-acquisitions
通過 MediaPipe 手部追蹤控制您的 Mirru 假肢
Mirru是一個正在開發中的免費開源Android應用程序,人們可以通過手跟蹤來控制機器人假肢手。有了這款應用程序,用戶可以立即將發聲手的握法鏡像到機器人手上,機器人可以3d打印并以低成本自行組裝。通過Mirru,谷歌希望提供一種廉價、直觀和開放的端到端替代現有的、昂貴的、繁瑣的和專有的技術。
https://developers.googleblog.com/2021/05/control-your-mirru-prosthesis-with-mediapipe-hand-tracking.html
2021 MSU視頻編解碼器大賽
通過 MSU 編解碼器比較,開發人員可以驗證其編解碼器的性能。我們共享測試序列、編碼參數和編解碼器版本,以便所有開發人員都可以重現比較結果。
http://www.compression.ru/video/codec_comparison/2021/call_for_codecs.html
講師招募?LiveVideoStackCon 2021 北京站
LiveVideoStackCon 2021 北京站(9月3-4日)正在面向社會公開招募講師,歡迎通過?speaker@livevideostack.com?提交個人及議題資料,無論你的公司大小,title高低,老鳥還是菜鳥,只要你的內容對技術人有幫助,其他都是次要的,我們將會在24小時內給予反饋。點擊[閱讀原文]了解大會更多內容。
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 | 198的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 关于语音发送/接收 方法和装置发明专利正
- 下一篇: 基于CDN边缘网络智能优化图片和视频
