音视频技术开发周刊 | 196
每周一期,縱覽音視頻技術領域的干貨。
新聞投稿:contribute@livevideostack.com。
小提示:鏈接跳轉僅支持公眾號相關鏈接
音視頻算法在淘寶中的應用
近年來,內容業務在行業蓬勃發展。淘寶也在積極進行內容化轉型,本次LiveVideoStackCon 2021 上海站大會我們邀請到了阿里巴巴淘系技術高級算法專家——王立波(莊恕),回顧淘寶從圖文到短視頻直播的發展歷程,介紹音視頻算法在其中的應用和未來的投入方向包括編解碼、視頻處理、音頻通訊與互動。
解密華為云原生媒體網絡如何保障實時音視頻服務質量
隨著5G和AI的發展,內容表達視頻化成為了當今的主流,很多行業對視頻分發有非常旺盛的需求。我們非常榮幸地請到了華為云的資深視頻架構師黃挺,為大家介紹基于互聯網的實時音視頻服務所面臨的挑戰,分享華為云原生媒體網絡全方位保障實時音視頻服務體驗的實踐。
TOP級CG行業云渲染服務的演進之路
影視動畫、特效制作等行業渲染需求量增多,4K/6K以及各高分辨率會陸續成為主流,本地算力與存儲資源已無法滿足現有任務量。而隨著大環境的演變,CG行業發展已進入發展快車道。本次大會我們邀請到了贊奇科技CEO 金偉老師,與我們分享贊奇科技關于CG行業在云端制作和渲染是如何推進服務的。
谷歌 I/O 2021 在音視頻領域中有哪些技術值得被關注?
時隔兩年Google I/O大會再次與大家見面。雖然去年的大會因新冠疫情被迫取消,但技術的迭代發展卻未被打斷,反而因疫情的影響促使了技術的創新變得愈加以人們的需求為首要考量,從而變得更具人性化也更具智能化。
手寫 Android 錄屏直播
觀看手游直播時,我們觀眾端看到的是選手的屏幕上的內容,這是如何實現的呢?這篇博客將手寫一個錄屏直播 Demo,實現類似手游直播的效果。
快手實現基于深度學習實時變聲直播
近日,快手成為業內首次在 PC 客戶端實現基于深度學習實時變聲直播的公司。這項變聲技術可以實現任意用戶到目標音色的穩定變聲,變聲后語音具有自然度高,相似度高,音質清晰等優勢,同時整個系統的鏈路延遲可低至 200 毫秒。
一種“在 Android 設備上,播放視頻的同時,獲取實時音頻流”的有效方案
這篇文章將會按照一般的需求開發流程,從需求、分析、開發,到總結,來給大家講解一種“在 Android 設備上,播放視頻的同時,獲取實時音頻流”的有效方案。
實時廣播視頻的公網傳輸:壓縮視頻的 SRT, NDI和RIST
本文來自SMPTE的會議,主講人是來自Alpha Video的銷售客戶經理Bryan Nelson和RIST論壇主席、Cobalt Digital工程部執行副總裁Ciro Noronha。主要內容是介紹如何用SRT、RIST和NDI實現實時廣播視頻的公共互聯網傳輸。
The Road to multipath QUIC: 阿里自研多路徑傳輸技術XLINK
阿里巴巴淘系技術部淘系架構團隊與達摩院XG實驗室共同研發的XLINK多路傳輸技術,相關論文「XLINK: QoE-driven multi-path QUIC transport in large-scale video services」已經被頂級學術會議SIGCOMM 2021正式接收, 這也是SIGCOMM會議歷史上第一篇關于多路徑QUIC的論文。
學術界AV1編碼優化技術的進展
學術界的一些優化工作是涵蓋了編碼過程的大部分模塊。很 明顯的趨勢就是許多深度學習的網絡或者方法已經開始與編碼的模塊進行結合,并取得了很多不錯的收益。本文將按照編碼過程的大致順序分享學術界AV1編碼優化技術的進展。
從Satin到Lyra 為何微軟、谷歌都盯向音頻編解碼器?
回顧今年的2月份,可以說是音頻編解碼器最為熱鬧的一個月。先是微軟宣布推出最新款由AI支持的音頻編解碼器——Satin。僅一周后,谷歌推出了用于語音壓縮的新型超低比特率音頻編解碼器——Lyra,并且Android版本已開源。在此,也非常感謝來自國內音頻領域的知名業內人士對本文發表評論及審校。
AI技術 | 弱光下的人臉準確檢測識別(附論文下載)
在弱光圖像中進行人臉檢測具有挑戰性,因為照片數量有限,而且不可避免地會有噪聲,而這些噪聲往往在空間上分布不均勻,使得這項任務更加困難。
前饋網絡+線性交互層=殘差MLP,Facebook純MLP圖像分類架構入場
近日,來自 Facebook 的研究者進一步推動了這一趨勢,他們提出了 ResMLP(Residual Multi-Layer Perceptron ),一種用于圖像分類的純多層感知機(MLP)架構。
實踐解析 | 如何用 OpenGL 實現跨平臺應用高效渲染
OpenGL(Open Graphics Library 開放式圖形庫)是一個定義了跨編程語言、跨平臺的編程接口規格的專業圖形程序接口。它可用于三維、二維圖形圖像的渲染,是一個功能強大,調用方便的底層圖形庫。在一個 RTC 應用中,因視頻渲染或算法處理的需要,OpenGL 是一種高效的渲染或處理實現方式。OpenGL 的高效實現在 Windows、Linux 和 macOS 都有相應支持。
OpenAI新研究:擴散模型在圖像合成質量上擊敗BigGAN,多樣性還更佳
新模型在ImageNet512×512上實現了3.85FID,甚至在每個樣本只有25次正向傳遞的情況下,其生成圖像質量可匹敵DeepMind提出的BigGAN。
8K時代有望提前到來?看《超高清視頻產業發展白皮書(2021年)》了解!
根據該“白皮書”的測算,在市場規模方面,2020年,超高清視頻產業總規模達1.8萬億元,其中超高清視頻核心環節直接銷售收入超過8100億元,行業應用規模超過9800億元,其硬件直接銷售收入約900億元,解決、集成方案等超過8900億元。
活動推薦
#?基于CDN邊緣網絡智能優化圖片和視頻
隨著在線業務的蓬勃發展,好的數字用戶體驗有助于提升轉化率已毋庸置疑,高質量的圖片和視頻已成為成功吸引用戶的重要因素。然而,既要交付制作精美、視覺效果出色的圖片和視頻,又要保證用戶體驗,尤其在高延遲的移動蜂窩網絡和性能參差不齊的移動終端設備上,在這兩者之間找到平衡是一個復雜的過程。
5月27日19:30,我們邀請到了 Akamai 高級技術顧問 何明聰 結合Akamai圖片和視頻優化解決方案,和大家一同探討在無需修改源站代碼的前提下,如何通過自動化的工作流程在CDN邊緣網絡智能優化圖片和視頻。(掃描上圖二維碼來報名吧:)
#?泛娛樂社交音視頻技術實踐沙龍
全球領先的實時音視頻云服務商即構科技將于6月5日(周六)在北京聯合火山引擎舉辦『泛娛樂社交音視頻技術實踐沙龍』,特別邀請到了思享無限(秀色直播)研發總監、即構科技解決方案高級架構師、火山引擎解決方案高級顧問三位嘉賓,分別從技術推動娛樂直播的內容升級與體驗升級、共享體驗場景創新、RTC服務體驗優化、音視頻業務全鏈路增長等維度分享最佳實踐,復盤實戰經驗,暢聊技術趨勢和未來玩法,對音視頻技術/泛娛樂社交場景創新感興趣的朋友,請趕快掃碼報名,搶先獲得與大咖面對面交流的機會,更有超多精美禮品相送哦!
插圖源自Pexels
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 | 196的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 广播IP转型报告:2021年广播公司面临
- 下一篇: 苹果亚马逊同一天公布无损音质服务、 Go