音视频技术开发周刊 | 201
每周一期,縱覽音視頻技術(shù)領(lǐng)域的干貨。
新聞投稿:contribute@livevideostack.com。
小提示:鏈接跳轉(zhuǎn)僅支持公眾號相關(guān)鏈接
HDR:為用戶打造的視覺盛宴
隨著時代的發(fā)展,人們越來越不滿足于屏幕畫面有限的色彩,開始研究如何讓畫面與現(xiàn)實世界更加相似。本次LiveVideoStackCon 2021上海站大會我們邀請到了快手音視頻技術(shù)部的章佳杰。他以幾個小故事作為引子,來分析照片無法完美重現(xiàn)現(xiàn)實世界的原因,并分享關(guān)于HDR高動態(tài)范圍視頻干貨。
OneVPL與FFmpeg/GStreamer硬件編解碼器
相對軟件Codec來說,人們對硬件Codec的應(yīng)用并不太熟悉。本次LiveVideoStackCon 2021 上海站大會我們邀請到了來自英特爾的媒體工程師——許廣新,來為我們分享Intel在硬件編解碼器中的最新研發(fā)進(jìn)展。
IETF訪談:HTTP/3全球份額持續(xù)增長,QUIC前景一片光明
本篇文章為IETF近期對Lucas Pardue 關(guān)于QUIC標(biāo)準(zhǔn)化工作的訪談。作者為IETF Blog 記者Grant Gross。
HTTP 請求之合并與拆分技術(shù)詳解
本文進(jìn)行了一個簡單的實驗,嘗試通過數(shù)據(jù)來分析 HTTP 中的合并與拆分,以及并發(fā)請求是否影響其他請求。
VVC快速仿射運動補(bǔ)償
VVC采用多類型樹(MTT)進(jìn)行塊劃分,提供了更靈活的塊劃分方式,但是也極大的提高了復(fù)雜度。在此基礎(chǔ)上的仿射運動補(bǔ)償(AME)更加增加了復(fù)雜度。論文通過提取特征有效的反映MTT和AME的統(tǒng)計特性,并利用這些特征冗余的AME過程節(jié)省AME處理的時間。
中科大的AI圖像/視頻編解碼綜述
論文來自中科大的團(tuán)隊,回顧了使用深度學(xué)習(xí)進(jìn)行圖像/視頻編解碼的代表性工作。
https://zhuanlan.zhihu.com/p/379450898
微信小游戲直播 — Android跨進(jìn)程渲染推流實踐
微信小游戲出于性能和安全等一系列考慮,運行在一個獨立的進(jìn)程中,在該環(huán)境中不會初始化視頻號直播相關(guān)的模塊,這就意味著小游戲的音視頻數(shù)據(jù)必須跨進(jìn)程傳輸?shù)街鬟M(jìn)程進(jìn)行推流,給我們實現(xiàn)小游戲直播帶來了一系列挑戰(zhàn)。
思科Webex與下一代視頻會議
視頻會議在人們的日常生活中使用愈發(fā)頻繁,尤其是在新冠肺炎疫情的影響下視頻會議市場急劇增長,由此引發(fā)了思科網(wǎng)訊視頻技術(shù)的不斷更新。本次分享,我們邀請到了思科協(xié)作技術(shù)事業(yè)部的首席工程師Thomas Davies先生,他向我們分享了AV1的發(fā)展歷程,開發(fā)AV1時所受到的挑戰(zhàn),以及AV2的發(fā)展前景及其在實時通信中的作用。
VideoLab - 高性能且靈活的 iOS 視頻剪輯與特效框架
VideoLab 是開源的,高性能且靈活的 iOS 視頻剪輯與特效框架,提供了更 AE(Adobe After Effect)化的使用方式。框架核心基于 AVFoundation 與 Metal。
音視頻同步原理與實現(xiàn)
本文主要描述音視頻同步原理,及常見的音視頻同步方案,并以代碼示例,展示如何以音頻的播放時長為基準(zhǔn),將視頻同步到音頻上以實現(xiàn)視音頻的同步播放。
AliCloudDenoise 語音增強(qiáng)算法:助力實時會議系統(tǒng)進(jìn)入超清音質(zhì)時代
近些年,隨著實時通信技術(shù)的發(fā)展,在線會議逐漸成為人們工作中不可或缺的重要辦公工具,據(jù)不完全統(tǒng)計,線上會議中約有 75% 為純語音會議,即無需開啟攝像頭和屏幕共享功能,此時會議中的語音質(zhì)量和清晰度對線上會議的體驗便至關(guān)重要。
Facebook 新成果:用于語音識別、生成和壓縮的自監(jiān)督表征學(xué)習(xí)的 HuBERT
為了在音頻中對這些類型的豐富詞匯和非詞匯信息建模打開大門,Facebook推出了 HuBERT,這是一種學(xué)習(xí)自監(jiān)督語音表征的新方法。HuBERT 與 SOTA 方法在語音識別、語音生成、語音壓縮的語音表征學(xué)習(xí)方面相匹配,甚至超過了 SOTA。
視頻質(zhì)量評價:挑戰(zhàn)與機(jī)遇
本文整理自鵬城實驗室助理研究員王海強(qiáng)在LiveVideoStack線上分享上的演講。他通過自身的實踐經(jīng)驗,詳細(xì)講解了視頻質(zhì)量評價的挑戰(zhàn)與機(jī)遇。
使用高級視頻質(zhì)量工具 AVQT 評估視頻
本文根據(jù) Pranav Sodhani 在 WWDC 2021《Evaluate videos with the Advanced Video Quality Tool 》主題分享翻譯。Pranav Sodhani,來自 Apple 顯示和色彩技術(shù)團(tuán)隊,在算法開發(fā)、機(jī)器學(xué)習(xí)、色彩科學(xué)和視頻技術(shù)方面具備專業(yè)的知識。
全球首個開源圖像識別系統(tǒng)上線了!
說到圖像識別相信大家已經(jīng)非常熟悉了,這一技術(shù)早就深深融入我們生活的方方面面,小到人臉解鎖、支付、打卡、酒店入住,攝像頭中的違規(guī)駕駛識別,網(wǎng)購明星同款時的以圖搜圖,大到自動駕駛汽車中的駕駛輔助,醫(yī)療影像的輔助診斷,圖像視頻的分析、編輯、再創(chuàng)造等等...
二次元新玩法!生成不同風(fēng)格小姐姐動漫形象,膚色、發(fā)型皆可變
一張輸入人臉圖像,竟能生成多樣化風(fēng)格的動漫形象。伊利諾伊大學(xué)香檳分校的研究者做到了,他們提出的全新 GAN 遷移方法實現(xiàn)了「一對多」的生成效果。
目標(biāo)檢測究竟發(fā)展到了什么程度? | CVHub帶你聊一聊目標(biāo)檢測發(fā)展的這22年
目標(biāo)檢測領(lǐng)域發(fā)展至今已有二十余載,從早期的傳統(tǒng)方法到如今的深度學(xué)習(xí)方法,精度越來越高的同時速度也越來越快,這得益于深度學(xué)習(xí)等相關(guān)技術(shù)的不斷發(fā)展。本文將對目標(biāo)檢測領(lǐng)域的發(fā)展做一個系統(tǒng)性的介紹,旨在為讀者構(gòu)建一個完整的知識體系架構(gòu),同時了解目標(biāo)檢測相關(guān)的技術(shù)棧及其未來的發(fā)展趨勢。
《半衰期:愛莉克斯》開發(fā)者:開發(fā)VR手部交互難在哪?
近期,日本游戲網(wǎng)站Kotaku采訪到《半衰期:愛莉克斯》手部交互開發(fā)者Kerry Davis,了解到開發(fā)該游戲時還曾經(jīng)探索過哪些方向,以及哪些玩家難以察覺,卻同時優(yōu)化了游戲體驗的細(xì)節(jié)。
自動駕駛汽車的成功取決于遙操作
遙操作(teleoperation)技術(shù)是一種達(dá)到人與被控對象之間遠(yuǎn)程交互的技術(shù)手段。遙操作的控制端在本地,其執(zhí)行端在本地?zé)o法直接感知的遠(yuǎn)程空間某處。這一技術(shù)目前多用于機(jī)器人。遙操作通常來說其實就是遠(yuǎn)程操作。在自動駕駛汽車方面,遙操作技術(shù)也是大有可為的。因為目前來看,至少在未來 10 年到 20 年,自動駕駛完全無人化是不可能的,還是需要人類介入。目前世界上的核電站管理或飛機(jī)駕駛,都有人的介入,而不是百分之百靠人工智能操縱的。
CVPR 2021 | 特斯拉純視覺自動駕駛最新進(jìn)展
在 CVPR 2021 自動駕駛 Workshop 上,特斯拉 AI 總監(jiān) Andrej Karpathy 講述了特斯拉純視覺包括 Autopilot 和 FSD 的最新進(jìn)展。
活動推薦
7月4日前購票享 8折?優(yōu)惠,點擊【閱讀原文】或掃描圖中二維碼了解詳情。
插圖源自Pexels
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 | 201的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HDR:为用户打造的视觉盛宴
- 下一篇: LiveVideoStackCon 20