音视频技术开发周刊 | 225
每周一期,縱覽音視頻技術(shù)領(lǐng)域的干貨。
新聞投稿:contribute@livevideostack.com。
李松南:智能全真時(shí)代的多媒體技術(shù)——關(guān)于8K、沉浸式和人工智能的思考
視覺體驗(yàn)在全真時(shí)代顯得越發(fā)重要,如何提高用戶的視覺體驗(yàn)?更好的編碼標(biāo)準(zhǔn)帶來的低碼率高畫質(zhì)、超分等視頻處理手段帶來的畫質(zhì)提升、三維視頻帶來深度感知、任意視點(diǎn)視頻或者VR360視頻帶來的用戶交互、擴(kuò)展現(xiàn)實(shí)與虛擬現(xiàn)實(shí)帶來的超現(xiàn)實(shí)感;另一方面,智能時(shí)代革新了音視頻技術(shù),通過音視頻分析更好的理解數(shù)據(jù)與連接用戶、通過輔助創(chuàng)作讓音視頻內(nèi)容極大豐富。LiveVideoStack2021北京站邀請(qǐng)到騰訊多媒體實(shí)驗(yàn)室視頻技術(shù)總監(jiān)—李松南,帶領(lǐng)我們一起發(fā)掘在全真時(shí)代與智能時(shí)代里多媒體技術(shù)的無限可能。
使用 MediaCodec 進(jìn)行視頻的編碼和解碼
在Android中播放視頻很簡(jiǎn)單,只要?jiǎng)?chuàng)建一個(gè)MediaPlayer實(shí)例,然后設(shè)置上DataSource和SurfaceView就可以了。但是播放視頻還有一種方式就是使用Android提供的MediaCodec,它可以用于編碼和解碼。另外如果要播放使用Android Widevine加密的視頻則必須使用MediaCodec來完成解密和解碼的過程。
不僅僅是大量傳感器和攝像頭,谷歌Starline 3D視頻方案解析
近期,谷歌實(shí)驗(yàn)室公布了該項(xiàng)目背后的技術(shù)細(xì)節(jié),包括采用的攝像頭、紅外傳感器等硬件,以及如何在測(cè)試過程中,通過精準(zhǔn)的視覺模擬來欺騙用戶的觀感。簡(jiǎn)單來講,Starline可以看做是一種專為面對(duì)面會(huì)議設(shè)計(jì)的雙向3D電話亭,它可以實(shí)時(shí)掃描使用者的3D形象,然后在另一端的光場(chǎng)顯示器上實(shí)時(shí)呈現(xiàn)立體的視頻圖像,這種立體視頻裸眼可觀看,無需額外的頭顯。此外,聲音也以3D空間音頻形式呈現(xiàn),通話者的注視點(diǎn)也會(huì)實(shí)時(shí)追蹤和更新,看起來足夠真實(shí)。
使用 JPEG XS 和 AWS CDI 的云端實(shí)時(shí)視頻
本次演講主題為使用 JPEG XS 和 AWS CDI 的云端實(shí)時(shí)視頻,主講人為來自亞馬遜云科技專門從事廣播的首席解決方案架構(gòu)師 Thomas Edwards。他從 JPEG XS 和 AWS CDI 兩個(gè)方法分別進(jìn)行了介紹。
從直播硬件出發(fā),淺析直播技術(shù)到物聯(lián)網(wǎng)設(shè)備的智能化趨勢(shì)
直播有個(gè)人直播(泛娛樂直播)和企業(yè)直播(商業(yè)&商務(wù)直播)之分;個(gè)人直播的投入成本低,一部手機(jī)便可以隨時(shí)隨地開播,且各直播App有足夠多的直播輔助工具來協(xié)助開播,對(duì)增值服務(wù)需求不高;企業(yè)直播講究規(guī)范,有專門的直播間,投入的人力物力很大,直播影響面廣泛,對(duì)專業(yè)的直播硬件,PaaS,SaaS等軟件服務(wù)以及運(yùn)營(yíng)指導(dǎo),售后服務(wù)等多種增值服務(wù)都有明確訴求,故本次分析基于TO B的企業(yè)直播業(yè)務(wù)展開。
視頻直播關(guān)鍵技術(shù)和趨勢(shì)
移動(dòng)互聯(lián)網(wǎng)的興起為人類信息傳播帶來了更便捷的通道、更立體的視角和更豐富的選擇。視頻直播等多媒體通信技術(shù)在新的時(shí)代背景下逐漸嶄露頭角并不斷滲入到人們的日常生活中,以提高人們的信息傳輸效率、降低信息傳輸成本。
無線聲學(xué)傳感網(wǎng)絡(luò)中的采樣率失配問題怎么辦?
無線聲學(xué)傳感器網(wǎng)絡(luò)是一個(gè)集信息提供、感知、傳送和處理為一體的有機(jī)整體,通常包括多個(gè)聲學(xué)傳感器節(jié)點(diǎn)。其中,每一個(gè)傳感節(jié)點(diǎn)都是具有一定感知、計(jì)算和無線通信能力的設(shè)備。這些節(jié)點(diǎn)通過自組織的形式形成無線聲學(xué)網(wǎng)絡(luò)系統(tǒng),協(xié)作收集數(shù)據(jù)并進(jìn)行處理。相比于我們熟知的傳統(tǒng)麥克風(fēng)陣列,無線聲學(xué)傳感網(wǎng)絡(luò)的麥克風(fēng)節(jié)點(diǎn)可以放置到更加靈活的位置,這也增加了聲源附近有多個(gè)麥克風(fēng)存在的概率,可以收集到更高質(zhì)量的信號(hào)。而且由于所有具有收發(fā)功能的記錄設(shè)備(如個(gè)人手機(jī),電腦等)都可以作為記錄節(jié)點(diǎn),因此無線聲學(xué)傳感網(wǎng)絡(luò)的搭建相當(dāng)容易,它在音頻采集和處理領(lǐng)域有著很好的應(yīng)用前景。
技術(shù)實(shí)戰(zhàn) —— 快速實(shí)現(xiàn)語(yǔ)聊房搭建
語(yǔ)音相比文字圖片更豐富,比視頻又更簡(jiǎn)便,是天然的社交工具。以95后為代表的Z世代用戶,在微信、QQ、微博等主流社交工具以外,更愿意嘗試基于不同興趣相對(duì)小眾的社交工具。ZEGO 即構(gòu)科技推出語(yǔ)聊房解決方案,幫助客戶快速搭建語(yǔ)聊房。本次分享,我們邀請(qǐng)到了 即構(gòu)科技交付解決方案專家 JIN 。他向我們分享了線上社交以及語(yǔ)聊房的發(fā)展、玩法,并詳細(xì)解析如何快速搭建語(yǔ)聊房,提供穩(wěn)定、低延時(shí),高品質(zhì)的線上互動(dòng)體驗(yàn)。
MIT、哈佛新研究:提速15000倍,借助光場(chǎng)實(shí)現(xiàn)3D場(chǎng)景超高速渲染
在一篇 NeurIPS 2021 論文中,來自哈佛大學(xué)、麻省理工學(xué)院的研究人員提出了一種新方法,使從圖像中表征 3D 場(chǎng)景比已有模型約快 15000 倍。該研究提出的光場(chǎng)網(wǎng)絡(luò) (LFN) 可以在僅對(duì)圖像進(jìn)行一次觀看后重建光場(chǎng),并且能夠以實(shí)時(shí)幀率渲染 3D 場(chǎng)景。
視頻精修一幀要花2小時(shí)?美圖影像研究院的AI只要5.3毫秒!
圍繞用戶更具個(gè)性化的「變美」 需求,美圖影像研究院(MT Lab)自研基于深度學(xué)習(xí)的實(shí)時(shí)視頻美容方案。通過設(shè)計(jì)輕量的神經(jīng)網(wǎng)絡(luò)生成式模型,結(jié)合強(qiáng)大的美圖AI推理框架(Manis)和千萬級(jí)人像圖庫(kù)訓(xùn)練優(yōu)勢(shì),實(shí)現(xiàn)對(duì)動(dòng)態(tài)視頻人臉的瑕疵修復(fù)與暗沉祛除,同時(shí)最大程度地保留了皮膚的真實(shí)紋理細(xì)節(jié)。
人類駕駛,交通事故的最大Bug | 產(chǎn)學(xué)研聯(lián)合發(fā)布自動(dòng)駕駛汽車交通安全白皮書
商業(yè)落地,這是今年自動(dòng)駕駛行的關(guān)鍵詞。年末曬成績(jī)之際,百度、中汽中心、同濟(jì)大學(xué)卻聯(lián)合公布了這樣一份報(bào)告:《自動(dòng)駕駛汽車交通安全白皮書》。這份聚焦自動(dòng)駕駛道路交通安全的報(bào)告,還是產(chǎn)學(xué)研聯(lián)合出品,有車,有路,也有政策和技術(shù)。今年,自動(dòng)駕駛公司各顯神通,商業(yè)化落地進(jìn)展迅速。此時(shí)強(qiáng)調(diào)自動(dòng)駕駛的安全,又有何深意?普通人對(duì)于自動(dòng)駕駛最大的擔(dān)憂,《自動(dòng)駕駛汽車交通安全白皮書》(下稱《白皮書》)又給出了哪些解答?
閱讀推薦
什么是閉合GOP和開放GOP?
在本文中,我們將了解閉合GOP和開放GOP的概念。這兩種類型的GOP在視頻流化中非常常見,并會(huì)影響視頻壓縮效率、錯(cuò)誤恢復(fù)以及ABR的切換能力。
為什么直播時(shí)要用CDN?
你在直播時(shí)遇到緩沖、延遲、視頻中斷或其他故障嗎?想要確保這些問題不會(huì)發(fā)生,使用CDN絕對(duì)是一個(gè)好方法。CDN已經(jīng)存在有一段時(shí)間了,隨著時(shí)間的推移,CDN會(huì)變得更加流行,對(duì)于直播也會(huì)更加重要。在本文中,我們將會(huì)討論:你為什么應(yīng)該在下一場(chǎng)直播中使用CDN,以及它是如何影響終端用戶體驗(yàn)的。
2021 Bitmovin 視頻開發(fā)者報(bào)告
本文譯自 "2021 Bitmovin Video Developer Report",報(bào)告了 2021 年 Bitmovin 的調(diào)查結(jié)果,反映了音視頻行業(yè)的發(fā)展情況。
活動(dòng)推薦
【城市沙龍】LiveVideoStack Meet | 南京:
互聯(lián)網(wǎng)沙漠的音視頻發(fā)展
2021年LiveVideoStack Meet已成功在北京、蘇州、杭州、成都、西安、合肥與上海落地。這一路我們分享對(duì)于行業(yè)內(nèi)卷的看法,探討技術(shù)發(fā)展方向,也了解到更多二線城市的音視頻環(huán)境。2022年第一站,將于1月8日在南京與大家見面,本次分享內(nèi)容涵蓋人工智能、實(shí)時(shí)音視頻、直播全鏈路監(jiān)控、云游戲?qū)嵺`等多方面,快來現(xiàn)場(chǎng)與嘉賓面對(duì)面交流吧。
活動(dòng)時(shí)間:2022.01.08 14:00-16:00
活動(dòng)地點(diǎn):南京市雨花臺(tái)區(qū)鳳信路6號(hào) 南京金證科技園3棟1樓路演廳
報(bào)名地址:
https://8392623630544.huodongxing.com/event/5628086056100
插圖源自Pexels
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 | 225的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术实战 —— 快速实现语聊房搭建
- 下一篇: 从体验出发构建以增长为目标的视频服务体系