音视频技术开发周刊 | 237
每周一期,縱覽音視頻技術(shù)領(lǐng)域的干貨。
新聞投稿:contribute@livevideostack.com。
瘦臉、瘦腿太初級,揭秘「亞洲秘術(shù)」美顏美體特效
在機器之心最新一期技術(shù)分享中,機器之心機動組以「揭秘人體美化技術(shù)」為主題,邀請到了快手、淘寶、火山引擎的技術(shù)專家,為大家解密這些特效背后的相關(guān)技術(shù)。
UGC 視頻質(zhì)量評價
由于內(nèi)容和質(zhì)量的高度多樣性,用戶生成內(nèi)容 (UGC) 的視頻質(zhì)量非常難以評估,傳統(tǒng)測量和評估視頻質(zhì)量的算法和模型不能很好起作用,在這樣的情況,亟需針對 UGC 視頻的視頻質(zhì)量評價方法。
使用 Puppeteer + canvas + WebCodecs 來代替 FFmpeg
技術(shù)團隊將 Puppeteer、MP4Box.js、WebCodecs、canvas 和 FFmpeg(final muxing)結(jié)合在一起,創(chuàng)建了一個管道,為網(wǎng)絡(luò)開發(fā)者提供熟悉的 canvas 圖形 API,而不犧牲 FFmpeg 的性能。
低延遲體育中的內(nèi)容感知播放
主講人主要介紹了在直播體育的場景下,他們提出的內(nèi)容感知速率控制算法,以避免直播重要時刻的卡頓。
音視頻開發(fā)之旅(一)三種方式繪制圖片
在Android開發(fā)中我們最常使用的繪制圖片的方式就是ImageView,設(shè)置src。那么有沒有其他方案可以實現(xiàn)圖片的繪制吶?有三種方案!
iOS AVDemo(4):音頻解封裝,從 MP4 中解封裝出 AAC丨音視頻工程示例
這里是第四篇:iOS 音頻解封裝 Demo。這個 Demo 里包含以下內(nèi)容:1、實現(xiàn)一個音頻解封裝模塊;2、實現(xiàn)對 MP4 文件中音頻部分的解封裝邏輯并將解封裝后的編碼數(shù)據(jù)存儲為 AAC 文件;3、詳盡的代碼注釋,幫你理解代碼邏輯和原理。
人工智能語音識別幫助識別機器故障
聲音提供有關(guān)計算機運行情況的重要信息。ETH研究人員現(xiàn)在已經(jīng)開發(fā)出一種新的機器學(xué)習(xí)方法,可以自動檢測機器是否“健康”或是否需要維護。
如何基于實時聲紋變聲實現(xiàn)對聲音的“克隆”
「實時聲紋變聲」將顛覆傳統(tǒng)的變聲音效軟件與AI實時變聲體驗,通過提取語音的音素特征與聲紋特征等一系列技術(shù)手段,在實時音視頻互動中可以將任意用戶的語音實時變換成指定或任意一個他人的語音,實現(xiàn)像柯南變聲器那樣對聲音的真正“克隆”,接下來我們將分別介紹傳統(tǒng)主流變聲方法與實時聲紋變聲背后的技術(shù)原理。
自回歸解碼加速64倍,谷歌提出圖像合成新模型MaskGIT
來自谷歌研究院的研究者提出了一種使用雙向 transformer 解碼器的新型圖像合成模型 MaskGIT,在性能和速度上都獲得了大幅改進(jìn)。實驗表明,MaskGIT 在 ImageNet 數(shù)據(jù)集上顯著優(yōu)于 SOTA transformer 模型,并將自回歸解碼的速度提高了 64 倍。
視頻編解碼芯片設(shè)計原理--05 整像素運動估計
本系列主要介紹視頻編解碼芯片的設(shè)計,以HEVC視頻編碼標(biāo)準(zhǔn)為基礎(chǔ),簡要介紹編解碼芯片的整體硬件架構(gòu)設(shè)計以及各核心模塊的算法優(yōu)化與硬件流水線設(shè)計。
實時通訊中的擁塞控制算法
實時通訊的需求不斷增長, 低延時的擁塞控制就顯得由為重要。這樣就有一個組織叫RMCAT專門來負(fù)責(zé)制定用于實時通訊的擁塞控制的標(biāo)準(zhǔn)。
馬普所開源ICON,顯著提高單張圖像重建三維數(shù)字人的姿勢水平
本文介紹了馬普所二年級 CS 博士生修宇亮(Yuliang Xiu)入選 CVPR 2022 的一項三維數(shù)字人姿態(tài)重建新研究 ——ICON[1]。在本文中,他將詳述這項工作的來龍去脈,包括厘清本研究的動機及思維起點 (motivation)、梳理出這二十多頁論文的主線、論文中沒提及的洞見 (insight),并著重講一下 ICON 的局限及改進(jìn)思路。
字節(jié)跳動開源大模型訓(xùn)練框架 veGiantModel
字節(jié)跳動 AML 團隊內(nèi)部開發(fā)了火山引擎大模型訓(xùn)練框架 veGiantModel?;?PyTorch 框架,veGiantModel 是以 Megatron 和 DeepSpeed 為基礎(chǔ)的高性能大模型訓(xùn)練框架。
使用 FFmpeg 對直播流媒體進(jìn)行內(nèi)容分類
首先介紹了 FFmpeg 現(xiàn)有的濾波器,比如超分濾波器或者去雨濾波器。然后討論了自定義創(chuàng)建場景分類器的過程,介紹了一些訓(xùn)練模型、使用 tensorflow 后端以及利用 GPU 運行模型的經(jīng)驗,該項目已完全開源。
FFmpeg 源碼分析-轉(zhuǎn)碼4
本系列 以 FFmpeg4.2 源碼為準(zhǔn),本文主要分析 transcode_step() 的內(nèi)部邏輯,以一條簡單的命令開始,ffmpeg -i a.mp4 b.flv。
https://juejin.cn/post/7052338143004983303
星球?qū)O?| 播放器 FFmpeg 依賴庫的配置
眾所周知,FFmpeg 是有很多編譯選項和依賴選項的,打開工程之后,接下來就要添加 FFmpeg 的依賴了。這里并不打算講要如何編譯 FFmpeg ,因為一開始就被編譯困住了,很難接下來的學(xué)習(xí),反而有一種簡單的方式直接拿編譯好的庫就行了。
公網(wǎng)傳輸技術(shù)之SRT協(xié)議解析(上)
本文將從SRT協(xié)議的原理分析入手,嘗試定義出一個衡量SRT鏈路可靠性高低的指標(biāo):鏈路安全冗余量(Secure-Margin),并詳細(xì)介紹如何依照這個指標(biāo)來部署一個可靠的SRT傳輸鏈路,并分析在不同的直播場景中的參數(shù)調(diào)整策略。
基于 QUIC 的低延時視頻
QUIC (RFC 9000) 是一種新的網(wǎng)絡(luò)協(xié)議,將視頻映射到 QUIC API 有多種方法,具體取決于目標(biāo)延遲和用戶體驗。在 Twitch/IVS,一個新的分發(fā)協(xié)議 (Warp) 被構(gòu)建來替換原來的 HLS 堆棧,利用獨特的優(yōu)先級方案來最大限度地減少面對擁塞時的延遲。
FaceShifter:一秒換臉的人臉交換模型
如今,深度學(xué)習(xí)已近在圖像合成、圖像處理領(lǐng)域中取得驚人的成果。FaceShifter 便是其中之一,它是一種深度學(xué)習(xí)模型,可以非常先進(jìn)的技術(shù)實現(xiàn)人臉交換。在本文中,我們將了解它是如何工作的。
Transformer將在AI領(lǐng)域一統(tǒng)天下?現(xiàn)在下結(jié)論還為時過早!
從自然語言處理任務(wù)起家,又在圖像分類和生成領(lǐng)域大放異彩,所向披靡的 Transformer 會成為下一個神話嗎?
2022斯坦福AI指數(shù)報告出爐!中國霸榜AI頂會,但引用量最低
2022年人工智能指數(shù)報告發(fā)布了!這份報告中,中國在AI頂會論文上表現(xiàn)不凡,但在引用數(shù)量方面卻低于美國、歐盟和英國。
人工智能的學(xué)習(xí)經(jīng)驗總結(jié)!
在現(xiàn)在這個時代,我們以前的學(xué)習(xí)方式不太適用了,如果想高效率的學(xué)習(xí),需要轉(zhuǎn)換一種學(xué)習(xí)方式,不妨從實用的角度出發(fā),遇到不會的再去查漏補缺,這樣效率更高。
什么是AR衍射光波導(dǎo)?
衍射光波導(dǎo)是較為主流的AR眼鏡光學(xué)顯示方案,很多AR眼鏡采用的都是這種顯示方案,為什么各大AR硬件廠商如此青睞衍射光波導(dǎo)?衍射光波導(dǎo)究竟是什么?今天小編就帶大家了解一下什么是衍射光波導(dǎo)。
分享 | 建筑設(shè)計師不可錯過的3款增強現(xiàn)實(AR)軟件
ARki、Fologram、Twinbuild和Gamma AR為設(shè)計師、承包商和業(yè)主提供了從制造、施工到運營和維護在真實世界中精確參考數(shù)字模型的能力。
AR技術(shù)在物理實驗教學(xué)中的應(yīng)用與實踐
將AR技術(shù)與傳統(tǒng)紙質(zhì)教材和實驗儀器或?qū)嶒炑b置實物進(jìn)行結(jié)合,學(xué)生通過手機等移動端就可以觀看實驗儀器或裝置的內(nèi)部三維模型和三維動畫等內(nèi)容,實現(xiàn)了儀器或?qū)嶒灛F(xiàn)象的可視化和交互化操作。
2022:AR邁入新紀(jì)元丨深度
增強現(xiàn)實可以說是迎來了發(fā)展的春天,不論是從硬件角度來看,還是從技術(shù)上的發(fā)展來看2022年,盡管AR技術(shù)發(fā)展依舊長路漫漫,但或許已經(jīng)到了能夠為世界經(jīng)濟和科技的下一步發(fā)展提供可靠動力的關(guān)鍵節(jié)點。
圖像分類的主要難點
圖像分類是根據(jù)圖像的類型(類別)為圖像分配標(biāo)簽的過程。考慮我們有以下類別的圖像:貓和狗因此,當(dāng)我們將給定類別的圖像提供給圖像分類系統(tǒng)時,系統(tǒng)會根據(jù)類別為圖像分配標(biāo)簽。
騰訊老照片修復(fù)算法開源,細(xì)節(jié)到頭發(fā)絲,3種預(yù)訓(xùn)練模型可下載
還記得能將老照片修復(fù)到纖毫畢現(xiàn)的GFPGAN嗎?現(xiàn)在,它的代碼正式開源了!官方已經(jīng)在GitHub上傳了3個預(yù)訓(xùn)練模型。
自動駕駛的第五大感知技術(shù):“聽覺”+自動駕駛
回顧2021,各大互聯(lián)網(wǎng)、科技巨頭紛紛涉足自動駕駛產(chǎn)業(yè),加速自動駕駛產(chǎn)業(yè)的布局。隨著資本的不斷涌入,以及相關(guān)法規(guī)政策的完善,自動駕駛產(chǎn)業(yè)駛?cè)肓税l(fā)展的快車道。
聊聊未來自動駕駛必須解決哪些感知問題
對于研究下一代智能汽車的系統(tǒng)設(shè)計、軟件開發(fā)而言,需要解決包含架構(gòu)設(shè)計、功能開發(fā)、車輛控制等方面的諸多問題,而以上問題的根源都在于環(huán)境感知的能力研究。
閱讀推薦
Web音視頻應(yīng)用開發(fā)趨勢
互聯(lián)網(wǎng)上的視頻應(yīng)用越來越普及,音視頻方面的技術(shù)也越來越成熟,單從局部上做出技術(shù)創(chuàng)新已經(jīng)非常之難。曾經(jīng)“很難”的音視頻技術(shù)逐步被人們所克服,“折疊”成一個個具體的模塊、組件、SDK和云服務(wù)。接下來我們就看看Web端給音視頻應(yīng)用開發(fā)者帶來了哪些新的東西與能力。
M3U8 文件格式詳解
M3U8 是 Unicode 版本的 M3U,用 UTF-8 編碼。"M3U" 和 "M3U8" 文件都是蘋果公司使用的 HTTP Live Streaming(HLS) 協(xié)議格式的基礎(chǔ),這種協(xié)議格式可以在 iPhone 和 Macbook 等設(shè)備播放。
VVC采用緣何頻頻受阻?
VVC正在進(jìn)入一個競爭激烈的編解碼器市場,身在其中,它的未來將更依賴專利費用成本,而非它的技術(shù)標(biāo)準(zhǔn)。最近,Charles River Associates 在Unified Patents 上發(fā)布了一份VVC economic report ,其中詳述了VVC正在面臨來自MPEG的EVC、現(xiàn)存的HEVC、AVC以及AOM聯(lián)盟AV1的激烈競爭。
人物專訪 | 首都在線助力中國企業(yè)出海,提供全球云網(wǎng)服務(wù)一體化方案
近日,有幸采訪了首都在線的首席網(wǎng)絡(luò)架構(gòu)師劉錚,聊一聊首都在線目前提供的服務(wù)、在音視頻行業(yè)關(guān)注的重點以及如何助力中國企業(yè)出海等話題。
構(gòu)建DRM系統(tǒng)的重要基石——EME、CDM、AES、CENC和密鑰
任何想要理解DRM的人都要遇到AES、CDM、CENC、EME等縮略詞。對于初學(xué)者來說,這些詞很容易混淆,但只有理解了它們,才能真正地理解DRM。我們將在本文中簡單介紹DRM的基本構(gòu)成:EME、CDM、AES、CENC以及密鑰和密鑰服務(wù)器的使用。
大視場全息AR顯示:錐形全息光學(xué)元件
近期,元宇宙概念的興起,極大的推進(jìn)了增強現(xiàn)實(AR)和虛擬現(xiàn)實(VR)技術(shù)的發(fā)展。為了進(jìn)一步提升 AR 顯示中用戶與現(xiàn)實場景交互的 3D 沉浸式體驗,解決輻輳和調(diào)節(jié)沖突以及視疲勞等問題,人們引入了全息顯示技術(shù),該技術(shù)可以完整的重建出3D物體的波前信息,獲得雙眼視差和連續(xù)運動視差,被認(rèn)為是理想的 3D 顯示技術(shù)之一。
活動推薦
LiveVideoStackCon 2022 上海站
LiveVideoStackCon 音視頻技術(shù)大會是多媒體技術(shù)領(lǐng)域的盛會,分享技術(shù)創(chuàng)新與最佳實踐,至今已在北京、上海等多地成功舉辦九屆大會。歷經(jīng)半年多的時空隔閡,我們將于5月20日-5月21日在上海舉行一場音視頻領(lǐng)域的線下聚會。點擊「閱讀原文」了解更多大會詳情。
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 | 237的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 构建DRM系统的重要基石——EME、CD
- 下一篇: 【专题介绍】音视频+