数字视网膜演化简史
| 2020-04-01 20:32 |
導語:一位學者在學術領域開山立派,最顯著的一個標志就是某個學術概念能夠與該學者劃等號
一位學者在學術領域開山立派,最顯著的一個標志就是某個學術概念能夠與該學者劃等號,例如當提起相對論必然會聯想到愛因斯坦。
同樣的道理,當提起「數字視網膜」這一概念,人們首先能想到的當屬中國工程院高文院士。
所謂數字視網膜,即類比于人類視網膜,對傳統攝像頭乃至視覺計算架構進行演進與革新,從而能夠更加智能地支持城市大腦,服務智能安防、城市精細管理等智能應用。
更為具體的來說,傳統攝像頭只是把拍攝到的視頻數據壓縮后上傳到云端進行存儲,再做分析識別處理;而數字視網膜則要求在攝像頭端對拍攝視頻進行高質量視頻編碼和視覺特征提取編碼,對壓縮編碼過后的視頻流進行本地存儲的同時按需上傳到云端,而所有的緊湊特征流同步實時同步到云端,從而既能夠保證高效的存儲,又能夠便捷地支撐大數據查詢分析,與此同時支持在端-邊-云之間進行面向智能視頻編碼和特征分析的深度學習模型自適應遷移、壓縮、更新與轉換。簡而言之,數字視網膜就是這樣一種包含視頻編碼流、特征編碼流和模型更新流的可伸縮端邊云協同視覺計算架構。
傳統視覺感知系統
數字視網膜技術系統框架
這一概念從正式提出至今,才不過兩年,然而從最初構想,前期實踐,到理論基礎構建卻花了近五年的時間。即使到現在,數據視網膜的技術框架也仍然在不斷完善當中,但其影響卻將是顛覆性的。正如高文院士在2018年的一篇文章[1]中提到:
我國已明確提出“到2020年,基本實現全域覆蓋、全網共享、全時可用、全程可控的公共安全視頻監控建設聯網應用”,但是如果沒有重大技術突破,數千萬攝像頭根本無法實現“全網共享”的實時數據匯聚,更不可能實現“全時可用”的聯網分析識別,“數據大”變不成“大數據”,巨大潛在價值無法發掘。數字視網膜是應對上述挑戰的一種可行的顛覆性技術發展方向。
?
1、雛形醞釀
高文院士對于「數字視網膜」的理解,是伴隨著對城市中視頻監控體系所存在問題的深刻認識而不斷深化的。
據可考查資料,高文院士最早對城市中攝像頭所存在缺陷以及可能的改進進行思考始于2013年初(或者稍早)。在2013年新年伊始,高文院士曾接受人民網采訪[2],他提到現代攝像頭密布,但還需要后端人力去盯,一旦遇到重大案件,去調用錄像資料,卻往往起不到太大作用。如果能夠在設計視頻編碼時,讓系統把數據中有用的信息抽取、挖掘并分析出來,不但能節省后期的人力投入,而且能起到應急作用。
可以認為,這個時候,他已經有了模糊的概念,但對于具體如何去做,卻仍在醞釀當中。
在2013年10月,高文院士在中國信息化周報上發表了題為《智慧城市中的視頻編碼、分析與評測》的文章[3]。在這篇文章中,他首次系統提出了他對“智慧城市”中視頻監控所存在問題的深入思考,他指出:
1、目前的監控系統在設計時是為了視頻存儲和以人為核心的視頻跟蹤,而非以計算機為中心的自動分析,因此靠這樣一套系統來實現智慧城市的視頻系統,去做自動分析,是根本無法完成的。
2、智慧城市中的視頻技術面臨三大問題,分別是存儲成本高(數據量太大)、檢索困難、對象再標識難。而這三個問題歸結到本質則是兩個問題,一個是編碼問題,而另一個是視頻分析識別問題。因此如何對監控視頻進行高效視頻編碼,以及如何對其進行分析和檢索,是必須思考的兩個本質問題。
3、在學術界存在一個奇怪現象,即做視頻編碼的學者對視頻分析不感興趣;而反過來,做視頻分析的人對編碼也不感興趣。原因在于前者處理的是像素和圖像塊,屬于圖像處理領域,而后者處理的是圖像特征,屬于模式識別領域。就像兩條路上跑的車很難交匯。
幸運的是,高文院士正好跨界這兩個圈子,無論是在視頻編碼領域,還是在計算機視覺(特別是人臉識別)領域,他都有著重要的影響力。其學生陳熙霖、山世光兩位研究員繼承了他在人臉識別領域的衣缽,如今已成為國際計算機視覺領域的領軍人物;而其學生黃鐵軍和馬思偉兩位教授則繼承了他在編碼領域的衣缽,在國際視頻編碼領域也有著重要的影響力。[4]
高文院士對當代城市監控系統存在問題的本質分析,盡管只是雛形,但卻奠定了他在隨后解決這一問題的研究思路和方向。特別是在2014年的“第二屆智慧城市與智能系統院士論壇”上,他提出“我們希望把編碼和分析所做的技術融合在一起,集中在一個編碼的框架下?!盵5]
然而,盡管有了大致的方向,但由于以深度學習為代表的新一代人工智能剛剛興起,許多人對深度學習都還不太熟悉,當時的算法和算力還不足以支持這種設想的技術。當然,從已有的資料中也可以看出,高文院士當時對這一問題的分析和解決方案設想中,對如何將深度學習與視頻編碼進行融合似乎也并沒有很深入的想法,仍然是以“前深度學習”的模式在思考。
?
2、仿生:數字視網膜
時間一晃,來到了2016年。隨著人工智能的發展,計算機視覺變得紅紅火火。大量以計算機視覺為技術基礎的初創公司相繼成立,傳統安防企業也逐步轉型。城市安防成為了一個資本角逐的大市場,高文院士之前提到城市視頻監控的三大問題(存儲成本高、檢索困難、對象再標識難)也顯得越加尖銳。
在這些年當中,高文院士逐步將原有的框架豐滿起來,然而若想把這一理念落到實處,還需要具體的場景,畢竟這是一個以工程為主體的研究。正如他在隨后的一篇文章[1]中提到:
“需要建立一個大規模測試平臺來評估和展示數字視網膜架構的技術優勢。這個平臺至少應該包括上萬路的監控攝像頭,地理上覆蓋一個中等以上城市,從而可以在真實場景中評估與數字視網膜相關的算法和技術?!?/p>
巧合的是,2016年以王堅為主導的阿里云在杭州開始試點建設城市大腦。[6]這正符合高文院士研究的需求,于是與王堅等人一拍即合。為了更好的合作,2017年7月,高文院士以前的學生團隊成立了一家名為「博雅鴻圖」(「博雅」取自北大「博雅塔」;而「鴻圖」為立意高遠之意)的公司,高文院士擔任董事長,依托北京大學數字視頻編解碼技術國家工程實驗室在數字音視頻編解碼(AVS)國家標準和視覺特征編碼(CDVS)國際標準等方面的技術、標準、人才和產業化優勢,致力于視覺智能芯片及系統解決方案的研發及產業化。[7]
在這期間,高文院士開始跳出編碼和計算機視覺的領域,從更廣的范圍里思考其框架。一個表現即是,在2017年6月舉辦的圖靈大會上,高文院士做了主題為《Evolution of the Artificial Visual System》的報告。[8]
高文院士在2017年圖靈大會上做報告(來源:騰訊視頻截圖)?
在這個報告中,他首次提出動物視覺的演化,以及人類應該借鑒其中的模式,這本質上便是「仿生」。但在報告中,他僅僅做了類比,雖然沒有提出「數據視網膜」的概念,但基本框架已經非常完備。
數字視網膜概念的首次提出,是2017年10月份在深圳舉辦的安博會上。[9]
他在這次報告中進一步指出,傳統視覺感知系統中監控攝像頭為1-1模式:單攝像機單流、單用途。這種模式是長期自然形成的,效率不高:(1)壓縮-解壓縮和分析過程造成長延遲;(2)對象檢測、模式識別和場景理解的準確性較低;(3)低利用率,目前的監控系統是為存儲數據并再由人工離線檢查而設計,大部分數據在其生存期內始終沒有用。這些是我們當代智慧城市所不能忍受的,我們需要升級這些“眼睛”。
在這次報告中,他也首次指出數字視網膜包含的三個核心技術:
1、基于背景模型的場景視頻編碼?,F有監控攝像頭采用的視頻編碼技術標準對監控視頻編碼效率不高,因為這些標準主要是針對廣播電視視頻制定的。在監控場景下,大多數攝像頭是固定的,背景相對不變,因而如能夠利用背景預測,消除相應的冗余信息,那么編碼效率將大大提高。
2、視頻特征的緊湊表達。視覺表征是圖像視頻分析處理的基礎,如果在攝像頭端利用人工設計特征與深度學習特征自適應融合技術提取幀內幀間視覺緊湊表示,然后傳送到云端,就能大大提高搜索效率。他們曾實驗表明平均每幀僅需100bit,可達到與未經壓縮特征相當甚至更高的檢索性能。
3、視頻編碼與特征編碼的聯合優化。上述兩種數據信息并不是相互獨立的,而是相互關聯,可互為指導的,因此數字視網膜在同時輸出壓縮視頻流和緊湊特征流時,可以根據碼流的大小,設計聯合優化函數來計算如何分配各自的碼率,從而在保持分析檢索性能的情況下,進一步達到壓縮需求,如下圖所示。
從圖中可以看出,在保持視頻編碼性能基本不變的情況下,特征編碼可大幅度壓縮。
高文院士也提到數字視網膜的三個特點,分別為高性能、高效率和可伸縮。
在這次報告中,還值得一提有兩點。首先,他指出數字視網膜是可軟件定義的,即特征學習模型和攝像機參數可以實時地從云中心更新(后面又對這一概念做了升級);其次,針對當前大多數仍然是傳統攝像頭(而非數字視網膜攝像頭)的實際情況,他提出了基于智能邊緣節點的解決方案,也即將負責特征提取的“視網膜”功能部署在邊緣匯聚服務器,而不是更換已經部署的攝像頭。?
盡管“數字視網膜”整個框架都已經搭建完整,且已經在杭州、山東文登、重慶等地做了實際試點,但直到2018年初,相關工作才首次正式見于刊物。
2018年初,高文院士,北京大學田永鴻教授,以及阿里巴巴首席技術官王堅博士(2019年被評選為中國工程院院士)在《中國科學》期刊上聯名發表了一篇名為《數字視網膜:智慧城市系統演進的關鍵環節》。[1]
這篇文章首次完整、清晰且嚴謹地定義了「數字視網膜」的概念:
如何借鑒“人類視網膜同時具有影像編碼與特征編碼功能”這一生物特性來研究和設計一種更高效的攝像頭。我們稱之為數字視網膜攝像頭(retina-like camera),簡稱為數字視網膜(digitalretina)。
數字視網膜的核心在于“單攝像機雙數據流”,其中壓縮視頻流是為了存儲和離線觀看,而緊湊特征流則是為了大數據分析與搜索。
文章也對不久前安博會上報告內容做了更為嚴謹的描述,同時也首次提出了數字視網膜所必須滿足的五個條件:(a)使用全網統一的時間;(b)提供精確地理位置;(c)提供視頻數據的高效編碼功能;(d)提供視頻數據的緊湊特征表達;(e)支持視頻編碼與特征表達的聯合優化。
考慮數字視網膜研究未來可能的演化路線,高文等人在這篇文章中提出三點,分別為:(1)標準化,該研究落地到實際生活中,必須在不同廠商及城市之間形成統一的標準;(2)軟硬件開源,對于這樣的基礎工程來講,如果無法做到軟硬件開源,相關的技術和產品就無法做到有效的開發和應用;(3)大規模測試床,這也是我們前面所提到的,不同于理論研究,數字視網膜本身更偏向應用工程,因此必須有真實場景的測試才能夠推進發展。
針對以上三點,高文院士等人也有相應的動作,例如積極推動的AVS2、MPEG CDVS及其擴展MPEG CDVA等。[9]
此外,2017年7月,由高文院士、潘云鶴院士、黃鐵軍教授等帶頭發起成立的「新一代人工智能產業技術創新戰略聯盟」,也在創立之初就積極推動成立人工智能開源開放平臺建設。[10]
在尋求建立大規模測試平臺來評估和展示數字視網膜架構的技術優勢方面,除與阿里云合作在杭州試點外,2018年3月,深圳市也成立了“鵬城實驗室”,高文院士擔任實驗室主任,由此開啟了深圳試點。[11]
因此,《數字視網膜:智慧城市系統演進的關鍵環節》這篇文章的發表具有標志性意義,它也意味著高文院士對于「數字視網膜」的定義正式成形,研究格局基本確立。
?
3、從「雙流」到「多流」
按照上述所示的框架,高文院士所帶領的團隊(包括其所擔任董事長的博雅鴻圖)一直在完善從前端到后端,從軟件到硬件的探索和設計。
從本質上來說,智慧城市的數字視網膜便是在攝像頭中嵌入芯片,從而能夠將獲取的視覺數據經過高效編碼和緊湊特征提取后,傳送給城市大腦(后端云),以便更為高效、靈活地檢索和分析。這里涉及到兩種數據流,分別為視頻編碼流和特征編碼流。
但這種架構忽視了一個問題,即數字視網膜的芯片在做特征提取時,依賴于良好的深度學習模型。為了保障特征提取的準確性,城市大腦通常需要利用搜集到的數據進行學習,訓練相應的模型,再將學到的模型發送給前端設備。因此,模型的生成、利用和通信對數字視網膜至關重要,特別是視頻數據在位置、時間和環境等方面差異很大的情況下。因此,在視頻編碼流和特征編碼流之外,模型編碼流同樣是非常重要的一部分。
因此,隨著對數字視網膜實踐和認識的深入,其結構由「雙流」變為了「多流」:視頻編碼流、特征編碼流和模型更新流。
針對這一概念,高文院士最早是在2019年11月底在山東濟南召開的“2019世界人工智能融合發展大會”上提出的。[12]
但事實上,他們對此的研究早已開始。
在2019年7月,由北大段凌宇教授課題組在計算機多媒體領域國際學術會議IEEE ICME上發表了《智慧城市數字視網膜的模型生成、利用和傳輸范式》(Towards Digital Retina in Smart Cities: A Model Generation, Utilization and Communication Paradigm)一文[13],這篇文章首次提出視頻流、特征流與模型流的協作計算模式,以克服端-邊-云環境下的模型復用與傳輸瓶頸。值得一提的是,這篇文章還獲得了這屆會議的最佳論文獎。[14]
段凌宇教授課題組在數字視網膜研究與實踐中發現,數字視網膜計算框架下的邊緣節點緩存了大量表征模型與無標簽數據。為此,課題組提出了一種多模型復用機制,有效利用了邊緣節點緩存的模型和數據,生成更具域適應性和判別力的目標模型。針對多模型復用過程中的模型訓練穩定性,論文給出了理論證明與分析,并在實驗中取得了相比傳統方法更優的性能增益。在視網膜計算框架下,模型的頻繁傳輸與部署會帶來較大的通信開銷。為了提升模型更新效率,進一步提出了模型間高效通信的新問題,并提出了一種新穎的差分模型壓縮方法,相比傳統的單模型壓縮方法,可有效降低模型傳輸碼率開銷。該論文圍繞視頻流、特征流、模型流,提出了城市視覺系統中的協同計算新問題,對于未來數字視網膜理論研究與實踐具有指導意義。[14]
2019年10月由博雅鴻圖公司研制的第一款數字視網膜芯片—“鴻圖 TMGV9531ESHI”流片成功。在同月的第二屆雁棲航天論壇上,高文院士對該芯片進行了詳細介紹。
在“2019世界人工智能融合發展大會”上,高文院士提到,[12]?“第一款數字視網膜芯片已經在路上,很快就會發布,這個芯片很小,就像一塊錢硬幣一樣,但卻把我剛才說的三個本質特征、八個功能全都包含在里面。將來,這種芯片可能會直接進入各種智能交通的系統里,會支撐數字視網膜的應用?!?/p>
2019年11月22日在杭州舉行了第一款數字視網膜芯片發布會和數字視網膜生態伙伴啟動儀式,正式命名為“鴻芯圖騰GV9531”對外亮相。
“鴻芯圖騰GV9531”是首款支持數字視網膜技術體系的智能芯片,也是首顆AVS2視頻編碼芯片,它對數字視網膜技術進行了完整的詮釋,支持全局統一的時空ID、多層次視網膜表示和模型更新及軟件定義,在邊緣端實現數字視網膜技術的高能效處理,不僅能減少進入云端的無用數據量,還能大大降低視頻數據處理的成本,是數字視網膜邊云系統視覺計算框架的核心算力支撐平臺,是視覺邊緣計算、多流智能處理、實現腦眼合一的視覺計算系統不可缺少的關鍵環節。
另外,在新的一年里面,數字視網膜的研究會有什么新的進展?更為重要的是,在這一領域,它能夠給研究者帶來哪些值得研究的新課題?它能夠給芯片廠商、安防廠商帶來什么新的商機?
這是我們所期待的!
?
本篇文章的寫作,離不開中國圖象圖形學學會以及北京大學多位老師的支持,在此感謝。
AI科技評論了解到,由中國圖象圖形學學會主辦,新疆大學承辦的第二十屆全國圖象圖形學學術會議(NCIG 2020)將于2020年6月28-20日在新疆烏魯木齊舉辦。高文院士將作為特邀講者[16],再次為我們帶來數字視網膜的最新研究報告,該會議將匯聚國內圖像圖形及相關領域領軍人才,聚焦領域熱點問題,多角度全方位洞見未來發展趨勢,包含3個特邀報告,2個講習班,4個論壇,5個競賽,1個優秀博士論壇,多個展覽,是國內圖像圖形領域專家學者合作交流的平臺,值得期待!
NCIG 2020 官方網站:http://ncig2020.csig.org.cn
?
高文院士簡介
高文,北京大學博雅講席教授。1982年于哈科大獲得學士學位,1985年于哈工大獲得碩士學位,1988年和1991分別獲得哈工大計算機應用博士學位和東京大學電子工程博士學位。1991至1996年就職于哈爾濱工業大學,1996至2006就職于中國科學院計算技術研究所,2006年2月至今就職于北京大學。IEEE Fellow、ACM Fellow、中國工程院院士。他的研究領域為多媒體和計算機視覺,包括視頻編碼、視頻分析、多媒體檢索、人臉識別、多模態接口和虛擬現實。他最常被引用的工作是基于模型的視頻編碼與基于特征的對象表達。他先后出版著作七本,合作發表300余篇期刊論文、700余篇國際會議論文。先后多次獲得國家科技進步獎、國家技術發明獎、國家自然科學獎等學術獎勵。
參考資料:
[1] 數字視網膜:智慧城市系統演進的關鍵環節,中國科學:信息科學2018年第48卷第8期:1076–1082
[2]?高文院士:高效視頻編碼技術前景廣闊,人民網(2013年1月10日),http://scitech.people.com.cn/n/2013/0110/c1007-20156410.html
[3] 智慧城市中的視頻編碼、分析與評測,中國信息化周報(2013年10月21日)第?005?版
[4] 高文院士個人主頁,http://www.jdl.ac.cn/htm-gaowen/
[5] 與智能視頻監控有關的技術挑戰,中國信息化周報(2014年9月22日)第?005?版
[6] 復盤阿里城市大腦這3年(2019年1月25日),https://www.leiphone.com/news/201901/Pq1EAaIrVXM4mDMv.html
[7] 北大高文院士發表重要講話:人工智能數字視網膜芯片到底能做什么(2018年7月7日),http://www.pinlue.com/article/2018/08/0913/386742019905.html
[8] 圖靈會議高文院士主題報告(2017年6月8日),https://v.qq.com/x/page/e0511e3veje.html?fr=v.hao123.com
[9] 高文院士50張PPT,帶你看懂城市大腦的瓶頸與重大突破點(2017年12月15日),https://www.leiphone.com/news/201711/esDVM34RTfN0mN67.html
[10] 專訪黃鐵軍:以落實國家「新一代人工智能發展規劃」為己任的戰略聯盟,成立8個月做了哪些事?(2018年3月26日),https://www.leiphone.com/news/201803/UJuG5jWfsHxXe26M.html
[11] 鵬城實驗室啟動大會召開,
http://www.pcl.ac.cn/index.php/home/index/views/id/164.html
[12] 中國工程院院士高文:數字視網膜消除智能交通痛點 | 世界人工智能融合發展大會(2019年11月20日),https://www.leiphone.com/news/201911/q5Y20D2wqlFqXSHe.html
[13] Towards Digital Retina in Smart Cities: AModel Generation, Utilization and Communication Paradigm(2019年7月31日),https://arxiv.org/abs/1907.13368
[14] 計算機科學技術系段凌宇教授團隊榮獲IEEE ICME 2019最佳論文獎(2019年8月2日),https://eecs.pku.edu.cn/info/1023/9885.htm
[15] 數據不出本地,還能享受大數據訓練模型,聯邦學習提供一種應用廣闊的學習新范式(2019年9月11日),https://www.leiphone.com/news/201909/WOcl8I1TjMjXVJd5.html
[16] NCIG 2020第二十屆全國圖象圖形學學術會議,http://ncig2020.csig.org.cn
[17] AI Oriented Large-Scale Video Management forSmart City: Technologies, Standards and Beyond(2017年12月5日),https://arxiv.org/pdf/1712.01432.pdf
[18] 高文院士:用類腦顛覆攝像頭,數字視網膜是下一站(2018年9月12日),http://tech.163.com/18/0912/18/DRH97U4S00098IEO.html
[19] 解析高文院士提出的“數字視網膜”體系(2019年5月8日),https://www.iyiou.com/p/99569.html
總結
- 上一篇: 推导:从傅里叶级数展开到傅里叶变换
- 下一篇: 学会用python识别图像