“跨次元”目标检测模型hold住各种画风,真人赛博恐龙梵高画作都能识别,复旦校友一作,在线Demo可玩...
蕭簫 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
 目標(biāo)檢測(cè)種類多達(dá)20000+種的AI,你見(jiàn)過(guò)嗎?
不僅準(zhǔn)確“揪出”每個(gè)物體所在的位置,分類效果非常準(zhǔn)確:
插畫版賽博恐龍也沒(méi)問(wèn)題:
甚至還能檢測(cè)雜志封面甚至漫畫中的物體!
這也是把目標(biāo)檢測(cè)給玩出花來(lái)了,據(jù)作者表示模型在長(zhǎng)尾問(wèn)題等細(xì)節(jié)上的處理非常好,像獅子和狐貍這種少樣本也能準(zhǔn)確識(shí)別:
這項(xiàng)研究來(lái)自Meta AI和德克薩斯大學(xué)奧斯汀分校,一作是著名目標(biāo)檢測(cè)框架CenterNet的作者、復(fù)旦校友Xingyi Zhou。
一起來(lái)看看。
可識(shí)別“跨次元”物體
這篇論文提出了一種新的名為Detic的方法,用來(lái)解決目標(biāo)檢測(cè)無(wú)法用到圖像級(jí)標(biāo)簽(給一整張圖打標(biāo)簽,標(biāo)注里面有什么物體)的問(wèn)題。
此前的目標(biāo)檢測(cè)方法,通常是一個(gè)檢測(cè)框里一個(gè)物體:
這種方法有一個(gè)問(wèn)題,就是沒(méi)辦法利用整個(gè)圖像級(jí)標(biāo)簽,只能用單個(gè)物體的圖片進(jìn)行訓(xùn)練。
也有一些研究想出了一種新方法,搞個(gè)弱監(jiān)督學(xué)習(xí),試圖讓AI自己學(xué)會(huì)將圖像級(jí)的標(biāo)簽,去對(duì)應(yīng)錨定框里面有什么物體,但實(shí)際上這種方法的效果也不太好。
Detic的方法是采用目標(biāo)檢測(cè)數(shù)據(jù)(a)和圖像標(biāo)簽數(shù)據(jù)(b)對(duì)Detic進(jìn)行混合訓(xùn)練。
其中,在用目標(biāo)檢測(cè)數(shù)據(jù)訓(xùn)練Detic時(shí),同時(shí)對(duì)圖像分類模塊W和目標(biāo)檢測(cè)模塊B進(jìn)行訓(xùn)練,但只用標(biāo)簽數(shù)據(jù)對(duì)圖像分類模塊W進(jìn)行訓(xùn)練。
訓(xùn)練的數(shù)據(jù)集采用的是ImageNet,事實(shí)證明模型在訓(xùn)練后無(wú)需微調(diào),就能很好地適應(yīng)到LVIS等數(shù)據(jù)集,相對(duì)之前的一些模型都達(dá)到了不錯(cuò)的效果:
論文表示,Detic能分類的圖片類型也是多種多樣,從真實(shí)照片到賽博恐龍插畫這樣的“跨次元”作品都能識(shí)別:
這立刻吸引了不少網(wǎng)友來(lái)玩。
在線Demo可玩
有網(wǎng)友用梵高的世界名畫試了試。
放大一點(diǎn)來(lái)看,藝術(shù)加工后的椅子、人和桌子也能被識(shí)別:
還有用二次元的龍貓進(jìn)行識(shí)別的,除了龍貓本身被錯(cuò)認(rèn)成貓頭鷹以外,其他的雨傘和靴子都認(rèn)得不錯(cuò):
我們也隨便用一個(gè)鐘表柜的照片試了試,在線Demo的檢測(cè)時(shí)間稍微有點(diǎn)久,大約需要6分鐘左右,但效果還不錯(cuò):
細(xì)看的話還是能發(fā)現(xiàn)一些瑕疵,例如把部分手表誤認(rèn)成轉(zhuǎn)速計(jì)、以及懷表和時(shí)鐘,以及也有一兩塊手表沒(méi)有被檢測(cè)出來(lái)。
不過(guò),即使在二次元和插畫中,這個(gè)AI能識(shí)別的物體,至少也需要在真實(shí)世界出現(xiàn)過(guò)。
例如,超出20000個(gè)分類的物體,如噴火龍和皮卡丘,就不在AI的監(jiān)測(cè)范圍內(nèi)了,全部被認(rèn)成了猴子(狗頭):
將這些二次元角色也加入AI訓(xùn)練數(shù)據(jù)集中,不知能否取得同樣的檢測(cè)效果。
作者介紹
△這張照片是“女朋友拍的”
 論文一作Xingyi Zhou,目前在德克薩斯大學(xué)奧斯汀分校讀博,本科就讀于復(fù)旦大學(xué)計(jì)算機(jī)系,之前也是CenterNet論文的第一作者,項(xiàng)目在GitHub上目前已經(jīng)收獲6.1k Star。
Rohit Girdhar、Armand Joulin和Ishan Misra,Meta AI的研究科學(xué)家,主要研究方向是機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué),此前Armand Joulin曾經(jīng)在李飛飛的實(shí)驗(yàn)室進(jìn)行博士后工作。
Philipp Kr?henbühl,德克薩斯大學(xué)奧斯汀分校助理教授,Xingyi Zhou的導(dǎo)師,研究方向是計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)和計(jì)算機(jī)圖形學(xué)。
感興趣的小伙伴,趕緊試試你想玩的漫畫、或是雜志插畫吧~
Demo地址:
https://huggingface.co/spaces/akhaliq/Detic
論文地址:
https://arxiv.org/abs/2201.02605
參考鏈接:
[1]https://www.cs.utexas.edu/~zhouxy/
[2]https://twitter.com/ak92501/status/1480704961101148162
總結(jié)
以上是生活随笔為你收集整理的“跨次元”目标检测模型hold住各种画风,真人赛博恐龙梵高画作都能识别,复旦校友一作,在线Demo可玩...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
 
                            
                        - 上一篇: Powermill汽车件模具五轴数控CN
- 下一篇: 模拟器什么的都过时了!这样玩吃鸡才能真正
