幾種典型的物體表達(dá)理論(Object representation theories)
正像前面所述,物體表達(dá)是計(jì)算機(jī)視覺的一個(gè)核心科學(xué)問題。這里,“物體表達(dá)理論”與“物體表達(dá)模型”需要加以區(qū)別。“表達(dá)理論”是指文獻(xiàn)中大家比較認(rèn)可的方法?!氨磉_(dá)模型”容易誤解為“數(shù)學(xué)上對(duì)物體的某種描述”。計(jì)算機(jī)視覺領(lǐng)域,比較有名的物體表達(dá)理論有以下三種:
1)馬爾的三維物體表達(dá)
前面已經(jīng)介紹過,馬爾視覺計(jì)算理論認(rèn)為物體的表達(dá)是物體坐標(biāo)系下的三維表達(dá)
2)基于二維圖像的物體表達(dá)(View-basedobject representation)
盡管理論上一個(gè)三維物體可以成像為無限多不同的二維圖像,但人的視覺系統(tǒng)僅僅可以識(shí)別“有限個(gè)圖像”。鑒于神經(jīng)科學(xué)對(duì)于猴子腹部通道(ventral pathway)(注:腹部通道認(rèn)為是物體識(shí)別通道)的研究進(jìn)展,T. Poggio 等提出了基于圖像的物體表達(dá)(Poggio & Bizzi, 2004),即對(duì)一個(gè)三維物體的表達(dá)是該物體的一組典型的二維圖像(view)。目前,也有人認(rèn)為 Poggio等的”view”不能狹義地理解為二維圖像,也包含以觀測(cè)者為坐標(biāo)系下的三維表示,即馬爾的2.5維表示(Anzai & DeAngelis,2010)。
3)逆生成模型表達(dá)(Inversegenerative model representation )
長(zhǎng)期以來,人們認(rèn)為物體識(shí)別模型為“鑒別模型”( discriminative model),而不是“生成模型”( generative model )。近期對(duì)猴子腹部通道的物體識(shí)別研究表明,猴子大腦皮層的IT 區(qū)( Inferior Temporal: 物體表達(dá)區(qū)域)可能在于編碼物體及其成像參數(shù)(如光照和姿態(tài),幾何形狀,紋理等)(Yildirim et al. 2015)(Yamins &DiCarlo,2016b.)。由于已知這些參數(shù)就可以生成對(duì)應(yīng)圖像,所以對(duì)這些參數(shù)的編碼可以認(rèn)為是逆生成模型表達(dá)。逆生成模型表達(dá)可以解釋為什么深度學(xué)習(xí)中的Encoder-decoder 網(wǎng)絡(luò)結(jié)( Badrinarayanan et al. 2015) 可以取得比較好的效果,因?yàn)镋ncoder本質(zhì)上就是圖像的逆生成模型。另外,深度學(xué)習(xí)中提出的“逆圖形學(xué)”概念( Inverse Graphic)( Kulkarniet al. 2015),從原理上也是一種逆生成模型。逆圖形學(xué)是指先從圖像學(xué)習(xí)到圖像生成參數(shù),然后把同一物體在不同參數(shù)下的圖像歸類為同一物體,通過這種“等變物體識(shí)別”(Equivariant recognition) 來達(dá)到最終的“不變物體識(shí)別”(invariantrecognition)。
總之,本文對(duì)計(jì)算機(jī)視覺的理論、現(xiàn)狀和未來發(fā)展趨勢(shì)進(jìn)行了一些總結(jié)和展望,希望能給讀者了解該領(lǐng)域提供一些幫助。特別需要指出的是,這里很多內(nèi)容也僅僅是筆者的一些“個(gè)人觀點(diǎn)”和“個(gè)人偏好”下總結(jié)的一些內(nèi)容,以期對(duì)讀者有所幫助但不引起誤導(dǎo)。另外,筆者始終認(rèn)為,任何一門學(xué)科的核心關(guān)鍵文獻(xiàn)并不多,為了讀者閱讀方便,所以本文也僅僅給出了一些必要的代表性文獻(xiàn)。(來源:網(wǎng)絡(luò))