目標視覺檢測是計算機視覺領域中一個非常重要的研究問題。隨著電子設備的應用在社會生產和人們生活中越來越普遍,數(shù)字圖像已經成為不可缺少的信息媒介,每時每刻都在產生海量的圖像數(shù)據。與此同時,對圖像中的目標進行準確識別變得越來越重要。下面盈泰德科技就來解析深度學習在目標視覺檢測系統(tǒng)中的應用進展。

我們不僅關注對圖像的簡單分類,而且希望能夠準確獲得圖像中存在的感興趣目標及其位置,并將這些信息應用到視頻監(jiān)控、自主駕駛、人機交互等一系列現(xiàn)實任務中,因此目標視覺檢測技術受到了廣泛關注。

一、傳統(tǒng)的目標視覺檢測技術

傳統(tǒng)的目標視覺檢測技術在流程上大致分為三個步驟: 區(qū)域建議(Region proposal)、特征表示(Feature
representation)和區(qū)域分類(Region
classification),如圖1所示。該基本流程被許多工作所采用,它們在目標區(qū)域建議、圖像特征表示、候選區(qū)域分類上分別采用了不同的處理策略。近年來,隨著深度學習技術的發(fā)展,很多基于深度學習的目標視覺檢測算法陸續(xù)被提出,成為研究熱點。

 

深度學習在目標視覺檢測中的應用進展-機器視覺_視覺檢測設備_3D視覺_缺陷檢測  圖1 目標視覺檢測的基本流程

 

 二、基于深度學習的目標視覺檢測算法

深度學習模型具有強大的表征和建模能力,通過監(jiān)督或非監(jiān)督的訓練方式,能夠逐層、自動地學習目標的特征表示,實現(xiàn)對物體層次化的抽象和描述。在圖像識別領域中,Krizhevsky等于2012年構建深度卷積神經網絡(CNN),在大規(guī)模圖像分類任務上取得了巨大成功,引起了對CNN模型的高度重視,也因此推動了目標檢測的研究進展。本文首先介紹了圖像分類中經典的AlexNet及其改進模型ZFNet、VGG、GoogLeNet、ResNet等。隨著模型變得越來越深,圖像分類的Top-5錯誤率也越來越低,目前已經降低到3%以下。與圖像分類一樣,目標檢測的輸入也是整幅圖像,它們在特征表示、分類器設計上具有很大的相通性。通過采用這些CNN模型得到更強大的特征表示,然后應用到目標檢測任務,可以獲得更高的檢測精度。本文從基于區(qū)域建議的方法和無區(qū)域建議的方法兩個方面來介紹深度學習在目標視覺檢測中的研究現(xiàn)狀,并匯總了公開的實驗結果進行定量比較。

 

深度學習在目標視覺檢測中的應用進展-機器視覺_視覺檢測設備_3D視覺_缺陷檢測  圖2 平行視覺的基本框架

然后討論了深度學習方法應用于目標視覺檢測時存在的困難和挑戰(zhàn),例如深度學習理論還不完善、大規(guī)模多樣性數(shù)據集還很缺乏。為了解決這些問題,我們認為可以采用平行視覺的思路來進行研究。通過“平行執(zhí)行”在線優(yōu)化視覺系統(tǒng),能夠激發(fā)深度學習的潛力。我們相信,深度學習與平行視覺相結合,必將大力推動目標視覺檢測的研究和應用進展。

盈泰德科技(深圳)有限公司有著多年的機器視覺行業(yè)經驗,在機器視覺的應用領域上積累了豐富的經驗,有著不少成功的案例和解決方案,盈泰德科技一直以來致力于機器視覺產品的生產、開發(fā)、應用以及銷售,為客戶提供整體機器視覺解決方案及服務,把機器視覺技術應用到智能生產中。(http://nvsa.com.cn/)