目標檢測一直是計算機視覺的基礎(chǔ)問題,在 2010 年左右就開始停滯不前了。自 2013 年一篇論文的發(fā)表,目標檢測從原始的傳統(tǒng)手工提取特征方法變成了基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取,從此一發(fā)不可收拾。

本文將跟著歷史的潮流,簡要地探討「目標檢測」算法的兩種思想和這些思想引申出的算法,主要涉及那些主流算法,no bells and whistles.

概述 Overview

在深度學(xué)習(xí)正式介入之前,傳統(tǒng)的「目標檢測」方法都是 區(qū)域選擇、提取特征、分類回歸 三部曲,這樣就有兩個難以解決的問題;其一是區(qū)域選擇的策略效果差、時間復(fù)雜度高;其二是手工提取的特征魯棒性較差。

云計算時代來臨后,「目標檢測」算法大家族主要劃分為兩大派系,一個是 R-CNN 系兩刀流,另一個則是以 YOLO 為代表的一刀流派。下面分別解釋一下 兩刀流 和 一刀流。

兩刀流

顧名思義,兩刀解決問題:

1、生成可能區(qū)域(Region Proposal) & CNN 提取特征
2、放入分類器分類并修正位置

這些算法等離不開 Region Proposal ,即是優(yōu)點也是缺點,主要代表人物就是 R-CNN 系。

一刀流

顧名思義,一刀解決問題,直接對預(yù)測的目標物體進行回歸。
回歸解決問題簡單快速,但是太粗暴了,主要代表人物是 YOLO 和 SSD 。

無論 兩刀流 還是 一刀流,他們都是在同一個天平下選取一個平衡點、或者選取一個極端—— 要么準,要么快。

兩刀流的天平主要傾向準,一刀流的天平主要傾向快。

但最后萬劍歸宗,大家也找到了自己的平衡,平衡點的有略微的不同。

接下來我們花開兩朵各表一支,一朵 兩刀流 的前世今生,另一朵 一刀流 的發(fā)展歷史。

兩刀流 R-CNN

R-CNN 其實是一個很大的家族,自從 rbg 大神發(fā)表那篇論文,子孫無數(shù)、桃李滿天下。在此,我們只探討 R-CNN 直系親屬,他們的發(fā)展順序如下:

R-CNN -> SPP Net -> Fast R-CNN -> Faster R-CNN -> Mask R-CNN