機器視覺主要用計算機來模擬人的視覺功能,但并不僅僅是人眼的簡單延伸,更重要的是具有人腦的一部分功能一一從客觀事物的圖像中提取信息,進行處理并加以理解,最終用于實際檢測、測量和控制。
一個典型的工業(yè)機器視覺應用系統(tǒng),包括數(shù)字圖像處理技術、機械工程技術、控制技術、光源照明技術、光學成像技術、傳感器技術、模擬與數(shù)字視頻技術、計算機軟硬件技術、人機接口技術等。
發(fā)展歷史簡介
機器視覺的研究是從20世紀60年代中期美國學者L.R.羅伯茲關于理解多面體組成的積木世界研究開始的。當時運用的預處理、邊緣檢測、輪廓線構成、對象建模、匹配等技術,后來一直在機器視覺中應用。
羅伯茲在圖像分析過程中,采用了自底向上的方法。用邊緣檢測技術來確定輪廓線,用區(qū)域分析技術將圖像劃分為由灰度相近的像素組成的區(qū)域,這些技術統(tǒng)稱為圖像分割。其目的在于用輪廓線和區(qū)域對所分析的圖像進行描述,以便同機內(nèi)存儲的模型進行比較匹配。
實踐表明,只用自底向上的分析太困難,必須同時采用自頂向下,即把目標分為若干子目標的分析方法,運用啟發(fā)式知識對對象進行預測。這同言語理解中采用的自底向上和自頂向下相結合的方法是一致的。在圖像理解研究中,A.古茲曼提出運用啟發(fā)式知識,表明用符號過程來解釋輪廓畫的方法不必求助于諸如最小二乘法匹配之類的數(shù)值計算程序。
70年代以后,機器視覺形成幾個重要研究分支:一、目標制導的圖像處理;二、圖像處理和分析的并行算法;三、從二維圖像提取三維信息;四、序列圖像分析和運動參量求值;五、視覺知識的表示;六、視覺系統(tǒng)的知識庫等。
全球應用情況
在國外,機器視覺的應用普及主要體現(xiàn)在半導體及電子行業(yè),其中大概40%-50%都集中在半導體行業(yè)。機器視覺系統(tǒng)還在質(zhì)量檢測的各個方面已經(jīng)得到了廣泛的應用,并且其產(chǎn)品在應用中占據(jù)著舉足輕重的地位。除此之外,機器視覺還用于其他各個領域。
而在中國,視覺技術的應用開始于90年代,因為行業(yè)本身就屬于新興的領域,再加之機器視覺產(chǎn)品技術的普及不夠,導致以上各行業(yè)的應用幾乎空白。目前國內(nèi)機器視覺大多為國外品牌。國內(nèi)大多機器視覺公司基本上是靠代理國外各種機器視覺品牌起家,隨著機器視覺的不斷應用,公司規(guī)模慢慢做大,技術上已經(jīng)逐漸成熟。
在行業(yè)應用方面,主要有制藥、包裝、電子、汽車制造、半導體、紡織、煙草、交通、物流等行業(yè),用機器視覺技術取代人工,可以提供生產(chǎn)效率和產(chǎn)品質(zhì)量。例如在物流行業(yè),可以使用機器視覺技術進行快遞的分揀分類,不會出現(xiàn)大多快遞公司人工進行分揀,減少物品的損壞率,可以提高分揀效率,減少人工勞動。
主要問題和發(fā)展瓶頸
機器視覺可以看作是與人工智能和模式識別密切相關的一個子學科或子領域。限制機器視覺發(fā)展的瓶頸是多方面的,其中最重要的可以歸結為三個方面:計算能力不足、認知理論未明以及精確識別與模糊特征之間的自相矛盾。
1.機器視覺面向的研究對象主要是圖像和視頻,其特點是數(shù)據(jù)量龐大、冗余信息多、特征空間維度高,同時考慮到真正的機器視覺面對的對象和問題的多樣性,單一的簡單特征提取算法(如顏色、空間朝向與頻率、邊界形狀等等)難以滿足算法對普適性的要求,因此在設計普適性的特征提取算法時對計算能力和存儲速度的要求是十分巨大的,這就造成了開發(fā)成本的大幅度提高。
2.
如何讓機器認知這個世界?這一問題目前沒有成熟的答案,早期的人工智能理論發(fā)展經(jīng)歷了符號主義學派、行為主義學派、連接主義學派等一系列的發(fā)展但都沒有找到令人滿意的答案,目前較新的思想認為應該從分析、了解和模擬人類大腦的信息處理功能去構建智能機器視覺系統(tǒng),但神經(jīng)科學的發(fā)展目前只能做到了解和模擬大腦的一個局部,而不是整體(當然計算能力限制也是原因之一)。事實上,我們對人是如何對一個目標或場景進行認知的這一問題仍停留在定性描述而非定量描述上。
3.
機器視覺系統(tǒng)經(jīng)常被人詬病的問題之一就是準確性。以十年前如火如荼的人臉識別算法為例,盡管一系列看似優(yōu)秀的算法不斷問世,但目前為止在非指定大規(guī)模樣本庫下進行人臉識別的準確率仍然無法滿足實際應用的需求,因此無法取代指紋或虹膜等近距接觸式生物特征識別方法。這一問題的出現(xiàn)并非偶然。因為目標越精細,越復雜,信息越大,則其模糊性和不確定性也越強。人類之所以能夠較好的對人臉進行識別,其實也是以犧牲一定的準確性為代價的。而機器視覺在做的事情一方面想要借鑒人腦或人眼系統(tǒng)的靈感去處理復雜而龐大的信息流,另一方面又想摒除人腦在模式識別方面存在的精確性不足的缺陷。這顯然是一種一廂情愿的做法。
綜合以上三點,機器視覺的發(fā)展在短期內(nèi)難有重大突破,當前的實用技術仍然還是會集中在特定性任務或特定性目標的識別算法的開發(fā)上。
關于視覺測量研究:
(1)機器視覺測量的可靠性。相比與其他測量手段,視覺的最大優(yōu)點就是可以快速獲得三維信息,一張或幾張照片就可以重建出被測物體的三維特征,進而實現(xiàn)測量。但正如大家所說,只要測量條件、環(huán)境、被測物表面特性等改變,有時甚至時稍加改變,結果則大不一樣,測量重復性和精度更無從談起。這也是目前機器視覺測量尺寸、位姿等參數(shù)時比較突出的問題,特別是在一些強光干擾、溫度場變化、光照條件變化的應用場合這個問題尤為突出。因此,視覺測量的環(huán)境適應性問題解決難度很大,無法找到普適性的方法,只能針對具體問題,研究相應光照、特征提取、匹配、重建、標定等具體方法。
(2)測量精度問題。精度是測量系統(tǒng)的重要指標。視覺測量精度依賴于相機分辨率、視場大小、圖像處理算法等等。CCD和CMOS的制造工藝已取得長足進步,目前6000*4000pixel的分辨率已經(jīng)成為穩(wěn)定商品。而采用壓電驅動芯片做微米級移動進行像素細分的方法和設備已經(jīng)商品化,號稱分辨率可近20000*14000pixel。在軟件方面,各類算法層出不窮,但具有普適性的算法幾乎沒有,這個在CV領域也是如此。因此,提高視覺測量的普適性、并確保精度,目前似乎是個不可能完成的任務。
綜上,視覺測量要大的突破確實很難,必須和應用光學、視覺認知、CV、人工智能等相關學科進行深度交叉。
提升三維技術
在現(xiàn)實生活中,我們越來越需要更多的三維模型來實現(xiàn)對物體或環(huán)境的全面掌握。獲得三維模型有兩種基本方式,一種是利用激光掃描儀,一種是拍攝照片。但激光掃描儀的成本高,也有可能會對樣本帶來一些損害。第二種方式的成本小,而且在精度上也跟激光掃描儀相差無幾,因此成為了現(xiàn)在研究的一個熱點。
我們知道,一般的圖像上是沒有長度、距離等深度信息的,而三維模型則能更加全面、精確地記錄環(huán)境,可以直觀呈現(xiàn)物體的位置、距離、姿態(tài)等。比如中國古代建筑全自動三維重建系統(tǒng),能夠實現(xiàn)全自動三維建模,即從底層圖像處理到生成最終的三維模型,全部自動實現(xiàn),無需人工交互。它對圖像的拍攝方式也無特殊約束和限制,只需手持自由拍攝即可。在精度上,也與激光掃描精度相當,精度小于3cm/100米,通過配備更高像素數(shù)量的相機和長焦鏡頭還可以實現(xiàn)毫米級重建。
此外,在實時定位與在線三維重建方面,機器視覺也具有極大的應用潛力。將手機上攝像頭讀取的視頻作為輸入,通過初始化、特征點提取、動態(tài)模板特征點匹配、幾何變化計算階段后得到視頻每一幀中感興趣區(qū)域的位置。
目前,我國基于機器視覺的三維重建技術在國際上可以說處于領先地位,應用也比較廣泛。除了上述之外,還能用在一些不太適合人工作業(yè)的環(huán)境監(jiān)測方面,像對露天煤礦的監(jiān)測,就是通過無人機對煤礦進行全方位拍攝,生成三維模型來實時監(jiān)測礦山的變化。此外,也能應用于城市規(guī)劃、數(shù)字媒體、三維試衣、牙模制造等多方面。
未來發(fā)展趨勢
由于機器視覺是自動化的一部分,沒有自動化就不會有機器視覺,機器視覺軟硬件產(chǎn)品正逐漸成為協(xié)作生產(chǎn)制造過程中不同階段的核心系統(tǒng),無論是用戶還是硬件供應商都將機器視覺產(chǎn)品作為生產(chǎn)線上信息收集的工具,這就要求機器視覺產(chǎn)品大量采用標準化技術,直觀地說就是要隨著自動化的開放而逐漸開放,可以根據(jù)用戶的需求進行二次開發(fā)。
當今,自動化企業(yè)正在倡導軟硬一體化解決方案,機器視覺的廠商在未來十年內(nèi)也應該不單純是只提供產(chǎn)品的供應商,而是逐漸向一體化解決方案的系統(tǒng)集成商邁進。隨著中國加工制造業(yè)的發(fā)展,對于機器視覺的需求也逐漸增多。隨著機器視覺產(chǎn)品的增多,技術的提高,國內(nèi)機器視覺的應用狀況將由初期的低端轉向高端。由于機器視覺的介入,自動化將朝著更智能、更快速的方向發(fā)展。