小優智能科技有限公司成立于2015年底,是一家專注于高精度3D機器視覺模組研發、生產及銷售的高科技企業。
公司自主研發的3D機器視覺模組采用激光/DLP白光編碼光柵結構光+雙工業相機方案,還原物體三維信息,廣泛應用于消費電子領域、工業領域和安防領域,具有精度高、速度快、成本低的優勢。
機器視覺檢測發展歷程
機器視覺是指利用相機、攝像機等傳感器,配合機器視覺算法賦予智能設備人眼的功能,從而實現物體的識別、檢測、測量等功能。簡單說來,機器視覺就是用機器代替人眼來做測量和判斷。機器視覺是計算機視覺的一個微小分支,是一個非常新穎并且發展十分迅速的研究領域,自起步發展到現在,已有三十多年的發展歷史,而且作為一種應用系統,隨著工業自動化的發展而逐漸完善。
機器視覺是一種非接觸的測量方式,在一些不適于人工作業的危險工作環境或者人工視覺難以滿足要求的場合,常用機器視覺來替代人工視覺,而且在大批量重復性工業生產過程中,用機器視覺檢測方法可以大大提高生產的效率和自動化程度。進入21世紀以來,機器視覺技術發展迅速且開始大規模地應用于多個領域。按照應用的領域,機器視覺可以劃分為智能制造、智能生活兩類,比如工業探傷、自動焊接、醫學診斷、跟蹤報警、移動機器人、指紋識別、模擬戰場、智能交通、智能醫療、無人機與無人駕駛、智能家居等等。現在,機器視覺仍然是一個非常活躍的研究領域,與之相關的學科涉及:圖像處理、計算機圖形學、模式識別、人工智能、神經網絡等。目前機器視覺在工業上的應用主要有:測量、外觀檢測、條碼、字符識別、定位等。
人們從20世紀50年代開始研究二維圖像的統計模式識別。1965年,L.R.Roberts通過計算機程序從數字圖像中提取出諸如立方體、楔形體、棱柱體等多面體的三維結構,并對物體形狀及物體的空間關系進行描述。其研究工作開創了以理解三維場景為目的的三維機器視覺的研究。人們開始對三維結構進行了深入的研究,研究的范圍從角點、邊緣等待征提取,到線條、平面、曲面等幾何要素分析,—直到圖像明暗、紋理、運動、成像幾何等,并建立了各種數據結構和推理規則。
70年代中,MIT人工智能實驗室正式開設“機器視覺”課程,1977 年,David Marr提出了不同于“積木世界”分析方法的計算機視覺(computational vision)理論,這就是著名的Marr視覺理論。從80年代開始,興起了全球性的研究熱潮,不僅出現了基于感知特征群的物體識別理論框架、主動視覺理論框架、視覺集成理論框架等概念,而且產生了很多新的研究方法和理論。無論是對一般二維信息的處理,還是針對三維圖像模型和算法的研究都有了很大的提高。90年代,機器視覺理論得到進一步的發展,開始在工業領域得到應用,同時在多視幾何領域的應用也得到快速的發展。
機器視覺系統的工作原理是:通過機器視覺產品(即圖像攝取裝置)將被攝取目標轉換成圖像信號,傳送給專用的圖像處理系統,得到被攝目標的形態信息,根據像素分布、亮度、顏色等信息,轉變成數字化信號;圖像系統對這些信號進行各種運算來抽取目標的特征,進而根據判別的結果來控制現場的設備動作。計算機視覺關注的目標在于充分理解電磁波(主要是可見光與紅外線部分)遇到物體表面被反射所形成的圖像,而這一過程便是基于光學物理和固態物理,解析圖像或視頻所表示的真實世界。
機器視覺的經典問題是判定一組圖像數據中是否包含某個特定的物體、圖像特征或運動狀態,這一問題通常可以通過機器自動解決。但是到目前為止,還沒有某個單一的方法能夠廣泛的對各種情況進行判定:在任意環境中識別任意物體。現有技術能夠也只能夠很好地解決特定目標的識別,比如簡單幾何圖形識別、人臉識別、印刷或手寫文件識別、車輛識別等。而且這些識別需要在特定的環境中,具有指定的光照、背景和目標姿態要求。
在深度學習算法出來之前,對于視覺算法來說,大致可以分為以下5個步驟:特征感知、圖像預處理、特征提取、特征篩選、推理預測與識別。早期的機器學習中,占優勢的統計機器學習群體中,對特征是不大關心的。特征或者視覺特征,就是把這些數值給綜合起來用統計或非統計的形式,把想識別或檢測的部件或者整體對象表現出來。深度學習的流行之前,大部分的設計圖像特征就是基于此,即把一個區域內的像素級別的信息綜合表現出來,利于后面的分類學習。手工設計特征需要大量的經驗,需要對這個領域和數據特別了解,并且設計出來特征還需要大量的調試工作。另一個難點在于,機器視覺工程師不只需要手工設計特征,還要在此基礎上有一個比較合適的分類器算法。同時設計特征然后選擇一個分類器,這兩者合并達到最優的效果,幾乎是不可能完成的任務。
于是,學術界開始研究開發不需手動設計特征、不挑選分類器的機器視覺系統,希望機器視覺系統同時學習特征和分類器,即輸入某一個模型的時候,輸入只是圖片,輸出就是它自己的標簽。隨著深度學習迅猛發展,卷積神經網絡(CNN)的出現使得該設想得以實現,基于深度學習的計算機視覺研究發展迅速。LeNet在1998年提出了深度學習網絡的最初原型LeNet,輸入圖像是32×32的灰度圖,第一層經過了一組卷積和,生成了6個28X28的feature map,然后經過一個池化層,得到得到6個14X14的feature map,然后再經過一個卷積層,生成了16個10X10的卷積層,再經過池化層生成16個5×5的feature map。LeNet從最后16個5X5的feature map開始,經過了3個全連接層,達到最后的輸出,輸出就是標簽空間的輸出。由于設計的是只要對0到9進行識別,所以輸出空間是10,如果要對10個數字再加上26個大小字母進行識別的話,輸出空間就是62。62維向量里,如果某一個維度上的值最大,它對應的那個字母和數字就是就是預測結果。
2012年,Hinton課題組的CNN網絡AlexNet在ImageNet圖像識別比賽,一舉奪得冠軍。2014年牛津大學幾何視覺組的VGG網絡在ImageNet圖像識別比賽中奪冠,隨后GoogLeNet、ResNet分別在2014、2015年ImageNet圖像識別奪冠, 2016年歐洲計算機視覺大會上,南京大學魏秀參的DAN+模型在短視頻表象性格分析競賽(Apparent personality analysis)中奪冠,基于卷積神經網絡的機器視覺已充分兌現了其發展潛力。
如今,深度學習已經廣泛應用于計算機視覺研究,人臉識別、圖像識別、視頻識別、行人檢測、大規模場景識別的相關論文里都用到了深度學習的方法,深度學習可以做到傳統方法無法企及的精度,這是其迅速興起的關鍵。2012年,深度學習在圖像識別領域有重大突破。目前計算機視覺在很多應用領域達到了實用水平,催生了工業界的大量應用。深度學習算法的通用性很強,基于深度學習的算法更加通用,此外,深度學習獲得的特征(feature)有很強的遷移能力。例如在ImageNet(物體為主)上學習到的特征在場景分類任務上也能取得非常好的效果。深度學習計算主要是卷積和矩陣乘,針對這種計算優化,所有深度學習算法都可以提升性能,所以,深度學習的工程開發、優化、維護成本低。另外,通過組合現有的層(layer),我們可以實現大量復雜網絡結構和一些算法,使其開發維護的成本進一步降低。
在現代化生產中,由于能夠最大程度地提高產品質量、降低成本,機器視覺檢測一直被廣泛用于各類工業檢測項目上。而隨著工業制造技術和加工工藝的提高和改進,對檢測手段、檢測速度和精度提出的更高要求,也使得機器視覺檢測技術在各大行業建功無數,發展勢頭強勁。可以預計的是,隨著機器視覺技術自身的成熟和發展,機器視覺檢測技術將在現代和未來制造企業中得到越來越廣泛的應用。