小優智能科技有限公司成立于2015年底,是一家專注于高精度3D機器視覺模組研發、生產及銷售的高科技企業。
公司自主研發的3D機器視覺模組采用激光/DLP白光編碼光柵結構光+雙工業相機方案,還原物體三維信息,廣泛應用于消費電子領域、工業領域和安防領域,具有精度高、速度快、成本低的優勢。
離群點主要表示在特定時間序列內,與序列平均值差距較大的極端大、小值,在實際應用中也將其稱作為野值。在研究中發現,離群點的出現與多種因素有關,其中系統外部影響是一種重要的因素,然而與之相關的系統外部干擾并不是相同的,而是存在不同類型的問題。例如有數據記錄和計算的錯誤,此外其他偶然因素也會引起極端大值、極端小值的出現。所以在離群點分析過程中應該綜合考慮到各個影響因素。
基于之前的分析已經明確了離群點產生的原因,其會對時間序列分析產生直接的影響,特別是會降低模型的擬合精度,因此在實際應用中分析人員并不期望序列中含有離群點,從這個角度來看很多分析人員為了改善模型的精度,往往會采取不同的方法將離群點去除。但是從相反的角度來看,離群點攜帶了有價值的信息,其能夠為采樣中錯誤分析提供依據,如果是由于外部干擾引起的離群點,則能夠提示系統靈敏性等相關的信息。
隨著對離群點研究的增多,很多學者提出了不同的處理方法,目前在應用中一般將離群點劃分為四種不同的類型,主要包括加性離群點、樹水平位移離群點、暫時變更離群點以及更新離群點,各種離群點的特征存在一定的差異性,具體的介紹如下所示:
(1)加性離群點:這種類型的干擾僅僅對干擾出現時刻T的序列值產生影響,與之后的序列值無關。
(2)樹水平位移離群點:引起這種離群點的干擾會從影響的開始時刻T持續產生影響,具體表現為T時刻前后的序列均值出現的水平位移。
(3)暫時變更離群點:干擾在T時刻出現時會體現出一定的初始效應,在之后時刻的影響會呈現指數衰減。
(4)更新離群點:干擾除了影響XT外,會持續影響到之后時刻的值,它的其中系統動態模型是影響其作用方式的主要因素。
綜上所述,離群點與傳統的數據對象不同,可以認為是一種特殊的數據對象, 離群點檢驗就是通過多種檢測方法找出其行為不同于預期對象的數據點的過程。根據正常數據和離群點的假定分類,可以分為以下5種方法,具體的分析如下文所示:
(1)基于分布的方法
基于分布的檢測方法原理比較簡單,實施的難度較小,其在構建合適的數據分布模型后通過不和諧校驗(Discordancy Test)提取與模型分布規律不相符的數據,由此可以得到對應的離群點。但是這種方法的準確性較低,并且在數據維度較大時提取離散點的難度更大。
(2)基于深度的方法
基于深度的檢測方法需要對各個數據對象設置一個方初始的深度值,由此建立與多層數據空間的對應關系,然后提取外層的對象即為離群點。這種方法應用到數據維度較小的情況時效果較好,但是對于多維數據的處理效果不佳。
(3)基于聚類的方法
先前人們只是根據經驗來對事物進行分類,但是隨著分類目標的復雜度增加,數據量的增大,分類的要求逐步增大,如果只依賴于傳統的分類方法難以獲得較好的分類效果。很多學者進行了研究并提出了更先進的聚類技術,聚類分析的基本思想是根據樣本間的相似性來獲取數據的潛在規律,將對象分組成由相似對象構成的多個類別??傮w判斷的依據是數據的相似度,如果相似度基本一致時則劃分為一類,相似度差距較大時則屬于不同的類。在實際聚類中則主要是將關聯性高的數據樣本歸為同一類,關聯性低的樣本歸為不同的類。因此結合聚類的原理可以進行檢測,由此能夠有效地獲得簇和離群點。
基于聚類技術來發現離群點可能是高度有效的。常用的模型有K-means等,基于聚類的離群點檢測思路如下:首先用聚類算法做聚類;然后對各個點與聚類中心的距離以及平均距離L進行計算;第三步用戶設定一個spec參數;最后對類中心與各個點的距離s進行計算,由此可以判斷出是否為離群點。這種方法存在一定的不足,即如果大、小聚集簇的距離非常小時,難以準確地識別離群點。此方法的示意圖如圖2所示。
圖2基于聚類的方法
(4)基于距離的方法
基于距離的檢測方法需要先設置一個固定的距離參數L,以此分析各個點與設置點的距離的關系,當這個距離高于L時,則對應的點即為離群點。常用的模型為KNN(k近鄰),KNN算法的原理比較容易理解,用戶可以直接從訓練樣本內獲得K個最接近的樣本,并對各個樣本所屬的類型進行劃分,最后將樣本最多的類別進行匯總,即可對待判定的樣本類型進行確定。K最近鄰分類算法的使用需要滿足一定的條件。此算法的優勢在于分類結果的準確性高等,然而這種準確性依賴于高質量的樣本相似度計算結果,所以比較依賴于相似度的計算過程,不適合將其應用到大規模數據集的分類中。經過分析,當樣本的數目比較大時使用這種方法往往能夠獲得更好地效果。根據這個原理,如果某樣本的k個相似度最高的大部分樣本都屬于相同的類別,則該樣本也屬于這個類別,其中K通常是不大于20的整數。通常用來度量最相似程度的距離有歐式距離和曼哈頓距離。如果數據集的規模較大,并且分布不均衡,則會降低算法的性能,此方法的具體流程如下所示。
圖3 基于距離的方法
(5)基于密度的方法
基于密度的檢測方法在檢測局部離群點時的應用效果較好,根據定點間的距離與點的數目進行分析,由此可以分析目標點與其他點的離群程度。在應用過程中需要先定義一個密度值,如果判斷是離群點,則其密度值與周邊正常點的密度相差很大。常用的模型有LOF,其原理如下所示:首先針對數據集內的各個點計算局部離群因子LOF,如果計算的LOF與1之間的差值較大,則說明屬于離群點;如果與1之間的差值較小,則不屬于離群點。這種方法在應用中存在一定的不足之處,主要體現在選擇密度參數時的難度較大。
圖4基于密度的方法
通過上文對這5類離群點過濾方法的分析,我們可以得出每種過濾方法的優缺點,如下表1所示。
表1 離群點過濾方法對比
離群點過濾方法 | 優點 | 缺點 |
基于分布的方法 | 操作簡單 | 準確性低 |
基于深度的方法 | 二維數據過濾效果好 | 不適用于三維數據的過濾 |
基于聚類的方法 | 過濾效果好 | 需要對點云簇進行分類,操作繁瑣 |
基于距離的方法 | 準確性高 | 對離表面較近的離群點效果較差 |
基于密度的方法 | 過濾速度快,操作簡單 | 需要合適的密度參數 |