作者:周蘇,支雪磊,劉懂,寧皓,蔣連新,石繁槐
PVANet(performancevsaccuracynetwork)卷積神經網絡用于小目標檢測的檢測能力較弱。針對這一瓶頸問題,采用對PVANet網絡的淺層特征提取層、深層特征提取層和HyperNet層(多層特征信息融合層)進行改進的措施,提出了一種適用于小目標物體檢測的改進PVANet卷積神經網絡模型,并在TT100K(Tsinghua-Tencent100K)數據集上進行了交通標志檢測算法驗證實驗。結果表明,所構建的卷積神經網絡具有優秀的小目標物體檢測能力,相應的交通標志檢測算法可以實現較高的準確率。
計算機目標檢測是指計算機根據視頻、圖像信息對目標物體的類別與位置的檢測,是計算機視覺研究領域的基本內容。隨著硬件和軟件技術的發展,尤其是基于卷積神經網絡目標檢測算法的普及應用,計算機目標檢測的準確率及速度都有了很大提高[1]。而且,異于傳統的人工設計特征提取器,卷積神經網絡目標物體檢測可自主學習視頻、圖像信息中的特征,從而檢測到更多類別以及更細分類的物體[2]。小目標檢測主要是對圖像或視頻中的標志、行人或車輛等顯示尺寸較小的目標進行檢測,在民用、軍事和安防等領域具有十分重要的作用[1]。
近年來卷積神經網絡結構及目標檢測算法被廣泛應用,如用于手寫數字識別的LeNet(lecunnetwork)[3]、用于圖像分類的VGGNet(visualgeometrygroupnetwork)、GoogLeNet(Googlenetwork)及ResNet(residualnetwork)等[4],用于目標檢測的FasterR-CNN(fasterregion-basedconvoluTIonalneuralnetwork)、R-FCN(region-basedfullyconvoluTIonalnetwork)、YOLO(you-only-look-once)和SSD(singleshotdetector)等[5-7]。但是,當檢測圖像中目標物體很小時,主流卷積神經網絡的檢測能力仍然較弱,這是其在目標檢測應用方面的主要瓶頸問題之一。吳雙忱等[8]基于SEnet(Squeeze-and-ExcitaTIonnetwork)提出了一種解決紅外小目標檢測問題的深度卷積網絡。趙慶北等[9]對FasterR-CNN網絡進行改進,引入候選區域方案提高了公司徽標的檢測性能。彭小飛等[10]對原始FPN(featurepyramidnetwork)網絡進行改進,利用淺層網絡豐富的位置信息,進行小目標的全圖搜索檢測。梁華等[11]針對航拍小目標識別率低、定位差的問題,基于VGG16網絡進行改進,提高其實時性和精度性能.PVANet網絡具有訓練效率高、對不同尺度目標的適應性強等適合于復雜多變交通場景的優勢。本研究工作對PVANet(performancevsaccuracynetwork)網絡進行改進,解決其交通標志小目標檢測能力不足的問題。
1相關工作
各國交通標志都有其規定的顏色、形狀、圖案等特征,采用傳統的手工設計特征提取器,可以從圖像中提取特征信息進行交通標志檢測.Ritter等[12]采用圖像顏色組合檢測交通標志,在紅、綠和藍色(RGB)中引入查表法(LUT)消除不需要的顏色.Priese等[13]設計了用于顏色分割的顏色結構代碼(CSC),并且生成CSC數據庫。研究結果表明,道路標志顏色的RGB分量差異雖可用于目標分割和檢測,但不便于直接描述光照變化。因此,人們開始研究由色調、飽和度和強度(HSI)或者色調、飽和度等組成的顏色特征空間下的交通標志檢測[14]。其中,HSI因其模擬人類感知的能力優于RGB,其交通標志檢測應用效果更好。Zaklouta等[15]結合HOG(histogramoforientedgradients)描述符和線性SVM(supportvectormachine)算法在處理實時性要求和性能之間取得了良好的折衷。
手工設計特征提取方法對圖像特征的提取能力有限,交通標志檢測應用效果很大程度上取決于設計者經驗,因此不適用于大規模交通標志檢測。神經網絡具有學習非線性、復雜關系的能力[16],尤其是卷積神經網絡可自主學習圖像特征,越來越多地被用于交通標志檢測.Sermanet等[17]用卷積網絡從GTSRB數據集(德國交通標志檢測數據集)的彩色圖像中提取并學習交通標志的特征信息,檢測準確率高達98.97%.Aghdam等[18]提出一種新的ReLU(recTIfiedlinearunit)作為激活函數的CNN(convolutionalneuralnetwork)架構,實現了更佳的精確度和檢測時間。
2PVANet網絡結構與改進
2.1PVANet網絡簡介
PVANet[19]是Intel公司Kim等人在2016年提出的一種用于實時物體檢測的卷積神經網絡結構。在VOC(visualobjectclasses)[20-21]數據集物體檢測比賽項目上PVANet取得了第2名的成績,其平均準確率(mAP)為82.5%.
PVANet采用基于C.ReLU(concatenatedrectifiedlinearunit)激活函數的淺層特征提取方法,改善參數冗余問題,減小了網絡參數量,提高了訓練效率.PVANet還借鑒Inception(谷歌基礎神經元結構思想),將輸入分別通過4個不同的卷積核進行卷積和池化操作后串聯合并在一起,增加了網絡對不同尺度目標的適應性。另外,PVANet將conv3中原圖的1/8、1/16和1/32特征圖連接起來,增強了最終特征圖中的多尺度信息。
2.2PVANet網絡結構的改進
PVANet網絡進行目標檢測時,雖然其準確率和實時性較好,但針對小目標物體的檢測能力仍有很大的提升空間。對此,本文提出了更適用于小目標物體檢測的改進網絡結構,對淺層特征提取層、深層特征提取層和HyperNet層進行了改進。圖1是改進前PVANet網絡結構(圖1a)與改進后結構(圖1b)的對比,其中虛線邊框模塊為本文提出的改進模塊。詳細的改進后PVANet網絡信息見表1.
注:convi—第i級卷積;pool—池化;RPN—regionproposalnetwork;FC—fullyconnectedlayer
圖1PVANet網絡改進前后結構圖
Fig.1StructureofPVANetbeforeandafterimprovement
2.2.1淺層特征提取
PVANet網絡的第1層卷積層通常采用7×7或更大維度的卷積核(步長為2)進行卷積,同時在本層即采用了C.ReLU型激活函數,這樣可以避免淺層卷積濾波器的參數冗余問題。
與單個的7×7或更大維度的卷積核相比,采用多個3×3卷積核的組合,可以減少參數量并加快檢測速度,同時增強網絡的非線性表達能力。另外,C.ReLU激活函數雖然具有提高參數效率、避免淺層卷積濾波器參數冗余的優點,但是特征圖經過C.ReLU處理后輸出維度會增加一倍。因此,目前PVANet使用C.ReLU時通常對輸入特征圖的維度加以限制,如設定conv1卷積模塊的輸出期望維度為32,第1層卷積層的輸出維度必須限定為16.對于較大圖片來說,這樣的設計會限制淺層網絡提取特征的能力,致使圖像的細粒度和小目標特征信息部分丟失。
鑒于上述原因,本文提出將PVANet第1層卷積層中7×7維度的卷積核拆解成3層3×3維度的卷積層。其中,第1層卷積層使用普通的ReLU激活函數,將其輸出維度提高至24;第2層卷積開始使用C.ReLU激活函數,輸出維度增加至48;第3層卷積層輸出維度減小至32.這樣的結構改進(圖2)旨在增加淺層卷積濾波器的細粒度和小目標圖像特征的提取能力。此外,為增強改進效果,將conv2和conv3卷積模塊中每個子模塊中第1層卷積層的輸出維度增大至48和72,如表1所示。
圖2淺層特征提取卷積層改進示意圖
Fig.2Improvementofshallowfeatureextraction
2.2.2深層特征提取
PVANet網絡通常采用Inceptionv1模塊進行深層特征提取。在該模塊中,將5×5的卷積核分解為兩個3×3維度的卷積核,可以減小網絡模型的參數量,但是會發生一定程度的精度損失。為了克服這一不足,在進行上述卷積核分解的同時,本文將3×3卷積核進一步非對稱地分解成兩個1×3和3×1維度的卷積核。這樣的非對稱分解(圖3)不僅進一步減少了網絡的參數量,而且通過層數增加有望進一步提高網絡的非線性表達能力。
圖3非對稱1×3和3×1維度卷積核的卷積過程
Fig.3Convolutionprocessofasymmetric1×3and3×1dimensionalconvolutionkernels
2.2.3多層特征信息融合
在原版PVANet網絡中,conv3_4淺層卷積層輸出的132×80像素特征圖的下采樣處理是通過3×3池化層進行的,最后的conv5_4深層卷積層輸出的33×20特征圖的上采樣處理則通過4×4像素卷積核進行。兩者得到的特征圖大小相同(66×40像素),合并之后作為目標檢測和分類的依據。但是,相比輸入圖片,這一系列66×40像素特征圖已經縮小了16倍。如果輸入圖片中存在一個32×32像素描述的小目標,映射到最后的特征圖上就只有2×2個像素點信息。原版PVANet網絡的多層特征信息融合方式使得小目標的特征表征能力受到限制,難以準確識別圖像中的小目標。
因此,本文提出減少1次池化和相應的卷積特征提取,使網絡能融合更淺層卷積層輸出的特征圖信息,并在更大的132×80特征圖上進行目標檢測和分類(即只縮小8倍),使其對小目標有更強的檢測能力。
3實驗
3.1實驗條件與方法
采用TT100K[22]交通標志數據集作為改進網絡訓練和測試用的基準數據集,其中訓練集包括10380張圖片,測試集包括5229張圖片。兩個子集覆蓋了所有需要檢測的標志類別,并且圖像數據互不包含。
訓練所用的求解器為SGD(stochasticgradientdescent),BatchSize為1,起始學習率設置為0.01,之后根據數據集的大小和BatchSize采用每40000步減小0.1倍的方法,momentum和weightdecay分別設置為0.9和0.0002.
研究中所有深度學習算法的訓練和測試全部使用了Caffe深度學習框架,并且在一臺配備了Inteli7-5930KCPU和NVIDIATitanXGPU的工作站上進行,操作界面采用Python軟件實現。
3.2實驗結果與分析
在實驗過程中,分別使用原版PVANet網絡模型結構及加入本文所述各改進算法的PVANet網絡模型結構,在TT100K測試集上進行交通標志檢測,以準確率、單幀檢測時間和PR(precision-recall)曲線作為評價指標。實驗結果見表2和圖4.
圖4算法改進前后PR曲線對比圖
Fig.4ComparisonofPRcurve
由表2可以看出,與PVANet9.1在數據集上的檢測結果相比,采用2.2.1節改進算法可以將交通標志檢測的mAP提升約4.2%.可知,提高淺層神經網絡的通道數,可以提高網絡對交通標志小目標的檢測能力。此外,由于將大的7×7卷積核分解為多個小的3×3卷積核,以減少計算量,改進后網絡模型的檢測時間無明顯增加。采用2.2.1、2.2.2節所述的改進算法,即再將深層網絡中的5×5卷積替換為兩個1×3和3×1卷積,也會使網絡模型的檢測速度變快,同時能夠保持較高的mAP.最后,采用2.2節中的改進算法,再減小1次池化計算,將神經網絡的輸出特征圖增大一倍,使得網絡對交通標志檢測的mAP大幅提高約9%,網絡的檢測時間雖然增加約0.02s,但是仍然具有很好的實時性,滿足交通標志檢測要求。由圖4可知,改進后算法的準確率和召回率都有所提升。綜上所述,輸出更大的特征圖雖然使計算量有所增加,但可增強網絡的特征表達能力,大幅增加網絡的目標檢測準確率。
圖5是算法對小目標交通標志檢測的效果圖,其中存在一個超小且被遮擋的交通標志(圖5b標注所示)。圖5a為原版PVANet網絡模型檢測結果,圖5b為改進后PVANet網絡模型檢測結果。可見,改進后PVANet網絡對于交通標志小目標物體有著很好的檢測能力,且對于目標物體的被遮擋問題有著一定的魯棒性。
圖5改進前后PAVNet檢測效果對比圖
Fig.5Comparisonofdetectionbeforeandafterimprovement
圖6是圖5場景經算法模型卷積計算得到的中間層特征圖。可以看出,淺層特征圖側重圖像宏觀特征的提取,因此與原圖風格相近,而深層特征圖側重對細節像素的計算判斷,對交通標志的準確檢測更為關鍵。對比算法改進前后的效果可以看到,改進后算法在正確的交通標志區域呈現出代表敏感性的更亮色,具有更好的檢測效果。
圖6改進前后淺層和深層卷積層特征對比圖
Fig.6Comparisonofshallowanddeepconvolutionallayers
圖7是改進算法對于有更多超小目標交通標志圖像的更復雜交通場景的檢測效果,其中圖7a是原圖,圖7b和圖7c分別是改進前和改進后算法檢測結果的局部放大圖。該場景共有5個交通標志,原版PVANet只檢測到3個交通標志,改進后算法可檢測到所有5個交通標志。由此可見,改進算法具有更好的檢測效果。
圖7檢測效果對比圖
Fig.7Comparisonofexperimentalresults
TT100K數據集中的部分交通標志屬于小目標物體,通過本研究中基于此數據集的實驗,驗證了所提出的改進算法對于交通標志小目標具有優秀的檢測能力。分析其原因,由于淺層神經網絡感知野(perceptionfield)較小,主要負責網絡的細節特征提取,增加淺層網絡通道數,能夠使網絡提取更多細節信息,這對交通標志小目標的檢測是有利的。而減小一次池化計算,不僅增大網絡輸出的特征圖大小,也使網絡模型中HyperNet模塊融合的淺層特征圖更“淺”,這樣神經網絡就能夠提取圖片中更多的細節特征信息,提高網絡的小目標檢測能力。雖然經過多步改進后,所提出改進算法的檢測時間有一定增加,但總時間仍控制在0.09s內,具有很高的實時性。
4結論
PVANet網絡具有訓練效率高、對不同尺度目標的適應性強等適合于復雜多變交通場景應用的優勢。本文對其淺層特征提取、深層特征提取和HyperNet多層特征融合模塊分別進行改進,提出了一種改進的PVANet卷積神經網絡模型,克服了小目標交通標志識別的瓶頸難點。基于TT100K交通標志數據集,對改進算法進行了實驗驗證。結果表明,所提出的改進網絡模型與原網絡模型相比,交通標志小目標檢測的mAP有大幅提升,證明了其對小目標物體優秀的檢測能力;雖然檢測時間小幅上升,但仍具有較好的實時性。
參考文獻[1]劉曉楠,王正平,賀云濤,等。基于深度學習的小目標檢測研究綜述[J]。戰術導彈技術,2019(1):100
LIUXiaonan,WANGZhengping,HEYuntao,etal.Researchonsmalltargetdetectionbasedondeeplearning[J]。TacticalMissileTechnology,2019(1):100
[2]郭之先。基于卷積神經網絡的小目標檢測[D]。南昌:南昌航空大學,2018.
GUOZhixian.Smallobjectdetectionalgorithmbasedondeepconvolutionneuralnetwork[D]。Nanchang:NanchangHangkongUniversity,2018.
[3]LECUNY,BOTTOUL,BENGIOY,etal.Gradient-basedlearningappliedtodocumentrecognition[J]。ProceedingsoftheIEEE,1998,86(11):2278DOI:10.1109/5.726791
[4]HEKaiming,ZHANGXiangyu,RENShaoqing,etal.Deepresiduallearningforimagerecognition[C]//2016IEEEConferenceonComputerVisionandPatternRecognition.LasVegas:IEEE,2016:770-778.
[5]RENShaoqing,HEKaiming,GIRSHICKR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[J]。IEEETransactionsonPatternAnalysis&MachineIntelligence,2017,39(6):1137
[6]LIUWei,ANGUELOVD,ERHAND,etal.SSD:singleshotmultiBoxdetector[C]//EuropeanConferenceonComputerVision.Cham:Springer,2016:21-37.
[7]REDMONJ,DIVVALAS,GIRSHICKR,etal.Youonlylookonce:unified,real-timeobjectdetection[C]//2016IEEEConferenceonComputerVisionandPatternRecognition.LasVegas:IEEE,2016:779-788.
[8]吳雙忱,左崢嶸。基于深度卷積神經網絡的紅外小目標檢測[J]。紅外與毫米波學報,2019,38(3):371
WUShuangchen,ZUOZhengrong.Smalltargetdetectionininfraredimagesusingdeepconvolutionneuralnetworks[J]。JournalInfraredMillimeterWaves,2019,38(3):371
[9]趙慶北,元昌安,覃曉。改進FasterR-CNN的小目標檢測[J]。廣西師范學院學報(自然科學版),2018,35(2):68
ZHAOQingbei,YUANChang‘an,QINXiao.ImprovedfasterR-CNNforsmallobjectdetection[J]。JournalofGuangxiTeachersEducationUniversity(NaturalScienceEdition),2018,35(2):68
[10]彭小飛,方志軍。復雜條件下小目標檢測算法研究[J]。智能計算機與應用,2019,9(3):171
PENGXiaofei,FANGZhijun.Researchonsmalltargetdetectionalgorithmundercomplexconditions[J]。IntelligentComputerandApplications,2019,9(3):171DOI:10.3969/j.issn.2095-2163.2019.03.040
[11]梁華,宋玉龍,錢鋒,等。基于深度學習的航空對地小目標檢測[J]。液晶與顯示,2018,33(9):793
LIANGHua,SONGYulong,QIANFeng,etal.Detectionofsmalltargetinaerialphotographybasedondeeplearning[J]。ChineseJournalofLiquidCrystalsandDisplays,2018,33(9):793
[12]RITTERW,STEINF,JANSSENR.Trafficsignrecognitionusingcolorinformation[J]。MathComputeModel,1995,22(4/5/6/7):149
[13]PRIESEL,KLIEBERJ,LAKMANNR,etal.Newresultsontrafficsignrecognition[C]//ProceedingsoftheIntelligentVehicles’94Symposium.Paris:IEEE,1994:249-254.
[14]MOGELMOSEA,TRIVEDIMM,MOESLUNDTB.Vision-basedtrafficsigndetectionandanalysisforintelligentdriverassistancesystems:perspectivesandsurvey[J]。IEEETransactionsonIntelligentTransportationSystems,2012,13(4):1484DOI:10.1109/TITS.2012.2209421
[15]ZAKLOUTAF,STANCIULESCUB.Real-timetrafficsignrecognitioninthreestages[J]。RoboticsandAutonomousSystems,2014,62(1):16
[16]SABBEHA,AI-DUNAINAWIY,AI-RAWESHIDYHS,etal.Performancepredictionofsoftwaredefinednetworkusinganartificialneuralnetwork[C]//2016SAIComputingConference(SAI)。London:IEEE,2016:80-84.
[17]SERMANETP,LECUNY,Trafficsignrecognitionwithmultiscaleconvolutionalnetworks[C]//The2011InternationalJointConferenceonNeuralNetworks.SanJose:IEEE,2011:2809-2813.
[18]AGHDAMHH,HERAVIEJ,PUIGD.Apracticalapproachfordetectionandclassificationoftrafficsignsusingconvolutionalneuralnetworks[J]。RoboticsandAutonomousSystems,2016,84:97DOI:10.1016/j.robot.2016.07.003
[19]KIMKH,CHEONY,HONGS,etal.PVANet:deepbutlightweightneuralnetworksforreal-timeobjectdetection[J]。arXiv,2016(8):1
[20]EVERINGHAMM,ESLAMISMA,GOOLLV,etal.Thepascal,visualobjectclasseschallenge:aretrospective[J]。InternationalJournalofComputerVision,2015,111(1):98DOI:10.1007/s11263-014-0733-5
[21]RUSSAKOVSKYO,DENGJia,SUHao,etal.ImageNetlargescalevisualrecognitionchallenge[J]。InternationalJournalofComputerVision,2015,115(3):211DOI:10.1007/s11263-015-0816-y
[22]ZHUZhe,LIANGDun,ZHANGSonghai,etal.Traffic-signdetectionandclassificationinthewild[C]//2016IEEEConferenceonComputerVisionandPatternRecognition.LasVegas:IEEE,2016:2110-2118.
編輯:hfy
評論