
隨著智能交通、智能家居的興起,安防監(jiān)控(百萬(wàn)高清網(wǎng)絡(luò)攝像機(jī)、網(wǎng)絡(luò)攝像機(jī)、錄像機(jī)、監(jiān)控平臺(tái)等)領(lǐng)域也將成為人工智能和機(jī)器學(xué)習(xí)關(guān)注的熱點(diǎn),從而成為受到深度學(xué)習(xí)第二波沖擊的重要領(lǐng)域。
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)研究中的一個(gè)領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像、聲音和文本等。目前,深度學(xué)習(xí)的應(yīng)用領(lǐng)域中大約有70%都在圖像識(shí)別方面,結(jié)合安防領(lǐng)域的現(xiàn)狀,這就意味著,深度學(xué)習(xí)在這一領(lǐng)域必然會(huì)有顛覆性的發(fā)展。隨著大數(shù)據(jù)與高清攝像機(jī)應(yīng)用的普及,安防大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),海量高清及以上分辨率視頻數(shù)據(jù)給安防產(chǎn)品技術(shù)帶來(lái)了大數(shù)據(jù),這也就成為深度學(xué)習(xí)在安防領(lǐng)域必將快速發(fā)展的肥沃土壤。
機(jī)器學(xué)習(xí)(MachineLearning)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。它專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。傳統(tǒng)的機(jī)器學(xué)習(xí)方法有adboost、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、隨機(jī)森林、提升決策樹等,雖然目前在安防領(lǐng)域已經(jīng)獲得了一定的成功,但它們?cè)谀繕?biāo)的定位率和識(shí)別率的提升上已經(jīng)陷入了一定的瓶頸:很多具體應(yīng)用中的識(shí)別率無(wú)法得到提升;在大規(guī)模多場(chǎng)景應(yīng)用中,虛警問(wèn)題也給安防領(lǐng)域帶來(lái)了很大的困擾,即使是增加訓(xùn)練樣本依然不能緩解這一問(wèn)題。
以安防領(lǐng)域中最成功的車牌識(shí)別算法為例,雖然目前很多廠商都宣稱自己的車牌識(shí)別率已經(jīng)達(dá)到了99%,但這也只是在標(biāo)準(zhǔn)卡口的視頻條件下再加上一些預(yù)設(shè)條件來(lái)達(dá)到的。在針對(duì)很多簡(jiǎn)易卡口和卡口圖片進(jìn)行車牌定位識(shí)別時(shí),較好的車牌識(shí)別也很難達(dá)到90%。不過(guò)隨著采用深度學(xué)習(xí)的應(yīng)用,這一情況將會(huì)得到很大的改善。
在傳統(tǒng)的圖像處理和機(jī)器學(xué)習(xí)算法研發(fā)中,很多特征都是人為制定的,比如hog、sift特征,在目標(biāo)檢測(cè)和特征匹配中占有重要的地位,安防領(lǐng)域中的很多具體算法所使用的特征大多是這兩種特征的變種。人為設(shè)計(jì)特征和機(jī)器學(xué)習(xí)算法,從以往的經(jīng)驗(yàn)來(lái)看,由于理論分析的難度大,訓(xùn)練方法又需要很多經(jīng)驗(yàn)和技巧,一般需要5到10年的時(shí)間才會(huì)有一次突破性的發(fā)展,而且對(duì)算法工程師的知識(shí)要求也一直在提高。深度學(xué)習(xí)則不然,在進(jìn)行圖像檢測(cè)和識(shí)別時(shí),無(wú)需人為設(shè)定具體的特征,只需要準(zhǔn)備好足夠多的圖進(jìn)行訓(xùn)練即可,通過(guò)逐層的迭代就可以獲得較好的結(jié)果。從目前的應(yīng)用情況來(lái)看,只要加入新數(shù)據(jù),并且有充足的時(shí)間和計(jì)算資源,隨著深度學(xué)習(xí)網(wǎng)絡(luò)層次的增加,識(shí)別率就會(huì)相應(yīng)提升,比傳統(tǒng)方法表現(xiàn)更好。
初看之下,深度學(xué)習(xí)似乎是一種萬(wàn)能的方法,什么問(wèn)題都能夠輕松解決,然而就深度學(xué)習(xí)的具體應(yīng)用而言,目前依然存在三大主要難題:第一是大數(shù)據(jù)標(biāo)定的問(wèn)題,深度學(xué)習(xí)領(lǐng)域的一句流行語(yǔ)——“誰(shuí)掌握著數(shù)據(jù)誰(shuí)就掌握著市場(chǎng)”,就充分地說(shuō)明了這一點(diǎn);第二是計(jì)算量過(guò)大的問(wèn)題,在具體應(yīng)用中隨著數(shù)據(jù)和網(wǎng)路層次的增加,不僅訓(xùn)練花費(fèi)的時(shí)間在大幅增加,測(cè)試時(shí)間也在增加,在具體應(yīng)用中很難實(shí)現(xiàn)前端化和實(shí)時(shí)化;第三是訓(xùn)練收斂問(wèn)題,以在圖像識(shí)別中應(yīng)用最多的卷積神經(jīng)網(wǎng)絡(luò)(CNN)為例,目前已經(jīng)出現(xiàn)了幾百層的網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練過(guò)程中一般采用梯度下降的方法,這一過(guò)程中如果層數(shù)過(guò)多,數(shù)據(jù)初始化不合理就很容易不收斂。
雖然存在以上這些問(wèn)題,但是深度學(xué)習(xí)依然是非常有效的方法,這些問(wèn)題也必將隨著時(shí)間的推移得到妥善解決。除此之外,很多企業(yè)以及機(jī)構(gòu)的努力也正在使深度學(xué)習(xí)現(xiàn)有的一些問(wèn)題得到較大的改觀,例如面對(duì)數(shù)據(jù)問(wèn)題,目前國(guó)內(nèi)已經(jīng)出現(xiàn)了“數(shù)據(jù)堂”這樣專門整理數(shù)據(jù)的公司,安防公司只要一定的人力投入即可。關(guān)于計(jì)算量的問(wèn)題,雖然目前像“英偉達(dá)”這樣提供高性能計(jì)算顯卡的公司還不多,但更多消息顯示,Intel、高通、AMD等公司都已開始進(jìn)行相關(guān)產(chǎn)品的研發(fā)工作。此外,中科院已經(jīng)開始研發(fā)專門的深度學(xué)習(xí)芯片。
在可以預(yù)見的未來(lái),很多安防公司都會(huì)陸續(xù)推出與深度學(xué)習(xí)相關(guān)的產(chǎn)品,或是采用深度學(xué)習(xí)算法提升已有產(chǎn)品的性能。對(duì)于科達(dá)公司來(lái)說(shuō),剛過(guò)去的2015年是大規(guī)模應(yīng)用深度學(xué)習(xí)的元年。在車牌識(shí)別、車輛顏色、車輛廠商標(biāo)志識(shí)別、無(wú)牌車檢測(cè)、非機(jī)動(dòng)車檢測(cè)與分類、車頭車尾判斷、車輛檢索、人臉識(shí)別等相關(guān)的技術(shù)方面,公司都已經(jīng)開始應(yīng)用深度學(xué)習(xí)算法,并且相關(guān)眾多產(chǎn)品的性能也在深度學(xué)習(xí)的幫助下得到了一定的提升。
以安防產(chǎn)品的具體應(yīng)用為例,在車牌識(shí)別方面,目前深度學(xué)習(xí)算法克服了傳統(tǒng)方法在各種不同條件下識(shí)別率不夠穩(wěn)定的情況,用這一方法識(shí)別的車牌識(shí)別率更穩(wěn)定,污損與模糊不清的號(hào)牌的識(shí)別情況更好,圖片模式的車牌定位率和識(shí)別率更是分別從90%和85%提升到95%和93%以上。在車輛顏色識(shí)別方面,基本上克服了由于光照條件變化、相機(jī)硬件誤差所帶來(lái)的顏色不穩(wěn)定、過(guò)曝光等一系列問(wèn)題,因此解決了圖像顏色變化導(dǎo)致的識(shí)別錯(cuò)誤問(wèn)題,卡口車輛顏色識(shí)別率從80%提升到85%,電警車輛主顏色識(shí)別率到從75%提升到80%以上。在車輛廠商標(biāo)志識(shí)別方面,使用傳統(tǒng)的HOG、LBP、SIFT、SURF等特征,采用SVM機(jī)器學(xué)習(xí)技術(shù)訓(xùn)練一個(gè)多級(jí)聯(lián)的分類器來(lái)識(shí)別廠商標(biāo)志很容易出現(xiàn)誤判,采用大數(shù)據(jù)加深度學(xué)習(xí)技術(shù)后,車輛車標(biāo)的過(guò)曝光或者車標(biāo)被人為去掉等引起的局部特征會(huì)隨之消失,其識(shí)別率可以從89%提升到93%以上。在車輛檢索方面,車輛的圖片在不同場(chǎng)景下會(huì)出現(xiàn)曝光過(guò)度或者曝光不足,或者車輛的尺度發(fā)生很大變化,導(dǎo)致傳統(tǒng)方法提取的特征會(huì)發(fā)生變化,因此檢索率很不穩(wěn)定。深度學(xué)習(xí)能夠很好地獲取較為較穩(wěn)定的特征,搜索的相似目標(biāo)更精確,Top5的搜索率在95%以上。在人臉識(shí)別項(xiàng)目中,由于光線、姿態(tài)和表情等因素引起人臉變化,目前很多應(yīng)用都是固定場(chǎng)景、固定姿態(tài),采用深度學(xué)習(xí)算法后,不僅固定場(chǎng)景的人臉識(shí)別率從89%提升到99%,而且對(duì)姿態(tài)和光線也有了一定的放松。
深度學(xué)習(xí)在語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等應(yīng)用中取得了顯著的成效,但是在安防行業(yè),深度學(xué)習(xí)實(shí)際上才剛剛起步。然而,它正深刻地影響和改變著安防企業(yè),影響著智能視頻分析技術(shù)?,F(xiàn)在已經(jīng)有很多安防企業(yè)開始投入資源開發(fā)基于深度學(xué)習(xí)技術(shù)的算法、產(chǎn)品。我們有理由相信,深度學(xué)習(xí)在安防監(jiān)控(百萬(wàn)高清網(wǎng)絡(luò)攝像機(jī)、網(wǎng)絡(luò)攝像機(jī)、錄像機(jī)、監(jiān)控平臺(tái)等)領(lǐng)域中的前途是無(wú)限光明的。