版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第6章
計算機視覺
導入案例
“最強大腦”之人機大戰(zhàn),百度人工智能勝出2017年1月6日,在江蘇衛(wèi)視播出的節(jié)目《最強大腦》第四季中,吳恩達率隊的百度人工智能在人臉識別跨年齡識別任務中以3:2的比分驚險擊敗《最強大腦》名人堂輪值主席、世界記憶大師王峰?!靶《取焙屯醴宓摹皼Q戰(zhàn)”分為兩輪,第一輪,嘉賓從20張蜜蜂少女隊成員童年照中挑出3張高難度照片,選手通過動態(tài)錄像表演將所選童年照和在場的成年少女相匹配。第二輪,人機共同觀察一位30歲以上的觀眾,隨后將他從30張小學集體照中找出。根據(jù)節(jié)目組的安排,“小度”和王峰第一輪需要識別兩個對象。對第一個對象的識別,王峰和“小度”都答對了?!白顝姶竽X”之人機大戰(zhàn)第二個對象的識別,現(xiàn)場出現(xiàn)了一個事先沒有想到的“狀況”:“小度”為一個對象給出了72.98%和72.99%兩個極其接近的匹配答案,這令現(xiàn)場嘉賓大為困惑??筛钊苏痼@的是,事實證明待識別的對象群組中的確有原來是識別對象群組中有一對雙胞胎。最后,作為“小度”負責人的百度首席科學家吳恩達現(xiàn)場選擇72.99%的照片作為最終結果,匹配正確,而王峰則識別錯誤。這一環(huán)節(jié)上,王峰識別錯誤。第一輪的比賽,小度拿下1分,王峰0分。第二輪比賽,雙方都成功識別出照片中的人,均拿下2分。因此,最終小度以3:2的比分拿下了第一場比賽。
6.1計算機視覺的概念人眼與大腦的協(xié)作使得人們可以獲取、理解及處理視覺信息,人類獲取的環(huán)境信息中有80%左右是通過視覺得到的。近年來,隨著計算機技術和數(shù)字信號處理技術的迅猛發(fā)展,計算機也能擁有像人類一樣的“視覺”感知方式,并可以執(zhí)行多種任務。這樣就形成了一門新興的學科——計算機視覺。讓計算機能像人一樣看事物,并能理解看到的事物,粒度從非常小的蒼蠅到非常大的宇宙,從靜態(tài)的物體到動態(tài)的行為過程,等等。此時便會涉及到一個根本性的問題:怎么樣在計算機中表示這么多不同的物體呢?
6.1.1什么是計算機視覺計算機視覺是要用計算機來實現(xiàn)人類的視覺功能,即對客觀世界中三維場景的感知、加工和解釋。視覺研究的目的是把握和理解有關場景的圖像,辨識和定位其中的目標,確定它們的結構、空間排列和分布以及目標間的相互關系等。計算機視覺的研究方法:一種是仿生學方法,即參照人類視覺系統(tǒng)的結構原理,建立相應的處理模塊完成類似的功能和工作;另一種是工程的方法,即從分析人類視覺過程的功能著手,并不刻意模擬人類視覺系統(tǒng)的內部結構,僅考慮系統(tǒng)的輸入和輸出,采用可行的手段來實現(xiàn)系統(tǒng)功能。
計算機視覺的研究目標一個是建立計算機視覺系統(tǒng)來完成各種視覺任務。計算機能借助各種視覺傳感器(如CCD、CMOS攝像器件等)獲取場景的圖像,從中感知和恢復環(huán)境中物體的幾何性質、姿態(tài)結構、運動情況、相互位置等,并對客觀場景進行識別、描述、解釋,進而做出判定和決斷。二是把該研究作為探索人腦視覺工作機理的手段,掌握和理解人腦視覺工作的機理(如計算神經科學)。這里主要研究的是生物學機理。計算機視覺利用計算機實現(xiàn)人的視覺功能,同時又從人類視覺得到啟發(fā)。計算機視覺方面的許多重要研究都是通過理解人類視覺系統(tǒng)而實現(xiàn)的,另外,借助對人類視覺系統(tǒng)功能的理解研究也可幫助人們開發(fā)新的圖像理解和計算機視覺算法。
6.1.2計算機視覺的發(fā)展歷程從人工智能誕生起,計算機視覺研究和應用就引起人們的重視,如前面學習的感知機,它最早用來演示的應用就是字母識別。計算機視覺正式成為一個學科,要追溯到1963年美國計算機科學家羅伯茨根據(jù)對貓視覺皮層的研究,提出計算機的模式識別和生物的識別類似,邊緣是用來描述物體形狀的最關鍵信息。70年代中期,英國神經生理學家戴維·馬爾提出了一種計算機視覺理論:人類視覺的主要功能是通過大腦進行一系列處理和變換,來復原真實世界中三維場景,并且這種神經系統(tǒng)里的信息處理過程是可以用計算的方式重現(xiàn)的。馬爾認為這種重現(xiàn)分為三個層次:理論、算法和硬件實現(xiàn)。從此開啟了計算機視覺作為一門正式學科的研究。從1987年開始,國際計算機視覺大會開始給計算機視覺領域做出重要貢獻的人頒發(fā)獎項,獎項名字就叫做馬爾獎。計算機視覺的發(fā)展歷程20世紀80年代,計算機視覺進入了快速發(fā)展時期,計算機視覺的全球性研究熱潮開始興起。出現(xiàn)了諸如基于感知特征群的物體識別理論框架、主動視覺理論框架和視覺集成理論框架,無論是對二維信息的處理,還是針對三維圖像的模型及算法研究都有了極大的提升。20世紀90年代,計算機視覺理論進一步發(fā)展,并開始在工業(yè)領域中得到應用在一些人工作業(yè)危險系數(shù)較大的工作環(huán)境,或者人類視覺難以滿足需求的場景中,可以借助計算機視覺這種非接觸方式,利用機器人替代人類完成任務。同時,在大規(guī)模高重復性工業(yè)生產場景中,借助計算機視覺,機器人替代人類工作可以大大提高生產效率和自動化程度,節(jié)省生產成本。目前,計算機視覺技術已廣泛應用于生產和生活的許多領域。在生產過程中應用于智能制造的某些環(huán)節(jié),如工業(yè)探傷和自動焊接;并應用于智能生活之中,如智能醫(yī)療、智能交通和智能家居。計算機視覺的發(fā)展歷程進入21世紀之后,計算機視覺已經成為計算機領域的一個大學科了。斯坦福大學的李飛飛教授牽頭創(chuàng)立了一個非常龐大的圖像數(shù)據(jù)庫ImageNet。它包含1400萬張圖像,超過20000個類別。基于這個數(shù)據(jù)庫,自2010年開始,每年舉辦一次的大規(guī)模視覺識別挑戰(zhàn)比賽,采用了ImageNet里1000個子類目的超過120萬張圖片作為數(shù)據(jù),參賽者來自世界各國的大學、研究機構和公司,成為計算機視覺領域最受關注的事件之一。
6.1.3計算機視覺的應用1.安防
安防是最早應用計算機視覺的領域之一。人臉識別和指紋識別;常見的應用有利用人臉庫和公共攝像頭對犯罪嫌疑人進行識別和布控。移動檢測也是計算機視覺在安防中的重要應用,利用攝像頭監(jiān)控畫面移動用于防盜或者勞教和監(jiān)獄的監(jiān)控。計算機視覺的應用2.交通利用計算機視覺技術對違章車輛的照片進行分析提取車牌號碼并記錄在案。這是大家都熟知的一項應用。此外很多停車場和收費站也用到車牌識別。除了車牌識別,還有利用攝像頭分析交通擁堵狀況或進行隧道橋梁監(jiān)控等技術,但應用并沒有那么廣泛。前面說的是道路應用,針對汽車和駕駛的計算機視覺技術也有很多,如行人識別、路牌識別、車輛識別、車距識別,還有更進一步的也是近兩年突然火起來的無人駕駛等。計算機視覺的應用前面已經提到了淘寶和京東的拍照購物功能。事實上計算機視覺在電商領域的應用還有更多。圖片信息是在電商商品列表中扮演著信息傳播最重要的角色,尤其是在手機上。當我們打開購物App時,最先最快看到的信息一定是圖片。工業(yè)領域也是最早應用計算機視覺技術的領域之一。如利用攝像頭拍攝的圖片對部件長度進行非精密測量;利用識別技術識別工業(yè)部件上的缺陷和劃痕等;對生產線上的產品進行自動識別和分類用來篩選不合格產品;通過不同角度的照片重建零部件三維模型。3.工業(yè)生產4.在線購物計算機視覺的應用在游戲娛樂領域,計算機視覺的主要應用是在體感游戲,如Kinect、Wii和PS4等。在這些游戲設備上會用到一種特殊的深度攝像頭,用于返回場景到攝像頭距離的信息搜索引擎可以利用文字描述返回用戶想要的信息,圖片也可以作為輸入來進行信息的檢索。后來隨著深度學習在計算機視覺領域的崛起,Google和百度等公司也推出了自己的圖片搜索引擎,只要上傳自己拍攝的照片,就能從返回的結果中找到相關的信息。5.信息檢索6.游戲娛樂計算機視覺的應用7.攝影攝像數(shù)碼相機誕生后,計算機視覺技術就開始應用于消費電子領域的照相機和攝像機上。最常見的就是人臉,尤其是笑臉識別,只要露出微笑就會捕捉下美好的瞬間。新手照相也不用擔心對焦不準,相機會自動識別出人臉并對焦。8.機器人/無人機機器人和無人機中主要利用計算機視覺和環(huán)境發(fā)生互動,如教育或玩具機器人利用人臉識別和物體識別對用戶和場景做出相應的反應。無人機也是近年來火熱的一個領域。計算機視覺的應用10.體育高速攝像系統(tǒng)已經普遍用于競技體育中。球類運動中結合時間數(shù)據(jù)和計算機視覺的進球判斷、落點判斷、出界判斷等?;谝曈X技術對人體動作進行捕捉和分析也是一個活躍的研究方向。
9.醫(yī)療醫(yī)學影像是醫(yī)療領域中一個非?;钴S的研究方向,各種影像和視覺技術在這個領域中至關重要。計算斷層成像(CT)和磁共振成像(MRI)中重建三維圖像都有涉及一些計算機視覺的基礎手段。細胞識別和腫瘤識別用于輔助診斷,一些細胞或者體液中小型顆粒物的識別,還可以用來量化分析血液或其他體液中的指標。
6.2圖像處理與視覺系統(tǒng)在計算機中,圖像的最基本組成單元為像素,圖片是包含很多個像素的集合。像素一般就是圖片中某個位置的顏色,很多個像素點排列起來,就可以組成一個二維平面點陣,這就是圖像。比如電腦桌面背景,如果是1920×1080,那就意味著像素點有1920列,1080行,共1920×1080(2073600)個像素。色彩空間的表達通常用RGB圖像、灰度等概念。RGB圖像又稱為三通道彩色圖,灰度圖相對應就可以叫作單通道圖。通道數(shù)可簡單理解為表示單個像素所需要的數(shù)字的個數(shù)。
6.2圖像處理與視覺系統(tǒng)在計算機中,灰度圖中的像素通常用0~255之間的一個整數(shù)數(shù)字表示,0表示黑色,255表示白色,數(shù)字從0變到255表示顏色由黑變白的一個過程。顏色越黑則越接近0,越白則越接近255。RGB彩色空間則使用三個整數(shù)數(shù)字來代表一個像素,如(0,100,200),分別代表紅色部分的顏色值為0,綠色部分為100,藍色部分為200。RGB分別代表英文單詞Red、Green和Blue,其對應的取值范圍都是0~255,數(shù)值越大表示顏色越淺,越小則越飽和。所以RGB像素不同的組合總數(shù)為:256×256×256=16777216,其中(0,0,0)表示黑色,(255,255,255)表示白色。圖像處理二值圖像也稱單色圖像或1位圖像,即顏色深度為1的圖像。顏色深度為1表示每個像素點僅占1個二進制位,每個像素點的顏色只可能取兩種顏色之一,通常,這兩種顏色取黑色或白色,0表示黑色,1表示白色。1.二值圖像2.灰度圖像灰度圖像是包含灰度級(亮度)的圖像。一張灰度圖像及其圖像數(shù)據(jù)如圖所示。每一個像素點的取值可能是0~255中的某一個值,0表示黑色,255表示白色,介于黑色和白色之間的不同程度的灰色由0~255的不同數(shù)值來表示。圖像處理3.真彩色圖像真彩色圖像具有最豐富的顏色數(shù)。一張真彩色圖像及其圖像數(shù)據(jù)如圖所示。真彩色圖像每一個像素由R、G、B三個分量組成,每一個像素點的每一個分量的取值可能是0~255中的某一個值,三個分量的值共同構成該像素點的顏色值。因此,真彩色圖像具有最豐富的顏色,其顏色數(shù)可達224=16777216種。4.偽彩色圖像偽彩色圖像通常包括256色彩色圖像和16色彩色圖像。256色彩色圖像的每個像素由8個二進制位組成,取值范圍為0~255,可以表示256種不同的彩色,能夠達到照片效果,比較真實。16色彩色圖像的每個像素由4個二進制位組成,取值范圍為0~15,可以表示16種不同的彩色,通常用于對遙感圖像的灰度賦予不同的假色彩以改善視覺效果。16色彩色圖像的失真現(xiàn)象嚴重,已不能真實反映原始圖像的顏色特性。
6.2.2圖像處理技術計算機視覺的圖像處理技術主要有圖像分類、目標檢測、圖像分割、目標定位與跟蹤等(1)圖像分類圖像分類:把不同類別的目標區(qū)分開來的圖像處理方法。它是計算機視覺中的基礎任務,也是圖像檢測、語義分割、實例分割、圖像搜索等高級任務的根本。圖像分類包含了通用圖像分類和細粒度圖像分類,通用分類主要解決識別圖像上主體類別的問題,如是貓還是狗的問題;細粒度分類則解決如何將大類進行細分類的問題,如在狗這一類別下,識別的是其品種(如泰迪、松獅、哈士奇等)的問題。
(1)圖像分類圖像分類效果易受視角、光照、背景、形變、部分遮擋等的影響,所以想要做好這一塊,現(xiàn)實工程難度仍然不小。深度學習在圖像分類中的應用主要是以卷積神經網絡為代表,主要通過有監(jiān)督的方法讓計算機去學習如何表達某張圖片的特征。目前計算機視覺領域大多優(yōu)秀的深度學習算法都需要大量的訓練數(shù)據(jù)集,其中最為出名的便是ImageNet。圖像分類在許多領域都有著廣泛的應用。如安防領域的人臉識別和智能視頻分析、交通領域的交通場景識別、互聯(lián)網領域基于內容的圖像檢索和相冊自動歸類、醫(yī)學領域的圖像識別等。(2)目標檢測目標檢測:是用算法判斷圖片中是不是包含特定目標,并且在圖片中標記出它的位置,通常用邊框或紅色方框把目標圈起來。例如,查找圖片中有沒有馬,如果找到了,就把它框起來。目標檢測和圖像分類不一樣,目標檢測側重于目標的搜索,檢測的目標必須要有固定的形狀和輪廓。圖像分類可以是任意的對象,這個對象可能是物體,也可能是一些屬性或者場景。(2)目標檢測目標檢測分為:傳統(tǒng)目標檢測與識別方法和基于深度學習的目標檢測與識別方法。傳統(tǒng)目標檢測與識別方法分為3個步驟:①使用不同大小的滑動窗口框住待測圖像中的某一部分作為候選區(qū)域,完成定位;②提取該候選區(qū)域相關的視覺特征;③使用訓練完成的分類器進行分類,如常用的支持向量機模型等?;谏疃葘W習的目標檢測與識別方法可表示為圖像的特征提取與目標識別定位,用到的深度學習模型是卷積神經網絡。2012年,利用卷積神經網絡AlexNet,在ImageNet上打敗了所有傳統(tǒng)方法的團隊,CNN因此成為計算機視覺領域最為重要的工具之一,推動機器視覺研究進入了一個新的階段,隨后基于CNN的目標檢測與識別方法也逐漸取代了傳統(tǒng)方法。
(3)圖像分割圖像分割是將圖像細分為多個圖像子區(qū)域的過程,使得圖像更加易于理解和分析。圖像分割主要用于定位物體的邊界,即將每個像素進行分類,使得同一物體具有共同的類別屬性,即可展現(xiàn)出共同的視覺特性。分割時一般會使用某種屬性(顏色、亮度、紋理等)的相似度量方法,使得同一個子區(qū)域中的像素在此方法的計算下都很相似,而不同區(qū)域則差異很大,即:類內差異小,類間差異大。圖像分割應用領域也非常廣泛,包括醫(yī)學影像、自動駕駛、交通控制、人臉識別、指紋識別等。根據(jù)不同的分割粒度,圖像分割算法有:物體分割、語義分割和實例分割。
1)物體分割1)物體分割首先,面對一個場景時,人類常常會自動地注意到某些他們感興趣的區(qū)域,而選擇性地忽略不感興趣的區(qū)域,感興趣區(qū)域(ROI)也常稱為顯著性區(qū)域,這就是所謂視覺注意機制(VA)。VA的作用:應用兩個場景,一個是廣告投放,在廣告圖片中,要考慮受眾更關心的是什么,怎樣做出更好的廣告。另一個是安防領域,如行人檢測、人臉識別、異常舉動檢測等。其實,目標檢測也是VA的一部分,只不過現(xiàn)在不僅僅要求給出一個矩形框,還需要更加細的信息。物體分割初級的操作就是將圖像的前景和背景進行分割,前景一般包含大家關心的物體,
2)語義分割物體分割中是將圖像中的主體與背景分離開來,常常利用的是灰度值的不連續(xù)和相似的性質,不需要區(qū)分主體間的差別。而語義分割主要是在像素級別進行分類,同類別的分為一類,比如某個像素是貓、狗、人、車等,它比目標檢測預測的邊框更加精細??梢院唵螌⒄Z義分割任務理解為:用一種顏色代表一個類別,用另一種顏色代表另外一個類別,將所有類別用不同顏色代表,然后對原始圖片對應大小的白紙上進行涂色操作(類別當然就不能有白色代表),盡量讓涂的結果與原始圖片表達的類別接近。
3)
實例分割語義分割可以將不同類別的物體區(qū)別開來,而實例分割則是在語義分割的基礎上,進一步區(qū)分出同一類不同的個體。
(4)目標定位與跟蹤圖像分類解決了“是什么”的問題,如果還想知道圖像中的目標具體在圖像的什么位置,就需要用到目標定位技術。目標定位的結果通常是以包圍盒的形式返回的。目標跟蹤是指在給定場景中跟蹤感興趣的具體對象或多個對象的過程。簡單來說,給出目標在跟蹤視頻第一幀中的初始狀態(tài)(如位置、尺寸),自動估計目標物體在后續(xù)幀中的狀態(tài)。
6.2.3計算機視覺系統(tǒng)計算機視覺系統(tǒng)是為完成視覺任務而構造的計算機系統(tǒng),它由多個功能模塊按照一定的結構組成,各模塊之間要互相聯(lián)系以保證根據(jù)一定的流程實現(xiàn)系統(tǒng)功能。計算機視覺系統(tǒng)根據(jù)系統(tǒng)結構的不同可分成許多種,不同系統(tǒng)結構的功能模塊組成不同,采用的處理技術也不相同,但有些功能模塊卻幾乎是每個計算機視覺系統(tǒng)都需要具備的。1.圖像采集計算機視覺是從獲取客觀世界的圖像開始的。為采集圖像,需要使用一定的采集裝置或設備,這里的裝置和設備可以是各種光敏攝像機,包括遙感設備、X射線斷層攝影儀、雷達、超聲波接收器等。6.2.3計算機視覺系統(tǒng)2.預處理采集圖像后,為更有效地獲取其中的信息,提高后續(xù)加工的效率,常需對圖像進行一定的預處理。一方面,圖像在采集中有可能發(fā)生幾何失真,為恢復場景和圖像的空間對應關系,需要進行坐標變換。另一方面,對圖像的幅度也需要進行一定的調整,以改善圖像的視覺質量。另外,圖像采集中還會受到噪聲等干擾,需要消除它們的影響。所以,對圖像預處理常是必不可缺的。3.特征檢測特征檢測也稱基元檢測,是指圖像中有比較顯著特點的基本單元,一般常說的基元主要有:邊緣、角點、直線段、圓、孔、橢圓以及其他興趣點等(也包括它們的一些結合體)。對這些基元的檢測是常見的工作。6.2.3計算機視覺系統(tǒng)4.圖像分割圖像分割指將感興趣的目標區(qū)域從圖像中分離并提取出來,也可看作是基元檢測的一種推廣。要將目標從圖像中分割出來,有兩類方法。一類方法基于目標的輪廓,即考慮該目標與圖像其他部分的界限,如果能確定目標輪廓,就可將目標與圖像中的其他部分區(qū)分開。另一類方法是基于區(qū)域的,即考慮所有屬于目標區(qū)域的像素(包括邊界和內容像素),如果能確定出每個屬于目標的像素,就可獲得完整的目標。5.圖像的高級處理高級處理有理解圖像內容的含義,是計算機視覺中的高階處理,主要是在圖像分割的基礎上再對分割出的圖像塊進行理解,這一階段采用模式識別或機器學習方法,如利用卷積神經網絡等算法,訓練出合理的模型,對目標進行識別、分類等操作。
拓展閱讀
智能布匹質量檢測系統(tǒng)在布匹生產過程中,像布匹質量檢測這種有高度重復性和智能性的工作通常只能靠人工檢測來完成,給企業(yè)增加巨大的人工成本和管理成本的同時,卻仍然不能保證100%的檢驗合格率。采用機器視覺的自動識別技術,在大批量的布匹檢測中,可以大大提高生產效率和生產的自動化程度。1.特征提取辨識一般布匹檢測(自動識別)先利用高清晰度、高速攝像鏡頭拍攝標準圖像,在此基礎上設定一定標準;然后拍攝被檢測的圖像,再將兩者進行對比。2.色質檢測從彩色CCD相機中獲取的圖像都是RGB圖像。每一個像素都由RGB三個成分組成,以表示RGB色彩空間中的一個點。需要將RGB像素轉換成為另一種顏色空間智能布匹質量檢測系統(tǒng)3.Blob檢測Blob分析是對圖像中相同像素的連通域進行分析,該連通域稱為Blob。Blob分析工具可以從背景中分離出目標,并可計算出目標的數(shù)量、位置、形狀、方向和大小,還可以提供相關斑點間的拓撲結構。在處理過程中不是采用單個的像素逐一分析,而是對圖形的行進行操作。圖像的每一行都用游程長度編碼(RLE)來表示相鄰的目標范圍。這種算法與基于像素的算法相比,大大提高了處理速度。4.結果處理和控制應用程序把返回的結果存入數(shù)據(jù)庫或用戶指定的位置,并根據(jù)結果控制機械部分做相應的運動。根據(jù)識別的結果,存入數(shù)據(jù)庫進行信息管理。以后可以隨時對信息進行檢索查詢,管理者可以獲知某段時間內流水線的忙閑,為下一步的工作做出安排;可以獲知布匹的質量情況等。
6.3人臉識別人臉與人體的其他生物特征(指紋、虹膜等)一樣與生俱來,它的唯一性和不易被復制的良好特性為身份鑒別提供了必要的前提,與其他類型的生物識別比較,人臉識別用戶不需要和設備直接接觸就能獲取人臉圖像,也不需要人專門配合采集設備,幾乎可以在無意識的狀態(tài)下就可獲取人臉圖像,除此之外,還有操作簡單、結果直觀、隱蔽性好等特點。因此,人臉識別系統(tǒng)廣泛應用于信息安全、電子商務、基礎設施、政府、軍隊、銀行等相關領域。
6.3.1人臉識別概述人臉識別是基于人的臉部特征信息進行身份識別的一種生物識別技術。簡單來說就是通過人的面部照片實現(xiàn)身份認證的技術。這里的照片既可以來源于相機拍照,也可以來源于視頻截圖;既可以是配合狀態(tài)下的正面照(如護照像),也可以是非配合狀態(tài)下的側面照或遠景照(如監(jiān)控錄像)。人臉識別可細分為兩種認證方式,一種是身份確認,一種是身份辨認。在身份確認中,計算機需要對兩張人臉照片進行對比,以判斷是否為同一個人。這一認證方式通常用于信息安全領域,如海關身份認證、ATM刷臉取款等。在身份辨認中,給定目標人的一張面部照片,計算機需要在一個龐大的照片數(shù)據(jù)庫中進行搜索,找到和給定照片最相近的照片,從而判斷出目標人的身份。這一認證方式一般用于公共安全領域,如刑偵領域的嫌疑人排查。
6.3.1人臉識別概述
人臉識別系統(tǒng)的研究始于20世紀60年代,80年代后隨著計算機技術和光學成像技術的發(fā)展得到提高,而真正進入初級的應用階段則在20世紀90年代后期,并且以美國、德國和日本的技術實現(xiàn)為主;人臉識別系統(tǒng)成功的關鍵在于是否擁有尖端的核心算法,并使識別結果具有實用化的識別率和識別速度;“人臉識別系統(tǒng)”集成了人工智能、機器識別、機器學習、模型理論、專家系統(tǒng)、視頻圖像處理等多種專業(yè)技術,同時需結合中間值處理的理論與實現(xiàn),是生物特征識別的最新應用。
人臉識別的優(yōu)勢人臉識別的優(yōu)勢在于其自然性和不被被測個體察覺的特點。所謂自然性,是指該識別方式同人類(甚至其他生物)進行個體識別時所利用的生物特征相同。例如人臉識別,人類也是通過觀察比較人臉區(qū)分和確認身份的,另外具有自然性的識別還有語音識別、體形識別等。不被察覺的特點對于一種識別方法也很重要,這會使該識別方法不令人反感,并且因為不容易引起人的注意而不容易被欺騙。人臉識別具有這方面的特點,它完全利用可見光獲取人臉圖像信息,而不同于指紋識別或者虹膜識別,需要利用電子壓力傳感器采集指紋,或者利用紅外線采集虹膜圖像,這些特殊的采集方式很容易被人察覺,從而更有可能被偽裝欺騙。
人臉識別的困難人臉識別的困難主要是人臉作為生物特征的特點所帶來的。在視覺特點上,首先,不同個體之間的區(qū)別不大,所有的人臉的結構都相似,甚至人臉器官的結構外形都很相似。這樣的特點對于利用人臉進行定位是有利的,但是對于利用人臉區(qū)分人類個體是不利的。其次,人臉的外形很不穩(wěn)定,人可以通過臉部的變化產生很多表情,而在不同觀察角度,人臉的視覺圖像也相差很大,另外,人臉識別還受光照條件(例如白天和夜晚,室內和室外等)、人臉的很多遮蓋物(例如口罩、墨鏡、頭發(fā)、胡須等)、年齡等多方面因素的影響。
6.3.2人臉識別系統(tǒng)人臉識別系統(tǒng)主要包括:人臉圖像采集及檢測、人臉圖像預處理、人臉圖像特征提取以及匹配與識別四個部分。人臉圖像采集:不同的人臉圖像都能通過攝像鏡頭采集下來,比如靜態(tài)圖像、動態(tài)圖像、不同的位置、不同表情等方面都可以得到很好的采集。當用戶在采集設備的拍攝范圍內時,采集設備會自動搜索并拍攝用戶的人臉圖像。人臉檢測:人臉檢測在實際中主要用于人臉識別的預處理,即在圖像中準確標定出人臉的位置和大小。人臉圖像中包含的模式特征十分豐富,如直方圖特征、顏色特征、模板特征、結構特征等。人臉檢測就是把這其中有用的信息挑出來,并利用這些特征實現(xiàn)人臉檢測。1.人臉圖像采集及檢測人臉識別系統(tǒng)2.人臉圖像預處理3.人臉圖像特征提取人臉圖像預處理:對于人臉的圖像預處理是基于人臉檢測結果,對圖像進行處理并最終服務于特征提取的過程。系統(tǒng)獲取的原始圖像由于受到各種條件的限制和隨機干擾,往往不能直接使用,必須在圖像處理的早期階段對它進行灰度校正、噪聲過濾等圖像預處理人臉識別系統(tǒng)可使用的特征通常分為視覺特征、像素統(tǒng)計特征、人臉圖像變換系數(shù)特征、人臉圖像代數(shù)特征等。人臉特征提取就是針對人臉的某些特征進行的。人臉特征提取,也稱人臉表征,它是對人臉進行特征建模的過程。人臉特征提取的方法歸納起來分為兩大類:一種是基于知識的表征方法;另外一種是基于代數(shù)特征或統(tǒng)計學習的表征方法。
4.人臉圖像匹配與識別人臉圖像匹配與識別:提取的人臉圖像的特征數(shù)據(jù)與數(shù)據(jù)庫中存儲的特征模板進行搜索匹配,通過設定一個閾值,當相似度超過這一閾值,則把匹配得到的結果輸出。人臉識別就是將待識別的人臉特征與已得到的人臉特征模板進行比較,根據(jù)相似程度對人臉的身份信息進行判斷。這一過程又分為兩類:一類是確認,是一對一進行圖像比較的過程,另一類是辨認,是一對多進行圖像匹配對比的過程。
6.3.3人臉識別的應用1.人臉識別門禁2.身份辨識可在機場、體育場、超級市場等公共場所對人群進行監(jiān)視,例如在機場安裝監(jiān)視系統(tǒng)以防止恐怖分子登機。如銀行的自動提款機,用戶卡片和密碼被盜,就會被他人冒取現(xiàn)金。同時應用人臉識別就會避免這種情況的發(fā)生。通過查詢目標人像數(shù)據(jù)尋找數(shù)據(jù)庫中是否存在重點人口基本信息。例如在機場或車站安裝此系統(tǒng)以監(jiān)測重點人員。人臉識別門禁通過人臉識別辨識試圖進入者的身份。把人臉識別技術結合成熟的ID卡和指紋識別技術而推出的安全實用的門禁產品,可實現(xiàn)人臉、指紋和ID卡信息的采集和生物信息識別及門禁控制內外分離,實用性高、安全可靠。
3.網絡應用利用人臉識別輔助信用卡網絡支付,以防止非信用卡的擁有者使用信用卡等。如計算機登錄、電子政務和電子商務。在電子商務中交易全部在網上完成,電子政務中的很多審批流程也都搬到了網上。而當前,交易或者審批的授權都是靠密碼來實現(xiàn)。如果密碼被盜,就無法保證安全。如果使用生物特征,就可以做到當事人在網上的數(shù)字身份和真實身份統(tǒng)一。從而大大增加電子商務和電子政務系統(tǒng)的可靠性。
拓展閱讀
人臉識別的相關法律法規(guī)隨著信息技術飛速發(fā)展,人臉識別逐步滲透到人們生活的方方面面。人臉識別技術在諸多領域發(fā)揮著巨大作用的同時,也存在被濫用的情況,最高人民法院發(fā)布司法解釋,對人臉識別進行規(guī)范。2021年7月28日,《最高人民法院關于審理使用人臉識別技術處理個人信息相關民事案件適用法律若干問題的規(guī)定》正式對外發(fā)布?!兑?guī)定》明確:“物業(yè)服務企業(yè)或者其他建筑物管理人以人臉識別作為業(yè)主或者物業(yè)使用人出入物業(yè)服務區(qū)域的唯一驗證方式,不同意的業(yè)主或者物業(yè)使用人請求其提供其他合理驗證方式的,人民法院依法予以支持?!备鶕?jù)這一規(guī)定,小區(qū)物業(yè)在使用人臉識別門禁系統(tǒng)錄入人臉信息時,應當征得業(yè)主或者物業(yè)使用人的同意,對于不同意的業(yè)主或者物業(yè)使用人,小區(qū)物業(yè)應當提供替代性驗證方式,不得侵害業(yè)主或物業(yè)使用人的人格權益和其他合法權益。
6.4無人駕駛無人駕駛是指通過軟件算法代替人類操作過程使交通工具能夠自行完成行駛過程的整套流程。在現(xiàn)實生活中已經得到了應用的無人駕駛汽車、無人機。本節(jié)要介紹的是無人駕駛汽車。無人駕駛汽車也叫自動駕駛汽車、智能汽車,它是利用車載傳感器來感知車輛周圍的環(huán)境,并根據(jù)感知獲得道路、車輛位置和障礙物信息,控制車輛的轉向和速度,從而使車輛能夠安全、可靠地在道路上行駛,具體包括感知、定位、決策、控制等多個關聯(lián)子系統(tǒng)。
6.4.1無人駕駛分級美國汽車工程師學會
(SAE)定義了6個無人駕駛等級,從
0級(完全手動)到
5級(完全自動)。這些無人駕駛等級準則已經被美國交通部采納。0級(無自動駕駛)在當今的道路上行駛的大多數(shù)汽車都是
0級:手動控制。由人來完成"動態(tài)駕駛任務",盡管可能有相應的系統(tǒng)來輔助駕駛員,例如緊急制動系統(tǒng),但從技術方面來講,該輔助系統(tǒng)并未主動"驅動"車輛,所以算不上自動化駕駛。L1級(輔助駕駛)自動駕駛系統(tǒng)對方向盤和加減速中的一項操作提供駕駛支持,其他的駕駛動作都由人類駕駛員進行操作。L2(半自動駕駛)車輛通過攝像頭、雷達、激光傳感器等設備獲取道路及周邊交通信息,自動駕駛系統(tǒng)會自行對方向盤和加減速中的多項操作提供駕駛支援,在駕駛者收到警告卻未能及時采取相應行動時,自動駕駛系統(tǒng)能夠自動進行干預,其他操作交由駕駛員完成,實現(xiàn)人機共駕,但車輛不允許駕駛員的雙手脫離方向盤。無人駕駛分級L3(有條件自動駕駛)由自動駕駛系統(tǒng)完成駕駛操作,根據(jù)路況條件,在必要時發(fā)出系統(tǒng)請求,必須交由駕駛員駕駛。L4(高度自動駕駛)由自動駕駛系統(tǒng)完成所有駕駛操作。根據(jù)系統(tǒng)請求,駕駛員可以不控制車輛。L5(完全自動駕駛)自動駕駛的理想形態(tài),乘客只需提供目的地,無論任何路況,任何天氣,車輛均能夠實現(xiàn)自動駕駛。這種自動化水平允許乘客在車中進行計算機工作、休息以及娛樂活動等,人在任何時候都不需要對車輛進行監(jiān)控。
2.我國《汽車駕駛自動化分級》我國《汽車駕駛自動化分級》將駕駛自動化分為為6個等級,從0級應急輔助到5級完全自動駕駛。(1)L0級(應急輔助)L0級(應急輔助)系統(tǒng)不能持續(xù)執(zhí)行動態(tài)駕駛任務中的車輛橫向或縱向運動控制,但具備持續(xù)執(zhí)行動態(tài)駕駛任務中的部分目標和事件探測與響應能力。在這一階段中自動駕駛系統(tǒng)可以感知環(huán)境,并提供信息或短暫介入車輛控制以輔助駕駛員安全駕駛車輛,如熟知的車道偏離預警系統(tǒng)、自動緊急制動系統(tǒng)等在部分駕駛場景下可以輔助安全駕駛的功能都可以歸類到L0級中,在0級自動化中,車輛控制的主體為駕駛員,自動駕駛系統(tǒng)僅提供部分的駕駛輔助。我國《汽車駕駛自動化分級》(2)L1級(部分駕駛輔助)在這一階段中自動駕駛系統(tǒng)僅可以獨立完成車輛在某一場景中某一方向上的控制,如車道居中控制、車輛自適應巡航等功能都可以歸類到L1級中。在這一階段駕駛員與自動駕駛系統(tǒng)可以同時執(zhí)行車輛的駕駛任務,但是在自動駕駛系統(tǒng)執(zhí)行自動駕駛任務的過程中,駕駛員需要充當安全員的角色(3)L2級(組合駕駛輔助)在這一階段中自動駕駛系統(tǒng)可以完成更多的駕駛場景,在L2級中,自動駕駛系統(tǒng)可以完成車輛橫向或縱向運動控制中所有的駕駛場景,和L1級相同的是,在這一階段駕駛員與自動駕駛系統(tǒng)可以同時執(zhí)行車輛的駕駛任務,駕駛員需要充當安全員的角色我國《汽車駕駛自動化分級》(4)L3級(有條件自動駕駛)在這一階段中自動駕駛系統(tǒng)已經可以獨立完成部分駕駛場景中的自動駕駛的功能,駕駛員只需要完成安全員的角色,監(jiān)管自動駕駛系統(tǒng)的駕駛行為。自動駕駛系統(tǒng)只需要在遇到不能完成駕駛行為的場景或自動駕駛系統(tǒng)功能失效時向安全員提出請求讓其介入駕駛行為,在請求安全員介入駕駛行為過程中,自動駕駛系統(tǒng)還是可以獨立完成一段時間的駕駛,以便讓安全員做好接管的準備。(5)L4級(高度自動駕駛)在這一階段中自動駕駛系統(tǒng)可以獨立完成規(guī)定的駕駛場景中的自動駕駛功能,駕駛員依舊需要充當安全員的角色,監(jiān)管自動駕駛系統(tǒng)的駕駛行為。自動駕駛系統(tǒng)在遇到不能完成駕駛行為的場景或自動駕駛系統(tǒng)功能失效時,會向安全員提出請求讓其介入駕駛行為,如果安全員對請求不做響應、安全員不滿足駕駛車輛能力或安全員要求自動駕駛系統(tǒng)控制車輛到最小風險狀態(tài)時,自動駕駛系統(tǒng)可以自行將車輛控制到最小風險狀態(tài)下。我國《汽車駕駛自動化分級》(6)L5級(完全自動駕駛)在這一階段自動駕駛系統(tǒng)可以獨立完成所有駕駛場景中的自動駕駛功能,駕駛員可以充當安全員的角色,監(jiān)管自動駕駛系統(tǒng)的駕駛行為。自動駕駛系統(tǒng)已經可以保障車內乘客的安全,在遇到不能完成駕駛行為的場景或自動駕駛系統(tǒng)功能失效時,會向安全員提出請求讓其介入駕駛行為,如果安全員對請求不做響應或安全員要求自動駕駛系統(tǒng)控制車輛到最小風險狀態(tài)時時,自動駕駛系統(tǒng)可以自行將車輛控制到最小風險狀態(tài)下??偟膩碚f,L0級別系統(tǒng)僅提供預警類功能,車輛控制完全由駕駛員掌控,因此屬于輔助預警。L1~L2級別系統(tǒng)可接管少部分的、不連續(xù)的車輛控制任務,屬于高級別輔助駕駛范圍(簡稱“ADAS”或“輔助駕駛”)。而L3~L5級別系統(tǒng)可以在激活后的一定情況下執(zhí)行連續(xù)性駕駛任務,因此屬于自動駕駛范圍。但L5級別的完全自動駕駛由于技術、法規(guī)、政策、標準和道德倫理等問題,其短時間內的可行性較低,因此,目前L4為可行性較高且落地性較強的高級別自動駕駛等級。6.4.2自動駕駛發(fā)展歷史2009年,谷歌(Google)公司進軍智能駕駛領域,并聯(lián)合斯坦福大學進行智能駕駛的開發(fā)與研究。2009年,Prius完成了100英里的無人接管自動駕駛任務,成為谷歌公司自動駕駛的里程碑;2010年,新聞界首次對谷歌公司自動駕駛進行了相關報道,當時,谷歌公司的無人駕駛汽車已經完成了14萬英里的測試里程;2011年,谷歌公司在政府游說專家的協(xié)助下使內華達州成為美國第一個允許自動駕駛汽車上路測試的州。隨著技術的不斷更新,2012年,谷歌公司第二代無人駕駛汽車Lexus誕生。與第一代相比,Lexus的空間更大,續(xù)航里程更長。當年,Lexus累計完成了超過30萬英里的測試里程。2013年,谷歌公司確立了開發(fā)完全自動駕駛的技術路線。隨后一年,谷歌公司借鑒Podcar原型,設計出第三代無人駕駛汽車——“螢火蟲(Firefly)”,該車進一步增強了無人駕駛過程中的人機交互體驗。自動駕駛發(fā)展歷史2015年是國外自動駕駛事件頻出的一年。2015年初,在美國拉斯維加斯舉辦的國際消費電子展(簡稱CES)上,梅賽德斯-奔馳(Mercedes-Benz)發(fā)布的無人駕駛豪華運動概念車F015驚艷亮相。10月特斯拉發(fā)布自動駕駛系統(tǒng)(Autopilot),使得“未來已來”一時成為熱議詞匯。在國外無人駕駛風起云涌的2015年,中國也留下具有時代意義的無人駕駛大事件。2015年8月,李德毅院士團隊與宇通汽車集團合作研發(fā)的無人駕駛大型客車,在全開放環(huán)境的鄭開大道上行駛33km,完成跟車行駛、定點停靠等試驗科目,全程無人工干預,實現(xiàn)了中國商用車企業(yè)在自動駕駛領域零的突破。2015年12月,百度公司宣布其與寶馬公司合作的無人駕駛汽車已經在北京五環(huán)順利完成自動駕駛測試,時速達100km/h。這三件事情讓人們意識到,在無人駕駛的高精尖領域,中國并沒有缺席。
自動駕駛發(fā)展歷史2016年上半年,接連發(fā)生多起無人駕駛事故度過了2016年上半年的冷卻期,無人駕駛在8月迎來了新的曙光。第一起事故發(fā)生于2016年2月,谷歌公司的無人駕駛汽車正在以自動駕駛模式進行測試,一輛公交車從其后方駛近,由于判斷失誤,兩車發(fā)生輕微碰撞。隨后,谷歌公司發(fā)布聲明,解釋了事故原因,并承認谷歌公司在事故中負有“一定的責任”。由于事故并未造成嚴重傷亡,事件很快平息下來。但在當年5月發(fā)生的致命車禍事件卻為自動駕駛蒙上了一層陰霾。當時,一輛特斯拉汽車正在以Autopilot模式高速運行,但駕駛員卻在觀看視頻,并未關注周圍路況。車輛的Autopilot系統(tǒng)沒有檢測到一輛卡車正在橫穿馬路,兩車相撞,特斯拉駕駛員當場身亡。悲劇發(fā)生后,特斯拉發(fā)布聲明,表示由于光線問題,自動駕駛模式未發(fā)現(xiàn)卡車的白色面,因此未啟動制動功能。同時聲稱駕駛員“需要保持對車輛的控制,而且還要對行駛的車輛負責”,這場事故一時間引起熱議。線上租車服務公司Uber高調宣布以6.8億美元收購自動駕駛技術公司Otto,雙方聯(lián)手致力于打造安全的無人駕駛貨運體系。經歷了2016年的悲喜交加,在2017年,創(chuàng)業(yè)公司紛紛入局,無人駕駛迎來了發(fā)展的小高峰,并表露出商業(yè)化跡象。2017年4月,英特爾公司以153億美元收購Mobileye公司。這次收購被業(yè)內稱為“眼睛與大腦的融合”,它讓英特爾公司如虎添翼,增加了其與高通、英偉達的競爭資本。與此同時,福特公司錦上添花。早在2016年,福特公司就推出了“2021自動駕駛宣言”——在2021年實現(xiàn)無人駕駛的商業(yè)化運營,面向大眾推出自動駕駛服務,占領市場份額。2017年7月百度AI技術首次公開,智能駕駛、人機交互等技術逐一亮相。其中,Apollo開放平臺專注于無人駕駛技術,這是全球范圍內自動駕駛技術的第一次系統(tǒng)級開放,也是全球自動駕駛一個重要的里程碑。
6.4.3自動駕駛原理與實現(xiàn)1.自動駕駛系統(tǒng)結構自動駕駛汽車使用視頻攝像頭、雷達傳感器,以及激光雷達測距來了解周圍的交通狀況,并通過一個詳盡的地圖(通過有人駕駛汽車采集的地圖)對前方的道路進行導航。1)激光雷達車頂?shù)?水桶"形裝置是自動駕駛汽車的激光雷達,它能對半徑60米的周圍環(huán)境進行掃描,并將結果以3D地圖的方式呈現(xiàn)出來,給予計算機最初步的判斷依據(jù)。自動駕駛原理與實現(xiàn)2)視頻攝像頭自動駕駛汽車前置攝像頭,用于識別交通信號燈,并在車載電腦的輔助下辨別移動的物體,比如前方車輛、自行車或是行人。3)位置傳感器圖中標出的微型傳感器實際上是自動駕駛汽車的位置傳感器,它通過測定汽車的橫向移動來幫助電腦給汽車定位,確定它在馬路上的正確位置。4)前后雷達自動駕駛汽車的前后雷達用于測量汽車與前后左右各個物體間的距離。圖中的無人駕車汽車上分別安裝了4個雷達傳感器。5)主控電腦自動駕駛汽車最重要的主控電腦被安排在后車廂,這里除了用于運算外,還是一個綜合資料庫,例如精確標明道路的限速標準以及出入口位置等,這套核心裝備將負責汽車的行駛路線、方式的判斷和執(zhí)行。
2.智能駕駛系統(tǒng)自動駕駛系統(tǒng)包含自動駕駛中的各個子系統(tǒng)以及子系統(tǒng)中的數(shù)據(jù)流和控制流的流程關系,具體來說,重要的核心子系統(tǒng)包括環(huán)境感知、車輛定位、路徑規(guī)劃、車輛控制4部分。(1)環(huán)境感知環(huán)境感知通過各類傳感器采集周邊和自身的信息,實時發(fā)送給處理器,形成對周邊環(huán)境的認知模型,而且需要保證在行駛過程中對環(huán)境信息進行獲取并處理過程的連續(xù)性和實時性。(2)車輛定位車輛定位是利用車輛的硬件測量結果,結合地圖軟件輸入比對得到車輛位置的過程。高精度地圖對無人駕駛至關重要。百度在中國繪制的高精度地圖達到了厘米級精度。
2.智能駕駛系統(tǒng)(3)路徑規(guī)劃路徑規(guī)劃是解決無人車從起點到終點,走怎樣的路徑的問題。規(guī)劃的總體要求是不要撞到障礙物,保證自身的安全和可能相遇的車輛和行人的安全。在此基礎上,再去依次追求下列目標:車體平穩(wěn)、乘坐舒適、尋求路徑最短等。(4)車輛控制車輛控制技術是實現(xiàn)自動駕駛的關鍵環(huán)節(jié),通過精確的車輛控制技術,控制車輛的節(jié)氣門、制動和轉向等駕駛動作,調節(jié)車輛行駛速度、位置和方向等狀態(tài),使自動駕駛車輛按照規(guī)劃的軌跡運行,并保證汽車的安全性、操縱性和穩(wěn)定性。拓展閱讀國內首個無人駕駛商業(yè)化試點啟動2021年11月25日,北京市高級別自動駕駛示范區(qū)工作辦公室在亦莊創(chuàng)新發(fā)布活動中,公布北京正式開放國內首個自動駕駛出行服務商業(yè)化試點,并宣布配套管理政策——《北京市智能網聯(lián)汽車政策先行區(qū)自動駕駛出行服務商業(yè)化試點管理實施細則(試行)》同步出臺。百度和小馬智行成為首批獲許開展商業(yè)化試點服務的企業(yè),現(xiàn)階段將在經開區(qū)60平方公里范圍,投入不超過100輛自動駕駛車輛開展商業(yè)化試點服務。
6.5文字識別計算機文字識別,又稱光學字符識別(OpticalCharacterRecognition,OCR)),是計算機視覺中最常用的方向之一,目的是讓計算機跟人一樣能夠看圖識字。OCR識別不僅可以用于印刷文字、票據(jù)、身份證、銀行卡等代替用戶輸入的場景,還能用于反作弊、街景標注、視頻字幕識別、新聞標題識別、教育行業(yè)等多種場景。
6.5.1OCR的概念OCR(光學字符識別)是指電子設備(例如掃描儀或數(shù)字照相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程。即,針對印刷體字符,采用光學的方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯加工的技術。目前,百度、阿里、科大訊飛、華為等人工智能開放平臺都提供了OCR文字識別服務。其主要應用有通用文字識別與垂直場景文字識別。通用文字識別:通用文字識別支持多場景下整體文字的檢測識別,支持任意場景、復雜背景、任意版面識別,支持10多種語言識別。在圖片文字清晰、小幅度傾斜、無明顯背光等情況下,目前,各大平臺的識別率高達90%以上。語種支持:中、英、日、韓、葡、德、法、意、西、俄等語言。垂直場景文字識別:在垂直場景文字識別中,只需要提供身份證、銀行卡、駕駛證、行駛證、車輛、營業(yè)執(zhí)照、彩票、發(fā)票、打車票等即可在垂直場景下提供文字識別服務。
6.5.2OCR的發(fā)展歷程OCR的概念是在1929年由德國科學家Tausheck最先提出來的,后來美國科學家Handel也提出了利用技術對文字進行識別的想法。早在60、70年代,世界各國就開始有OCR的研究,而研究的初期,多以文字的識別方法研究為主,且識別的文字僅為0至9的數(shù)字。中國在OCR技術方面的研究,在70年代才開始對數(shù)字、英文字母及符號的識別進行研究,70年代末開始進行漢字識別的研究,到1986年,我國提出“863”高新科技研究計劃,漢字識別的研究進入一個實質性的階段,清華大學和中科院分別開發(fā)研究,相繼推出了中文OCR產品。進入20世紀90年代以后,隨著平臺式掃描儀的廣泛應用,以及我國信息自動化和辦公自動化的普及,大大推動了OCR技術的進一步發(fā)展,使OCR的識別正確率、識別速度滿足了廣大用戶的要求。
6.5.3OCR識別系統(tǒng)一個OCR識別系統(tǒng),從影像到結果輸出,須經過影像輸入、影像前處理、文字特征抽取、比對識別、最后經人工校正將認錯的文字更正,將結果輸出。1.影像輸入欲經過OCR處理的標的物須透過光學儀器,如影像掃描儀、傳真機或任何攝影器材,將影像轉入計算機。2.影像預處理影像預處理是OCR系統(tǒng)中,須解決問題最多的一個模塊。影像須先將圖片、表格及文字區(qū)域分離出來,甚至可將文章的編排方向、文章的提綱及內容主體區(qū)分開,而文字的大小及文字的字體亦可如原始文件一樣的判斷出來。1)二值化:使圖像只包含黑色的前景信息和白色的背景信息,提升識別處理的效率和精確度。2)圖像降噪:根據(jù)噪聲的特征對待識別圖像進行去噪處理,提升識別處理的精確度。3)傾斜校正:在對圖像中印刷體字符進行識別處理前,就需要進行圖像方向檢測,并校正圖像方向。6.5.3OCR識別系統(tǒng)3.文字特征抽取單以識別率而言,特征抽取可說是
OCR的核心,用什么特征、怎么抽取,直接影響識別的好壞,也所以在OCR研究初期,特征抽取的研究報告特別的多。而特征可簡易的區(qū)分為兩類:一為統(tǒng)計的特征,如文字區(qū)域內的黑/白點數(shù)比,當文字區(qū)分成好幾個區(qū)域時,這一個個區(qū)域黑/白點數(shù)比之聯(lián)合,就成了空間的一個數(shù)值向量,在比對時,基本的數(shù)學理論就足以應付了。而另一類特征為結構的特征,如文字影像細線化后,取得字的筆劃端點、交叉點之數(shù)量及位置,或以筆劃段為特征,配合特殊的比對方法,進行比對,市面上的線上手寫輸入軟件的識別方法多以此種結構的方法為主。4.對比識別當輸入文字算完特征后,不管是用統(tǒng)計或結構的特征,都須有一比對數(shù)據(jù)庫或特征數(shù)據(jù)庫來進行比對,數(shù)據(jù)庫的內容應包含所有欲識別的字集文字,根據(jù)與輸入文字一樣的特征抽取方法所得的特征群組。對比識別過程,根據(jù)不同的特征特性,選用不同的數(shù)學距離函數(shù),較有名的比對方法有,歐式空間的比對方法、松弛比對法(Relaxation)、動態(tài)程序比對法6.5.3OCR識別系統(tǒng)5.人工校正由于OCR的識別率并無法達到百分之百。一個好的OCR軟件,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 河北省邯鄲市臨漳縣2026屆九年級上學期1月期末考試道德與法治試卷(無答案)
- 中學食堂衛(wèi)生管理制度
- 養(yǎng)老院興趣小組制度
- 養(yǎng)老院服務質量評估制度
- 企業(yè)人力資源規(guī)劃與發(fā)展制度
- 老年終末期尿失禁皮膚護理的循證多模式干預方案
- 家用電器安全用電知識普及手冊
- 工業(yè)危險廢物處理工操作水平測試考核試卷含答案
- 我國上市公司現(xiàn)金持有量影響因素剖析:理論、實證與策略
- 我國上市公司并購事件信息傳播與市場反應的聯(lián)動效應研究:基于多案例與實證分析
- 四年級數(shù)學除法三位數(shù)除以兩位數(shù)100道題 整除 帶答案
- 裝修公司施工進度管控流程詳解
- 村委會 工作總結
- 2025國家電網考試歷年真題庫附參考答案
- (正式版)DB33∕T 2059-2025 《城市公共交通服務評價指標》
- 2024-2025學年江蘇省南京市玄武區(qū)八年級上學期期末語文試題及答案
- 連鎖餐飲門店運營管理標準流程
- GB/T 755-2025旋轉電機定額與性能
- 鋼結構防護棚工程施工方案
- 2025低空經濟發(fā)展及關鍵技術概況報告
- 中國藥物性肝損傷診治指南(2024年版)解讀
評論
0/150
提交評論