書刊掃描儀是一種計算機外部大型儀器設備,通過捕獲圖像并將之轉換成計算機可以顯示、編輯、存儲和輸出的數(shù)字化輸入設備。對書籍、刊物、文本頁面、檔案、卷宗、圖紙、美術圖畫,甚至紡織品、標牌面板、印制板樣品等三維對象都可作為掃描對象,提取和將原始的線條、圖形、文字、照片、平面實物轉換成可以編輯及加入文件中的裝置。為更好的保護古籍、檔案、膠片、字畫、唐卡、古代絲綢等珍貴的文物在數(shù)字化過程中不受到損壞,書刊掃描儀是非接觸式掃描儀,采用線性CCD掃描方式掃描效果更好更清楚,方便用戶OCR識別,可以仿真復制。
書刊掃描儀利用線性CCD來捕捉RGB三色,影像通過鏡頭,然后再呈現(xiàn)到線性CCD傳感器上,光源無輻射無光帶移動。在書刊掃描儀中,通常采用線性CCD掃描、高清影像鏡頭掃描方式來模擬對象掃描,從而達到所想要的結果。在掃描過程中,線性CCD傳感器會點對點掃描按照紅、綠、藍點順序來捕捉原件中的信息來處理。當CCD處理器把這些信息轉換成正確的數(shù)據(jù)后,圖像由RGB值的全分辨率組成而不會出現(xiàn)線性型CCD那種缺少色彩通道的現(xiàn)象。
線性CCD傳感器可以將原件表面的光信號轉換為電信號。顏色過濾器為紅、綠、藍三個連續(xù)行CCD元素提供了一個非常高的色彩飽和度,這是典型的線性CCD掃描儀的特點。線性CCD尺寸更小,并且不容易產(chǎn)生噪點
掃描儀(scanner),是利用光電技術和數(shù)字處理技術,以掃描方式將圖形或圖像信息轉換為數(shù)字信號的裝置。
掃描儀通常被用于計算機外部儀器設備,通過捕獲圖像并將之轉換成計算機可以顯示、編輯、存儲和輸出的數(shù)字化輸入設備。掃描儀對照片、文本頁面、圖紙、美術圖畫、照相底片、菲林軟片,甚至紡織品、標牌面板、印制板樣品等三維對象都可作為掃描對象,提取和將原始的線條、圖形、文字、照片、平面實物轉換成可以編輯及加入文件中的裝置。掃描儀中屬于計算機輔助設計(CAD)中的輸入系統(tǒng),通過計算機軟件和計算機,輸出設備(激光打印機、激光繪圖機)接口,組成網(wǎng)印前計算機處理系統(tǒng),而適用于辦公自動化(OA),廣泛應用在標牌面板、印制板、印刷行業(yè)等。
滾筒式掃描儀一般使用光電倍增管PMT(Photo Multiplier Tube),因此它的密度范圍較大,而且能夠分辨出圖像更細微的層次變化;而平面掃描儀使用的則是光電耦合器件CCD(Charged-Coupled Device)故其掃描的密度范圍較小。所庫CCD(光電耦合器件)是一長條狀有感光元器件,在掃描過程中用來將圖像反射過來的光波轉化為數(shù)位信號,平面掃描儀使用的CCD大都是具有日光燈線性陳列的彩色圖像感光器。
CCD的優(yōu)勢在于,經(jīng)它掃描的圖像質量較高,具有一定的景深,能掃描凹凸不平的物體;溫度系數(shù)較低,對于一般的工作,周圍環(huán)境溫度的變化可以忽略不計。CCD的缺點有:由于組成CCD的數(shù)千個光電三極管的距離很近(微米級),在各光電三極管之間存在著明顯的漏電現(xiàn)象,各感光單元的信號產(chǎn)生的干擾降低了掃描儀的實際清晰度;由于采用了反射鏡、透鏡,會產(chǎn)生圖像色彩偏差和像差,需要用軟件校正;由于CCD需要一套精密的光學系統(tǒng),故掃描儀體積難以做得很小。
光學字符識別OCR(Optic Character Recognize)技術
OCR技術是在掃描技術的基礎上實現(xiàn)字符的自動識別。在獲得紙面上反射光信號后,由OCR內(nèi)部電路識別出字符,并將字符代碼輸入到計算機中。
預處理包括文字分離、正規(guī)化、平滑化、二值化和噪聲消除等。預處理的方法是將字符逐個分開,規(guī)范成大小一致的圖像,經(jīng)特殊處理和消除噪聲,為后續(xù)處理創(chuàng)造條件。
如果被識別的是正規(guī)的鉛印字符,一般可利用與基準圖像重合比較的方法來識別字符,不必抽取字符圖像中的特征。若是手寫字符,則需利用輪廓跟蹤法抽取相應的字符特征。抽取的特征是識別的依據(jù),如筆劃的長度、角度、端點、筆劃分布、四周特征等,它們以多維數(shù)據(jù)的形式表示。作為識別標準的學習圖形,也以多維矢量的形式存放在識別辭典中。
所謂判決就是將事先保存的基準字符特征與抽取的字符特征進行比較,直至找到相應的基準字符為止。
OCR技術在識別數(shù)字、英文字符及印刷體漢字方面已獲得成功。
除了鍵盤、鼠標器、掃描儀之外,還有觸摸屏、聲音識別器等輸入設備,在此就不作介紹了。