OCR是什么 ? OCR (Optical Character Recognition,光學(xué)字符識別)是指電子設(shè)備檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程。 而由于技術(shù)門檻相當(dāng)?shù)母撸茏鲋形腛CR識別的公司并不多,所以那些獨立開發(fā)者開發(fā)的OCR軟件,一般都是借用大公司的API接口。
OCR文字識別的解碼主要難點在于如何進行輸入輸出的對齊。 如上圖所示,如果每個1xn預(yù)測一個字符,那么可能會出現(xiàn)多個1xn預(yù)測同一個字符,這樣子得到的最終結(jié)果會產(chǎn)生重復(fù)字符。 所以需要設(shè)計針對文字識別的解碼算法來解決輸入輸出的對齊問題。
OCR (Optical Character Recognition,光學(xué)字符識別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;即,針對印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進一步編輯加工的技術(shù)。 如何除錯或利用輔助信息提高識別正確率,是OCR最重要的課題,ICR(Intelligent Character Recognition)的名詞也因此而產(chǎn)生。
OCR技術(shù)的興起便是從印刷體識別開始的,印刷體識別的成功為后來手寫體的發(fā)展奠定了堅實的基礎(chǔ)。 印刷體識別的主要流程大致分為以下幾個部分:圖像預(yù)處理;版面處理;圖像切分;特征提取及模型訓(xùn)練;識別后處理。