版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-印刷文本識(shí)別

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

簡(jiǎn)介定義

印刷文本識(shí)別是指印刷在紙張上的中文或英文文檔,用掃描儀或者其他光學(xué)方式輸入后得到灰度或者二值圖像,然后利用各種模式識(shí)別算法對(duì)文本圖像中的文字進(jìn)行定位,提取文字的特征,之后再與識(shí)別字典中的標(biāo)準(zhǔn)字符進(jìn)行匹配判斷,從而達(dá)到識(shí)別文檔內(nèi)容以及任意修改文檔內(nèi)容的目的。其實(shí)質(zhì)是讓計(jì)算機(jī)能夠“看懂”輸入文檔的內(nèi)容。1

研究背景隨著信息時(shí)代的來(lái)臨,各種各樣的信息充斥在人們周圍。信息存儲(chǔ)和傳播形式的多樣性加大了信息處理的難度,如何快速、有效的管理、組織數(shù)量日益膨脹的信息,以方便檢索、利用,是當(dāng)今社會(huì)越來(lái)越迫切的需求之一,

可視化的信息,尤其是各種文檔,一直是最重要的信息存儲(chǔ)和傳播形式之一,但是,傳統(tǒng)的紙質(zhì)文檔不利于長(zhǎng)期保存,且有不易檢索、傳播成本高且速度慢的缺點(diǎn),具有強(qiáng)大多媒體處理能力的計(jì)算機(jī)出現(xiàn)后,人們開始廣泛使用計(jì)算機(jī)處理和存儲(chǔ)各種文檔,并提出了無(wú)紙化辦公的概念,但是,由于紙質(zhì)文檔閱讀方便且閱讀成本低,不需要特殊閱讀設(shè)備,而且某些文檔(如合同,證書等)必須以紙質(zhì)形式保存,隨著打印機(jī)等計(jì)算機(jī)輸出設(shè)備的普及,紙質(zhì)文檔的數(shù)量不但沒有減少,反而以比從前更快的速度增加,為了能夠使用計(jì)算機(jī)管理、存儲(chǔ)、傳播和共享記錄在紙張上的信息,必須將紙質(zhì)文檔通過(guò)掃描或人工錄入等手段電子化,而靠人工將大量文本重新錄入計(jì)算機(jī)顯然是不現(xiàn)實(shí)的。目前,將紙質(zhì)文檔轉(zhuǎn)化成電子化的最簡(jiǎn)單手段,是通過(guò)掃描儀等計(jì)算機(jī)輸入設(shè)備將文檔以圖像格式輸入計(jì)算機(jī)系統(tǒng)。2

研究歷史及發(fā)展為實(shí)現(xiàn)從文檔圖像中自動(dòng)提取其文字部分所包含的信息的目的,研究者們提出了光學(xué)字符識(shí)別(Optical Character Recognition,簡(jiǎn)稱OCR)技術(shù),事實(shí)上,OCR的概念早在數(shù)字計(jì)算機(jī)能夠進(jìn)行文字處理之前就被提出了。早在十九世紀(jì),就有人申請(qǐng)了關(guān)于輔助盲人閱讀和輸入電報(bào)報(bào)文的OCR方面的專利,現(xiàn)代意義上的OCR是一個(gè)涉及到模式識(shí)別、人工智能、模糊數(shù)學(xué)、計(jì)算機(jī)科學(xué)等多學(xué)科的的綜合課題,具有大概40年的發(fā)展史,19世紀(jì)五十年代,能夠識(shí)別以特殊設(shè)計(jì)的字體(稱為OCR字體)打印的數(shù)字的OCR系統(tǒng)首次投入商用,隨著個(gè)人計(jì)算機(jī)、掃描儀等設(shè)備的迅速發(fā)展和普及,OCR系統(tǒng)的價(jià)格不斷降低,從上世紀(jì)八十年代起,各種各樣的OCR系統(tǒng)開始大量出現(xiàn)在市場(chǎng)上。漢字識(shí)別的研究雖然開始稍晚,但發(fā)展迅速,上世紀(jì)九十年代起,我國(guó)市場(chǎng)上開始出現(xiàn)多種漢字識(shí)別系統(tǒng),漢王、清華文通、清華紫光等公司都相繼推出了各種用于中文文本和特定格式表格(如機(jī)票、保險(xiǎn)單)的OCR系統(tǒng)。2

印刷中文文檔識(shí)別概述中文文檔識(shí)別是指印刷在紙張上的中文文檔,用掃描儀或者其他光學(xué)方式輸入后得到灰度或者二值圖像,然后利用各種模式識(shí)別算法對(duì)中文文檔圖像中的文字進(jìn)行定位,提取文字的特征,之后再與識(shí)別字典中的標(biāo)準(zhǔn)字符進(jìn)行匹配判斷,從而達(dá)到識(shí)別文檔內(nèi)容以及任意修改文檔內(nèi)容的目的。其實(shí)質(zhì)是讓計(jì)算機(jī)能夠“看懂”輸入文檔的內(nèi)容。印刷體中文文檔識(shí)別技術(shù)主要包括輸入文檔圖像的預(yù)處理、識(shí)別和后處理三個(gè)階段,其中文檔的識(shí)別是難點(diǎn)和熱點(diǎn)問(wèn)題。

印刷中文文檔識(shí)別技術(shù)屬于文字識(shí)別的一種。文字識(shí)別技術(shù)又叫做OCR技術(shù),經(jīng)過(guò)近一個(gè)世紀(jì)的發(fā)展,OCR已經(jīng)成為當(dāng)今模式識(shí)別領(lǐng)域中最活躍的研究?jī)?nèi)容之一。它綜合了數(shù)字圖像處理、計(jì)算機(jī)圖形學(xué)和人工智能等多方面的知識(shí),并在計(jì)算機(jī)及其相關(guān)領(lǐng)域中得到了廣泛應(yīng)用。通常OCR識(shí)別方法可以分為如下3類:統(tǒng)計(jì)特征字符識(shí)別技術(shù)、結(jié)構(gòu)特征字符識(shí)別技術(shù)和基于人工神經(jīng)網(wǎng)絡(luò)的字符識(shí)別技術(shù)。

目前,對(duì)于純漢字的中文文檔而言,現(xiàn)有的OCR技術(shù)已經(jīng)有較高的識(shí)別率。然而,對(duì)于一些科技文檔(漢字與數(shù)學(xué)公式混排)而言,現(xiàn)在還沒有較成型的技術(shù)。這種中文文檔識(shí)別起來(lái)就相對(duì)更復(fù)雜更困難些,首先,要將文檔圖像中的漢字和非漢字字符進(jìn)行分離,因?yàn)闈h字與其他字符有較大的區(qū)別無(wú)法混為一談。其次,在提取特征時(shí)要注意根據(jù)不同字符的不同特征進(jìn)行提取,最后,要根據(jù)不同字符的特征設(shè)計(jì)出不同的分類器。1

漢字識(shí)別的分類中國(guó)的漢字其數(shù)量是很多的,按GB2312-80標(biāo)準(zhǔn)漢字共有6763個(gè),其中包括一級(jí)漢字3768個(gè),二級(jí)漢字3008個(gè)。因此,漢字識(shí)別問(wèn)題屬于超多類模式集合的分類問(wèn)題。目前漢字識(shí)別技術(shù)按照字體的不同可分為:

1)單體印刷體漢字識(shí)別(primed character recognition):僅識(shí)別某種單一印刷體字體或者某種打印機(jī)、照排機(jī)輸出的文字。

2)多體印刷體漢字識(shí)別(multi-font printed character recognition):能識(shí)別出印刷出的多種字體文字,如黑體,宋體,楷體等等。

3)手寫印刷體漢字識(shí)別(hand primed character recognition):用于識(shí)別人寫在紙上的規(guī)整漢字,不能連筆,書寫比較受限。

4)特定人手寫體漢字識(shí)別(personal handwritten character recognition):是手寫體識(shí)別的一個(gè)特例,筆跡鑒別也屬于這一類。

5)非特定人手寫體漢字識(shí)別(unconstrained handwritten characterrecognition):對(duì)于任何人自由書寫的文字都能正確識(shí)別,這是手寫體識(shí)別的最終目的。1

漢字識(shí)別的研究歷程據(jù)文獻(xiàn)記載,印刷體漢字的識(shí)別最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy在一篇文章中利用簡(jiǎn)單的模板匹配法識(shí)別了1000個(gè)印刷體漢字。1977年?yáng)|芝綜合研究所研制了可以識(shí)別2000個(gè)漢字的單體印刷體漢字識(shí)別系統(tǒng)。80年代初期,日本舞藏野電氣研究所研制了可以識(shí)別2300個(gè)多體漢字的印刷體漢字識(shí)別系統(tǒng),代表了當(dāng)時(shí)漢字識(shí)別的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷漢字識(shí)別系統(tǒng)。這些系統(tǒng)在方法上,大都采用了基于K—L變換的匹配方案,使用了大量專用硬件,其設(shè)備有的相當(dāng)于小型機(jī)甚至大型機(jī),價(jià)格極其昂貴,因而并沒有得到廣泛的應(yīng)用。

我國(guó)對(duì)印刷體漢字識(shí)別的研究開始于70年代末、80年代初,大致分為以下三個(gè)階段:

1)第一階段:從70年代末期到80年代末期,主要是算法和方案探索。

2)第二階段:90年代初期,中文OCR由實(shí)驗(yàn)室走向市場(chǎng),初步試用。

3)第三階段:目前,主要是印刷體漢字識(shí)別技術(shù)和系統(tǒng)性能的提高,包括漢英雙語(yǔ)混排識(shí)別率的提高和穩(wěn)健性的增強(qiáng)。

雖然漢字識(shí)別在我國(guó)研究的起步較晚,然而經(jīng)過(guò)多年的努力,印刷體漢字識(shí)別技術(shù)的發(fā)展和應(yīng)用已有了長(zhǎng)足的進(jìn)步:從簡(jiǎn)單的單體識(shí)別發(fā)展到多種字體混排的多體識(shí)別,從中文印刷文檔的識(shí)別發(fā)展到中英文混排的文檔識(shí)別。

如今,各種漢字系統(tǒng)可以支持簡(jiǎn)、繁體漢字的識(shí)別,解決了多體多字號(hào)混排文本的識(shí)別問(wèn)題,對(duì)于簡(jiǎn)單的版面可以進(jìn)行有效的定量分析,同時(shí)漢字識(shí)別率己達(dá)到了98%以上。1

困難正如前面提到的,很多已有的文檔識(shí)別OCR技術(shù)的漢字識(shí)別率已經(jīng)相當(dāng)可觀。但是,現(xiàn)有的OCR技術(shù)在對(duì)于一些中文文檔中出現(xiàn)的公式字符的識(shí)別問(wèn)題還是存在著一些困難的。近些年,中文文檔識(shí)別系統(tǒng)一直以來(lái)備受研究者的關(guān)注,但仍有一些困難還尚未解決。

中文文檔圖像版面內(nèi)容是多樣的,這就大大的加大了文檔識(shí)別的難度。不能對(duì)版面中的每一個(gè)不同對(duì)象都采用同一個(gè)識(shí)別方法,為了實(shí)現(xiàn)文檔中不同內(nèi)容采取不同方式進(jìn)行更加有效的處理,在文檔識(shí)別系統(tǒng)中要加入可將原始文檔圖像中的不同內(nèi)容進(jìn)行分離的功能。

對(duì)于含有公式的中文文檔而言,如何將漢字與公式字符分開是一直以來(lái)的難點(diǎn),特別是對(duì)內(nèi)嵌在漢字中的公式字符的定位是最為困難的,而且公式字符定位的好壞,可以直接影響到整個(gè)文檔識(shí)別系統(tǒng)的識(shí)別率的高低。1

印刷英文識(shí)別印刷體英文識(shí)別,又稱英文OCR,是文字識(shí)別領(lǐng)域的一個(gè)比較古老的分支。在本世紀(jì)初,國(guó)外就已經(jīng)開始研究數(shù)字識(shí)別技術(shù),并成功地應(yīng)用于郵政編碼的識(shí)別。

系統(tǒng)要求一個(gè)實(shí)用的印刷英文識(shí)別系統(tǒng),至少應(yīng)該是一個(gè)高性能的多字體、多字號(hào)的字符識(shí)別系統(tǒng)。高性能的字符識(shí)別系統(tǒng)首先對(duì)單字符具有極高的識(shí)別率,其次,它不但對(duì)質(zhì)量好的文本圖象有很高的識(shí)別率,而且還應(yīng)有較強(qiáng)的魯棒性,即使在文本圖象質(zhì)量較差(如文本中存在大量的噪聲,筆畫斷裂嚴(yán)重或者多字符嚴(yán)重粘連等)的情況下仍能保持較高的識(shí)別率;對(duì)于多字體的要求,需要能夠識(shí)別數(shù)百種常見字體,以及它們的各種變體包括黑體、斜體等;對(duì)于字號(hào)應(yīng)有較廣的適應(yīng)范圍,可以從小的( 號(hào)字一直到常見的文章大標(biāo)題。前面兩個(gè)問(wèn)題的解決依賴于高性能的分類器設(shè)計(jì)和魯棒的切分算法。后面兩個(gè)問(wèn)題,主要是通過(guò)對(duì)大量的不同字體不同字號(hào)的樣本進(jìn)行訓(xùn)練和歸一化來(lái)解決。3

難點(diǎn)人們往往以為英文的類別(52個(gè)大小寫字母、10個(gè)數(shù)字以及一些常用的符號(hào))少,對(duì)印刷體英文的識(shí)別的難度就小。實(shí)際上,多字體印刷體英文的識(shí)別存在著如下幾個(gè)難點(diǎn):

字母寬度、大小不一,增加了切分的難度;

字符簡(jiǎn)單,包含的分類信息少,有些字符很相似,如“’1”、“I”、“l(fā)”、“|”等,較難區(qū)分;

字體千變?nèi)f化,總的字體有上千種,常用的字體也有數(shù)百種,每一種字體還有黑體、斜體等的變化,而且不同字體間的差別很大,在字符的高度,寬度,筆畫分布和筆畫粗細(xì)等都有很大的變化;

常見字母組合在投影上為一整體,許多常見的字母組合象“fl’”、“fi ”、“ff”、等,實(shí)際上為不可分的整體,另有一些組合,象“fe”、“fo”等,特別在字體為斜體時(shí),盡管字母之間互不粘連,但在投影上也是不可分的,雖然有些高級(jí)的切分技術(shù)象“繞切法”可以采用,卻增加了不少的處理時(shí)間;

字母與字母的組合容易相互混淆,有些字母切分成兩半后仍為合理的字母組合,像“m”變成“rn”;有些字母組合粘連在一起則可能成為合法的字母,象粘連的“cl ”變成“d ”。對(duì)于這些混淆,即使采用帶回溯的切分方法或利用識(shí)別結(jié)果指導(dǎo)切分,都難以得到滿意的結(jié)果;

英文字符本身結(jié)構(gòu)簡(jiǎn)單,因此噪聲影響明顯,劣化文本圖象的識(shí)別常常難度很大。3

系統(tǒng)的體系結(jié)構(gòu)采用模塊化的方法來(lái)進(jìn)行系統(tǒng)的開發(fā)。為此,首先按照不同的功能和處理時(shí)間上的先后把系統(tǒng)分成主要的四大模塊:預(yù)處理,行字切分,特征提取和分類器設(shè)計(jì),后處理。實(shí)現(xiàn)的印刷體英文識(shí)別系統(tǒng)的構(gòu)成框圖見圖。

其工作過(guò)程大致如下:利用輸入設(shè)備如掃描儀等,形成待識(shí)別印刷體英文文本的圖象數(shù)據(jù),對(duì)該數(shù)據(jù)進(jìn)行預(yù)處理,主要是去除噪聲及進(jìn)行版面理解,接著將其中文本屬性的圖象塊送入切分模塊,進(jìn)行行切分和字切分,切分后的結(jié)果便可以由識(shí)別模塊進(jìn)行識(shí)別,根據(jù)不同的識(shí)別方法,利用事先訓(xùn)練學(xué)習(xí)得到的識(shí)別字典進(jìn)行模式分類,得到一個(gè)初步識(shí)別結(jié)果,這一結(jié)果還應(yīng)經(jīng)過(guò)識(shí)別后處理模塊加以進(jìn)一步糾錯(cuò),例如可以利用一些簡(jiǎn)單的規(guī)則或采用查字典作拼法檢查的方式等。在字符切分和識(shí)別模塊之間,還有一個(gè)反饋的過(guò)程,利用識(shí)別結(jié)果的致信度來(lái)指導(dǎo)切分過(guò)程。3

行字切分行字切分是整個(gè)識(shí)別系統(tǒng)中極為重要的一個(gè)環(huán)節(jié),因?yàn)檎_的識(shí)別往往依賴于正確的切分。當(dāng)切分錯(cuò)誤時(shí),很難得到正確的識(shí)別結(jié)果。如果行切分錯(cuò)誤,常常會(huì)導(dǎo)致整行識(shí)別錯(cuò)誤,嚴(yán)重影響系統(tǒng)的整體性能。在實(shí)際的文本中,由于斷裂和粘連的存在,在字切分中也常常存在錯(cuò)切或者漏切,而降低系統(tǒng)的整體識(shí)別性能?,F(xiàn)有的字符識(shí)別系統(tǒng),對(duì)于單獨(dú)的字符或者高質(zhì)量的文本都能取得很高的識(shí)別率,但是對(duì)于嚴(yán)重粘連或者斷裂的文本,識(shí)別率通常都很低,大部分的識(shí)別錯(cuò)誤都是由于切分錯(cuò)誤引起的。

在正常的掃描文本中,相鄰兩行之間都存在著空白行,因此可以采用對(duì)圖象進(jìn)行水平投影的方法來(lái)進(jìn)行行切分,在投影值為" 的位置即為正確的切分位置。這種方法簡(jiǎn)單快捷,但是由于掃描操作不當(dāng),字符圖象常常有一定程度的傾斜,再加上噪聲的影響,以及一些字體造成的相鄰行之間字符的粘連,使得水平投影不可分,用簡(jiǎn)單的投影難以得到正確的行切分。這時(shí)常用的是分段投影的方法,在短的分段內(nèi)相鄰文本行的投影依舊可分。

后處理要構(gòu)建一個(gè)高性能的OCR 系統(tǒng),有效的后處理是必不可少的。這是因?yàn)榉诸惼髟谶M(jìn)行判決的時(shí)候往往孤立地對(duì)待一個(gè)個(gè)待識(shí)字符,而丟失了這些字符所處周圍環(huán)境的一些重要的相關(guān)信息,這樣的判決結(jié)果,盡管對(duì)于分類器具有較高的可信度,發(fā)生錯(cuò)誤卻是難免的。為了提高系統(tǒng)的性能,必須充分有效地利用上下文信息。常見的利用上下文信息的處理技術(shù)有:基于概率統(tǒng)計(jì)的方法、基于詞典的方法以及混合方法等?;诟怕式y(tǒng)計(jì)的方法主要有馬爾可夫方法和n元組方法兩種。3

數(shù)學(xué)公式識(shí)別數(shù)學(xué)公式作為科技文獻(xiàn)的重要組成部分,廣泛存在于大量的科技文獻(xiàn)中。這些公式對(duì)于在整篇文檔中的地位往往非常重要,很多文檔一旦失去了公式,將變得難于理解甚至毫無(wú)意義。目前,關(guān)于檢索和重用包括數(shù)學(xué)公式在內(nèi)的非文本的研究已經(jīng)得到了廣泛的關(guān)注,但是,現(xiàn)階段的研究成果遠(yuǎn)遠(yuǎn)沒有對(duì)于普通文本檢索和重用成熟。數(shù)學(xué)公式一般由特殊符號(hào)、希臘字母、英文字符和數(shù)字組成,這些符號(hào)通常通過(guò)定義特定的格式輸入計(jì)算機(jī),輸入復(fù)雜度遠(yuǎn)遠(yuǎn)大于普通的文本。如果依靠手工重新錄入文檔中的所有數(shù)學(xué)公式,將消耗大量的人力資源。如何實(shí)現(xiàn)文檔中數(shù)學(xué)公式的高效率重復(fù)使用,一直是一個(gè)困擾著廣大用戶的問(wèn)題。

目前,計(jì)算機(jī)在光學(xué)字符識(shí)別方面已經(jīng)取得了很好的成績(jī),對(duì)普通文本的識(shí)別率已經(jīng)達(dá)到了一個(gè)很高的水平.因此,研究者們?cè)O(shè)想,如果能利用計(jì)算機(jī)自動(dòng)處理文檔圖像,從中提取出包含的公式,經(jīng)過(guò)識(shí)別、分析、重組,最終轉(zhuǎn)化成可編輯的通用格式(如LATEX格式的文本或Microsoft Word公式編輯器對(duì)象),將能夠有效的擴(kuò)展光學(xué)字符識(shí)別系統(tǒng)的應(yīng)用范圍。2