數(shù)字圖像中印刷公式的提取方法研究與應用.pdf_第1頁
已閱讀1頁,還剩79頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、識別數(shù)字圖像中的文本應用越來越廣泛,目前,對圖像中文字的識別已經相對成熟,但是對于一些與數(shù)學相關包含公式的文檔識別仍是一項挑戰(zhàn)。公式提取是公式識別的重要步驟,只有準確的將被文字包圍的公式提取出來,才能對公式進行識別,從而識別整個文檔。
  本文提出一種自動從包含文檔的圖像中提取公式的方法,公式提取的所有步驟均由計算機完成,無需人工輔助。直接輸入原始圖像即可提取出其中的公式。
  首先,對原始圖像進行預處理,包括:二值化、圖像

2、增強以及圖形分割。經過預處理的圖像去除了圖像中噪聲,占用存儲空間小,圖像中公式特征更加明顯,并將圖像中的整篇文檔分割為獨立行的文本行圖像。經過這些預處理后,再進行公式提取的準確率與效率將大大提高。
  其次,針對只包含獨立公式行的文本圖像,我們提出了基于“黑色連通集鄰接圖”的公式提取方法,該方法不基于任何識別結果,僅根據“黑色連通集鄰接圖”的節(jié)點和邊的特征將純文字行和獨立公式行分類。經實驗驗證,該方法的分類距離較大,公式提取的準確

3、率較高。
  針對更普遍的包含嵌入公式的文本圖像,在進行基于“黑色連通集鄰接圖”的一級公式提取的基礎上進行二級強化提取公式。首先,在一級公式提取階段,將純文字行和包含公式的文本行區(qū)分;其次,包含公式的文本行進行二級公式提取強化,使用基于特征的提取以及基于“成詞”和特殊符號識別結果的公式提取方法將圖像中的所有公式(包括獨立公式和嵌入公式)提取出來。
  再次,利用實驗驗證該算法進行公式提取的準確性。
  最后,總結本次畢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論