版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、科技文獻(xiàn)是一種多模態(tài)數(shù)據(jù),除文本外包含多種信息,比如圖像、公式、表格、音頻、視頻、超鏈接等,這些信息相互解釋、相互補(bǔ)充,為用戶充分理解科技文獻(xiàn)中的信息提供幫助。其中表格以其簡單明了的風(fēng)格占據(jù)十分重要的地位,大量的文獻(xiàn)借助表格來補(bǔ)充文本信息,更加直觀簡潔的描述文本想要表達(dá)的內(nèi)容,因此對表格信息的提取逐漸成為一個研究重點(diǎn)。而目前大量的各種類別的信息目前以各種各樣的電子文檔的形式展現(xiàn),表格的收集、傳遞和保存信息的作用不同和文檔類型的不同,造成
2、表格形式千差萬別,沒有統(tǒng)一格式,對表格的數(shù)據(jù)的抽取不僅要依據(jù)類型來進(jìn)行,而且表格處理的工作量決定了人們將更加依賴計算機(jī)來幫助進(jìn)行。
在本文中,筆者將研究基于圖像的表格識別和基于文字流的表格識別?;趫D像的表格識別研究較為成熟,主要步驟有:圖像預(yù)處理,包括灰度化與二值化處理,圖像的邊緣檢測,圖像的傾斜校正,劃定表格區(qū)域,表格單元格拆分,單元格數(shù)據(jù)利用OCR提取,單元格合并以及數(shù)據(jù)對應(yīng)關(guān)系確定并轉(zhuǎn)換成EXCEL格式,對單元格數(shù)據(jù)進(jìn)
3、行語義判斷確定“屬性一值”對關(guān)系,建立索引。PDF文檔會有兩種情況,一種是圖像類型,一種是文字流類型,圖像直接用圖像表格提取的方法來進(jìn)行,對于基于文字流的表格識別研究比較困難,文字流中的表格僅僅是基于視覺的沒有表格信息,因此筆者從解析后的文檔出發(fā),利用文字流的編碼特征來進(jìn)行,分析文字流節(jié)點(diǎn)信息,主要是圖像對象中包含的圖像流信息結(jié)合內(nèi)容流中的相關(guān)描述信息,利用圖像對象描述的最長橫線與豎直線劃出表格區(qū)域,借鑒圖像處理中局部霍夫變換的思想確定
4、每個單元格的位置信息,并將單元格內(nèi)容建立邏輯關(guān)系,為表格中的數(shù)據(jù)建立真實(shí)表格,因為時間有限,在這一方面的理論研究較強(qiáng)。
在本文中,為了本文構(gòu)建的系統(tǒng)功能的完整性,分析了五類表格文檔:Word、Excel、HTML、圖像、PDF文檔。筆者利用爬蟲獲取大量的表格文檔,對表格文檔進(jìn)行分類清洗,利用插件和上述算法,將表格數(shù)據(jù)抽取出來并轉(zhuǎn)換成Excel或者TXT格式,并為表格數(shù)據(jù)建立語義索引,使用戶查詢、檢索以及重新利用表格中豐富的數(shù)據(jù)
5、資源。
本文中具有創(chuàng)新性的研究成果主要體現(xiàn)在以下幾個方面:
(1)表格的語義化索引。本文中利用團(tuán)隊研究的基于Lucene的語義化搜索引擎的構(gòu)建方法,判斷單元格數(shù)據(jù)的類型為屬性詞或者屬性值,并為表格中的數(shù)據(jù)附上語義信息,構(gòu)建一個樹狀結(jié)構(gòu),使原本只有物理結(jié)構(gòu)的表格數(shù)據(jù)擁有對應(yīng)的邏輯結(jié)構(gòu)和語義信息。
(2)開發(fā)一個表格數(shù)據(jù)抽取與檢索搜索引擎。該平臺支持將輸入的表格類型文檔進(jìn)行解析,并將數(shù)據(jù)建立索引,支持用戶檢索目
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向科技文獻(xiàn)的表格識別與應(yīng)用研究.pdf
- 面向?qū)@墨I(xiàn)的語義角色標(biāo)注及其應(yīng)用研究.pdf
- 面向突發(fā)事件的事件識別及其應(yīng)用研究.pdf
- 面向科技文獻(xiàn)的中文分詞系統(tǒng)研究與實(shí)現(xiàn).pdf
- 面向互動式游戲引擎的語音識別算法應(yīng)用研究.pdf
- 面向成型生產(chǎn)的視覺式缺陷識別技術(shù)及應(yīng)用研究.pdf
- 面向智能手機(jī)的車牌識別關(guān)鍵技術(shù)與應(yīng)用研究.pdf
- 人臉識別技術(shù)與應(yīng)用研究.pdf
- 面向人臉識別的特征提取技術(shù)應(yīng)用研究.pdf
- 面向服務(wù)的企業(yè)應(yīng)用研究與實(shí)現(xiàn).pdf
- 面向科技文獻(xiàn)的機(jī)器翻譯.pdf
- 面向設(shè)計的地鐵工程安全風(fēng)險識別及應(yīng)用研究.pdf
- 面向無線環(huán)境信號偵測中的調(diào)制識別和應(yīng)用研究.pdf
- 斜拉橋損傷識別與應(yīng)用研究.pdf
- 基于科技文獻(xiàn)的科技熱點(diǎn)監(jiān)測方法研究與應(yīng)用.pdf
- 面向CRM的數(shù)據(jù)挖掘技術(shù)與應(yīng)用研究.pdf
- 面向科技文獻(xiàn)自動摘要的科研事件抽取研究.pdf
- 車牌識別技術(shù)的應(yīng)用研究.pdf
- 面向服務(wù)的角色訪問控制技術(shù)應(yīng)用研究——面向服務(wù)基于角色與任務(wù)的訪問控制技術(shù)應(yīng)用研究.pdf
- 面向過程的動態(tài)決策方法與應(yīng)用研究.pdf
評論
0/150
提交評論