-
簡介:該文針對SOZRSL軟件開發(fā)方法提出了SOZRSL建模思想和建模方法SOZRSL建模思想是一種將系統(tǒng)分析過程分成形式化建模和非形式化建模兩個階段的軟件開發(fā)思想非形式化建模先分別從功能建模和對象建模兩個不同的側面來描述系統(tǒng)的功能和架構形式化建模則用形式化的SOZRSL規(guī)格說明語言對系統(tǒng)進行準確和一致的描述SOZRSL建模方法設計了分別用于功能建模和對象建模的符號和描述過程與方法用SOZRSL建模方法描述的系統(tǒng)不僅結構清晰層次清楚還有較好的可重用性同時給系統(tǒng)的設計、實現及測試過程提供了良好的溝通工具針對SOZRSL開發(fā)方法和建模方法該文設計和實現了應用SOZRSL建模方法的功能建模工具和對象建模工具及SOZRSL規(guī)格說明的文檔編輯器同時實現了兩種機制1、功能模型和SOZRSL形式規(guī)格說明的相互轉化2、對象模型和SOZRSL形式規(guī)格說明的相互轉化
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數: 69
大小: 1.95(MB)
子文件數:
-
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數: 57
大?。?1.15(MB)
子文件數:
-
簡介:隨著移動通信技術的發(fā)展,移動互聯(lián)網將成為未來人們數字化生活的重要環(huán)境。手機作為移動互聯(lián)網的接入設備之一,其功能已日益豐富。人們可以利用手機進行各種活動,如手機辦公、手機支付、手機娛樂等等。手機將繼PC之后,成為人們日常生活的必備工具。然而,手機應用發(fā)展的同時也存在安全問題。手機和傳統(tǒng)PC一樣,軟硬件并非天然安全,其中軟件漏洞、硬件缺陷在所難免。手機病毒、木馬等惡意軟件的出現,不斷提醒著人們手機環(huán)境的不安全性。為此,研究人員提出了各種保護技術和方法。如手機防火墻,手機殺毒軟件,文檔加密系統(tǒng)等。這些防范措施主要目的就是防止重要資源被非法訪問、篡改,以免無法使用等問題的產生。手機文檔信息是手機終端應用非常需要保護的資源之一。為了方便使用,人們可能將一些辦公文檔、個人隱私信息等以文檔的方式存儲在手機上,然后通過手機中的各種應用軟件進行處理,如進行移動辦公,信息共享等活動。這些環(huán)節(jié)中必然會存在一些不安全因素,導致手機文檔存在很大安全風險,因此,急需研究適合手機文檔的保護技術來解決這類問題。傳統(tǒng)的文檔保護技術有內容加密技術、訪問控制技術等。這些技術都在某些方面為文檔安全提供了服務保障,成為文檔保護系統(tǒng)設計的一些主流思想。但是,手機應用的自身特點決定了某些傳統(tǒng)PC上的文檔保護方案并不適用于手機平臺。在將這些方案移植到手機平臺上時,更需要考慮手機的運算能力、軟件環(huán)境以及用戶體驗方面的需求。因此,設計性能影響小,易用性好的文檔保護技術是一個非常有意義的課題。本文重點研究了主流手機操作系統(tǒng)下的文檔保護技術,論文在分析傳統(tǒng)文檔保護技術基礎上,提出了一種適合手機平臺文檔保護方案。新方案在虛擬文件系統(tǒng)中嵌入安全模塊,實現了諸如加解密、訪問控制、密鑰更新等功能。該方案中應用程序與安全模塊相互獨立,在提供文檔安全保護的基礎上保持了原有的用戶體驗效果,對于非法訪問則提供了強有力的防控功能。本文還對該方案進行了詳細的說明,實現了一個系統(tǒng)原型。實驗結果證明,本文所提出的方案是可行性。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數: 66
大小: 2.4(MB)
子文件數:
-
簡介:該文就提高文檔分類效率進行了研究提出了一種快速文檔分類方法其核心技術是一方面對文檔訓練庫進行刪減另一方面對文檔建立相似度索引該文取得了以下研究成果1提出了刪減訓練文檔庫的算法針對訓練文檔庫中訓練文檔對文檔類的作用不同在保證沒有造成分類性能嚴重下降的前提下可以刪除一些作用不大或冗余的訓練文檔加快文檔分類過程實驗證明這個算法在各種不同分類情況下都可以顯著地加快分類速度而沒有造成分類性能明顯下降2提出了文檔相似度索引算法據我們所知這是第一次將索引技術應用于文檔分類盡管目前實驗中采用的索引技術并沒有顯著地改善分類速度但是通過尋找新的高維索引技術來加快KNN分類速度的思想是可行的3提出了一種改進文檔向量之間相似度計算的方法針對文檔向量矩陣實際中往往是稀疏矩陣的情況我們采用詞文檔的倒排表技術可以一次高效地計算出測試文檔與所有訓練文檔的相似度
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數: 57
大?。?2.08(MB)
子文件數:
-
簡介:隨著計算機技術的推廣應用,人類越來越多的依賴計算機獲得各種信息,大量的信息處理工作也都轉移到計算機上進行,存在著大量的文字信息處理問題,因而將文字信息快速輸入計算機的要求就變得非常迫切。本文將研究重點放在了OCR預處理方面,對其中的一些算法提出了自己的改進意見,并且用CC實現算法,進行實驗,分析結論。本文的主要工作總結如下1圖像二值化方面。提出了一種新的基于數學形態(tài)學的二值化算法,用數學形態(tài)學的方法將圖像背景提取出來,得到零背景的圖像,對零背景圖像再進行二值化,解決了在圖像獲取過程中背景不均勻問題。2圖像傾斜校正方面。選取豎直掃描黑游程的中點為直線擬合的特征點,用最小二乘法進行直線擬合得出傾斜角度,將圖像以左下點為旋轉中心進行旋轉,并按照旋轉后新圖像的寬、高擴大區(qū)域,完成傾斜校正。3版面分析方面。提出了一種非文本塊優(yōu)先的方法。該方法,掃描文檔圖像做連通域搜索,抽取所有的連通域,根據連通域的尺寸特征,優(yōu)先提取不具備文字結構特征的區(qū)域;用數學形態(tài)學的方法提取圖像、圖形區(qū)域;用基于投影的方法提取表格區(qū)域;最后對余下的文本區(qū)域采用改進的基于投影的縱橫切割的方法進行版面分析。結果表明該方法能大大提高版面分析的速度,精度也有所提高。4文種識別方面。實現基于小波分析的文種識別與基于穿越次數的文種識別,并根據實際情況文本字符的特點,利用版面分析過程中得到的連通域的結果對穿越次數的計算方法進行了改進。結果表明能有效減少文種識別的運行時間。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數: 62
大?。?10.86(MB)
子文件數:
-
簡介:隨著企業(yè)信息化技術的發(fā)展,企業(yè)辦公過程中產生的各種電子文檔與日俱增。另外,企業(yè)紙質文檔也希望能夠被轉換為電子文檔,以便于文檔在部門之間的流轉、查閱以及長期保存和共享,從而提高文檔的使用率和價值。文檔管理越來越受到企業(yè)的重視。但是企業(yè)在進行文檔管理的過程中,經常會碰到海量文檔存儲、查找效率低下、文檔版本管理混亂、文檔安全缺乏保障、文檔無法有效協(xié)作共享、知識管理舉步維艱等問題。因此文檔管理逐漸成為國內外業(yè)界研究的熱點。本文在研究國內外文檔管理系統(tǒng)現狀的基礎上,提出應用元數據技術解決文檔在資源描述、檢索、共享以及長期保存等方面的問題,提出應用使用訪問控制UCON解決文檔安全方面的問題。論文首先介紹了文檔管理以及文檔管理系統(tǒng)的基本理論知識;接下來闡述了元數據基本理論,重點闡述了元數據的描述機制,研究元數據的標準以及元數據描述語言規(guī)范XML和元數據描述框架RDF;接下來,回顧了傳統(tǒng)訪問控制模型的特點以及應用領域,指出了所存在的問題,在此基礎之上重點研究了使用訪問控制模型UCON,分析了它的新特性以及核心模型。論文結合文檔管理系統(tǒng)的特點,提出了文件系統(tǒng)與關系數據庫混合使用的存儲策略;在對元數據基本理論理解的基礎上,提出了文檔管理系統(tǒng)元數據采集方案,給出了元數據描述的實例;在對使用控制UCON理論研究基礎上,設計了電子文檔管理系統(tǒng)的權限控制模型。論文為文檔管理系統(tǒng)的研究提供了有益的參考。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數: 60
大小: 2.49(MB)
子文件數:
-
簡介:XML作為互聯(lián)網上信息描述和數據交換事實上的標準,已經被業(yè)界廣泛采用。隨著WEB上大量XML文檔的涌現,如何對XML文檔進行有效的檢索成為了一個具有實際應用價值的重要研究課題。由于XML文檔是一種半結構化的數據,具有明顯的結構標記,可表達一定的語義信息。因此,可以利用XML文檔所含有的結構信息,改進傳統(tǒng)的基于關鍵詞的信息檢索,從而提供更加全面準確的檢索結果。但是,由于XML文檔結構的復雜性、異構性以及可擴展性,使得如何在信息檢索的過程中有效利用XML文檔的結構信息成為了XML信息檢索所面臨的首個挑戰(zhàn)。源于數據庫的XML查詢語言可以表達復雜的信息需求,但是要形成有效的結構化查詢對于最終用戶來說是非常困難的事情。因為用戶可能并不熟悉文檔結構,所以很難提出準確的“內容結構”的結構化查詢?;陉P鍵詞的XML信息檢索依然面臨著用戶需求表達模糊的問題。XML信息檢索實際上也是一個交互式的檢索過程,相關反饋、檢索結果聚類等交互式信息檢索技術在XML信息檢索中依然存在,而且有其獨特的特點。例如,如何利用關鍵詞檢索的簡單性迅速返回查詢結果,然后根據用戶的相關反饋等信息,系統(tǒng)自動形成或幫助用戶形成內容結構查詢,以清晰地表達用戶信息需求如何根據XML文檔的內容和結構特征聚類XML信息檢索結果,以幫助用戶迅速找到滿足其需求的信息。因此,如何利用交互式信息檢索技術改進XML信息檢索的準確性是XML信息檢索所面臨的又一個挑戰(zhàn)。本文從XML信息檢索所面臨的這兩個挑戰(zhàn)入手展開研究,以XML文檔交互式信息檢索技術作為研究課題,主要研究兩個問題第一個問題是如何有效地結合結構信息和內容信息實現XML信息檢索,主要包括XML節(jié)點編碼、索引、檢索模型和查詢處理算法第二個問題是如何進一步解決XML信息檢索中同樣存在著的用戶信息需求表達模糊的問題,即研究相關反饋、檢索結果聚類等交互式XML信息檢索的一些關鍵技術。本文所做的主要工作和貢獻包括以下幾個部分1XML節(jié)點編碼模式及索引結構的研究。提出了一種新穎有效的節(jié)點編碼模式,詳細論述了該節(jié)點編碼模式的定義和性質。在這個新的節(jié)點編碼模式的基礎上,構建了一種有效地集成結構索引和文本內容索引的混合索引結構HID。該混合索引結構HID能夠有效地支持XML信息檢索,包括關鍵詞檢索和結構化查詢。對比實驗結果表明本文所提出的新的混合索引結構HID在索引構建時間和空間消耗上具有較佳的性能。2XML信息檢索模型及查詢處理算法的研究。提出了一種用于XML信息檢索的模糊結構向量空間模型。通過將文本內容特征詞的概念擴展為結構化特征詞,對向量空間模型進行擴展,使其能夠包含結構信息的匹配和度量同時將特征詞在文檔中出現的概念由一個精確的集合隸屬關系,擴展為一個模糊集合隸屬度的概念,以實現內容和結構信息的整體匹配,而且能夠區(qū)別結構的匹配程度,建模不同程度的匹配為不同程度的重要性。該檢索模型可統(tǒng)一建模關鍵詞查詢、標記關鍵詞查詢和路徑關鍵詞查詢。最后給出了有效實現檢索模型相應的查詢處理算法,并實現了一個XML信息檢索原型系統(tǒng)。對比實驗結果表明本文所構建的XML信息檢索原型系統(tǒng)具有較高的檢索準確率和較快的查詢響應時間。3XML信息檢索相關反饋技術研究。提出了一種新的結合內容和結構的XML信息檢索結構化相關反饋方法,能夠有效地結合內容和結構特征等多種證據源,實現將初始的關鍵詞查詢擴展為內容結構的結構化查詢。該結構化相關反饋方法通過內容查詢詞擴展、查詢詞路徑擴展和檢索元素粒度相關反饋三種算法擴展初始的關鍵詞查詢。內容查詢詞的擴展和重新權重綜合考慮了出現特征詞的相關公共元素的數目、特征詞在相關元素中的重要性、特征詞鄰接距離和結構語義等多種證據。實驗結果表明本文所提出的結構化查詢相關反饋方法可以有效地改進XML信息檢索的準確率。4XML信息檢索結果聚類技術研究。針對XML文檔的特點,提出了一種新的結合內容和結構特征的XML文檔特征建模方法,能夠有效地度量XML信息檢索結果文檔片斷間的相似性。將XML信息檢索結果聚類問題建模為K中心聚類問題,通過改進解決K中心聚類問題的貪心算法,提出了一種新的XML信息檢索結果快速聚類算法。實驗結果表明基于本文所提出的XML文檔特征建模方法和新的XML信息檢索結果快速聚類算法實現了較好的聚類質量和較快的聚類速度。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數: 136
大?。?5.23(MB)
子文件數:
-
簡介:隨著信息技術的快速發(fā)展信息安全已成為關系國家安全的重大戰(zhàn)略問題?,F階段涉密企事業(yè)單位初步建立的信息安全體系只能有效防范外部攻擊對于內部人員的操作、特別是文件打印輸出過程仍缺乏有效的技術防控措施。目前尚無法確保涉密系統(tǒng)內重要信息打印輸出的安全、合理以及文件流向可靠。針對上述問題作者經過認真調研分析提出了建立一套基于打印事件全生命周期管理的打印監(jiān)控與審計管理系統(tǒng)的設想。以期通過信息化手段將打印事件全過程中的人員、文件、審批信息等要素進行關聯(lián)管理與控制從而最終實現涉密文檔打印輸出的全生命周期管理。在研究實現過程中采用軟件工程的思想結合當前涉密企事業(yè)單位打印任務的管理現狀及保密安全管理要求將打印事件的全生命周期分為生成期、審批期、暫存期、輸出期、回收期、記錄期等六大環(huán)節(jié)對各環(huán)節(jié)的安全管理要素及相互關聯(lián)性進行分析研究、合理優(yōu)化流程通過開展需求分析、設計、開發(fā)及測試部署并采用虛擬打印、日志記錄與審計等關鍵技術最終實現該全生命周期文檔打印管理系統(tǒng)的建立。該系統(tǒng)目前已經成功部署于中國航天科工集團公司、中國兵器裝備集團公司等單位替代了原有手工管理模式并延展了管理內容、降低了管理漏洞、提升了管理效率該系統(tǒng)界面友好、操作便捷、運行穩(wěn)定管理流程符合國家保密相關要求受到用戶好評。全生命周期打印管理系統(tǒng)的研究與實現是一項具有重要管理意義的課題該系統(tǒng)在涉密企事業(yè)單位的成功驗證證明了研究內容與實現方式的可行性推動了涉密企業(yè)信息安全管理的研究及實踐進程同時對具有打印管理需求的各類單位具有普遍適用性。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數: 83
大小: 2.92(MB)
子文件數:
-
簡介:XMEDIA是一家在擁有大量注冊用戶和高頻率的客戶交互的開放性市場上開展業(yè)務的知名的國際化娛樂媒體公司。近年來XMEDIA在實現了一個客戶關系管理CUSTOMERRELATIONSHIPMANAGEMENTCRM系統(tǒng)后使用一個文檔管理系統(tǒng)DOCUMENTMANAGEMENTSYSTEMDMS來管理在CRM業(yè)務流程中產生的結構化的和非結構化的信息。本文主要闡述該公司的DMS升級項目。通過該項目該公司能夠通過基于企業(yè)應用集成ENTERPRISEAPPLICATIONINTEGRATIONEAI實現的一個線性文檔管理流程來管理來自CRM溝通渠道中的多樣化的入站INBOUND和出站OUTBOUND文檔。本文通過DMS升級項目來描述在實施EAI中存在的兩個問題。第一個問題是在CRM中如何有效的使用DMS第二個問題是如何完成DMS與其他的企業(yè)應用的集成。作為對該問題的解答在原有的CRM業(yè)務流程的基礎上本文設計與實現了一個線性的文檔管理流程并且使用基于WEB服務的EAI解決方案成功實現了DMS與其他企業(yè)應用的集成。通過系統(tǒng)需求分析系統(tǒng)設計系統(tǒng)實現與系統(tǒng)測試幾個方面對項目的實現細節(jié)進行描述。其中本文使用業(yè)務流程建模標記法BUSINESSPROCESSMODELNOTATIONBPMN來設計文檔管理流程并使用基于WEB服務的EAI解決方案加以實現。最后作為總結本文通過針對該娛樂公司的文檔管理系統(tǒng)升級項目的設計與實現介紹了一套文檔管理系統(tǒng)和客戶關系管理系統(tǒng)之間進行整合的通用解決方案。其中在CRM文檔管理流程的設計和實現中所使用的方法以及基于WEB服務的EAI解決方案可以作為處理類似問題或項目的一個參考與指南。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數: 122
大?。?2.93(MB)
子文件數:
-
簡介:政黨外交輔助決策支持系統(tǒng)是一個智能聚類搜索系統(tǒng),通過輸入主題詞能搜索出同主題的大量文檔集合,并給出文檔自動文摘的內容,方便用戶快速瀏覽信息,及時準確地做出正確決策。自動文摘是此系統(tǒng)的一個組成部分,為了進一步優(yōu)化系統(tǒng),提出了本課題的研究。WEB多文檔自動文摘旨在呈現全面、簡潔的信息給用戶,節(jié)省用戶的瀏覽時間。目前,多文檔自動文摘主要有兩類方法一是把整個文檔集合中的句子按照權重大小統(tǒng)一進行排序,根據壓縮比依次選擇文摘句;二是把文檔集合劃分成幾個局部主題,然后從不同的局部主題中選擇文摘句。鑒于用戶對文摘全面、簡潔的要求,本文重點研究了第二類方法。本文重點研究了多文檔自動文摘的幾個方面相似度計算、局部主題劃分、文摘句優(yōu)選、文摘句排序。本文通過對以上幾個方面的深入研究、分析,改進了基于局部主題劃分的文摘句優(yōu)選及排序方法,主要包括改進了詞語語義距離的計算方法,提出了歐氏距離與語義距離融合的句子相似度計算方法;優(yōu)化了K中心點算法,基于句子密度智能地發(fā)現種子點和類別數;改進了局部主題打分方法和句子信息覆蓋率判定方法,從而優(yōu)化了迭代優(yōu)選文摘句策略;在二層排序方法的基礎上提出了改進的三層排序法。最后將算法應用到WEB多文檔自動文摘系統(tǒng)中,并對算法進行了實驗及結果分析。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數: 74
大?。?2.52(MB)
子文件數:
-
簡介:隨著數字媒體技術和社交網絡的發(fā)展與普及,越來越多的網絡信息以包含多種模態(tài)數據的多媒體文檔的形式出現。傳統(tǒng)的文檔檢索已經不能滿足人們的需求,如何有效的從這些海量多媒體文檔中快速、準確的檢索到用戶需求的信息是高效利用互聯(lián)網資源迫切需要解決的問題。本文首先對現有的多媒體信息檢索的方法進行了研究,在其基礎上,針對利用單一模態(tài)對多媒體文檔進行檢索時表達的語義含混不清具有歧義的問題,提出了一種多模態(tài)融合中采用線性加權和的方法對多媒體文檔進行檢索。其中文本采取基于LUCENE的全文檢索,圖像利用基于內容的紋理、顏色等檢索的LIRE。權重的分配按照各個模態(tài)檢索結果的正確率做比例來劃分,此方法經實驗驗證檢索準確率較高。本文提出的另外一個方法是利用融合的詞袋方法BOW和特征袋方法BOF對多媒體文檔進行檢索。其中應用的詞袋方法是經過對單詞分類后的改進的詞袋方法,改進的方法大大降低了碼書的尺寸,使得檢索效率更高。實驗證明,融合的BOW和BOF綜合考慮了文本和圖像對多媒體文檔檢索的影響,效率要高于只使用BOW或BOF對多媒體文檔的檢索。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數: 60
大?。?1.76(MB)
子文件數:
-
簡介:近年來XML在網絡應用上日益發(fā)展尤其是電子商務、WEB服務等一系列應用理念的進一步發(fā)展XML類型的數據便成為了數據表示和交換的主流形式。作為半結構化數據的表示模型XML從提出到現在只不過幾年時間已經顯現出其強大而廣泛的應用前景。最近幾年在各領域中XML都得到了廣泛應用逐漸被用來作為信息表現和交換的標準這使得與XML數據相關的領域成為研究熱點。由于查詢是數據庫最為頻繁的操作所以理所當然的如何提高XML數據查詢的效率成為主要的研究方向之一。目前NATIVEXML數據庫的查詢求解有以下三種算法基于XML索引的導航遍歷算法基于XML文檔編碼的結構鏈接算法基于XML文檔序列標示的序列匹配算法等。在以上算法中利用結點編碼進行結構連接的算法是主流技術之一。提出XML文檔編碼就是為了降低查詢處理的成本提高查詢求解的效率。對于一個查詢路徑表達式一個較為簡單的方法是自項向下遍歷XML文檔樹中的結點來匹配路徑表達式。但是如果為XML文檔樹中嵌入有效的編碼方案就能很快檢測出XML文檔樹中的任意兩個結點之間的結構關系。本文在深入研究現已提出的編碼方案的基礎上結合了前綴編碼和區(qū)間編碼的優(yōu)點利用了子樹劃分的思想首先提出了一種基于矩陣劃分的XML文檔樹編碼MBL該編碼方案包括三部分進行編碼前要先對樹進行矩陣劃分以便得到矩陣編碼剩余的兩部分編碼分別是矩陣塊內的前綴編碼和覆蓋子樹塊得區(qū)間編碼。該編碼基本是定長的所以編碼長度不會隨著結點的插入增長。該方案對某些情況下的插入代價基本為零。本文還基于MBL編碼設計了相應的存儲策略針對可能出現的存儲溢出問題給出了子樹分裂算法基于MBL編碼自身的特點設計了索引機制該索引結構的記錄之間不需要相互保存對方的地址提高了記錄間的獨立性有效降低了更新代價。這樣即使結點的記錄地址發(fā)生了改變也不需要對索引進行修改降低了索引的維護代價。分析了基于此編碼的祖先后裔關系的判斷通過分析得出采用該編碼方案可以在常數時間內給出任意兩結點間祖先后裔關系的判斷。并給出了計算結點間相隔層次的公式改進了包含關系的結構連接算法。最后本文進行了一系列實驗實驗結果表明本文基于矩陣劃分的XML文檔樹編碼方案及存儲策略和結構連接算法的良好性能。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數: 62
大?。?1.77(MB)
子文件數:
-
簡介:隨著信息技術的發(fā)展,文檔圖像在數字圖書館、辦公自動化、網上閱卷、電子政務、電子商務等項目中獲得廣泛的應用。在這些應用中,紙質文檔通常采用掃描方式形成數字化文檔圖像進行存儲、傳輸、顯示和打印。為了保證對文檔圖像的有效處理,對文檔圖像的分割研究顯得尤為重要。圖像分割算法經過幾十年的研究,目前基于各種理論已提出了上千種各種類型的分割算法。由于目前尚沒有通用有效的分割理論,因此,現已提出的各種分割算法大都是針對具體應用問題的,并沒有一種對所有類型圖像都適用的通用的分割算法。盡管有人試圖建立分割模型并根據模型進行圖像分割,但都并不太成功,因此定制化的分割方法才是較為有效的分割方法。論文首先介紹了文檔圖像的生成并分析了文檔圖像的特點,指出文檔圖像是由一些具有特定性質的區(qū)域塊組合而成,通常包括文字塊、線圖、連續(xù)色調圖像真彩色圖和半色調圖像帶調色板的圖。其中,文字和線圖保存了圖像較多的細節(jié)以及結構信息,具有較高的空間分辨率特征,這一部分區(qū)域對顏色分辨率的要求不高;而連續(xù)色調和半色調的圖像則保存了較多的顏色信息,通常要求較高的顏色分辨率,但對空間分辨率的要求不高。也就是說文檔圖像大多數是由具有明顯不同特征的部分組合而成,通常來說包含文本區(qū)域、線圖區(qū)域和插圖區(qū)域,而文本區(qū)域又包含文字的輪廓和文字的背景顏色,插圖區(qū)域通常是高分辨率的彩色圖像。這些區(qū)域不僅在邏輯意義上具有獨立性,而且在顏色分辨率和空間分辨率上也具有明顯不同的特性。這種圖像特征明顯,同時在邏輯上具有獨立性的文檔圖像更適合利用具有全局分割特性的分割方法去處理。同時,論文也對文檔圖像的一些統(tǒng)計特征和變換系數特征進行了分析。文檔圖像的處理通常包括圖像預處理、圖像分割和圖像識別。本文簡要介紹了文檔圖像的預處理和一些常用的分割方法,然后重點研究了漢字文檔圖像的圖文分割問題,即如何將漢字文檔圖像中的文本塊和自然圖像進行有效分割,其主要工作如下1介紹了文檔圖像的生成及文檔圖像的特征,包括自然特征、統(tǒng)計特征和變換系數特征。通過用量化指標對自然圖像和純文本文檔圖像的紋理特征進行分析,說明自然圖像與文檔圖像之間的差異性。2針對文檔圖像的特點,對文檔圖像的預處理進行了介紹,包括圖像的灰度化、圖像背景處理、圖像傾斜檢測與校正、扭曲文檔圖像恢復和圖像濾波去噪。3介紹了一些常用的圖像分割方法和常用的文檔圖像分割方法。4提出了兩種漢字文檔圖像的圖文分割方法,一種是基于最大梯度差的分割方法,另一種是基于小波變換的分割方法。論文詳細介紹了兩種算法的算法流程,并通過實驗驗證了兩種分割算法的分割效果。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數: 60
大?。?1.49(MB)
子文件數:
-
簡介:針對大量半結構化以及非結構化信息的出現,需要一種新的業(yè)務綜合管理系統(tǒng)來支持對異構數據源及異構系統(tǒng)間各類信息的統(tǒng)一管理。從數據管理到文檔管理的轉變是解決統(tǒng)一管理問題的一條途徑。數據文檔管理就是要借助信息技術協(xié)助組織和個人,對文檔進行集成、管理、共享和發(fā)布,幫助企業(yè)和個人從異構電子信息中獲得有用的數據。文檔管理對大型綜合性企業(yè)的經營管理、發(fā)展戰(zhàn)略提供有力的支持,指導企業(yè)生產、開發(fā)到運輸等各個業(yè)務管理環(huán)節(jié)的優(yōu)化,實現企業(yè)經濟效益的最大化和資源整合的最優(yōu)化。本文對國內外內容管理技術和產品進行調研,根據企業(yè)文檔管理系統(tǒng)的發(fā)展現狀與趨勢,以及存在的主要問題,界定了文檔管理系統(tǒng)的功能。本文采用內容管理中的相關技術設計并實現一個業(yè)務文檔管理平臺,采用的技術包括工作流跟蹤技術、倒排索引檢索技術、元數據模型建立、XML的統(tǒng)一文檔描述技術以及安全訪問技術等。論文以軟件工程思想為主線,結合實際項目,從需求分析、框架設計、數據庫設計、開發(fā)環(huán)境配置等方面進行了詳細論述。然后又根據需求完成了系統(tǒng)的總體設計和詳細設計工作為了實現根據工作需求定制業(yè)務流程與實現工作流程管理的自動化,采用了工作流來實現企業(yè)內部的文檔流程跟蹤管理;為了實現文檔格式的標準化統(tǒng)一轉換,需要將非結構化數據抽取為元數據并生成XML文件進行存儲;為了實現對結構化數據和非結構數據的綜合檢索,需要利用倒排索引技術對已生成的XML文件結構化數據進行處理,然后進行文檔的全文檢索,從而實現異構數據源的檢索功能;并通過基于角色的訪問控制加強了系統(tǒng)的安全性。最后,本文對已實現系統(tǒng)平臺進行了功能測試及性能測試。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數: 69
大?。?3.3(MB)
子文件數:
-
簡介:現今,網絡數據不斷激增,這其中大多數數據是半結構化的,半結構化數據的結構類似于圖或樹,通常稱為有向標記圖。怎樣才能在這些海量的半結構化數據中找到我們需要的數據甚至如何從中挖掘出一些我們不曾了解的隱藏信息成為數據挖掘的一個新的研究方向。半結構化數據有很多種表現形式,XML文檔是其中很重要的一種。因此在這個研究方向中,如何能量化兩個XML文檔的相似性是一個關鍵,特別是兩個XML文檔的結構和語義相似性。XML不僅可以描述結構化數據,還具有描述半結構化數據的能力。目前,它是處理半結構化文檔的最有力的工具。XML文檔的相似性計算在XML數據的近似搜索和文檔分類方面有非常重要的作用。一些XML相似性計算方法已經被前人提出,例如編輯距離等,然而,很少有方法能夠簡潔的描繪出XML文檔的結構及語義信息,進而有效的計算XML文檔間的相似性。本文提出一種新的基于擴展鄰接矩陣的XML文檔結構及語義相似性測度方法。首先,本文介紹了數據挖掘概念及文檔相似性計算產生的背景與意義、XML文檔概念與特點以及傳統(tǒng)的XML文檔相似性計算方法等。其次通過深度搜索和區(qū)間編碼技術對文檔結構信息進行編碼,參考鄰接矩陣的概念提出本文相似性計算方法的核心擴展鄰接矩陣,不同于普通的鄰接矩陣,在擴展鄰接矩陣中,結構信息不僅僅是指鄰接的層,還包含了祖先子孫之間的關系。為了計算兩個文檔間的相似性,本文提出的方法首先會將兩篇XML文檔的結構和語義信息存儲在兩個擴展鄰接矩陣M1,M2中,然后通過COSM1,M2計算兩篇XML文檔的相似性。最后介紹本文提出的相似性計算方法是如何在程序中實現的,并設計一系列實驗來驗證該方法與其他相似性計算方法相比較效果如何。通過大量實驗證明,該方法具有較高的有效性和準確性。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數: 66
大?。?5.39(MB)
子文件數: