-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 45
大?。?6.07(MB)
子文件數(shù):
-
簡(jiǎn)介:文檔圖像處理DIPDOCUMENTIMAGEPROCESSING的研究目的就是要利用計(jì)算機(jī)從文檔圖像中獲取需要的信息或者說是要讓計(jì)算機(jī)模擬人類自身對(duì)文檔圖像進(jìn)行理解我們首先提出了問題可解性的概念當(dāng)給定一個(gè)問題它可以分解為一系列的模型該模型序列在一定的測(cè)度下是收斂的而且對(duì)于給定的常數(shù)TT1存在一個(gè)遠(yuǎn)小于無(wú)窮的正數(shù)C使得該序列前C個(gè)模型之和對(duì)整個(gè)問題的覆蓋程度大于T那么我們就稱該問題是模型可解的其次我們通過仿真實(shí)驗(yàn)表明了版面結(jié)構(gòu)理解問題是模型可解的我們構(gòu)造了一個(gè)文檔版面結(jié)構(gòu)模型序列在表明版面結(jié)構(gòu)的模型可解性的同時(shí)我們也完成了模型的建立然后我們?cè)O(shè)計(jì)了一個(gè)文檔版面結(jié)構(gòu)模型的識(shí)別算法該算法的功能主要是識(shí)別上面模型序列中的十二個(gè)結(jié)構(gòu)模型該算法從文檔分層的思想出發(fā)利用投影輪廓分析方法和一些排版方面的知識(shí)首先確定出我們定義的文檔版面結(jié)構(gòu)空間模型中的基元此外我們還介紹了文檔圖像處理中其它一些方向的研究工作包括預(yù)處理版面拆解和區(qū)域識(shí)別其中我們?cè)敿?xì)介紹了我們?cè)谖臋n傾斜校正和區(qū)域識(shí)別方面的研究成果
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 92
大小: 3.62(MB)
子文件數(shù):
-
簡(jiǎn)介:本文提出了為XML應(yīng)用進(jìn)行建模的統(tǒng)一的設(shè)計(jì)方法定義了一種基于擴(kuò)展ER模型支持XML文檔建模的概念模型EERXEXTENDEDERFXML并結(jié)合POWERDESIGNER建模工具研究和探討了實(shí)現(xiàn)EERX模型可視化應(yīng)用的方法本文還針對(duì)XML概念模型和邏輯模型之間的轉(zhuǎn)換算法問題提出了初步解決方案本文從XML的理論基礎(chǔ)出發(fā)對(duì)XML自身的半結(jié)構(gòu)化特點(diǎn)以及它在數(shù)據(jù)庫(kù)領(lǐng)域的應(yīng)用作了詳細(xì)的介紹闡述了當(dāng)前引入XML概念模型的必要性深入探討了比XMLSCHEMA更抽象和直觀的概念模型并在POWERDESIGNER設(shè)計(jì)工具的基礎(chǔ)上進(jìn)行擴(kuò)展實(shí)現(xiàn)了對(duì)自定義的EERX模型的可視化建模的支持論文對(duì)EERX模型的定義和可視化實(shí)現(xiàn)工作做了重點(diǎn)介紹并通過實(shí)例介紹了EERX概念模型的應(yīng)用并對(duì)EERX到XMLSCHEMA的轉(zhuǎn)換算法進(jìn)行闡述
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 70
大?。?2.13(MB)
子文件數(shù):
-
簡(jiǎn)介:復(fù)旦大學(xué)博士學(xué)位論文XML文檔的規(guī)范化問題研究姓名呂騰申請(qǐng)學(xué)位級(jí)別博士專業(yè)計(jì)算機(jī)軟件與理論指導(dǎo)教師瞿兆榮20030430XML文檔的規(guī)范化問題研究ABSTRACIABSTRACTXMLEXTENSIBLEMARKUPLANGUAGEHASBECOMEONEOFTHEPRIMARYSTANDARDSFORDATAEXCHANGEANDREPRESENTATIONONTHEINTEMETITISWIDELYUSEDINVARIOUSFIELDSXMLDOCUMENTSMAYCONTAINREDUNDANTINFORMATIONANDOPERATIONANOMALIESDUETOABADDESIGNEDXMLSCHEMADTDWHICHIMPLIESTHEANOMALYDATADEPENDENCIESAMONGELEMENTSANDATTRIBUTESTHISPAPERSTUDIESTHENORMALIZATIONPROBLEMOFXMLDOCUMENTSWITHDTDS髂THEIRSCHEMASTHISWORKISCOMPOSEDOFTHREEPARTSASFOLLOWING11THISPARTANALYZESTHEDIFFERENCESOFFUNCTIONALDEPENDENCIESWHENTHEYAREAPPLIEDINXMLDOCUMENTSANDRELATIONALDATABASESRESPECTIVELYACONCEPTOFFUNCTIONALDEPENDENCYFORXMLDOCUMENTSBASEDONDTDPATHEXPRESSIONISPROPOSEDTHCADVANTAGEOFTHISDEFINITIONISTHATIT鋤REPRESENTTHEFUNCTIONALDEPENDENCIESNOTONLYBETWEENTHEVALUESOFATTRIBUTESANDELEMENTS,BUTALSOBETWEENTHENODESOFELEMENTSTHEREARETWOFORMSOFFUNCTIONALDEPENDENCYABSOLUTEFUNCTIONALDEPENDENCYANDRELATIVEFUNCTIONALDEPENDENCYANDASETOFCOMPLETEINFERENCEROLESABOUTXMLFUNCTIONALDEPENDENCYISGIVENFINALLYTHERELATIONBETWEENFUNCTIONALDEPENDENCYANDKEYSFORXMLDOCUMENTSARCALSOSTUDIEDINTHISPALL2INTHISPART,THECONCEPTSOFINDIRECTFUNCTIONALDEPENDENCYANDTRANSITIVEFUNCTIONALDEPENDENCYFORXMLDOCUMENTSALOPROPOSEDANDONEXMLNORMALFORMXNF1,ISDEFINEDBASEDONTHESECONE印TSANOTHERXMLNORMALFOFM,XNF2ISALSOPROPOSEDINTHISPARTTHECONCEPTOFLOSALESSJOINDECOMPOSITIONFORDTDSISALSODEFINEDBYTHERELATIONALREPRESENTATIONOFDTDSFINALLYTWOLOSSLESSJOINDECOMPOSITIONALGORITHMSFORTRANSFORMINGANXMLDOCUMENT’SDTDINTOXNFIANDXNF一2RESPECTIVELYALE西VEN3XMLDOCUMENTSMAYCONTAINDATAREDUNDANCIESANDOPERATIONANOMALIESDUETONONFUNCTIONALDEPENDENCIESTHECONCEPTOFMULTIVALUEDDEPENDENCYFORXMLDOCUMENTSWITHDTDSASTHEIRSCHEMASISPROPOSEDINTHISPARTANDANOTHERXMLNORMALFORM。XNF3,ISDEFHLEDBASEDONTHECONCEPTOFMULTIVALUEDDEPENDENCYFINALLYALOSSLESSJOINDECOMPOSITIONALGORITHMFORTRANSFORMINGAN第IV頁(yè)
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 89
大小: 2.1(MB)
子文件數(shù):
-
簡(jiǎn)介:隨著INTER及其信息服務(wù)的爆炸性增長(zhǎng),繼數(shù)據(jù)挖掘技術(shù)成功地用于傳統(tǒng)的數(shù)據(jù)庫(kù)領(lǐng)域之后,人們對(duì)網(wǎng)絡(luò)信息挖掘特別是WEB數(shù)據(jù)挖掘技術(shù)也開始研究。本文首先介紹了數(shù)據(jù)挖掘的定義、功能、模型和算法;研究了數(shù)據(jù)挖掘的背景、技術(shù)演變過程和現(xiàn)狀。接著描述了數(shù)據(jù)挖掘系統(tǒng)的原型框架,并著重對(duì)最常用的三種WEB數(shù)據(jù)挖掘技術(shù)進(jìn)行了分析WEB日志挖掘采用的模型有較大的缺陷精度較低、模型代價(jià)太大、效率不高,不適合電子文檔的數(shù)據(jù)挖掘;向量空間模型VSM法和基于示例學(xué)習(xí)的文檔過濾法其實(shí)都是一種文檔比較、過濾模型的方法,這種方法的主要缺陷是向量的維數(shù)和計(jì)算開銷非常巨大,挖掘效率低。處理包含模糊特性的事物,效果不是很好。對(duì)中心詞進(jìn)行模糊測(cè)度處理時(shí),會(huì)產(chǎn)生較大的偏差。最后,論文給出了一個(gè)實(shí)用的電子文檔信息挖掘系統(tǒng)的解決方案。INTER上文檔類型繁多,語(yǔ)種復(fù)雜,針對(duì)這些文檔建立一個(gè)格式一致的數(shù)據(jù)庫(kù)將是一項(xiàng)很復(fù)雜的事情。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 69
大小: 1.89(MB)
子文件數(shù):
-
簡(jiǎn)介:該文首先回顧了文檔管理和辦公自動(dòng)化技術(shù)的發(fā)展歷程基于文檔和文檔管理系統(tǒng)的定義介紹了電子文檔的特點(diǎn)和文檔管理的內(nèi)容在總結(jié)文檔管理現(xiàn)狀后提出了文檔管理的需求闡述了應(yīng)圍繞文檔的產(chǎn)主、存取訪問、分發(fā)、流程進(jìn)行文檔管理作者隨后闡述了文件分解的方法即根據(jù)文件格式定義從文件尤其是文本文件中提取出標(biāo)引信息并據(jù)以對(duì)文檔進(jìn)行分類組織和全文檢索這樣突破了文件格式的限制并可根據(jù)標(biāo)引信息對(duì)內(nèi)容進(jìn)行組織隨后著重分析了關(guān)系數(shù)據(jù)庫(kù)和文檔數(shù)據(jù)庫(kù)在文檔管理中的應(yīng)用在隨后章節(jié)中作者結(jié)合實(shí)際辦公自動(dòng)化項(xiàng)目的開發(fā)闡述了文檔管理在辦公自動(dòng)化系統(tǒng)中的設(shè)計(jì)與實(shí)現(xiàn)過程針對(duì)項(xiàng)目中文檔管理的需求圍繞文檔的產(chǎn)生、存取、流轉(zhuǎn)對(duì)辦公自動(dòng)化系統(tǒng)進(jìn)行了設(shè)計(jì)和實(shí)施實(shí)現(xiàn)了各個(gè)功能模塊并體現(xiàn)了對(duì)文檔中標(biāo)引信息的應(yīng)用
下載積分: 5 賞幣
上傳時(shí)間:2024-03-11
頁(yè)數(shù): 55
大?。?1.85(MB)
子文件數(shù):
-
簡(jiǎn)介:聚類技術(shù)是數(shù)據(jù)挖掘領(lǐng)域具有重要價(jià)值的技術(shù)之一,隨著網(wǎng)絡(luò)在社會(huì)生活的不斷深入,加之?dāng)?shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展和普及,WEB挖掘日益受到信息科學(xué)界的關(guān)注和重視,總的來說,WEB挖掘可分為三種類型WEB結(jié)構(gòu)挖掘,WEB使用挖掘和WEB文本挖掘1,其中,文檔聚類屬于WEB文本挖掘的研究?jī)?nèi)容,所謂文本挖掘,是指從文檔集合中發(fā)現(xiàn)隱含的某些未知模式或規(guī)則。文檔聚類不同于傳統(tǒng)的文檔分類,它不是基于預(yù)定的類表或類目體系,而是完全基于文檔本身,即先有文檔后有類,類的內(nèi)涵和外延以及整個(gè)類目體系完全由需要進(jìn)行聚類處理的文檔集合確定。目前常用的文檔聚類方法有層次方法和劃分方法等,其中,層次方法通過將文檔組織成若干類并形成一個(gè)相應(yīng)的樹來進(jìn)行聚類,其準(zhǔn)確度較高,但運(yùn)行速度較慢,不適合大規(guī)模文檔集合的聚類;劃分方法將文檔集合水平的劃分為許多類,各類間沒有層次性,其運(yùn)行速度較快,但須事先確定聚類數(shù)目,且對(duì)噪聲和輸入順序較敏感,尤其是當(dāng)文檔形式化表示的維數(shù)較高時(shí),該方法的性能和聚類質(zhì)量都明顯下降。對(duì)此,本文提出一種基于術(shù)語(yǔ)簇和關(guān)聯(lián)規(guī)則的文檔聚類方法,首先對(duì)文檔集合進(jìn)行分詞得到許多術(shù)語(yǔ),對(duì)這些術(shù)語(yǔ)進(jìn)行處理得到一個(gè)術(shù)語(yǔ)集合,再計(jì)算術(shù)語(yǔ)之間的平均互信息并以此為依據(jù)使用聚叢法形成術(shù)語(yǔ)簇,用術(shù)語(yǔ)簇來表示文檔,并計(jì)算術(shù)語(yǔ)簇和文檔之間的關(guān)聯(lián)度得到一個(gè)關(guān)聯(lián)矩陣,使用DHP(DIRECTHASHINGPRUNING)算法從關(guān)聯(lián)矩陣中挖掘出文檔的初始聚類,對(duì)此進(jìn)行聚類分析獲得最終的文檔聚類。此外,還使用了新的術(shù)語(yǔ)權(quán)重和文檔相似度計(jì)算方法,在實(shí)驗(yàn)數(shù)據(jù)的計(jì)算中使用了加權(quán)平均法。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的聚類方法相比,新聚類方法運(yùn)行速度快,聚類效果和聚類質(zhì)量都有顯著提高。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 66
大小: 1.88(MB)
子文件數(shù):
-
簡(jiǎn)介:由于XML具有自描述性和可擴(kuò)展性等特點(diǎn),能夠滿足WEB上對(duì)數(shù)據(jù)描述和存儲(chǔ)的需求,因而使得XML正在成為WEB上數(shù)據(jù)表示和交換的事實(shí)上的標(biāo)準(zhǔn)。隨著XML格式數(shù)據(jù)的快速增長(zhǎng)和廣泛應(yīng)用,對(duì)XML數(shù)據(jù)的查詢、轉(zhuǎn)換和存儲(chǔ)的研究受到了廣泛關(guān)注。在XML文檔的查詢技術(shù)研究中,基于小枝模式匹配的結(jié)構(gòu)連接查詢是關(guān)鍵的核心內(nèi)容。對(duì)于XML結(jié)構(gòu)查詢,可以對(duì)XML文檔樹中的結(jié)點(diǎn)或邊進(jìn)行編碼,通過編碼直接判斷結(jié)點(diǎn)之間的結(jié)構(gòu)關(guān)系,而無(wú)需對(duì)原XML文檔樹進(jìn)行遍歷,從而將XML結(jié)構(gòu)查詢的計(jì)算轉(zhuǎn)化為結(jié)構(gòu)連接的計(jì)算。目前對(duì)XML文檔的編碼方法有區(qū)間編碼、路徑編碼、前綴編碼等。因此,隨著不同編碼方案的研究,各種相應(yīng)的結(jié)構(gòu)查詢算法也提了出來。對(duì)于XML文檔基于結(jié)構(gòu)連接的小枝模式匹配查詢,是從文檔樹中查找與查詢模式匹配的結(jié)點(diǎn),然后將查找到的匹配結(jié)果再組裝成最終符合查詢表達(dá)式的完整樹結(jié)構(gòu)。TWIGSTACK是一個(gè)典型的關(guān)于小枝模式匹配的結(jié)構(gòu)連接查詢算法。它采用鏈棧的數(shù)據(jù)結(jié)構(gòu)作為緩存,對(duì)查詢節(jié)點(diǎn)流進(jìn)行整枝計(jì)算,從而避免了無(wú)用中間結(jié)果的產(chǎn)生。基于此算法,又提出了一系列改進(jìn)的算法。其中TWIG2STACK和TWIGLIST算法分別采用層次關(guān)系的堆棧結(jié)構(gòu)和列表結(jié)構(gòu),避免了復(fù)雜的歸并過程,進(jìn)一步提高了查詢效率。在我們對(duì)小枝模式匹配查詢的研究中,發(fā)現(xiàn)TWIGSTACK算法對(duì)查詢節(jié)點(diǎn)流在結(jié)束時(shí)的處理上存在著不足在對(duì)TWIGLIST算法的分析中,發(fā)現(xiàn)可以將XML文檔的SAX解析應(yīng)用于查詢過程,從而避免了對(duì)XML文檔進(jìn)行編碼,能進(jìn)一步提高查詢效率。本文的主要工作是1提出了BSTWIGSTACK小枝模式匹配查詢算法。該算法增強(qiáng)了原有的TWIGSTACK算法,給出了XML文檔在查詢節(jié)點(diǎn)流結(jié)束時(shí)的查詢匹配處理策略。2提出了BSTWIGLIST小枝模式匹配查詢算法。針對(duì)XML文檔的結(jié)構(gòu)特點(diǎn),在結(jié)合XML文檔的基于事件的SAX解析方式的基礎(chǔ)上,改進(jìn)了TWIGLIST算法。BSTWIGLIST算法能夠應(yīng)用于節(jié)點(diǎn)流模式的小枝查詢,在文檔解析的同時(shí)可以進(jìn)行模式匹配查詢,避免了以往查詢算法需要先對(duì)文檔節(jié)點(diǎn)進(jìn)行編碼索引的步驟,使得XML文檔在更新時(shí),無(wú)需對(duì)編碼文件進(jìn)行重新編碼和維護(hù),從而減少了查詢所需的存儲(chǔ)空間,提高了查詢效率。3最后通過對(duì)算法進(jìn)行的實(shí)驗(yàn)和數(shù)據(jù)測(cè)試,給出了算法查詢時(shí)間響應(yīng)及性能分析圖表,進(jìn)一步驗(yàn)證了改進(jìn)的查詢算法的有效性。在對(duì)以上算法的研究和實(shí)現(xiàn)當(dāng)中,本文所研究的只是XPATH查詢的一個(gè)片段,對(duì)于其他形式的XPATH查詢,仍然有待于進(jìn)一步的研究另外本文考慮的只是一種靜態(tài)XML文檔節(jié)點(diǎn)數(shù)據(jù)流的小枝模式匹配查詢,而對(duì)于在網(wǎng)絡(luò)環(huán)境下的多用戶的動(dòng)態(tài)數(shù)據(jù)流小枝模式匹配查詢,還要加以更進(jìn)一步的研究。這些將成為今后下一步研究的重點(diǎn)和方向。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 51
大?。?1.74(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 67
大?。?1.71(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 62
大?。?1.41(MB)
子文件數(shù):
-
簡(jiǎn)介:近年來,隨著辦公自動(dòng)化即OA系統(tǒng)的廣泛使用,檔案載體迅速地被磁盤、磁帶、光盤所取代或更替。文檔影像管理系統(tǒng)通過檔案數(shù)字化,將票據(jù)、單證、文件和檔案資料等轉(zhuǎn)換成電子影像信息,存儲(chǔ)并索引至光盤或硬盤,用以代替紙張等傳統(tǒng)的存儲(chǔ)方式,實(shí)現(xiàn)檔案的數(shù)字化存儲(chǔ)、管理與維護(hù),提供數(shù)字檔案信息的網(wǎng)絡(luò)傳輸和利用服務(wù)。文檔影像管理系統(tǒng)在銀行業(yè)、保險(xiǎn)業(yè)、政府機(jī)關(guān)、郵電、醫(yī)院與教育行業(yè)都有廣泛的應(yīng)用,所以文檔影像管理系統(tǒng)的研究不僅是一個(gè)極具實(shí)際意義的課題,而且有著良好的應(yīng)用發(fā)展前景。數(shù)字圖像處理的結(jié)果將形成最終的數(shù)字化館藏,可以說圖像處理的質(zhì)量決定了數(shù)字化檔案的質(zhì)量。文檔影像系統(tǒng)需要圖像處理的問題分兩方面一方面是圖像優(yōu)化,也就是優(yōu)化掃描圖像質(zhì)量,如降噪,糾偏、去黑邊等,一方面是滿足特定需求,如處于安全性考慮進(jìn)行數(shù)字水印處理等。本文研究的是第一方面,也就是文檔影像系統(tǒng)圖像增強(qiáng)中的兩個(gè)問題糾偏與降噪。糾偏有分為兩個(gè)方面圖像糾斜與文本居中。本文提出了基于文本行直線擬合計(jì)算文檔影像傾斜角度的算法和基于文本區(qū)域邊界的文本居中算法。文檔影像中的噪聲雜點(diǎn)屬于單極脈沖噪聲,很多雜點(diǎn)存在于文檔影像的“字里行間”中。針對(duì)這些特點(diǎn),本文提出了基于分塊快速去除雜點(diǎn)的算法以及為了滿足更高影像質(zhì)量的要求而提出能較大程度去除“字里行間”雜點(diǎn)的基于雜點(diǎn)鄰域的降噪算法。最后展示了應(yīng)用本文中提出算法的一個(gè)原型系統(tǒng)。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 66
大小: 3.38(MB)
子文件數(shù):
-
簡(jiǎn)介:普通文檔圖像中表格版面結(jié)構(gòu)的定位與分析是文檔圖像分析系統(tǒng)的重要部分由于表格結(jié)構(gòu)本身的復(fù)雜性等原因表格結(jié)構(gòu)的定位與分析一直是一個(gè)難點(diǎn)要使表格版面結(jié)構(gòu)的定位與分析能在實(shí)際的文檔圖像分析系統(tǒng)中得到應(yīng)用性能評(píng)測(cè)是其必要的保障評(píng)測(cè)系統(tǒng)通過比較實(shí)際系統(tǒng)的分析結(jié)果與理想的評(píng)測(cè)標(biāo)準(zhǔn)來評(píng)價(jià)系統(tǒng)的性能這里的評(píng)測(cè)標(biāo)準(zhǔn)不僅是表格結(jié)構(gòu)定位與分析的正確結(jié)果而且是自動(dòng)比較的基準(zhǔn),所以確定評(píng)測(cè)標(biāo)準(zhǔn)非常重要評(píng)測(cè)系統(tǒng)可以采用不同的方法來進(jìn)行結(jié)果的比較該文將討論一種新的方法,通過表格結(jié)構(gòu)中線條交點(diǎn)的比較來得到系統(tǒng)評(píng)測(cè)的結(jié)果評(píng)測(cè)的內(nèi)容包括確定評(píng)測(cè)參數(shù),定量地評(píng)價(jià)系統(tǒng)的性能,并為系統(tǒng)的改進(jìn)提供有效的數(shù)據(jù)最后,以南開大學(xué)機(jī)器智能所OCR軟件中的識(shí)別工具包RTK60作為實(shí)際的表格結(jié)構(gòu)定位與分析系統(tǒng),并選取152頁(yè)樣張作為測(cè)試集,進(jìn)行系統(tǒng)性能的評(píng)測(cè)實(shí)驗(yàn),結(jié)果表明評(píng)測(cè)方法是有效的
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 39
大小: 1.36(MB)
子文件數(shù):
-
簡(jiǎn)介:隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎已成為網(wǎng)民獲取網(wǎng)絡(luò)信息的主要工具。在這種趨勢(shì)下出現(xiàn)了各式各樣的搜索引擎。網(wǎng)絡(luò)上有一類文檔包含了大量信息,這類文檔包括WD、POWERPOINT、EXCEL等等。雖然目前存在一些專業(yè)的文檔搜索引擎比如北大天網(wǎng)FTP文件搜索引擎,但這類搜索引擎的檢索范圍僅限于FTP文檔,并且只能對(duì)文件名進(jìn)行檢索而無(wú)法對(duì)文檔內(nèi)容進(jìn)行檢索。盡管有少數(shù)的大型專業(yè)搜索引擎如BAIDU、GOOGLE實(shí)現(xiàn)了對(duì)文檔內(nèi)容進(jìn)行檢索的功能,但這些搜索引擎并不是針對(duì)文檔的搜索引擎,它們通過解析HTTP頁(yè)面的方式來搜集文檔,而不支持對(duì)FTP服務(wù)器上的文檔資源的搜集,因而損失了大量的資源。此外,對(duì)于日益增長(zhǎng)的海量網(wǎng)絡(luò)數(shù)據(jù),檢索結(jié)果本身就是一個(gè)很大的集合,用戶很難從這個(gè)大集合中有效地獲取信息,因此用戶需要更具體更客戶化的搜索引擎。本文設(shè)計(jì)和實(shí)現(xiàn)的中英文文檔全文搜索引擎不同于現(xiàn)有的搜索引擎。該文檔搜索引擎對(duì)海量網(wǎng)絡(luò)數(shù)據(jù)提供了簡(jiǎn)化性整合,可以靈活地與垂直搜索等技術(shù)相結(jié)合。該搜索引擎可以被應(yīng)用到特定的領(lǐng)域比如對(duì)特定網(wǎng)站的文檔資源的檢索、對(duì)特定行業(yè)的文檔資源的檢索等等。該系統(tǒng)一方面彌補(bǔ)了現(xiàn)有文檔搜索引擎信息量匱乏的缺陷另一方面,系統(tǒng)“硬件要求低、簡(jiǎn)潔、靈活、可配置”的特點(diǎn)使其可以方便地應(yīng)用到各種具有專門需求的全文檢索領(lǐng)域。本文重點(diǎn)介紹和實(shí)現(xiàn)了以下一些方面1系統(tǒng)的總體設(shè)計(jì);為提高性能和可擴(kuò)展性所做的一些局部設(shè)計(jì)。2HTTP和FTP爬蟲系統(tǒng)。設(shè)計(jì)并實(shí)現(xiàn)了用于抓取特定文檔WD,POWERPOINT,EXCEL的HTTP和FTP爬蟲系統(tǒng)。詳細(xì)描述了HTTP爬蟲的總體架構(gòu)設(shè)計(jì)、運(yùn)行流程、重要組件DNSCACHE的設(shè)計(jì)與實(shí)現(xiàn)。闡述了URL去重策略的設(shè)計(jì)與實(shí)現(xiàn)、POLITENICE抓取處理策略的設(shè)計(jì)與實(shí)現(xiàn)、HTML頁(yè)面解析過程的設(shè)計(jì)與實(shí)現(xiàn)、文檔抓取過程的設(shè)計(jì)與實(shí)現(xiàn)。闡述了FTP爬蟲系統(tǒng)的總體設(shè)計(jì)和性能優(yōu)化方案。闡述了爬蟲系統(tǒng)的文件去重功能的設(shè)計(jì)及實(shí)現(xiàn)、文檔解析系統(tǒng)的接口設(shè)計(jì)及實(shí)現(xiàn)。3基于APACHEPOI的文檔解析模塊。介紹了模塊總體設(shè)計(jì)、具體實(shí)現(xiàn)、存儲(chǔ)優(yōu)化策略。4基于LUCENE的檢索模塊和UI模塊。介紹了LUCENE的原理,結(jié)合WEB技術(shù)闡述了檢索模塊和UI模塊的設(shè)計(jì)思路和實(shí)現(xiàn)方法。文章最后對(duì)系統(tǒng)的工作效果和性能進(jìn)行了簡(jiǎn)單評(píng)測(cè),對(duì)系統(tǒng)未來的工作進(jìn)行了分析和展望,提出了一些優(yōu)化方案。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 96
大?。?4.2(MB)
子文件數(shù):
-
簡(jiǎn)介:根據(jù)對(duì)當(dāng)前信息系統(tǒng)的分析該文總結(jié)出目前管理信息系統(tǒng)在流程建模、分析和管理等方面的不足基于此分析了工作流管理信息系統(tǒng)的優(yōu)點(diǎn)及其體系結(jié)構(gòu)模型為工作流管理信息系統(tǒng)的建設(shè)提供了一個(gè)很好的參考模型該文分析了在信息系統(tǒng)中實(shí)現(xiàn)工作流機(jī)制的三種方法提出首先基于工作流數(shù)據(jù)庫(kù)實(shí)現(xiàn)工作流管理系統(tǒng)的功能然后將其作為一個(gè)子系統(tǒng)嵌入到信息系統(tǒng)中該文通過流程定義模型、活動(dòng)規(guī)則表示、任務(wù)分配模型來定義一個(gè)工作流數(shù)據(jù)庫(kù)并基于此數(shù)據(jù)結(jié)構(gòu)分析了如何實(shí)現(xiàn)工作流管理系統(tǒng)的功能該文將工作流管理系統(tǒng)作為文檔管理信息系統(tǒng)的子系統(tǒng)對(duì)文檔工作流管理信息系統(tǒng)進(jìn)行了系統(tǒng)分析和設(shè)計(jì)并探討了OLE技術(shù)在文檔內(nèi)容管理中的應(yīng)用安全問題是文檔管理和工作流技術(shù)都值得關(guān)注的問題該文探討了文檔管理中的工作流安全機(jī)制給出了工作流管理信息系統(tǒng)的層次安全結(jié)構(gòu)在此基礎(chǔ)上分析了多級(jí)訪問控制模型及其實(shí)現(xiàn)
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 65
大?。?2.19(MB)
子文件數(shù):
-
簡(jiǎn)介:隨著多媒體和網(wǎng)絡(luò)技術(shù)的高速發(fā)展,越來越多的數(shù)字多媒體產(chǎn)品通過網(wǎng)絡(luò)進(jìn)行傳播。在信息獲取與交流更加便捷的同時(shí),由于多媒體產(chǎn)品可以輕易地被拷貝及復(fù)制,信息隱患也隨之而來。因此,如何采取相應(yīng)措施保護(hù)作者的版權(quán),如何證明用戶得到的產(chǎn)品的正確性和完整性,成為亟待解決的問題。在這種背景下,作為多媒體產(chǎn)權(quán)保護(hù)和信息安全維護(hù)的一種有效手段,魯棒性的數(shù)字水印技術(shù)成為信息處理領(lǐng)域的一個(gè)研究熱點(diǎn)。在眾多類型的多媒體產(chǎn)品中,文檔圖像在許多情況下往往比自然圖像、聲音、視頻等具有更高的價(jià)值,但是又更加容易被傳播和拷貝。而且鑒于文檔圖像自身的特點(diǎn),許多數(shù)字圖像水印算法對(duì)文檔圖像并不適用。目前針對(duì)文檔圖像的數(shù)字水印算法并不是很多,并且都有魯棒性較低的缺點(diǎn)?;诖?,本文首先介紹了數(shù)字水印的基本概念、水印基本特征和數(shù)字水印研究動(dòng)態(tài)使讀者對(duì)數(shù)字水印的基礎(chǔ)知識(shí)有一個(gè)總體的了解;接著介紹了幾種能夠應(yīng)用于二值圖像的數(shù)字水印算法;然后,分析了文檔圖像的特征,使用文本塊標(biāo)記算法實(shí)現(xiàn)文檔圖像區(qū)域的定位;對(duì)文檔圖像的特征指標(biāo)進(jìn)行比較計(jì)算,重點(diǎn)分析了文檔圖像的紋理譜特征,詳細(xì)介紹紋理譜和零水印的概念;使用紋理譜直方圖作為二值文檔圖像的零水印,提出了完整的零水印構(gòu)造和檢測(cè)算法;最后,進(jìn)行多種攻擊實(shí)驗(yàn),包括常用的剪切、添加噪聲和旋轉(zhuǎn),并給出實(shí)驗(yàn)結(jié)果和對(duì)實(shí)驗(yàn)結(jié)果的分析,證明本算法具有較好的魯棒性。本文的算法基于文檔圖像的紋理譜特征,并且使用了零水印方案。水印的生成算法和圖像質(zhì)量具有較好的表現(xiàn),借助于版面分析可進(jìn)一步提高水印算法的檢測(cè)精度。文檔圖像作為一種特殊的圖像載體,在社會(huì)日益進(jìn)步的今天有著越來越重要的作用,是一個(gè)極具潛力的研究方向。隨著人們對(duì)文檔圖像數(shù)字水印技術(shù)的重視,文檔圖像數(shù)字水印發(fā)展前景會(huì)更加光明。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 54
大小: 3.55(MB)
子文件數(shù):