-
簡介:由于XML文檔越來越廣泛的應用,在數(shù)據(jù)挖掘、信息檢索領(lǐng)域,對XML文檔相似度及其檢索的研究也變得尤為重要。問題可描述如下對于給定的XML文檔集D和用戶查詢Q,XML文檔檢索即是從D中查找出符合Q的XML文檔,如果我們可以將用戶的查詢表示為一個XML文檔,那么用戶查詢與XML文檔之間的比較就可以通過XML文檔之間的相似度表示。為了有效的進行檢索,本文提出了一種新的計算XML文檔之間相似度的算法。該算法分為三步首先,基于WD對用戶查詢Q進行同義詞擴展得到Q';然后,將Q'和D中的每一篇XML文檔通過布隆過濾器進行數(shù)字簽名,并通過簽名之間的匹配對D進行有效過濾,除去大量不符合用戶查詢的文檔,得到一個文檔子集D',其中D'≦D最后,對Q與D'中的文檔通過計算XML文檔之間的相似度方法XMLSIM得到用戶查詢與XML文檔之間的相似度,以此作為XML文檔檢索的依據(jù)。XML文檔之間的比較是通過它們之間的路徑集合之間的相似度進行的,首先計算路徑之間相似度,XML文檔之間的相似度最后通過路徑集合之間的最大相似度的平均值得到。基于以上方法提出了一個XML文檔檢索的原型系統(tǒng)。該檢索原型系統(tǒng)的檢索性能用MRRMEANRECIPROCALRANK和PN兩個指標來評價。MRR值是20個查詢RECIPROCALRANK的平均值,其結(jié)果095,接近于1,表明系統(tǒng)的檢索性能良好;PN反映原型檢索系統(tǒng)前N個文檔的平均查準率,P1的值為1,說明返回的結(jié)果中第一個檢索結(jié)果100%為相關(guān)文檔,隨著N值的增大,PN值逐漸下降,滿足檢索系統(tǒng)對于返回結(jié)果相關(guān)度逐步減小的要求。本文的主要研究成果表現(xiàn)在三個方面,首先通過WD對用戶的查詢進行語義擴展,其次,提出一個通過布隆過濾器進行文檔過濾的解決思路,最后在比較文檔相似度的過程中,綜合考慮了XML文檔的結(jié)構(gòu)信息、標簽和內(nèi)容的語義信息。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 85
大?。?5.2(MB)
子文件數(shù):
-
簡介:分類號一至里圣窆三UDC00473852密級編號一公五一10299S1208035江薛大擎碩士學位論文文檔去重和信息檢索評價方法的研究RESEARCHONREMOVINGNEARDUPLICATEDOCUMENTSANDEVALUATIONMETHODSININFORMATIOILRETRIEVAL申請學位級別亟專業(yè)名稱讓篡扭應旦拉查論文提交日期2Q三生壘旦論文答辯日期2Q生主旦學位授予單位和日期江菱太堂答辯委員會主席詹求I避4K評閱人獨創(chuàng)性聲明本人鄭重聲明所呈交的學位論文,是本人在導師的指導下,獨立進行研究工作所取得的成果。除文中己注明引用的內(nèi)容以外,本論文不包含任何其他個人或集體己經(jīng)發(fā)表或撰寫過的作品成果。對本文的研究做出重要貢獻的個人和集體,均已在文中以明確方式標明。本人完全意識到本聲明的法律結(jié)果由本人承擔。學位論文作者簽名馮壘坡日期口汐年月7日
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 66
大小: 3.37(MB)
子文件數(shù):
-
簡介:XML(EXTENSIBLEMARKUPLANGUAGE)已成為因特網(wǎng)上的數(shù)據(jù)存儲、交換和表示的標準。隨著XML應用的普及,越來越多的數(shù)據(jù)以XML的形式存儲和交換,對XML文檔中的數(shù)據(jù)進行查詢的要求也就越來越高。為充分利用XML的特點開展查詢,本文詳細研究了XML查詢改進技術(shù)。MARCXCHANGE文檔是一種應用在數(shù)字化圖書館領(lǐng)域里的XML文檔類型,可以作為通用的數(shù)據(jù)交換格式在WEB環(huán)境下共享。為更好地促進數(shù)字圖書館建設(shè),本文還詳細研究了MARCXCHANGE文檔的索引和查詢技術(shù)。本文的主要貢獻有1提出了一種改進的基于LIMOON編碼的XML索引,當我們對XML編碼后的索引文檔進行B樹結(jié)構(gòu)化處理后,能大大減少索引文檔的大小,因而能有效提高查詢速度。2針對STACKTREEDESC算法沒有利用索引改善連接效率,瀏覽了一些不必要的節(jié)點浪費了資源,影響了查詢速度。本文提出了一種新的連接算法,通過B樹查找定位,來跳過祖先和后裔列表不必要的元素以提高查詢速度。3本文提出了一種基于MARCXCHANGE文檔的結(jié)構(gòu)索引方法-MARC_INDEX,該索引方法根據(jù)MARCXCHANGE文檔的特點采用LIMOON編碼方式,有效地實現(xiàn)了對文檔樹中任意兩個結(jié)點之間祖先后裔關(guān)系和雙親孩子關(guān)系的檢測。該索引另外的創(chuàng)新之處還在于有效結(jié)合B樹和倒排索引這兩種方法,從而綜合兩者的優(yōu)點,克服雙方的缺陷以提高查詢效率。最后,本文還提出了一個基于MARC_INDEX索引的查詢處理算法。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 60
大?。?2.69(MB)
子文件數(shù):
-
簡介:在應用軟件系統(tǒng)開發(fā)過程中,由于客戶業(yè)務和開發(fā)技術(shù)等原因,使得開發(fā)過程中重復性的工作比較多,比如有些企業(yè)業(yè)務流程、設(shè)計的用戶界面風格等方面都存在一定的相似性,但針對這些工作的設(shè)計、修改和維護出現(xiàn)許多復雜的問題。為了解決上述問題,本文研究一種程序自動生成的想法,即根據(jù)給定客戶的信息,包括業(yè)務信息和需求界面的描述信息,由程序自動生成用戶頁面及對應的業(yè)務操作,而程序員所做的工作就是維護這些信息。根據(jù)此想法本文開發(fā)一個程序自動系統(tǒng)的XML文檔子系統(tǒng)。本文首先研究了系統(tǒng)的總體結(jié)構(gòu),并且詳細敘述了系統(tǒng)的設(shè)計與實現(xiàn),重點介紹了將訂制信息保存為XML文檔的設(shè)計流程和實現(xiàn)方法,最終生成體現(xiàn)客戶業(yè)務信息的關(guān)系數(shù)據(jù)庫以及描述客戶訂制信息的XML文檔。根據(jù)此文檔,能夠生成最后的用戶頁面。本文設(shè)計實現(xiàn)的XML文檔生成子系統(tǒng)是自動程序生成系統(tǒng)的基礎(chǔ),在繼承該領(lǐng)域已有研究成果基礎(chǔ)上,進一步彌補現(xiàn)有程序自動生成工具的缺點,完善程序自動生成工具中XML文檔命名規(guī)范、生成規(guī)范等,并更好的實現(xiàn)對界面的描述及與用戶需求的交互。本系統(tǒng)為程序員提供相關(guān)框架程序或部分具體技術(shù)業(yè)務代碼的自動生成功能,使他們將精力集中在創(chuàng)造性的開發(fā)上。本系統(tǒng)設(shè)計的目標是顯著提高應用軟件編程速度、降低錯誤發(fā)生率、提高應用軟件的生產(chǎn)效率。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 88
大?。?2.98(MB)
子文件數(shù):
-
簡介:CAPP是提高工藝設(shè)計水平、增強制造業(yè)競爭力的重要手段。對企業(yè)而言,實現(xiàn)工藝的快速反應能力,縮短產(chǎn)品開發(fā)周期是企業(yè)在市場經(jīng)濟形勢下的迫切需求。在CAPP系統(tǒng)的開發(fā)研制中涉及四大關(guān)鍵問題1零件信息的描述和輸入問題;2工藝知識的表達和工藝文檔自動生成的方法問題;3CAPP系統(tǒng)的柔性、通用性、可復用性問題;4CAPP的自動化、智能化、實用化問題。本文分析了CAPP技術(shù)發(fā)展的狀況及面臨的問題,對工藝知識的表達及工藝文檔自動生成的理論方法進行了研究,提出了一種基于事物內(nèi)外因分類的工藝知識表達模式。依據(jù)此理論和方法,提出了一個基于參數(shù)化文檔模板及工藝知識表的CAPP工具系統(tǒng)總體設(shè)計構(gòu)思,介紹了參數(shù)化文檔模板、工藝知識表、文檔操作指令集、知識分析解釋器的概念及系統(tǒng)的實現(xiàn)技術(shù)。按照上述方法及構(gòu)思,設(shè)計了一個基于參數(shù)化文檔模板及工藝知識表的CAPP原型工具系統(tǒng),并對系統(tǒng)的應用進行了介紹,給出了一個葉片加工的自動化工藝設(shè)計的例子。對原型系統(tǒng)的試用表明,該系統(tǒng)具備初步的智能化、較高的自動化和良好的實用性。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 62
大小: 0.59(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 85
大小: 10.23(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 37
大小: 1.6(MB)
子文件數(shù):
-
簡介:信息技術(shù)的快速發(fā)展促使WEB上的數(shù)據(jù)爆炸式的增長,如何從海量的WEB數(shù)據(jù)中高效準確的獲得想要的知識成為熱門的研究課題。WEB挖掘就是從WEB信息中獲取潛在的、有價值的知識或模式的過程,分類、聚類、特征選擇等作為WEB挖掘的主要技術(shù)已經(jīng)得到長足的發(fā)展。聚類分析在WEB挖掘中占有重要的地位,所謂聚類就是按照某種相似性度量,根據(jù)一定的準則將一個對象集合成若干類,使得同類對象之間盡可能的相似,不同類對象之間盡可能的相異。聚類作為WEB挖掘的預處理階段可以通過分類數(shù)據(jù)來提高挖掘的效率和精確率。WEB頁面多數(shù)以HTML文本的形式存在,但隨著WEB數(shù)據(jù)的多樣化和復雜化,HTML文檔已經(jīng)滿足不了信息處理和信息交換的要求。XML是由W3C提出的標準,由于靈活性、開放性和自描述性等特點,逐漸成為WEB上主流數(shù)據(jù)格式和交換標準。因此XML聚類研究具有重要的意義。本文對XML聚類進行了系統(tǒng)的分析和研究,針對XML特性提出了一種能夠包含語義的特征提取方法,在此基礎(chǔ)上提出一些改進的聚類算法,并在真實文檔集和人工文檔集上進行了聚類實驗。本文工作和創(chuàng)新如下首先本文對文檔聚類的聚類算法和XML相關(guān)規(guī)范進行了總結(jié)分析,指出了目前文檔聚類領(lǐng)域常用聚類算法的不足。接著重點研究了XML文檔聚類的關(guān)鍵問題文檔相似性度量方法,分析了經(jīng)典編輯距離法和基于邊集的XML文檔相似度測度方法,在分析了空間向量模型的基礎(chǔ)上提出了標簽與路徑相結(jié)合的XML文檔向量模型,根據(jù)文檔樹的層次賦予向量特征一定的權(quán)值,能夠表達XML元素嵌套的語義信息,通過在示例文檔上計算相似度與編輯距離法和基于邊集的方法等相似度度量方法進行了比較,計算結(jié)果證明此方法對難分文檔具有更好的區(qū)分能力。機器學習技術(shù)是WEB挖掘的重要技術(shù)支撐,其中集成學習和半監(jiān)督學習是機器學習近幾年新興崛起的技術(shù),大量研究和實驗已經(jīng)證明集成學習和半監(jiān)督學習可以改進聚類和分類的性能。本文基于集成學習和半監(jiān)督學習對傳統(tǒng)聚類算法進行了改進,針對傳統(tǒng)單一的劃分聚類算法和層次聚類算法的弱點,提出了一種基于BAGGING的集成聚類算法,在基聚類器生成階段使用BOOTSTRAP抽樣產(chǎn)生原始文檔集的多個子集,在文檔子集上基于加權(quán)的標簽和路徑特征向量運行劃分聚類算法,然后使用聚類共識率來刪除低質(zhì)量的聚類中心,在生成的聚類中心集合上進行層次聚類得到最終的結(jié)果。由于集成聚類的計算復雜度較高,本文對提出的集成聚類算法進行了改進,提出一種基于半監(jiān)督學習的聚類算法,使用適當暫停的模糊劃分聚類FCM算法來抽樣原始文檔集,選擇在FCM聚類中心附近的數(shù)據(jù)點組成數(shù)據(jù)子集,對數(shù)據(jù)子集仍然使用層次聚類算法,然后用得到的聚類中心點作為監(jiān)督信息來指導FCM算法繼續(xù)執(zhí)行。最后我們在真實文檔集和人工文檔集上分別應用本文聚類算法,結(jié)果表明本文算法聚類質(zhì)量優(yōu)于單一聚類算法,并且具有較高的魯棒性。
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 51
大?。?2.2(MB)
子文件數(shù):
-
簡介:印刷體數(shù)學表達式識別系統(tǒng)主要包括數(shù)學表達式定位、數(shù)學表達式符號識別、數(shù)學表達式結(jié)構(gòu)分析和數(shù)學表達式重構(gòu)四個組成部分。數(shù)學表達式定位是數(shù)學表達式識別的首要步驟,也是本文的研究重點??萍嘉墨I中的數(shù)學表達式分為孤立表達式和內(nèi)嵌表達式,針對中文文檔特點,提出了一種基于統(tǒng)計特征的決策樹與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的數(shù)學表達式定位方法,該方法分別定位孤立表達式與內(nèi)嵌表達式,采用ID3算法對文本行屬性特征進行分析,構(gòu)造決策樹,利用生成的規(guī)則定位文檔中的孤立表達式;提取除孤立表達式外的其它行內(nèi)水平連通塊特征訓練BP神經(jīng)網(wǎng)絡(luò)定位內(nèi)嵌表達式。實驗表明,該方法對中文印刷體文檔中的數(shù)學表達式定位具有較高的正確率、容錯率和速率。
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 43
大?。?1.19(MB)
子文件數(shù):
-
簡介:上海交通大學碩士學位論文基于RBAC和XACML的XML文檔訪問控制系統(tǒng)姓名吳克棟申請學位級別碩士專業(yè)電子與通信工程指導教師李建華翁黎朗20090201上海交通大學工程碩士基于RBAC和XACML的XML文檔訪問控制系統(tǒng)IIACCESSCONTROLSYSTEMOFXMLDOCUMENTSBASEDONRBACXACMLABSTRACTWITHRAPIDDEVELOPMENTOFINFMATIONTECHNOLOGYTRADITIONALSECURITYSOLUTIONCAN’TMEETTHECHANGEDREQUIREMENTPROPERLYWEBSERVICERELATEDTECHNOLOGYINTHELASTFEWYEARSINFMATIONSECURITYISSUEDBECOMEFOCALPOINTFMANYITPROFESSIONALINFMATIONSECURITYISSUESBECOMEONEOFTHEOBSTACLEFTHEECOMMERCEEGOVERNMENTDEVELOPMENTTHISTHESISFIRSTLYEXAMINEDXMLCONCEPTITSRELATEDTECHNOLOGYDEVELOPMENTMAJINFMATIONSECURITYTHREATENSWEAREFACINGANALYZEDPOTENTIALNEEDFCARRYINGOUTTHISSTUDYDUETORAPIDLYDEVELOPINGCOMPUTERWKTECHNOLOGYDISTRIBUTEDAPPLICATIONDEVELOPMENTMEDEBATESAREPUTINTHEXMLTECHNOLOGYINFMATIONSECURITYCONCEPTITSSCHEMEXMLSECURITYITSSTARDACCESSCONTROLRELATEDDACMACRBACTHEIRTECHNOLOGYROLEBASEDACCESSCONTROLMECHANISMRBAC96MODELXACMLSTRUCTUREITSPROGRAMMINGAREALSODISCUSSEDINDETAILSBASEDONTHEREQUIREMENTSPECIFICATIONANALYSISOFXMLAPPLICATIONSECURITYFUNCATIONALDESIGNCOMBINATIONAPPLICATIONOFXMLSECURITYTECHNOLOGYROLEBASEDACCESSCONTROLTHISTHESISFMULATEDANXMLDOCUMENTATIONACCESSCONTROLSCHEMEITSFUTUREEXTENSIONITALSOPROVIDEDDETAILEDDESIGNINGDEIONFPARTOFTHESYSTEMTHEMAJACHIEVEMENTSOFTHISSTUDYCANBEFOUNDINTWOASPECTSTHEFIRSTISRATIONALCOMBINATIONOFROLEBASEDACCESSCONTROLRBACXMLDOCUMENTATIONOFWHICHCANPROVIDEFULLRANGEUSERACCESSCONTROLMECHANISMTHELATTERISRELATEDTODEIVECAPACITYTEMPARYAUTHENTICATIONSCHEMEBYUSINGXACMLOFWHICHPROVIDEADYNAMICFLEXIBLEUSERACCESSMANAGEMENTMECHANISMTHISTHESISINTENDSTOPROVIDEAPRACTICALINTEGRATEDMODELINACCESSCONTROLTOXMLDOCUMENTATIONBASEDONTHESTARDXMLFRAMEWKOPENPLATFMSTRUCTUREBYUSINGXMLDOCUMENTATIONENCRYPTIONDIGITALSIGNATUREOTHERRELATEDTECHNOLOGYTHEMODELDEVELOPEDCANPROVIDEACCESSCONTROLTOXMLDATASETINANOPENWKENVIRONMENT
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 75
大小: 1.34(MB)
子文件數(shù):
-
簡介:隨著XML技術(shù)的發(fā)展和普遍應用,XML已成為數(shù)據(jù)交換的標準,如何高效的實現(xiàn)XML的存儲和更新成為非常重要的研究方向。本文的主要研究內(nèi)容包括3個方面①XML文檔的關(guān)系化存儲方法;②關(guān)系的DTD轉(zhuǎn)化方法;③XML文檔與關(guān)系化存儲的同步更新技術(shù)研究。重點工作包括①XML文檔關(guān)系細粒度存儲策略的實現(xiàn),以多張二維表的形式分開記錄XMLDTD的結(jié)構(gòu)信息和核心數(shù)據(jù),實現(xiàn)了元素和屬性的分離存儲,通過查詢關(guān)系數(shù)據(jù)庫可實現(xiàn)對XML文檔屬性值或元素值的快速匹配查詢;②外鍵聯(lián)系法實現(xiàn)關(guān)系的DTD轉(zhuǎn)化,成功將多重關(guān)系表之間的結(jié)構(gòu)層次信息轉(zhuǎn)化為DTD的樹形結(jié)構(gòu)圖,進一步生成DTD,完整還原XML文檔結(jié)構(gòu);③B樹索引實現(xiàn)XML文檔與關(guān)系化存儲的同步更新,通過建立和維護一個B索引樹,實現(xiàn)XML文檔各條記錄和相應關(guān)系數(shù)據(jù)庫各個元組的對應,通過查詢B樹快速定位XML文檔,并實現(xiàn)數(shù)據(jù)的同步更新和B索引樹的更新。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 58
大小: 2.42(MB)
子文件數(shù):
-
簡介:圖像分割是由圖像處理進到圖像分析的關(guān)鍵步驟,也是一種基本的計算機視覺技術(shù)。這是因為圖像的分割、目標的分離、特征的提取和參數(shù)的測量將原始的圖像轉(zhuǎn)化為更抽象更緊湊的形式,使得更高層的分析和理解成為可能因此,圖像分割多年來一直得到人們的高度重視。本文從圖像分割的數(shù)學描述入手,介紹給出了圖像分割中常用的幾種方法,即灰度閾值分割法、邊緣檢測和區(qū)域跟蹤以及基于分水嶺算法的分割方法。論文分析了文檔圖像的特點,指出文檔圖像是由一些具有特定性質(zhì)的區(qū)域塊組合而成,通常包括文字塊、線圖、連續(xù)色調(diào)圖像和半色調(diào)圖像。其中,文字和線圖保存了圖像較多的細節(jié)以及結(jié)構(gòu)信息,具有較高的空間分辨率特征,這一部分區(qū)域?qū)︻伾直媛实囊蟛桓?;而連續(xù)色調(diào)和半色調(diào)的圖像則保存了較多的顏色信息,通常要求較高的顏色分辨率,但對空間分辨率的要求不高。由此采用基于分割的文檔圖像壓縮技術(shù),對不同的分割區(qū)域采用不同的壓縮方法可以獲得更好的壓縮效果。而對文檔圖像進行有效的層分割是論文研究的重點。論文提出了一種優(yōu)化的文檔圖像分割模型。該模型將區(qū)域分割和層分割的方法結(jié)合起來,在論文的文檔圖像分割優(yōu)化模型中,主要借鑒LVINCENT分水嶺算法中的基于形態(tài)學分水嶺的分割方法并加以改進來進行圖像的層分割。該算法的基本思想是將圖像像素點的灰度看作高度,圖像中不同灰度值的區(qū)域就對應于山峰和山谷盆地,盆地的邊緣就是所謂的分水線,分水線這個名稱的來歷是將圖像逐漸沉人一個湖中時圖像的最低點先進水,然后水逐漸漫過整個山谷盆地,當水位達到該盆地的邊緣高度時就將溢出。該盆地這時在水溢出處建壩攔截,如此直到整個圖像沉入水中,所建的壩就成為分開各個山谷盆地的分水線。在分水嶺分割算法中,論文指出分水嶺方法計算量較大,且最大的不足之處在于分割算法常會由于噪聲和其他諸如梯度的局部不規(guī)則性的影響造成過度分割。過度分割足以令應用算法得到的結(jié)果變得毫無用處。因此在實際的應用中,采用了改進的分水嶺算法的方法,即首先對原始圖象進行平滑,將平滑后的圖象使用分水嶺變換,同一標號的像素屬于同一貯水盆地,而將距不同貯水盆地距離相等的像素標為分水嶺點,這樣就得到了圖象的初始分割結(jié)果;最后應用灰度齊次性準則和邊界強度準則進行區(qū)域的融合,從而解決了過度分割問題。實驗結(jié)果表明,該方法能得到了精確的、有意義的分割結(jié)果。最后文章介紹了文檔圖像層分割的優(yōu)化模型分割實驗,并給出了示例圖像的分割情況。就分割的結(jié)果與單一的塊分割和層分割的實驗結(jié)果進行了比較。從而說明,優(yōu)化的層分割模型具有更好的分割效果。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 72
大?。?4.66(MB)
子文件數(shù):
-
簡介:中國科學技術(shù)大學碩士學位論文面向XML文檔集的檢索技術(shù)研究與系統(tǒng)實現(xiàn)姓名胡錦南申請學位級別碩士專業(yè)計算機應用指導教師陳恩紅20090501ABSTRACTABSTRACTASTHEINFORMATIONGROWSRAPIDLYONTHEINTERNETANDESPECIALLYTHEWIDEANDDEEPAPPLICATIONOFXMLTECHNOLOGYINMOREANDMOREFIELDS,TRADITIONALINFORMATIONRETRIEVALSYSTEMSBASEDONHTMLANDPURETEXTCANNOTSATISFYPEOPLETHENEEDOFRETRIEVINGTHEVARIOUSINFORMATIONINXMLDOCUMENTSHTMLISBEINGREPLACEDBYXMLINCERTAINFIELDBECAUSEOFTHESIMPLICITYOPENNESS,EXTENDIBILITY。ANDINTEROPERABILITYOFXMLWHICHISBECOMINGTHEMAINFORMOFINFORMATIONEXPRESSIONONTHEINTERNETANDOTHERAPPLICATIONSXMLSEARCHINGTECHNOLOGYISIMPROVINGALLTHETIMENOSEARCHINGMODELTODAYISUSEDGENERALLYANDTHESTANDARDQUERYLANGUAGESXPATHANDXQUERYPROVIDEDBYW3CAREALLBASEDONTHEPRECISETAGMATCHINGCOMMONUSERSCANHARDLYMAKEEFFIENTQUERIESBYUNDERSTANDINGTHESTRUCTUREOFTHEXMLDOCUMENTSSINCEMOSTOFTHEXMLDOCUMENTSHAVEAVERYCOMPLEXANDIRREGULARSTRUCTURETHISMAKESTHESEARCHINGEXPERIENCESNOTGOODFORUSERSTHUS,IT’SONEOFTHERESEARCHINGHOTSPOTINTHEINTERNATIONALIRCOMMUNITYTLLATHOWTOUTILIZETHENEWFEATURESRICHINXMLFULLYANDSTUDYTHETRADITIONALINFORMATIONRETRIEVALTECHNOLOGYFORREFERENCEANDBUILDANATIVEXMLBASEDINFORMATIONRETRIEVALSYSTEMWITHHIGHEFFICIENCYTHISPAPERBRINGSUPAPATHINDEXMETHODANDATWIGPATHSEARCHINGMETHODFORXMLDOCUMENTSET,ANDBEYONDALLTHISANXMLDOCUMENTSETINFORMATIONRETRIEVALSYSTEMWASBUILTTHEDETAILEDCONTENTISASFOLLOWIITPROVIDESANINDEXINGMETHODFORXMLDOCUMENTSETBASEDONPATHDIVISIONCOMBINEDWITHTRADITIONALINVERTEDLISTINDEXFORKEYWORDSEARCHINGANDTHEPATHINFORMATIONOFTHENODES。2ITBRINGSUPANEFFICIENTTWIGPATHSEARCHINGMECHANISMWHICHCANMAKETHENODESTILTEDINLINEARTIMEACCORDINGTOTHEINPUTDATASCALEFORCOMPLEXTWIGQUERYWITHOUTGENERATINGTOOMUCHINTERMEDIATERESULT3ITDESIGEDANDIMPLEMENTEDANXMLSEARCHINGSYSTEMBASEDONTHETECHNICSABOVEBESIDESTHESEARCHINGABILITYITPROVIDESANAPIFORINFORMATIONPROCESSINGANDDATAMININGALGORITHMSUSINGTHEAPI,RESEARCHERSCANACCESSTHEIRINTERESTINGDATATOBEPROCESSEDBYTHEPROGRAMSTHEYCREATEDINTHEMASSIVEDATASOURCEWITHOUTTHEFUSSYPREPARATIONFORDATA。KEYWORDSXML,TWIGQUERYPATHINDEX,IRSYSTEMII
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 54
大?。?2.44(MB)
子文件數(shù):
-
簡介:數(shù)字信息是現(xiàn)代社會的主要特征之一。人們傳遞信息的重要媒介是圖象,許多信息諸如天氣情報、地球資源分布情況、醫(yī)療診斷信息等都可以轉(zhuǎn)化為數(shù)字圖象的形式。隨著社會經(jīng)濟的發(fā)展,科學技術(shù)的不斷進步,信息視覺化技術(shù)越來越受到人們的重視。數(shù)字圖象處理與數(shù)據(jù)壓縮作為一門高技術(shù),也越來越顯示出它在社會發(fā)展中的重要地位。它既是當代信息高速公路、高清晰度電視HDTV、可視電話、圖文傳真等技術(shù)的關(guān)鍵,又在航空偵察遙感、資源勘探及生物醫(yī)學工程等領(lǐng)域起著非常重要的作用。同時,它在數(shù)據(jù)存儲、數(shù)據(jù)傳送中也起著非常重要的作用。文檔圖象壓縮作為圖象壓縮中一個非常重要的組成部分,在軍事、政府、商業(yè)、金融等社會各個領(lǐng)域得到了廣泛的應用。因此,進行文檔圖象壓縮方面的理論與應用研究,具有較高的現(xiàn)實意義和理論意義。本文在收集和分析了大量近年來國內(nèi)外文檔圖象壓縮方面的研究報告、學術(shù)論文等專業(yè)資料的基礎(chǔ)上,對文檔圖象壓縮所涉及的若干理論問題,包括圖象質(zhì)量的評價模型和基于內(nèi)容的壓縮模型等進行了探討;并結(jié)合實際需要,在文檔圖象壓縮的實際應用中,對提高壓縮率和主觀視覺質(zhì)量并降低運算時間方面進行了研究。主要工作包括1、對文檔圖象的壓縮模型進行了研究。對于大多數(shù)文檔圖象而言,圖象的效果是由人的主觀評價決定的。因此在選擇壓縮方案的時候,充分考慮了人眼的視覺特性即對文字和圖形區(qū)域,其主觀評價取決于文字的清晰程度,也就是文字的空間分辨率是非常重要的;而對于連續(xù)色調(diào)的圖象,尤其是灰度等級比較少的如256色圖象,評價因素正好相反,即顏色的分辨率是非常重要的。由此,文章借鑒了JBIG2的思想,將一幅文檔圖象進行區(qū)域劃分,并且針對不同的區(qū)域采用不同的編碼方法,以獲得最好的壓縮效果。由于本文根據(jù)區(qū)域的不同性質(zhì)對其采用相應的編碼策略,因此本文的方法是一種基于內(nèi)容的文檔圖象壓縮方法CDIC。2、對文檔圖象的版面分析進行了研究。版面分析是文檔圖象壓縮中非常重要的一個步驟??紤]到直接對灰度圖象進行版面分析,其計算復雜度太高,因此本文首先將灰度圖象利用半色調(diào)技術(shù)變換到二值圖象域中,然后利用數(shù)學形態(tài)學的方法對版面進行分割MMS。在提取圖象區(qū)域時,利用較大的矩形結(jié)構(gòu)元素對收縮圖象進行開運算,然后采用一種基于低通閾值圖象的二值化方法LTIB對原始去掉圖象區(qū)域的灰度圖象進行閾值化處理;在提取圖形區(qū)域時,利用多級HOUGH變換進行傾斜校正,并采用基于HOUGH變換構(gòu)造結(jié)構(gòu)元素HTSEC方法進行直線檢測;最后提取出文字區(qū)域。3、對文字區(qū)和圖形區(qū)的壓縮方法進行了研究。版面分割后的文字區(qū)和圖形區(qū)通常為二值圖象,然而這兩個區(qū)域又有各自的特性,因此有必要研究針對這兩個不同性質(zhì)的區(qū)域的編碼方法。在本文中,采用壓縮性能得到廣泛認可的自適應算術(shù)編碼器用于二值文字區(qū)域的編碼;采用矢量描述方法VD對圖形區(qū)域進行編碼,這樣可以得到很好的壓縮效果。針對低分辨率的文字圖象區(qū)域提出了基于灰度縮減的文字圖象編碼方法GRTIC。4、對連續(xù)色調(diào)圖象壓縮方法進行了研究。版面分割后的圖象區(qū)為連續(xù)色調(diào)圖象,采用無損壓縮方法對其進行壓縮,盡管可保證圖象能夠得到真實的反映,然而其壓縮效率卻受到很大限制。由于小波變換在圖象處理與壓縮領(lǐng)域中得到廣泛應用,因此本文中也采用小波變換對連續(xù)色調(diào)圖象進行壓縮。針對常見的嵌入式零樹小波EZW方法速度較慢的特點,本文采用了多閾值零樹小波算法MTZ對其運算速度予以改進,同時,針對帶噪圖象采用帶噪圖象的多閾值零樹小波算法NMTZ,在消除噪聲的同時,也提高了EZW的運算速度。5、本文分析了基于人眼視覺系統(tǒng)HVS的質(zhì)量評價方法,并提出了一種新的基于人眼視覺系統(tǒng)的圖象質(zhì)量評價模型基于HVS的結(jié)構(gòu)化質(zhì)量因子HSQ。由于基于人眼視覺系統(tǒng)的評價方法與圖象的主觀視覺質(zhì)量更接近,因此利用HSQ進行評價可以更符合人眼的視覺習慣,同時采用該質(zhì)量因子評價本文提出的壓縮方案CDIC。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 131
大?。?4.84(MB)
子文件數(shù):
-
簡介:目前,學校通過郵件管理方式對電子文檔進行收發(fā)管理,但是這種管理有局限性,只能實現(xiàn)以附件方式文件的傳輸與上傳下載辦公文檔功能。個人辦公通過手工審批,傳閱實現(xiàn),不具有對文檔歸檔功能,缺少管理策略與安全控制機制,并且不能對辦公實現(xiàn)網(wǎng)絡(luò)時效性。在保證信息安全前提下,通過局域網(wǎng),廣域網(wǎng)在不同的環(huán)境與系統(tǒng)下實現(xiàn)信息集成,實現(xiàn)系統(tǒng)間信息溝通,把分散的信息通過有效的方式進行管理整合,是提高辦公效率關(guān)鍵。本系統(tǒng)解決了高校文檔管理問題。論文首先對文檔管理的組織機構(gòu)、電子郵件系統(tǒng)、工作流轉(zhuǎn)、權(quán)限管理與用戶管理模塊進行了需求分析。通過SSH架構(gòu)進行功能的劃分與整合,通過STRUTS實現(xiàn)了管理請求,通過SPRING實現(xiàn)了業(yè)務校驗,通過HIBERNATE實現(xiàn)了其字段與持久化類的對應關(guān)系。系統(tǒng)基于BS模式,采用JAVA語言,MYECLIPSE開發(fā)工具與SQLSERVER數(shù)據(jù)庫服務器實現(xiàn)安全多層次文檔管理系統(tǒng)。整個系統(tǒng)共分為七個模塊,部門管理、組織機構(gòu)管理、用戶管理、角色管理、權(quán)限管理、辦公文檔管理和辦公文檔流轉(zhuǎn)模塊。通過項目運行,表明網(wǎng)絡(luò)辦公文檔管理是比較實用的。減小辦公管理人員的工作壓力,提高了辦公管理人員的辦公的效率。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 77
大?。?2.44(MB)
子文件數(shù):