-
簡(jiǎn)介:由于XML文檔越來(lái)越廣泛的應(yīng)用,在數(shù)據(jù)挖掘、信息檢索領(lǐng)域,對(duì)XML文檔相似度及其檢索的研究也變得尤為重要。問(wèn)題可描述如下對(duì)于給定的XML文檔集D和用戶查詢Q,XML文檔檢索即是從D中查找出符合Q的XML文檔,如果我們可以將用戶的查詢表示為一個(gè)XML文檔,那么用戶查詢與XML文檔之間的比較就可以通過(guò)XML文檔之間的相似度表示。為了有效的進(jìn)行檢索,本文提出了一種新的計(jì)算XML文檔之間相似度的算法。該算法分為三步首先,基于WD對(duì)用戶查詢Q進(jìn)行同義詞擴(kuò)展得到Q';然后,將Q'和D中的每一篇XML文檔通過(guò)布隆過(guò)濾器進(jìn)行數(shù)字簽名,并通過(guò)簽名之間的匹配對(duì)D進(jìn)行有效過(guò)濾,除去大量不符合用戶查詢的文檔,得到一個(gè)文檔子集D',其中D'≦D最后,對(duì)Q與D'中的文檔通過(guò)計(jì)算XML文檔之間的相似度方法XMLSIM得到用戶查詢與XML文檔之間的相似度,以此作為XML文檔檢索的依據(jù)。XML文檔之間的比較是通過(guò)它們之間的路徑集合之間的相似度進(jìn)行的,首先計(jì)算路徑之間相似度,XML文檔之間的相似度最后通過(guò)路徑集合之間的最大相似度的平均值得到?;谝陨戏椒ㄌ岢隽艘粋€(gè)XML文檔檢索的原型系統(tǒng)。該檢索原型系統(tǒng)的檢索性能用MRRMEANRECIPROCALRANK和PN兩個(gè)指標(biāo)來(lái)評(píng)價(jià)。MRR值是20個(gè)查詢RECIPROCALRANK的平均值,其結(jié)果095,接近于1,表明系統(tǒng)的檢索性能良好;PN反映原型檢索系統(tǒng)前N個(gè)文檔的平均查準(zhǔn)率,P1的值為1,說(shuō)明返回的結(jié)果中第一個(gè)檢索結(jié)果100%為相關(guān)文檔,隨著N值的增大,PN值逐漸下降,滿足檢索系統(tǒng)對(duì)于返回結(jié)果相關(guān)度逐步減小的要求。本文的主要研究成果表現(xiàn)在三個(gè)方面,首先通過(guò)WD對(duì)用戶的查詢進(jìn)行語(yǔ)義擴(kuò)展,其次,提出一個(gè)通過(guò)布隆過(guò)濾器進(jìn)行文檔過(guò)濾的解決思路,最后在比較文檔相似度的過(guò)程中,綜合考慮了XML文檔的結(jié)構(gòu)信息、標(biāo)簽和內(nèi)容的語(yǔ)義信息。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 85
大?。?5.2(MB)
子文件數(shù):
-
簡(jiǎn)介:分類號(hào)一至里圣窆三UDC00473852密級(jí)編號(hào)一公五一10299S1208035江薛大擎碩士學(xué)位論文文檔去重和信息檢索評(píng)價(jià)方法的研究RESEARCHONREMOVINGNEARDUPLICATEDOCUMENTSANDEVALUATIONMETHODSININFORMATIOILRETRIEVAL申請(qǐng)學(xué)位級(jí)別亟專業(yè)名稱讓篡扭應(yīng)旦拉查論文提交日期2Q三生壘旦論文答辯日期2Q生主旦學(xué)位授予單位和日期江菱太堂答辯委員會(huì)主席詹求I避4K評(píng)閱人獨(dú)創(chuàng)性聲明本人鄭重聲明所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中己注明引用的內(nèi)容以外,本論文不包含任何其他個(gè)人或集體己經(jīng)發(fā)表或撰寫過(guò)的作品成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名馮壘坡日期口汐年月7日
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 66
大?。?3.37(MB)
子文件數(shù):
-
簡(jiǎn)介:XML(EXTENSIBLEMARKUPLANGUAGE)已成為因特網(wǎng)上的數(shù)據(jù)存儲(chǔ)、交換和表示的標(biāo)準(zhǔn)。隨著XML應(yīng)用的普及,越來(lái)越多的數(shù)據(jù)以XML的形式存儲(chǔ)和交換,對(duì)XML文檔中的數(shù)據(jù)進(jìn)行查詢的要求也就越來(lái)越高。為充分利用XML的特點(diǎn)開展查詢,本文詳細(xì)研究了XML查詢改進(jìn)技術(shù)。MARCXCHANGE文檔是一種應(yīng)用在數(shù)字化圖書館領(lǐng)域里的XML文檔類型,可以作為通用的數(shù)據(jù)交換格式在WEB環(huán)境下共享。為更好地促進(jìn)數(shù)字圖書館建設(shè),本文還詳細(xì)研究了MARCXCHANGE文檔的索引和查詢技術(shù)。本文的主要貢獻(xiàn)有1提出了一種改進(jìn)的基于LIMOON編碼的XML索引,當(dāng)我們對(duì)XML編碼后的索引文檔進(jìn)行B樹結(jié)構(gòu)化處理后,能大大減少索引文檔的大小,因而能有效提高查詢速度。2針對(duì)STACKTREEDESC算法沒有利用索引改善連接效率,瀏覽了一些不必要的節(jié)點(diǎn)浪費(fèi)了資源,影響了查詢速度。本文提出了一種新的連接算法,通過(guò)B樹查找定位,來(lái)跳過(guò)祖先和后裔列表不必要的元素以提高查詢速度。3本文提出了一種基于MARCXCHANGE文檔的結(jié)構(gòu)索引方法-MARC_INDEX,該索引方法根據(jù)MARCXCHANGE文檔的特點(diǎn)采用LIMOON編碼方式,有效地實(shí)現(xiàn)了對(duì)文檔樹中任意兩個(gè)結(jié)點(diǎn)之間祖先后裔關(guān)系和雙親孩子關(guān)系的檢測(cè)。該索引另外的創(chuàng)新之處還在于有效結(jié)合B樹和倒排索引這兩種方法,從而綜合兩者的優(yōu)點(diǎn),克服雙方的缺陷以提高查詢效率。最后,本文還提出了一個(gè)基于MARC_INDEX索引的查詢處理算法。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 60
大?。?2.69(MB)
子文件數(shù):
-
簡(jiǎn)介:在應(yīng)用軟件系統(tǒng)開發(fā)過(guò)程中,由于客戶業(yè)務(wù)和開發(fā)技術(shù)等原因,使得開發(fā)過(guò)程中重復(fù)性的工作比較多,比如有些企業(yè)業(yè)務(wù)流程、設(shè)計(jì)的用戶界面風(fēng)格等方面都存在一定的相似性,但針對(duì)這些工作的設(shè)計(jì)、修改和維護(hù)出現(xiàn)許多復(fù)雜的問(wèn)題。為了解決上述問(wèn)題,本文研究一種程序自動(dòng)生成的想法,即根據(jù)給定客戶的信息,包括業(yè)務(wù)信息和需求界面的描述信息,由程序自動(dòng)生成用戶頁(yè)面及對(duì)應(yīng)的業(yè)務(wù)操作,而程序員所做的工作就是維護(hù)這些信息。根據(jù)此想法本文開發(fā)一個(gè)程序自動(dòng)系統(tǒng)的XML文檔子系統(tǒng)。本文首先研究了系統(tǒng)的總體結(jié)構(gòu),并且詳細(xì)敘述了系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),重點(diǎn)介紹了將訂制信息保存為XML文檔的設(shè)計(jì)流程和實(shí)現(xiàn)方法,最終生成體現(xiàn)客戶業(yè)務(wù)信息的關(guān)系數(shù)據(jù)庫(kù)以及描述客戶訂制信息的XML文檔。根據(jù)此文檔,能夠生成最后的用戶頁(yè)面。本文設(shè)計(jì)實(shí)現(xiàn)的XML文檔生成子系統(tǒng)是自動(dòng)程序生成系統(tǒng)的基礎(chǔ),在繼承該領(lǐng)域已有研究成果基礎(chǔ)上,進(jìn)一步彌補(bǔ)現(xiàn)有程序自動(dòng)生成工具的缺點(diǎn),完善程序自動(dòng)生成工具中XML文檔命名規(guī)范、生成規(guī)范等,并更好的實(shí)現(xiàn)對(duì)界面的描述及與用戶需求的交互。本系統(tǒng)為程序員提供相關(guān)框架程序或部分具體技術(shù)業(yè)務(wù)代碼的自動(dòng)生成功能,使他們將精力集中在創(chuàng)造性的開發(fā)上。本系統(tǒng)設(shè)計(jì)的目標(biāo)是顯著提高應(yīng)用軟件編程速度、降低錯(cuò)誤發(fā)生率、提高應(yīng)用軟件的生產(chǎn)效率。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 88
大?。?2.98(MB)
子文件數(shù):
-
簡(jiǎn)介:CAPP是提高工藝設(shè)計(jì)水平、增強(qiáng)制造業(yè)競(jìng)爭(zhēng)力的重要手段。對(duì)企業(yè)而言,實(shí)現(xiàn)工藝的快速反應(yīng)能力,縮短產(chǎn)品開發(fā)周期是企業(yè)在市場(chǎng)經(jīng)濟(jì)形勢(shì)下的迫切需求。在CAPP系統(tǒng)的開發(fā)研制中涉及四大關(guān)鍵問(wèn)題1零件信息的描述和輸入問(wèn)題;2工藝知識(shí)的表達(dá)和工藝文檔自動(dòng)生成的方法問(wèn)題;3CAPP系統(tǒng)的柔性、通用性、可復(fù)用性問(wèn)題;4CAPP的自動(dòng)化、智能化、實(shí)用化問(wèn)題。本文分析了CAPP技術(shù)發(fā)展的狀況及面臨的問(wèn)題,對(duì)工藝知識(shí)的表達(dá)及工藝文檔自動(dòng)生成的理論方法進(jìn)行了研究,提出了一種基于事物內(nèi)外因分類的工藝知識(shí)表達(dá)模式。依據(jù)此理論和方法,提出了一個(gè)基于參數(shù)化文檔模板及工藝知識(shí)表的CAPP工具系統(tǒng)總體設(shè)計(jì)構(gòu)思,介紹了參數(shù)化文檔模板、工藝知識(shí)表、文檔操作指令集、知識(shí)分析解釋器的概念及系統(tǒng)的實(shí)現(xiàn)技術(shù)。按照上述方法及構(gòu)思,設(shè)計(jì)了一個(gè)基于參數(shù)化文檔模板及工藝知識(shí)表的CAPP原型工具系統(tǒng),并對(duì)系統(tǒng)的應(yīng)用進(jìn)行了介紹,給出了一個(gè)葉片加工的自動(dòng)化工藝設(shè)計(jì)的例子。對(duì)原型系統(tǒng)的試用表明,該系統(tǒng)具備初步的智能化、較高的自動(dòng)化和良好的實(shí)用性。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 62
大小: 0.59(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-11
頁(yè)數(shù): 85
大?。?10.23(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 37
大?。?1.6(MB)
子文件數(shù):
-
簡(jiǎn)介:信息技術(shù)的快速發(fā)展促使WEB上的數(shù)據(jù)爆炸式的增長(zhǎng),如何從海量的WEB數(shù)據(jù)中高效準(zhǔn)確的獲得想要的知識(shí)成為熱門的研究課題。WEB挖掘就是從WEB信息中獲取潛在的、有價(jià)值的知識(shí)或模式的過(guò)程,分類、聚類、特征選擇等作為WEB挖掘的主要技術(shù)已經(jīng)得到長(zhǎng)足的發(fā)展。聚類分析在WEB挖掘中占有重要的地位,所謂聚類就是按照某種相似性度量,根據(jù)一定的準(zhǔn)則將一個(gè)對(duì)象集合成若干類,使得同類對(duì)象之間盡可能的相似,不同類對(duì)象之間盡可能的相異。聚類作為WEB挖掘的預(yù)處理階段可以通過(guò)分類數(shù)據(jù)來(lái)提高挖掘的效率和精確率。WEB頁(yè)面多數(shù)以HTML文本的形式存在,但隨著WEB數(shù)據(jù)的多樣化和復(fù)雜化,HTML文檔已經(jīng)滿足不了信息處理和信息交換的要求。XML是由W3C提出的標(biāo)準(zhǔn),由于靈活性、開放性和自描述性等特點(diǎn),逐漸成為WEB上主流數(shù)據(jù)格式和交換標(biāo)準(zhǔn)。因此XML聚類研究具有重要的意義。本文對(duì)XML聚類進(jìn)行了系統(tǒng)的分析和研究,針對(duì)XML特性提出了一種能夠包含語(yǔ)義的特征提取方法,在此基礎(chǔ)上提出一些改進(jìn)的聚類算法,并在真實(shí)文檔集和人工文檔集上進(jìn)行了聚類實(shí)驗(yàn)。本文工作和創(chuàng)新如下首先本文對(duì)文檔聚類的聚類算法和XML相關(guān)規(guī)范進(jìn)行了總結(jié)分析,指出了目前文檔聚類領(lǐng)域常用聚類算法的不足。接著重點(diǎn)研究了XML文檔聚類的關(guān)鍵問(wèn)題文檔相似性度量方法,分析了經(jīng)典編輯距離法和基于邊集的XML文檔相似度測(cè)度方法,在分析了空間向量模型的基礎(chǔ)上提出了標(biāo)簽與路徑相結(jié)合的XML文檔向量模型,根據(jù)文檔樹的層次賦予向量特征一定的權(quán)值,能夠表達(dá)XML元素嵌套的語(yǔ)義信息,通過(guò)在示例文檔上計(jì)算相似度與編輯距離法和基于邊集的方法等相似度度量方法進(jìn)行了比較,計(jì)算結(jié)果證明此方法對(duì)難分文檔具有更好的區(qū)分能力。機(jī)器學(xué)習(xí)技術(shù)是WEB挖掘的重要技術(shù)支撐,其中集成學(xué)習(xí)和半監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)近幾年新興崛起的技術(shù),大量研究和實(shí)驗(yàn)已經(jīng)證明集成學(xué)習(xí)和半監(jiān)督學(xué)習(xí)可以改進(jìn)聚類和分類的性能。本文基于集成學(xué)習(xí)和半監(jiān)督學(xué)習(xí)對(duì)傳統(tǒng)聚類算法進(jìn)行了改進(jìn),針對(duì)傳統(tǒng)單一的劃分聚類算法和層次聚類算法的弱點(diǎn),提出了一種基于BAGGING的集成聚類算法,在基聚類器生成階段使用BOOTSTRAP抽樣產(chǎn)生原始文檔集的多個(gè)子集,在文檔子集上基于加權(quán)的標(biāo)簽和路徑特征向量運(yùn)行劃分聚類算法,然后使用聚類共識(shí)率來(lái)刪除低質(zhì)量的聚類中心,在生成的聚類中心集合上進(jìn)行層次聚類得到最終的結(jié)果。由于集成聚類的計(jì)算復(fù)雜度較高,本文對(duì)提出的集成聚類算法進(jìn)行了改進(jìn),提出一種基于半監(jiān)督學(xué)習(xí)的聚類算法,使用適當(dāng)暫停的模糊劃分聚類FCM算法來(lái)抽樣原始文檔集,選擇在FCM聚類中心附近的數(shù)據(jù)點(diǎn)組成數(shù)據(jù)子集,對(duì)數(shù)據(jù)子集仍然使用層次聚類算法,然后用得到的聚類中心點(diǎn)作為監(jiān)督信息來(lái)指導(dǎo)FCM算法繼續(xù)執(zhí)行。最后我們?cè)谡鎸?shí)文檔集和人工文檔集上分別應(yīng)用本文聚類算法,結(jié)果表明本文算法聚類質(zhì)量?jī)?yōu)于單一聚類算法,并且具有較高的魯棒性。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-11
頁(yè)數(shù): 51
大?。?2.2(MB)
子文件數(shù):
-
簡(jiǎn)介:印刷體數(shù)學(xué)表達(dá)式識(shí)別系統(tǒng)主要包括數(shù)學(xué)表達(dá)式定位、數(shù)學(xué)表達(dá)式符號(hào)識(shí)別、數(shù)學(xué)表達(dá)式結(jié)構(gòu)分析和數(shù)學(xué)表達(dá)式重構(gòu)四個(gè)組成部分。數(shù)學(xué)表達(dá)式定位是數(shù)學(xué)表達(dá)式識(shí)別的首要步驟,也是本文的研究重點(diǎn)。科技文獻(xiàn)中的數(shù)學(xué)表達(dá)式分為孤立表達(dá)式和內(nèi)嵌表達(dá)式,針對(duì)中文文檔特點(diǎn),提出了一種基于統(tǒng)計(jì)特征的決策樹與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的數(shù)學(xué)表達(dá)式定位方法,該方法分別定位孤立表達(dá)式與內(nèi)嵌表達(dá)式,采用ID3算法對(duì)文本行屬性特征進(jìn)行分析,構(gòu)造決策樹,利用生成的規(guī)則定位文檔中的孤立表達(dá)式;提取除孤立表達(dá)式外的其它行內(nèi)水平連通塊特征訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)定位內(nèi)嵌表達(dá)式。實(shí)驗(yàn)表明,該方法對(duì)中文印刷體文檔中的數(shù)學(xué)表達(dá)式定位具有較高的正確率、容錯(cuò)率和速率。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-11
頁(yè)數(shù): 43
大?。?1.19(MB)
子文件數(shù):
-
簡(jiǎn)介:上海交通大學(xué)碩士學(xué)位論文基于RBAC和XACML的XML文檔訪問(wèn)控制系統(tǒng)姓名吳克棟申請(qǐng)學(xué)位級(jí)別碩士專業(yè)電子與通信工程指導(dǎo)教師李建華翁黎朗20090201上海交通大學(xué)工程碩士基于RBAC和XACML的XML文檔訪問(wèn)控制系統(tǒng)IIACCESSCONTROLSYSTEMOFXMLDOCUMENTSBASEDONRBACXACMLABSTRACTWITHRAPIDDEVELOPMENTOFINFMATIONTECHNOLOGYTRADITIONALSECURITYSOLUTIONCAN’TMEETTHECHANGEDREQUIREMENTPROPERLYWEBSERVICERELATEDTECHNOLOGYINTHELASTFEWYEARSINFMATIONSECURITYISSUEDBECOMEFOCALPOINTFMANYITPROFESSIONALINFMATIONSECURITYISSUESBECOMEONEOFTHEOBSTACLEFTHEECOMMERCEEGOVERNMENTDEVELOPMENTTHISTHESISFIRSTLYEXAMINEDXMLCONCEPTITSRELATEDTECHNOLOGYDEVELOPMENTMAJINFMATIONSECURITYTHREATENSWEAREFACINGANALYZEDPOTENTIALNEEDFCARRYINGOUTTHISSTUDYDUETORAPIDLYDEVELOPINGCOMPUTERWKTECHNOLOGYDISTRIBUTEDAPPLICATIONDEVELOPMENTMEDEBATESAREPUTINTHEXMLTECHNOLOGYINFMATIONSECURITYCONCEPTITSSCHEMEXMLSECURITYITSSTARDACCESSCONTROLRELATEDDACMACRBACTHEIRTECHNOLOGYROLEBASEDACCESSCONTROLMECHANISMRBAC96MODELXACMLSTRUCTUREITSPROGRAMMINGAREALSODISCUSSEDINDETAILSBASEDONTHEREQUIREMENTSPECIFICATIONANALYSISOFXMLAPPLICATIONSECURITYFUNCATIONALDESIGNCOMBINATIONAPPLICATIONOFXMLSECURITYTECHNOLOGYROLEBASEDACCESSCONTROLTHISTHESISFMULATEDANXMLDOCUMENTATIONACCESSCONTROLSCHEMEITSFUTUREEXTENSIONITALSOPROVIDEDDETAILEDDESIGNINGDEIONFPARTOFTHESYSTEMTHEMAJACHIEVEMENTSOFTHISSTUDYCANBEFOUNDINTWOASPECTSTHEFIRSTISRATIONALCOMBINATIONOFROLEBASEDACCESSCONTROLRBACXMLDOCUMENTATIONOFWHICHCANPROVIDEFULLRANGEUSERACCESSCONTROLMECHANISMTHELATTERISRELATEDTODEIVECAPACITYTEMPARYAUTHENTICATIONSCHEMEBYUSINGXACMLOFWHICHPROVIDEADYNAMICFLEXIBLEUSERACCESSMANAGEMENTMECHANISMTHISTHESISINTENDSTOPROVIDEAPRACTICALINTEGRATEDMODELINACCESSCONTROLTOXMLDOCUMENTATIONBASEDONTHESTARDXMLFRAMEWKOPENPLATFMSTRUCTUREBYUSINGXMLDOCUMENTATIONENCRYPTIONDIGITALSIGNATUREOTHERRELATEDTECHNOLOGYTHEMODELDEVELOPEDCANPROVIDEACCESSCONTROLTOXMLDATASETINANOPENWKENVIRONMENT
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 75
大小: 1.34(MB)
子文件數(shù):
-
簡(jiǎn)介:隨著XML技術(shù)的發(fā)展和普遍應(yīng)用,XML已成為數(shù)據(jù)交換的標(biāo)準(zhǔn),如何高效的實(shí)現(xiàn)XML的存儲(chǔ)和更新成為非常重要的研究方向。本文的主要研究?jī)?nèi)容包括3個(gè)方面①XML文檔的關(guān)系化存儲(chǔ)方法;②關(guān)系的DTD轉(zhuǎn)化方法;③XML文檔與關(guān)系化存儲(chǔ)的同步更新技術(shù)研究。重點(diǎn)工作包括①XML文檔關(guān)系細(xì)粒度存儲(chǔ)策略的實(shí)現(xiàn),以多張二維表的形式分開記錄XMLDTD的結(jié)構(gòu)信息和核心數(shù)據(jù),實(shí)現(xiàn)了元素和屬性的分離存儲(chǔ),通過(guò)查詢關(guān)系數(shù)據(jù)庫(kù)可實(shí)現(xiàn)對(duì)XML文檔屬性值或元素值的快速匹配查詢;②外鍵聯(lián)系法實(shí)現(xiàn)關(guān)系的DTD轉(zhuǎn)化,成功將多重關(guān)系表之間的結(jié)構(gòu)層次信息轉(zhuǎn)化為DTD的樹形結(jié)構(gòu)圖,進(jìn)一步生成DTD,完整還原XML文檔結(jié)構(gòu);③B樹索引實(shí)現(xiàn)XML文檔與關(guān)系化存儲(chǔ)的同步更新,通過(guò)建立和維護(hù)一個(gè)B索引樹,實(shí)現(xiàn)XML文檔各條記錄和相應(yīng)關(guān)系數(shù)據(jù)庫(kù)各個(gè)元組的對(duì)應(yīng),通過(guò)查詢B樹快速定位XML文檔,并實(shí)現(xiàn)數(shù)據(jù)的同步更新和B索引樹的更新。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 58
大?。?2.42(MB)
子文件數(shù):
-
簡(jiǎn)介:圖像分割是由圖像處理進(jìn)到圖像分析的關(guān)鍵步驟,也是一種基本的計(jì)算機(jī)視覺技術(shù)。這是因?yàn)閳D像的分割、目標(biāo)的分離、特征的提取和參數(shù)的測(cè)量將原始的圖像轉(zhuǎn)化為更抽象更緊湊的形式,使得更高層的分析和理解成為可能因此,圖像分割多年來(lái)一直得到人們的高度重視。本文從圖像分割的數(shù)學(xué)描述入手,介紹給出了圖像分割中常用的幾種方法,即灰度閾值分割法、邊緣檢測(cè)和區(qū)域跟蹤以及基于分水嶺算法的分割方法。論文分析了文檔圖像的特點(diǎn),指出文檔圖像是由一些具有特定性質(zhì)的區(qū)域塊組合而成,通常包括文字塊、線圖、連續(xù)色調(diào)圖像和半色調(diào)圖像。其中,文字和線圖保存了圖像較多的細(xì)節(jié)以及結(jié)構(gòu)信息,具有較高的空間分辨率特征,這一部分區(qū)域?qū)︻伾直媛实囊蟛桓撸欢B續(xù)色調(diào)和半色調(diào)的圖像則保存了較多的顏色信息,通常要求較高的顏色分辨率,但對(duì)空間分辨率的要求不高。由此采用基于分割的文檔圖像壓縮技術(shù),對(duì)不同的分割區(qū)域采用不同的壓縮方法可以獲得更好的壓縮效果。而對(duì)文檔圖像進(jìn)行有效的層分割是論文研究的重點(diǎn)。論文提出了一種優(yōu)化的文檔圖像分割模型。該模型將區(qū)域分割和層分割的方法結(jié)合起來(lái),在論文的文檔圖像分割優(yōu)化模型中,主要借鑒LVINCENT分水嶺算法中的基于形態(tài)學(xué)分水嶺的分割方法并加以改進(jìn)來(lái)進(jìn)行圖像的層分割。該算法的基本思想是將圖像像素點(diǎn)的灰度看作高度,圖像中不同灰度值的區(qū)域就對(duì)應(yīng)于山峰和山谷盆地,盆地的邊緣就是所謂的分水線,分水線這個(gè)名稱的來(lái)歷是將圖像逐漸沉人一個(gè)湖中時(shí)圖像的最低點(diǎn)先進(jìn)水,然后水逐漸漫過(guò)整個(gè)山谷盆地,當(dāng)水位達(dá)到該盆地的邊緣高度時(shí)就將溢出。該盆地這時(shí)在水溢出處建壩攔截,如此直到整個(gè)圖像沉入水中,所建的壩就成為分開各個(gè)山谷盆地的分水線。在分水嶺分割算法中,論文指出分水嶺方法計(jì)算量較大,且最大的不足之處在于分割算法常會(huì)由于噪聲和其他諸如梯度的局部不規(guī)則性的影響造成過(guò)度分割。過(guò)度分割足以令應(yīng)用算法得到的結(jié)果變得毫無(wú)用處。因此在實(shí)際的應(yīng)用中,采用了改進(jìn)的分水嶺算法的方法,即首先對(duì)原始圖象進(jìn)行平滑,將平滑后的圖象使用分水嶺變換,同一標(biāo)號(hào)的像素屬于同一貯水盆地,而將距不同貯水盆地距離相等的像素標(biāo)為分水嶺點(diǎn),這樣就得到了圖象的初始分割結(jié)果;最后應(yīng)用灰度齊次性準(zhǔn)則和邊界強(qiáng)度準(zhǔn)則進(jìn)行區(qū)域的融合,從而解決了過(guò)度分割問(wèn)題。實(shí)驗(yàn)結(jié)果表明,該方法能得到了精確的、有意義的分割結(jié)果。最后文章介紹了文檔圖像層分割的優(yōu)化模型分割實(shí)驗(yàn),并給出了示例圖像的分割情況。就分割的結(jié)果與單一的塊分割和層分割的實(shí)驗(yàn)結(jié)果進(jìn)行了比較。從而說(shuō)明,優(yōu)化的層分割模型具有更好的分割效果。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 72
大小: 4.66(MB)
子文件數(shù):
-
簡(jiǎn)介:中國(guó)科學(xué)技術(shù)大學(xué)碩士學(xué)位論文面向XML文檔集的檢索技術(shù)研究與系統(tǒng)實(shí)現(xiàn)姓名胡錦南申請(qǐng)學(xué)位級(jí)別碩士專業(yè)計(jì)算機(jī)應(yīng)用指導(dǎo)教師陳恩紅20090501ABSTRACTABSTRACTASTHEINFORMATIONGROWSRAPIDLYONTHEINTERNETANDESPECIALLYTHEWIDEANDDEEPAPPLICATIONOFXMLTECHNOLOGYINMOREANDMOREFIELDS,TRADITIONALINFORMATIONRETRIEVALSYSTEMSBASEDONHTMLANDPURETEXTCANNOTSATISFYPEOPLETHENEEDOFRETRIEVINGTHEVARIOUSINFORMATIONINXMLDOCUMENTSHTMLISBEINGREPLACEDBYXMLINCERTAINFIELDBECAUSEOFTHESIMPLICITYOPENNESS,EXTENDIBILITY。ANDINTEROPERABILITYOFXMLWHICHISBECOMINGTHEMAINFORMOFINFORMATIONEXPRESSIONONTHEINTERNETANDOTHERAPPLICATIONSXMLSEARCHINGTECHNOLOGYISIMPROVINGALLTHETIMENOSEARCHINGMODELTODAYISUSEDGENERALLYANDTHESTANDARDQUERYLANGUAGESXPATHANDXQUERYPROVIDEDBYW3CAREALLBASEDONTHEPRECISETAGMATCHINGCOMMONUSERSCANHARDLYMAKEEFFIENTQUERIESBYUNDERSTANDINGTHESTRUCTUREOFTHEXMLDOCUMENTSSINCEMOSTOFTHEXMLDOCUMENTSHAVEAVERYCOMPLEXANDIRREGULARSTRUCTURETHISMAKESTHESEARCHINGEXPERIENCESNOTGOODFORUSERSTHUS,IT’SONEOFTHERESEARCHINGHOTSPOTINTHEINTERNATIONALIRCOMMUNITYTLLATHOWTOUTILIZETHENEWFEATURESRICHINXMLFULLYANDSTUDYTHETRADITIONALINFORMATIONRETRIEVALTECHNOLOGYFORREFERENCEANDBUILDANATIVEXMLBASEDINFORMATIONRETRIEVALSYSTEMWITHHIGHEFFICIENCYTHISPAPERBRINGSUPAPATHINDEXMETHODANDATWIGPATHSEARCHINGMETHODFORXMLDOCUMENTSET,ANDBEYONDALLTHISANXMLDOCUMENTSETINFORMATIONRETRIEVALSYSTEMWASBUILTTHEDETAILEDCONTENTISASFOLLOWIITPROVIDESANINDEXINGMETHODFORXMLDOCUMENTSETBASEDONPATHDIVISIONCOMBINEDWITHTRADITIONALINVERTEDLISTINDEXFORKEYWORDSEARCHINGANDTHEPATHINFORMATIONOFTHENODES。2ITBRINGSUPANEFFICIENTTWIGPATHSEARCHINGMECHANISMWHICHCANMAKETHENODESTILTEDINLINEARTIMEACCORDINGTOTHEINPUTDATASCALEFORCOMPLEXTWIGQUERYWITHOUTGENERATINGTOOMUCHINTERMEDIATERESULT3ITDESIGEDANDIMPLEMENTEDANXMLSEARCHINGSYSTEMBASEDONTHETECHNICSABOVEBESIDESTHESEARCHINGABILITYITPROVIDESANAPIFORINFORMATIONPROCESSINGANDDATAMININGALGORITHMSUSINGTHEAPI,RESEARCHERSCANACCESSTHEIRINTERESTINGDATATOBEPROCESSEDBYTHEPROGRAMSTHEYCREATEDINTHEMASSIVEDATASOURCEWITHOUTTHEFUSSYPREPARATIONFORDATA。KEYWORDSXML,TWIGQUERYPATHINDEX,IRSYSTEMII
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 54
大?。?2.44(MB)
子文件數(shù):
-
簡(jiǎn)介:數(shù)字信息是現(xiàn)代社會(huì)的主要特征之一。人們傳遞信息的重要媒介是圖象,許多信息諸如天氣情報(bào)、地球資源分布情況、醫(yī)療診斷信息等都可以轉(zhuǎn)化為數(shù)字圖象的形式。隨著社會(huì)經(jīng)濟(jì)的發(fā)展,科學(xué)技術(shù)的不斷進(jìn)步,信息視覺化技術(shù)越來(lái)越受到人們的重視。數(shù)字圖象處理與數(shù)據(jù)壓縮作為一門高技術(shù),也越來(lái)越顯示出它在社會(huì)發(fā)展中的重要地位。它既是當(dāng)代信息高速公路、高清晰度電視HDTV、可視電話、圖文傳真等技術(shù)的關(guān)鍵,又在航空偵察遙感、資源勘探及生物醫(yī)學(xué)工程等領(lǐng)域起著非常重要的作用。同時(shí),它在數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)傳送中也起著非常重要的作用。文檔圖象壓縮作為圖象壓縮中一個(gè)非常重要的組成部分,在軍事、政府、商業(yè)、金融等社會(huì)各個(gè)領(lǐng)域得到了廣泛的應(yīng)用。因此,進(jìn)行文檔圖象壓縮方面的理論與應(yīng)用研究,具有較高的現(xiàn)實(shí)意義和理論意義。本文在收集和分析了大量近年來(lái)國(guó)內(nèi)外文檔圖象壓縮方面的研究報(bào)告、學(xué)術(shù)論文等專業(yè)資料的基礎(chǔ)上,對(duì)文檔圖象壓縮所涉及的若干理論問(wèn)題,包括圖象質(zhì)量的評(píng)價(jià)模型和基于內(nèi)容的壓縮模型等進(jìn)行了探討;并結(jié)合實(shí)際需要,在文檔圖象壓縮的實(shí)際應(yīng)用中,對(duì)提高壓縮率和主觀視覺質(zhì)量并降低運(yùn)算時(shí)間方面進(jìn)行了研究。主要工作包括1、對(duì)文檔圖象的壓縮模型進(jìn)行了研究。對(duì)于大多數(shù)文檔圖象而言,圖象的效果是由人的主觀評(píng)價(jià)決定的。因此在選擇壓縮方案的時(shí)候,充分考慮了人眼的視覺特性即對(duì)文字和圖形區(qū)域,其主觀評(píng)價(jià)取決于文字的清晰程度,也就是文字的空間分辨率是非常重要的;而對(duì)于連續(xù)色調(diào)的圖象,尤其是灰度等級(jí)比較少的如256色圖象,評(píng)價(jià)因素正好相反,即顏色的分辨率是非常重要的。由此,文章借鑒了JBIG2的思想,將一幅文檔圖象進(jìn)行區(qū)域劃分,并且針對(duì)不同的區(qū)域采用不同的編碼方法,以獲得最好的壓縮效果。由于本文根據(jù)區(qū)域的不同性質(zhì)對(duì)其采用相應(yīng)的編碼策略,因此本文的方法是一種基于內(nèi)容的文檔圖象壓縮方法CDIC。2、對(duì)文檔圖象的版面分析進(jìn)行了研究。版面分析是文檔圖象壓縮中非常重要的一個(gè)步驟??紤]到直接對(duì)灰度圖象進(jìn)行版面分析,其計(jì)算復(fù)雜度太高,因此本文首先將灰度圖象利用半色調(diào)技術(shù)變換到二值圖象域中,然后利用數(shù)學(xué)形態(tài)學(xué)的方法對(duì)版面進(jìn)行分割MMS。在提取圖象區(qū)域時(shí),利用較大的矩形結(jié)構(gòu)元素對(duì)收縮圖象進(jìn)行開運(yùn)算,然后采用一種基于低通閾值圖象的二值化方法LTIB對(duì)原始去掉圖象區(qū)域的灰度圖象進(jìn)行閾值化處理;在提取圖形區(qū)域時(shí),利用多級(jí)HOUGH變換進(jìn)行傾斜校正,并采用基于HOUGH變換構(gòu)造結(jié)構(gòu)元素HTSEC方法進(jìn)行直線檢測(cè);最后提取出文字區(qū)域。3、對(duì)文字區(qū)和圖形區(qū)的壓縮方法進(jìn)行了研究。版面分割后的文字區(qū)和圖形區(qū)通常為二值圖象,然而這兩個(gè)區(qū)域又有各自的特性,因此有必要研究針對(duì)這兩個(gè)不同性質(zhì)的區(qū)域的編碼方法。在本文中,采用壓縮性能得到廣泛認(rèn)可的自適應(yīng)算術(shù)編碼器用于二值文字區(qū)域的編碼;采用矢量描述方法VD對(duì)圖形區(qū)域進(jìn)行編碼,這樣可以得到很好的壓縮效果。針對(duì)低分辨率的文字圖象區(qū)域提出了基于灰度縮減的文字圖象編碼方法GRTIC。4、對(duì)連續(xù)色調(diào)圖象壓縮方法進(jìn)行了研究。版面分割后的圖象區(qū)為連續(xù)色調(diào)圖象,采用無(wú)損壓縮方法對(duì)其進(jìn)行壓縮,盡管可保證圖象能夠得到真實(shí)的反映,然而其壓縮效率卻受到很大限制。由于小波變換在圖象處理與壓縮領(lǐng)域中得到廣泛應(yīng)用,因此本文中也采用小波變換對(duì)連續(xù)色調(diào)圖象進(jìn)行壓縮。針對(duì)常見的嵌入式零樹小波EZW方法速度較慢的特點(diǎn),本文采用了多閾值零樹小波算法MTZ對(duì)其運(yùn)算速度予以改進(jìn),同時(shí),針對(duì)帶噪圖象采用帶噪圖象的多閾值零樹小波算法NMTZ,在消除噪聲的同時(shí),也提高了EZW的運(yùn)算速度。5、本文分析了基于人眼視覺系統(tǒng)HVS的質(zhì)量評(píng)價(jià)方法,并提出了一種新的基于人眼視覺系統(tǒng)的圖象質(zhì)量評(píng)價(jià)模型基于HVS的結(jié)構(gòu)化質(zhì)量因子HSQ。由于基于人眼視覺系統(tǒng)的評(píng)價(jià)方法與圖象的主觀視覺質(zhì)量更接近,因此利用HSQ進(jìn)行評(píng)價(jià)可以更符合人眼的視覺習(xí)慣,同時(shí)采用該質(zhì)量因子評(píng)價(jià)本文提出的壓縮方案CDIC。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-10
頁(yè)數(shù): 131
大?。?4.84(MB)
子文件數(shù):
-
簡(jiǎn)介:目前,學(xué)校通過(guò)郵件管理方式對(duì)電子文檔進(jìn)行收發(fā)管理,但是這種管理有局限性,只能實(shí)現(xiàn)以附件方式文件的傳輸與上傳下載辦公文檔功能。個(gè)人辦公通過(guò)手工審批,傳閱實(shí)現(xiàn),不具有對(duì)文檔歸檔功能,缺少管理策略與安全控制機(jī)制,并且不能對(duì)辦公實(shí)現(xiàn)網(wǎng)絡(luò)時(shí)效性。在保證信息安全前提下,通過(guò)局域網(wǎng),廣域網(wǎng)在不同的環(huán)境與系統(tǒng)下實(shí)現(xiàn)信息集成,實(shí)現(xiàn)系統(tǒng)間信息溝通,把分散的信息通過(guò)有效的方式進(jìn)行管理整合,是提高辦公效率關(guān)鍵。本系統(tǒng)解決了高校文檔管理問(wèn)題。論文首先對(duì)文檔管理的組織機(jī)構(gòu)、電子郵件系統(tǒng)、工作流轉(zhuǎn)、權(quán)限管理與用戶管理模塊進(jìn)行了需求分析。通過(guò)SSH架構(gòu)進(jìn)行功能的劃分與整合,通過(guò)STRUTS實(shí)現(xiàn)了管理請(qǐng)求,通過(guò)SPRING實(shí)現(xiàn)了業(yè)務(wù)校驗(yàn),通過(guò)HIBERNATE實(shí)現(xiàn)了其字段與持久化類的對(duì)應(yīng)關(guān)系。系統(tǒng)基于BS模式,采用JAVA語(yǔ)言,MYECLIPSE開發(fā)工具與SQLSERVER數(shù)據(jù)庫(kù)服務(wù)器實(shí)現(xiàn)安全多層次文檔管理系統(tǒng)。整個(gè)系統(tǒng)共分為七個(gè)模塊,部門管理、組織機(jī)構(gòu)管理、用戶管理、角色管理、權(quán)限管理、辦公文檔管理和辦公文檔流轉(zhuǎn)模塊。通過(guò)項(xiàng)目運(yùn)行,表明網(wǎng)絡(luò)辦公文檔管理是比較實(shí)用的。減小辦公管理人員的工作壓力,提高了辦公管理人員的辦公的效率。
下載積分: 5 賞幣
上傳時(shí)間:2024-03-09
頁(yè)數(shù): 77
大?。?2.44(MB)
子文件數(shù):