-
簡介:計算機和互聯(lián)網(wǎng)的誕生引發(fā)了信息技術革命,使得大量電子文檔涌現(xiàn)出來,實現(xiàn)了信息交換的高速化、信息的海量存儲和信息檢索,同時也使得信息的長期保存得以實現(xiàn)。相對于傳統(tǒng)的紙張文檔而言,電子文檔具有占用存儲空間小、檢索方便、傳輸快捷、更新簡便等優(yōu)點,而且電子文檔還可以進行必要的保密編碼,提高其可靠性。在海量圖像庫中檢索用戶所需要的圖像,成為當前的研究熱點。文檔圖像有別于一般的自然圖像,它以文字為主,其中夾雜圖像、表格的一類特殊的圖像。一般是以工作文件的形式存在的,應用十分廣泛。因此文檔圖像檢索得到了廣泛關注。紙質文檔經過掃描生成文檔圖像之后,需要經過字符識別工具識別其中有用的信息。光學字符識別OCROPTICALACTERRECOGNITION技術的出現(xiàn)及成熟使得電子文檔的使用和處理得到廣泛的應用,提高了文檔處理的效率。作為印刷體文字識別系統(tǒng)重要組成部分的文檔版面分析,具有與字符識別同樣重要的地位。OCR技術是模式識別中開展比較早的一個領域。經過幾十年的發(fā)展,已經比較成熟。版面分析是OCR系統(tǒng)進入自動化階段的首要步驟,版面分析結果的有效性直接影響到文字識別模塊的運行,進而影響整個系統(tǒng)的效率,因此設計高效的版面分析系統(tǒng),對提高整個OCR系統(tǒng)的質量,起著十分重要的作用。詳細的來說,版面分析是指對版面內的圖形、圖像信息和結構關系所進行的自動分析、識別和理解的過程。圖像檢索的過程包括提取圖像的特征,對提取的特征進行特征匹配,利用距離度量方法比較圖像的相似度,根據(jù)相似度對檢索出的結果進行降序排列,將符合條件的結果輸出給用戶。其中特征提取和特征匹配是檢索技術的關鍵。文檔圖像具有諸如標題,段落,行等版面特征。在不使用昂貴的OCR技術方法進行文字識別,直接作用在圖像數(shù)據(jù)的情況下,我們借鑒圖像的版面特征的分析方法,將此方法用于傳統(tǒng)的基于內容的圖像檢索技術上來,提出了從文檔圖像的文本區(qū)域的版面中提取出行特征,將提取出的版面行特征作為索引項,進行圖像的特征匹配和相似性度量工作,從而形成了一個新的檢索特征的檢索算法,將算法實際應用于圖像匹配和識別上,并有一定的識別效果。本文操作的對象是文本區(qū)域,因此在提取特征之前,利用版面分析方法分析文檔中是否含有圖像、表格等非文本區(qū)域,通過非文本區(qū)域濾波方式將這些區(qū)域進行過濾,保留文本區(qū)域。正因為如此限制了此方法的適用范圍。對于復雜版面的文檔圖像沒有涉及,如含有橫排、豎排,以及橫排和豎排混合的版面,應用范圍相對比較窄。匹配技術是文檔圖像檢索技術中的核心技術,它主要是從文檔數(shù)據(jù)庫中給出輸入圖像的最佳匹配。匹配技術建立在特征定義及其提取基礎之上。衡量兩個版面相似性度量的距離度量方法有很多。本文的特征匹配使用點模式匹配,建立在行特征基礎之上,將行線抽象為空間中的點,點的灰度值定義為行線的長度。使用中心點加權平均方式找出圖像的中心點,然后計算其相對坐標。使用差異能量來進行圖像的相似性匹配。所用的點模式匹配時間復雜度相對比較高,還需要進一步改進。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 54
大?。?1.43(MB)
子文件數(shù):
-
簡介:跨文檔共指消解CROSSDOCUMENTCEFERENCECDC是以分散在不同文本來源中的相同名詞實體為對象通過信息抽取、信息表示和聚類等技術最終判定這些名詞實體與客觀概念之間的共指關系的過程。CDC的研究涉及信息抽取、數(shù)據(jù)挖掘、自然語言處理等多個研究領域其是文本信息融合的核心技術是文本信息理解的研究基礎。隨著信息社會的不斷發(fā)展對于高效獲取和組織信息的技術需求日益迫切CDC研究的重要性也日益凸顯。在目前CDC的相關研究中傳統(tǒng)的文本挖掘方法依然占據(jù)核心地位。然而隨著對CDC技術研究的逐漸深入傳統(tǒng)的文本挖掘方法已經很難適應當前CDC應用的要求。例如文本本身的復雜性、文本邊界的束縛、相關信息的抽取以及領域和先驗知識的匱乏都已經嚴重地影響到了CDC技術的發(fā)展與應用。CDC相關研究的難題其本質上都是由于自然語言文本中信息的復雜性和相關性所導致的。自然語言文本中信息的復雜性和相關性歸根結底是源于人的思維的復雜性和相關性。這種復雜性和相關性是由于人對復雜的客觀事物具備了更為深入的認知能力、推理能力和表述刻畫能力。然而這也是計算機在獲取、組織和理解文本信息的過程存在著諸多難題的根源。因此若能降低自然語言文本信息的復雜性充分利用現(xiàn)有的數(shù)據(jù)挖掘、模式識別技術識別和處理其相關性并且在此基礎上大膽創(chuàng)新探索出適用于CDC問題的計算機技術處理方案將能夠極大的推動CDC研究的發(fā)展。利用模式識別和數(shù)據(jù)挖掘技術的重要方法貝葉斯理論和圖理論對自然語言文本信息進行定量的轉化與表示。作者將這些理論引入CDC問題的研究當中用以拋磚引玉為CDC技術的進一步發(fā)展提供更新的技術路線與解決方案。本文的主要研究內容如下①基于非參數(shù)貝葉斯模型的跨文檔共指消解方案以往的跨文檔共指消解方案都是采用文檔內部共指鏈或者信息窗口的方法對待消解名詞實體的相關信息域進行劃分并抽取信息特征進行信息表示。在本方案中首先考慮到主題在文本中的分布情況假設主題在待消解名詞實體相關信息域中的分布是相同的以文檔中的句子為對象通過分層DIRICHLET過程HIERARCHICALDIRICHLETPROCESSHDP模型計算句子中各個主題所占的成分再利用DIRICHLET過程混合模型DIRICHLETPROCESSMIXTUREMODELDPMM對句子進行聚類將包含待消解名詞實體的劃分句子集作為待消解名詞實體的相關信息域隨后采用HDP模型重新計算各信息域內主題所占的成分從而對各個待消解名詞實體的相關信息域進行信息表示最后通過現(xiàn)有研究中常用的聚類算法對方案性能進行評估評估結果表明該方案較現(xiàn)有的方法具有更好的消解效果。此外本文還論證了非參數(shù)聚類方法在方案中使用的局限性。②基于圖理論的跨文檔共指消解方案方案首先采用圖理論的信息表示方法信息圖對待消解名詞實體的信息域進行了表示。該信息表示方法可以很好的體現(xiàn)各名詞實體之間的關系同時又對文本中的信息進行了有效篩選其次方案通過將信息圖進行相似性度量獲得各個待消解名詞實體的信息圖之間的相似關系從而構建各個待消解名詞實體的關系網(wǎng)絡最后通過采用有權的社交網(wǎng)絡社團劃分方法對整個關系網(wǎng)絡進行社團劃分得到社團結構即為各個待消解名詞實體的共指關系劃分。該方案通過在常用公共數(shù)據(jù)集上的性能評估證明方案在不借助任何先驗知識和領域知識的情況下較以往的方法在性能上有一定的提升且方案具有較好的普適性具有很好的實用價值。③擴充的基于圖理論跨文檔共指消解方案雖然基于圖理論的跨文檔的共指消解方案已經具有了較好的消解性能和很好的實用價值但是圖的信息表示方法還具有可以挖掘的潛力?;谏鲜隹紤]提出了基于圖理論擴展的跨文檔共指消解方案。該方案主要從以下兩點對同模型進行擴展1通過信息圖的拓撲特性對信息圖進行有權化擴展計算得到了信息圖中的節(jié)點權重向量和邊權重向量2對信息圖進行了合理的向量轉化使其可以通過向量的相似性度量算法計算各信息圖之間的相似度從而構建了各個待消解名詞實體的關系網(wǎng)絡。擴展的效果通過社交網(wǎng)絡的社團劃分方法進行了性能評估結果顯示相較于基本的圖理論信息表示方法該方案在信息量較大的文本數(shù)據(jù)中可以有一定的性能提升但是在信息量相對較少的文本數(shù)據(jù)中效果差別不大。經過分析出現(xiàn)這種結果的主要原因在于文本信息量越大其名詞節(jié)點之間的關系越復雜擴展后的有權信息圖可以對其更好的刻畫然而信息量較少的文本生成的信息圖結構相對簡單對其有權化的意義不大。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 125
大小: 3.73(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 44
大小: 1.09(MB)
子文件數(shù):
-
簡介:隨著因特網(wǎng)和通信技術的迅猛發(fā)展,校園網(wǎng)建設的不斷深入,高校管理的網(wǎng)絡化、信息化、規(guī)范化已經逐漸應用到學校的各個部門,成為當今社會的一種發(fā)展趨勢。電子科技期刊是西安電子科技大學主辦的學術、技術類專業(yè)期刊,是國家級A類期刊,陜西省優(yōu)秀期刊。由于電子科技期刊編輯部目前仍采用EMAIL的投稿方式,使編輯部的工作負擔非常重,稿件管理的效率也非常低,影響了編輯部在同行業(yè)中的競爭力。因此,學術期刊管理系統(tǒng)的開發(fā)和建立對電子科技期刊編輯部是十分必要的。本文是在對編輯部的工作內容進行了深入研究的基礎上,通過分析該領域的用戶需求,確定了基于WEB的學術期刊管理系統(tǒng)的功能和目標,并對其進行開發(fā)與實現(xiàn)。通過對CS和BS體系結構的詳細比較,本系統(tǒng)采用相對先進的基于BS的三層體系結構。在該模式下,采用開發(fā)技術,C#開發(fā)語言,MICROSOFTSQLSERVER數(shù)據(jù)庫,保證了系統(tǒng)的穩(wěn)定性和實用性。此外,本文也對期刊管理系統(tǒng)的需求、工作流程進行了分析,為系統(tǒng)劃分了作者投遞稿件模塊、專家評審稿件模塊、編輯管理稿件模塊和管理員主編總體管理四個模塊,并根據(jù)模塊功能需求對各個模塊分別進行功能設計以及數(shù)據(jù)庫設計,使整個系統(tǒng)具有界面友好、可擴展性強、便于維護等優(yōu)點。最后還從系統(tǒng)實現(xiàn)方面對系統(tǒng)設計進行了詳細的說明和介紹。
下載積分: 5 賞幣
上傳時間:2024-03-11
頁數(shù): 69
大?。?4.7(MB)
子文件數(shù):
-
簡介:隨著互聯(lián)網(wǎng)的普及互聯(lián)網(wǎng)上包含著海量的并且時刻在增加的信息。針對用戶輸入的一個簡單查詢搜索引擎一般會返回用戶可能需要的一系列經過排序的網(wǎng)頁其中有大量不相關的、重復的數(shù)據(jù)需要用戶耗費很多精力來自己查找有用的結果。面向查詢的多文檔自動文摘技術將大量的查詢相關文檔中的內容提煉、重組為一定長度的簡短摘要加速用戶的信息獲取通常要求摘要的內容簡潔、組織良好、冗余低、滿足個性化需求。面向查詢的多文檔自動文摘技術能夠減小從海量數(shù)據(jù)中獲取信息的難度提高信息獲取及理解的速度進而提高用戶獲取以及利用信息的效率提高使用者在信息社會中的競爭實力。云模型是李德毅院士提出的一種處理不確定性概念中模糊性、隨機性及其關聯(lián)性的定性定量轉換模型。云模型從研究自然語言概念的不確定性入手展開對不確定性人工智能的研究。雖然云模型發(fā)端于自然語言中的概念但遺憾的是就目前搜集到的論文情況看來將云模型直接應用在自然語言處理領域本身的工作還比較少見。本論文針對中文語料中的面向查詢多文檔自動文摘展開了研究首先構建可以用于公開評測的評測語料、人工摘要在此基礎上利用云模型進行文摘內容選取、句子修剪、句子排序力圖生成滿足用戶需求的聚焦度高、內容精練、可讀性好的連貫摘要最后采用修改后的ROUGE工具進行中文文摘自動評測。本文主要研究工作和研究成果概括如下一、提出了一種基于云模型的文摘單元選取方法利用云模型全面考慮文摘單元的隨機性和模糊性提高面向查詢的多文檔自動文摘系統(tǒng)的性能。首先計算文摘單元和查詢條件的相關性將文摘單元和各個查詢詞的相關度看成云滴通過對云的不確定性的計算找出與查詢條件真正意義相關的文摘單元。隨后利用文檔集合重要度對查詢相關的結果進行修正將文摘句和其他各文摘句的相似度看成云滴利用云的數(shù)字特征計算句子重要度找出能夠概括盡可能多的文檔集合內容的句子避免片面地只從某一個方面回答查詢問題。為了證明文摘單元選取方法的有效性在英文大規(guī)模公開語料上進行了實驗并參加了國際自動文摘公開評測取得了較好的成績。二、構建了中文自動文摘評測語料庫及中文自動評測工具并以此為基礎構建了一種基于云模型的中文面向查詢多文檔自動文摘系統(tǒng)。中文自動文摘評測語料庫由1000篇文檔、100個文檔集合和查詢條件、400篇人工摘要構成通過修改英文文摘評測工具ROUGE的源程序實現(xiàn)了中文自動文摘的ROUGE自動評測。首先將50個文檔集合作為訓練語料采用哈工大最新共享的語言技術平臺進行句子切分、分詞隨后利用中文自動評測工具在測試語料中進行參數(shù)訓練最后采用基于云模型的文摘單元選取方法生成中文摘要就此搭建了中文云摘要系統(tǒng)三、提出了一種基于多維云和依存分析的中文句子修剪方法進一步提高文摘質量。首先制定基于依存分析的句子修剪規(guī)則對每個候選文摘句進行句子修剪從而產生多候選句隨后利用多維云綜合考慮詞語在句子、文檔集合中的分布以及和查詢條件的相關性對各修剪句進行打分在云的疊加過程中實現(xiàn)了不確定性的有效傳遞最后選取那些包含信息量最大、長度最短的修剪句替換候選文摘句構成自動摘要從而使文摘包含更多的有效信息。四、提出了一種基于云模板的文摘句排序方法使生成的中文云摘要更加連貫。云模板的方法將文檔集合中的每一篇文檔都看成模板利用云模型將各篇文檔的排序結果綜合到一起既避免了單一模板方法對于單個文檔的依賴也避免了多數(shù)次序方法只能兩兩排序的缺點。首先利用基于復雜網(wǎng)絡的自適應增量聚類方法對文檔集合進行聚類找出那些包含有一個或多個文摘句的子主題隨后將文檔集合中的每一篇文檔都看作模板利用這些模板構成的云確定子主題和文摘句在模板中的相對位置最后依次對子主題以及對子主題內部的句子進行排序從而生成連貫性更好、可讀性更強的自動摘要。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 152
大?。?14.74(MB)
子文件數(shù):
-
簡介:CEBXCOMMONEDOCUMENTOFBLENDINGXML,基于混合XML的公共電子文檔是一種同時支持版式和流式的文檔格式。CEBX格式文檔既擁有在不同環(huán)境下高保真的顯示效果又可以很好的解決在移動終端閱讀時版式文檔顯示不完全的問題。該格式的文檔能夠詳細記錄整篇文檔所有的邏輯信息,利用這些邏輯結構信息能夠在需要的時候將文檔的顯示效果轉換成流式顯示,并且可以使用CEBX文檔編輯器APANCARBON30提供的邏輯信息插件更改邏輯信息來任意更改流式文檔中字體大小、顏色、背景等閱讀樣式和流式顯示效果。本文中描述的邏輯信息插件的設計改進了以往邏輯信息編輯功能的缺點,進行了更加方便用戶操作的改進,該插件能夠實現(xiàn)版式文檔視圖和流式文檔視圖同步顯示,此外還能夠實現(xiàn)自動智能提取文檔流式信息;對版式文檔的段落進行標記并根據(jù)該標記修改流式下的段落排序或者刪除流式下該段落內容;能夠使用戶直接對流式排版進行編輯,修改流式文檔樣式,改變文檔自適應重排后的顯示效果。本人在邏輯信息的插件開發(fā)中獨立完成以下工作基于APABICARBON30主工程搭建邏輯信息插件工程,智能提取功能的開發(fā),版流式同步功能的開發(fā),段落排序功能的開發(fā),參與流式編輯功能中部分功能的開發(fā)。在進行開發(fā)工作的同時還對插件的功能進行了測試。本文詳細描述了基于ADFAPABIDESKTOPFOUNDATION軟件開發(fā)框架、使用C程序設計語言實現(xiàn)的跨平臺軟件APABICARBON30中邏輯信息插件的設計和開發(fā)流程。內容包括CEBX文檔標準,ADF軟件開發(fā)框架的背景知識,APABICARBON30的架構介紹,邏輯信息編輯功能需求的確定,插件中類的設計,插件中各個功能的設計流程,以及最終實現(xiàn)的功能的測試等。邏輯信息插件對電子書制作中的關鍵工作進行抽象提取,設計了更加人性化的操作方式,提高了電子書的制作效率。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 62
大?。?6.25(MB)
子文件數(shù):
-
簡介:該文由七章組成第一章簡述XML的基本概念及其與數(shù)據(jù)庫的關系第二章介紹XML的模式概念及其正規(guī)數(shù)據(jù)模型第三章按照XML查詢語言的要求對現(xiàn)有的幾種查詢語言進行比較指出其共同點和不同之處說明為何選擇XMLQL作為該文的藍本第四章具體描述XMLQL語言提出一種有效的實現(xiàn)方式其中也介紹訪問XML文檔的API文檔對象模式DOCUMENTOBJECTMODELDMO和簡單應用編程接口SIMPLEAPIFXMLSAX第五章討論XML查詢的優(yōu)化處理主要著眼于基于DTD信息的優(yōu)化、路徑索引和代數(shù)優(yōu)化第六章討論如何將XML模式主要是DTD轉換成數(shù)據(jù)庫模式并把該模式所對應的文檔存入數(shù)據(jù)庫第七章是對XML數(shù)據(jù)處理的總結和展望
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 79
大?。?2.05(MB)
子文件數(shù):
-
簡介:企業(yè)在信息化進程中,內部信息總量也在快速增加,信息的管理強度和難度也在增強。如CAD軟件的運用,使圖檔的保存、管理和高效利用問題日益顯現(xiàn),所以對于CAD軟件文檔信息數(shù)據(jù)提取和管理的研究很有必要。本課題主要針對三維CAD軟件文檔關鍵信息數(shù)據(jù)的來源、應用、提取進行研究,以AUTODESKINVENT軟件為例,分析了零部件模型文檔屬性信息的創(chuàng)建方法及流向,工程圖中標題欄、明細欄、參數(shù)表中數(shù)據(jù)信息來源,資源庫中標準件的信息傳遞等。運用面向對象的二次開發(fā)技術,利用插件與學徒服務器的應用程序接口訪問方式,有效的解決了零部件文檔特性的快速生成、標題欄的國標化、明細欄的國標化、參數(shù)表的快速生成及標題欄、明細欄的信息提取與管理。完善了CAD軟件用戶界面功能,彌補了工程圖中對自由表格處理不便的缺陷,提高了表格對象的繪制效率,同時便于為PDM管理系統(tǒng)提供源數(shù)據(jù),方便實現(xiàn)文檔、圖檔的管理和物料清單的打印輸出等,有利于企業(yè)信息化管理水平的提高。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 69
大?。?4.37(MB)
子文件數(shù):
-
簡介:論文分析了文檔圖像的特點指出文檔圖像是由一些具有特定性質的區(qū)域塊組合而成通常包括文字塊、線圖、連續(xù)色調圖像真彩色圖和半色調圖像帶調色板的圖借鑒1997年國際電信同盟ITU提出的文檔圖像層分割的建議標準并結合目前的分割算法論文提出了一種優(yōu)化的文檔圖像分割模型在文檔圖像的優(yōu)化分割模型的基礎上為了解決多尺度聚類層分割算法中尺度選擇的問題論文進一步研究了基于BAYESIAN模型的多尺度分割算法以樹狀結構表示圖像像素以及特征空間之間的依賴關系采用基于馬爾可夫隨機場的BAYES方法進行圖像的層分割以獲得更準確的文檔圖像的層分割結果論文的最后完成了優(yōu)化模型的分割實驗并給出了示例圖像的分割效果并對分割的結果與單一的塊分割和層分割的分割結果進行了比較
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 54
大?。?1.94(MB)
子文件數(shù):
-
簡介:因特網(wǎng)的飛速發(fā)展使得以電子形式存在的信息資源越來越多。對于繁多紛雜的信息資源通過人工篩選來獲取所需的信息已是不可能的,信息檢索可以幫助人們從浩瀚的信息資源中找到所需的信息。由于在自然語言理解上目前還未取得重大突破,大多數(shù)信息檢索系統(tǒng)都是基于關鍵字或詞的機械式的符號匹配的方式進行檢索的。反饋技術能夠對用戶的查詢進行重造,目的是使檢索結果更好地滿足用戶的信息需求。相關反饋能夠非常有效地提高檢索性能,但需要用戶判斷哪些符合自己的意圖,并將它們標識出來,在很多IR系統(tǒng)中的實現(xiàn)效率都不太高。偽相關反饋不需要用戶的參與,系統(tǒng)默認自己檢索結果的前N篇文檔是相關文檔,但是某些情況下這種假設是不成立的。本文旨在語言模型的框架下提出一種能夠在無需用戶參與的情況下,全自動的實現(xiàn)接近相關反饋效果的一種模型,我們稱為FWN模型。信息檢索系統(tǒng)的檢索結果列表中,相關文檔間的相似度普遍較高,不相關文檔間的相似度較低,特征分布也相對松散。文檔排名越靠前,文檔是相關文檔的可能性越高,故可對檢索結果前N篇文檔先進行聚類分析,去除一部分不相關的文檔。然后應用相關反饋算法進行查詢詞的擴展和概率值的重新分配來增強反饋效果,最后用產生的新查詢進行檢索。為了驗證FWN模型,本文在TREC測試集上進行了一系列的實驗。實驗的結果顯示出這個模型的檢索性能比原查詢和偽相關反饋模型都有顯著提升,證明了本模型是非常有效的。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 64
大?。?5.3(MB)
子文件數(shù):
-
簡介:可擴展標記語言XMLEXTENSIBLEMARKUPLANGUAGE是一門新興的面向INTEMET應用的標記語言。它是W3CWLDWIDEWEBCONSTIUM互聯(lián)網(wǎng)聯(lián)盟提出的一套用于WEB網(wǎng)絡上的數(shù)據(jù)和文檔結構的通用標記語言。XML實際上是一種定義語言,即使用者可以自行定義標記來描述文件中的數(shù)據(jù)元素,從而突破了HTML固定標記集合的約束。XML不僅提供數(shù)據(jù)自身的信息,而且可以用來描述數(shù)據(jù)的結構。XML的迅速發(fā)展使其成為WEB發(fā)展和數(shù)據(jù)交換的一種新標淮。WEB上大量XML數(shù)據(jù)的使用引起了諸多問題,其中之一即為如何有效地對XML數(shù)據(jù)進行存儲與管理。利用關系數(shù)據(jù)庫存儲XML數(shù)據(jù),最大的優(yōu)勢在于可以利用關系數(shù)據(jù)庫現(xiàn)有的存儲管理、并發(fā)控制、恢復、版本機制等技術有效地管理數(shù)據(jù)。所以研究XML數(shù)據(jù)在關系數(shù)據(jù)庫中的存儲成為XML研究的一個熱點。當XML數(shù)據(jù)存儲到關系數(shù)據(jù)庫時,需要將樹狀結構的XML文檔映射成平面的行和列,這樣不僅增加了轉換的時間,而且破壞了文檔本身的結構,從而降低了數(shù)據(jù)處理的速度。本文主要研究XML文檔在關系數(shù)據(jù)庫中的存儲問題。通過查閱大量文獻,作者介紹了XML的相關技術,并對各種XML文檔的存儲方法作了一個簡單的比較。作者對XML文檔的各種存儲方法進行分析。同時對XMLSCHEMA的基本語義進行分析,引入B_SCHEMABASICXMLSCHEMA的概念,提出一個基于B_SCHEMA的XML文檔存儲方法。主要內容如下B_SCHEMA是XMLSCHEMA的一種等價形式。B_SCHEMA可以被直接映射為關系模式。B_SCHEMA由XMLSCHEMA生成,采用DOM樹表示。引入分級節(jié)點的概念,分級節(jié)點可以直接映射為關系。代價模型結合B_SCHEMA中的統(tǒng)計信息,對B_SCHEMA進行代價估計。引入一組改寫規(guī)則對B_SCHEMA進行改寫。B_SCHEMA的改寫主要集中在兩個方面內聯(lián)改寫和CHOICE合并改寫。引入一種搜索算法進行優(yōu)化處理。該算法利用改寫規(guī)則得到一組等價的B_SCHEMA集合,對B_SCHEMA進行代價估計、比較,迭代得到代價最小的B_SCHEMA。同時,為了加快搜索速度,引入代價優(yōu)化指數(shù)作為搜索算法的結束條件。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 63
大?。?1.94(MB)
子文件數(shù):
-
簡介:南京理工大學碩士學位論文文檔版面分析的研究姓名郭麗申請學位級別碩士專業(yè)模式識別與智能控制指導教師楊靜宇200031文檔版面分析的研究ABSTRACTTHISPAPERISMAINLYABOUTDOCUMENTANALYSIS,THEPROCESSBYWHICHFLSCANNEDPAGEISDIVIDEDINTOCOLUMNSANDBLOEKSWHICHARCTHELLCLASSIFIEDASHALFTONES,GRAPHICS,ORTEXTTHISPAPERUSESPROJECTIONPOLYTOMYMETHODBASEDONPROJECTIONANDCONNECTIVITYSEGMENTATIONMETHODBASEDONEDGEDETECTIONTOSEGMENTDOCUMENTIMAGES,THEPROCESSINGEFFECTISVERYGOODTHECONNEETIVITYSEGMENTATIONMETHODCARLDEALSWITILNOTONLYTHEREGULARRECTANGLELAYOUT,ANDALSONONMANHATTANLAYOUTTHEREGIONRECOGNITIONPROCESSUSESPROJECTIONPERIODICITY,ANDTHERECOGNITIONRATEIS95%KEYWORDDOCUMENTANALYSIS,DOCUMENTSEGMENTATION,REGIONRECOGNITION,PROJECTIONPOLYTOMY,CONNECTIVITYSEGMENTATION,SKEWCORRECTION,CROSSCORRELATION南京理丁人學碩L論文第1I頁
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 80
大小: 3(MB)
子文件數(shù):
-
簡介:文檔碎片的實際破碎狀況具有很大的隨意性和復雜性,加之當今在這一方面上的研究與復原技術還不很完善和成熟,因此,目前有關碎片的拼接和復原研究,尤其是多數(shù)量下的研究和處理,是一項極其耗時、極其費工的棘手問題。在歷史也存在著很多這樣的例子,像前東德國安全部的文件復原工作就是一個代表性的事例,它反映出破碎文檔的拼接和復原工作的實現(xiàn)意義。另外破碎文檔的拼接和復原在很多的領域,像刑事偵查中的取證、司法中的物證復原、歷史文獻研究中的修復和補救、文物考古中的復原等各個領域中有著不可替代的作用。本文對二維空間上任意多邊形且具有字符特征的文檔碎片的拼接復原問題進行了研究,主要介紹了文檔碎片的數(shù)字化預處理,提出了一類文檔碎片邊緣特征點提取的方法,并著重研究了文檔碎片邊緣特征數(shù)據(jù)鏈的構造,建立了邊緣特征點的匹配集,提出了具有獨創(chuàng)性的匹配算法,將碎片形狀和字符留置在碎片邊緣上的特征一起考慮進來,以此作為拼接的重要依據(jù)。借助計算機和MATLAB數(shù)學軟件,驗證和仿真了文章提出的匹配算法,實現(xiàn)了一類碎片文檔的計算機拼接和復原。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 65
大小: 2.28(MB)
子文件數(shù):
-
簡介:學術期刊是科研學者進行學術交流的工具,是科學進步的記錄。對學術期刊進行評價,對促進學術公平具有十分重要的意義。學術期刊定量評價主要有兩類方法單一指標評價法和多指標綜合評價法。前者使用期刊文獻計量指標對期刊進行比較,如影響因子、特征因子值、SJR等指標后者則是綜合使用多種文獻計量指標對期刊進行綜合評價,比如因子分析法等。在眾多的學術期刊評價的文獻中,學者認為后者可以避免單一指標評價帶來的片面性同時也指出使用多指標綜合評價方法對期刊進行評估,評價過程比較復雜,涉及到評價指標的選取、數(shù)據(jù)歸一化處理以及評價方法的選擇等多個研究領域,因而對同一期刊會得出不同的評價的結果。在面對多種評價結果時,學術界為了綜合利用不同評價方法的結果,提出了“組合評價”方法。本文使用基本科學指標數(shù)據(jù)庫ESI的經濟與商學ECONOMICSBUSINESS領域的期刊為評價對象,以同行審議期刊列表FT50期刊以評價依據(jù),對多種期刊評價方法進行評估,用以選取比較有效的期刊評價方法。評價研究發(fā)現(xiàn),在眾多的評價方法中,對經濟與商學領域的期刊評價,最有效的方法是期刊H指數(shù)。本文的研究表明,期刊評價方法并非是評價指標越多、評價方法越復雜就越有效。本文主要有六章,各章的研究內容如下第一章介紹本文的研究背景,闡述研究目的和研究意義。本章也介紹了本文的研究內容和研究方法,并對研究的創(chuàng)新點進行了清晰的說明。第二章介紹與研究有關的期刊評價理論基礎和相關文獻綜述。本章詳細介紹了期刊評價的兩類方法定性評價和定量評價。定性評價主要是同行對期刊進行評議,而學術期刊定量評價與文獻數(shù)據(jù)庫的選擇、學科的設定、期刊評價方法等密切相關。第三章是期刊的單一指標評價。運用來自不同數(shù)據(jù)庫的8個文獻計量指標對期刊進行評價,并分別介紹了評價指標的優(yōu)缺點。然后以FT50期刊為評價依據(jù),選擇出評價效果較好的評價指標。第四章是期刊的多指標綜合評價。本章使用熵權TOPSIS法、灰色關聯(lián)分析法、因子分析法和密切值法等綜合評價方法對期刊進行評價。然后以FT50期刊為評價依據(jù),選擇出評價效果較好的多指標綜合評價方法。第五章是期刊的組合評價。為綜合利用不同綜合評價方法的結果,采用“組合評價”的思路,運用不同的組合評價方法。以FT50期刊為評價依據(jù),選擇出評價效果較好的組合評價法然后綜合評估所有的期刊評價方法,選擇期刊評價效果最好的期刊評價方法。第六章是本文的總結。本章總結了本文的主要研究工作和創(chuàng)新之處,并在分析本文的不足之處的基礎上,指出了期刊評價未來的研究方向。本文的創(chuàng)新點有1以同行審議期刊列表FT50期刊為評價依據(jù),對多種期刊評價方法進行評估,找出最為有效的期刊評價方法。本文的研究結果表明,期刊H指數(shù)在評價經濟學與商學領域中的期刊最為有效,而眾多的綜合指標評價方法和組合評價法的效果并不理想2使用基本科學指標數(shù)據(jù)庫ESI期刊的學科分類方法,未采用WEBOFSCIENCE或SCOPUS等的學科分類方法。主要原因是后者的學科分類方法中存在一份期刊屬于多種學科的情形3將多種綜合評價方法的評價結果組合起來,對期刊進行組合評價。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 122
大?。?6.9(MB)
子文件數(shù):
-
簡介:電子文檔在辦公自動化環(huán)境中應用廣泛,具備易編輯、易復制、易傳輸?shù)戎T多優(yōu)點。同時也帶來了訪問控制、版權保護、日志跟蹤等安全相關的問題。現(xiàn)有的解決方案雖然提供電子文檔安全保護的相關功能,但是無法滿足企業(yè)個性化需求。為此,本文將對企業(yè)中電子文檔保護展開研究,并利用插件技術實現(xiàn)滿足企業(yè)個性化需求的文檔保護功能擴展,本文主要完成以下工作(1)分析了企業(yè)電子文檔安全管理的個性化需求,包括文檔用戶的管理、文檔的訪問權限、文檔內容整體或部分加密保護、完整性驗證、版權保護及日志跟蹤等需求。(2)根據(jù)企業(yè)電子文檔管理的個性化需求,分別設計了基于角色的用戶身份管理,基于用戶數(shù)字證書的文檔訪問權限控制,基于可擴展權利描述語言定義用戶對文檔內容的編輯權限,基于密碼算法的文檔內容的加密保護,基于消息HASH的文檔完整性驗證,探索使用基于漢字特征的文本分組水印算法保護電子文檔的版權,基于HOOK技術文檔日志。(3)認真研究了基于COM組件的插件技術,在OFFICE應用程序上實現(xiàn)了電子文檔安全管理功能的擴展,擴展包括于角色的用戶權限管理功能,文檔用戶驗證功能,電子文檔的離線控制,離線日志創(chuàng)建使之與在線日志協(xié)同工作,使用基于漢字特征的文本分組水印算法保護OFFICE文檔的版權信息。本文對企業(yè)中電子文檔的安全管理問題進行了深入的研究,詳細分析了文檔在安全保護過程中需要解決的問題,提供了相關的解決方案,在此研究基礎上,利用插件技術在OFFICE應用程序上實現(xiàn)了電子文檔安全保護功能的擴展。下一步作者希望通過認真研究數(shù)字版權保護技術,解決電子文檔的多用戶共享使用問題。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 58
大?。?1.21(MB)
子文件數(shù):