2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩76頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著移動互聯網、云計算技術的快速發(fā)展,各行各業(yè)產生、獲取、處理和存儲的數據量正以指數級別呈爆炸式的增長。大數據作為新時代發(fā)展的標志,以多元、多態(tài)、互聯的形式影響著社會生產生活。在學術領域,文獻累積數量已達億級,海量文獻數據對傳統檢索方法造成了巨大的挑戰(zhàn)。傳統的文獻檢索方法主要通過單一的文獻信息,例如檢索詞與檢索內容之間相關度或者文獻的引用量進行排序,并沒有考慮學術網絡中節(jié)點之間的關聯關系以及節(jié)點自身的屬性,因此檢索結果會存在關聯度較差、

2、偏離主題、檢索質量不高等缺陷。此外,傳統學術檢索系統主要提供文獻檢索服務,而實際上領域權威專家推薦可以更好地指導科研工作者的研究以及發(fā)展方向。針對海量學術數據,如何挖掘更深層的鏈接結構語義信息,建立專家檢索系統,也是重要的研究課題。數據挖掘技術和分布式計算的發(fā)展,為解決以上問題提供了有效的手段。本文針對文獻檢索以及專家檢索兩種場景,通過構建學術信息網絡,實現了對檢索方法的優(yōu)化以及檢索系統的應用設計。
  首先,在文獻檢索系統中,基

3、于鏈接分析PageRank算法對文獻節(jié)點重要度排序,并針對PageRank算法的性能缺陷做了以下兩方面的改進:(1)利用學術信息網絡節(jié)點的不同屬性,計算學術網絡中文獻節(jié)點的權威度?;谖墨I權威度對PageRank算法中的權重分配策略進行改進,從而提出了SQT-Rank算法,提高了算法的排序性能;(2)考慮到大數據背景下文獻數據量巨大,利用MapReduce編程模型對SQT-Rank算法并行化處理,提高了算法的計算性能。
  再者,

4、與同構信息網絡相比,異構信息網絡蘊含更豐富的鏈接結構語義信息。在專家檢索系統中,為進行更深層的數據挖掘和分析,首先構建了學術異構信息網絡,并從中抽取了文獻、專家以及期刊相關的六個關系矩陣。最后基于文獻、專家、期刊相互增強作用的統一架構,提出專家重要度排序MR-Rank算法,獲得了更加公平合理的專家排序結果。
  最后,在上述理論方法研究的基礎上,對基于學術網絡的虹檢索系統進行了架構設計與功能實現。整個系統架構包含數據獲取、數據存儲

5、、數據索引、數據分析以及結果可視化展現等部分。通過數據分析處理實現對學術數據提取、清洗、轉換,完成文獻、專家節(jié)點重要度分析等功能,最后以指定的方式將排序結果可視化展示給用戶。
  綜上,本文主要針對大數據背景下海量文獻精準檢索和領域專家推薦問題。通過構建同構和異構學術網絡模型,基于優(yōu)化后的文獻排序SQT-Rank算法和專家排序MR-Rank算法挖掘網絡中節(jié)點重要度,并進一步應用虹檢索系統為用戶推薦高質量的文獻、專家,以提高用戶的檢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論