2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩72頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、互聯(lián)網(wǎng)包含數(shù)量巨大的文件信息,從而搜索引擎所返回的搜索結(jié)果可能包含上千或者上百萬條的記錄。這樣就必然需要一種排序算對搜索結(jié)果進(jìn)行排序,使得人們能夠在第一時間看到最符合要求的結(jié)果。一般的搜索引擎只會采用一種排序算法來對所有情況的搜索結(jié)果進(jìn)行排序,導(dǎo)致所有的返回結(jié)果將以同樣的規(guī)則排列。這樣的排序方式可能不利于一些特殊類型的文章,比如一些科學(xué)研究論文。雖然人們創(chuàng)造了一些專門的搜索引擎用來搜索、索引和排序那些特殊類型的搜索對象,但這些搜索引擎仍

2、然使用與通用搜索引擎相類似的排序算法。
  在本論文中,將專門為科學(xué)研究論文構(gòu)造一種新的、容易實現(xiàn)的排序算法。Paper time ranking algorithm(PTRA)是一種新的排序算法,它根據(jù)三個因素來對結(jié)果進(jìn)行排序:發(fā)表年份、引用頻次、所屬刊物。這三個因素會對PTRA帶來不同的影響??紤]到這三個因素出自以下三個原因:首先,國際會議或期刊在業(yè)界的影響力在一定程度上表明了論文的質(zhì)量;其次,論文發(fā)表年份能決定該文章的主題是

3、否會成為熱門主題;第三,論文的引用頻次能夠說明該文章的含金量、受關(guān)注程度以及其對相應(yīng)研究方向的影響力。鑒于科學(xué)研究者們傾向于對最新的科學(xué)文獻(xiàn)投入更多的關(guān)注,將在算法中提高發(fā)表年分的影響比例。
  為了構(gòu)建和證實PTRA算法,做了一個網(wǎng)絡(luò)爬蟲,它會遍歷世界上不同的科研論文數(shù)據(jù)庫以收集PTRA所需的信息。遺憾的是,起初有些信息缺失或難以收集,比如一些學(xué)術(shù)期刊的影響力因子。為了收集這些信息,構(gòu)造了另一個網(wǎng)絡(luò)爬蟲,專門用來提取和計算期刊的

4、影響力因子。時至今日,網(wǎng)絡(luò)爬蟲已經(jīng)可以收集到PTRA所需的全部數(shù)據(jù)。為了證明排序算法結(jié)果的準(zhǔn)確性以及各個參數(shù)對排序算法的影響,將PTRA與谷歌學(xué)術(shù)搜索的排序算法進(jìn)行了對比。參考谷歌學(xué)術(shù)搜索有三個原因:首先,谷歌學(xué)術(shù)上已有超過了五千萬篇的論文。第二,谷歌的網(wǎng)絡(luò)爬蟲比較先進(jìn),可以以較快的方式在世界范圍內(nèi)收集最新發(fā)表的作品。第三,谷歌在搜索引擎和排序算法上擁有非常豐富的經(jīng)驗。
  經(jīng)過比較可以得知,在谷歌排序算法中,論文的引用頻次對排序

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論