2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩161頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展與信息網(wǎng)絡(luò)化趨勢的蔓延使得互聯(lián)網(wǎng)上信息的數(shù)量快速膨脹,人們面臨著信息過載帶來的信息獲取方面的困難。如何幫助互聯(lián)網(wǎng)用戶更加有效地獲取自己想要的信息,成為信息科學(xué)、計算機(jī)科學(xué)與網(wǎng)絡(luò)科學(xué)等交叉領(lǐng)域的研究熱點。得益于眾多研究人員的不懈努力,當(dāng)前已經(jīng)有了幾種可以比較高效地獲取感興趣的信息的方式,最主要的是信息檢索技術(shù)和信息過濾技術(shù),前者以各種搜索引擎為典型代表,通過與用戶的交互獲取用戶對目標(biāo)信息的描述,通過描述關(guān)鍵詞在網(wǎng)絡(luò)中進(jìn)

2、行查找;后者以信息推薦為主要方法,通過收集用戶的行為數(shù)據(jù)和其他屬性信息,分析用戶的潛在興趣,為用戶篩選可能感興趣的信息。搜索技術(shù)需要用戶提供盡可能明確的關(guān)鍵詞來描述自己的需求,并且有限的關(guān)鍵詞無法進(jìn)一步區(qū)分具有不同習(xí)慣的用戶,得到的結(jié)果都是相同的;而推薦技術(shù)使用用戶的有關(guān)信息以及其過往行為所代表的興趣分析得到用戶的偏好與傾向,并不以用戶需求的自我描述為前提,所以用戶可以以較少的付出得到更精準(zhǔn)的信息。因此,對于沒有明確需求的情況,推薦技術(shù)

3、可以很好地滿足用戶的需求。
  推薦技術(shù)已經(jīng)發(fā)展了近二十年,在很多領(lǐng)域已經(jīng)取得了較為成功的應(yīng)用,在理論研究方面,推薦技術(shù)得到了大量研究人員的關(guān)注,對經(jīng)典推薦方法——比如協(xié)同過濾方法——的研究熱度不減,還有很多其他的新方法——比如基于二分網(wǎng)絡(luò)的方法——被不斷提出,進(jìn)一步豐富了推薦技術(shù)的相關(guān)研究。隨著研究的不斷深入以及應(yīng)用環(huán)境的持續(xù)變化,推薦技術(shù)面臨著不少問題與挑戰(zhàn),這其中最主要的就是數(shù)據(jù)稀疏性問題與大規(guī)模數(shù)據(jù)處理問題。數(shù)據(jù)稀疏性問題

4、指的是基于協(xié)同過濾的推薦中用戶與項目數(shù)量規(guī)模較大,但是用戶對項目的評價數(shù)據(jù)相對較少,導(dǎo)致整個用戶-項目矩陣中的評分?jǐn)?shù)據(jù)十分稀疏,給推薦方法的計算帶來準(zhǔn)確性方面的影響。大規(guī)模數(shù)據(jù)處理問題是指隨著實際應(yīng)用中推薦技術(shù)要處理的數(shù)據(jù)量的不斷增大,推薦算法的實時性壓力越來越大,這就要求設(shè)計更加高效的方法或者提出其他提高算法執(zhí)行效率的方法,提升推薦算法對數(shù)據(jù)的處理能力與處理速度。
  針對推薦技術(shù)面臨的以上主要挑戰(zhàn),本文將對下面幾個問題展開研究

5、。
  第一,基于協(xié)同過濾方法的評分預(yù)測中數(shù)據(jù)稀疏性問題研究。評分預(yù)測是個性化信息推薦的一個主要研究內(nèi)容,通過分析用戶以往評分來預(yù)測未評分的項目的評分值。數(shù)據(jù)稀疏性問題對協(xié)同過濾算法的影響主要體現(xiàn)在用戶相似度計算與評分預(yù)測生成兩個階段,數(shù)據(jù)稀疏導(dǎo)致用戶之間的公共數(shù)據(jù)變得更加有限,使得用戶之間相似結(jié)果的可信度下降;而受稀疏性的影響近鄰的評分完整性無法保證,在不完整參考評分集上得到的評分預(yù)測值也就不能保證較高的準(zhǔn)確度。因此,提出了基于

6、絕對相似度度量進(jìn)行參考用戶(項目)選擇和利用跨維度填補(bǔ)方法提高\參考評分集完整性的方法。實驗結(jié)果驗證了本文提出的算法在減少數(shù)據(jù)稀疏性影響并提高推薦準(zhǔn)確性方面的作用。
  第二,基于二分網(wǎng)絡(luò)的top-n推薦中數(shù)據(jù)稀疏性問題研究。Top-n推薦是個性化信息推薦中的另一個基本問題,目的是向每個用戶提供一個包含 N個項目的推薦列表。二分網(wǎng)絡(luò)的推薦方法是一種比較新穎的方法,這類方法能夠更好地適應(yīng)比較稀疏的數(shù)據(jù),并且可以獲得更高的推薦精度。以

7、用戶評分為依據(jù)劃分用戶興趣時,只考慮用戶喜歡的項目部分使得數(shù)據(jù)利用率很低,而對用戶不喜歡的項目部分利用的不夠;用戶評分反映的興趣差別不僅應(yīng)該體現(xiàn)在興趣的有無上,還應(yīng)該進(jìn)一步細(xì)化到興趣強(qiáng)度的差異上以及興趣資源轉(zhuǎn)移過程中。本文提出了一種新的二分網(wǎng)絡(luò)方法,通過分析用戶不喜歡的項目所透露出來的信息建立負(fù)興趣感知的用戶興趣模型,并且使用評分敏感的用戶興趣資源初始化方法與資源轉(zhuǎn)移方法來體現(xiàn)用戶興趣在程度上的不同。接下來的實驗表明,使用本文提出的新方

8、法,推薦的效果取得了明顯的提高。
  第三,基于二分網(wǎng)絡(luò)的評分預(yù)測算法研究。針對節(jié)點度分布不均衡的數(shù)據(jù),提出一種二分網(wǎng)絡(luò)上無偏溫差傳導(dǎo)和有偏溫度恒定的算法處理評分預(yù)測問題。由于不需要進(jìn)行相似計算和選擇固定個數(shù)用戶(項目)作為近鄰,二分網(wǎng)絡(luò)的方法可以更好地緩解稀疏數(shù)據(jù)的影響。本文提出的算法基于熱傳導(dǎo)的過程,并采用用戶之間的溫差作為傳導(dǎo)與比較的內(nèi)容,并設(shè)定節(jié)點獲得的溫差是從所有連接節(jié)點處傳導(dǎo)過來的溫差的均值,以此平衡所有節(jié)點的影響;此

9、外,利用溫度恒定的過程計算項目節(jié)點的預(yù)測溫度,得到用戶對項目的評分預(yù)測值。由文中進(jìn)行的實驗可知,在特定類型的數(shù)據(jù)集上,本文提出的算法可以取得比基于協(xié)同過濾的方法更好的效果,并且該算法比經(jīng)典熱傳導(dǎo)方法具有更高的計算效率。
  第四,基于Mapreduce的評分預(yù)測與top-n推薦算法的大規(guī)模數(shù)據(jù)處理問題研究。個性化信息推薦在實際應(yīng)用中要處理的數(shù)據(jù)量越來越大,因此對算法的執(zhí)行效率提出了更高的要求。有些研究針對算法計算過程進(jìn)行精簡,比如

10、矩陣降維等,但這類方法受限于算法本身,并不能保證精簡的效果一定能夠滿足要求,也不能無限地精簡來提升算法的擴(kuò)展能力。本文研究了所提出的幾種推薦算法,對基于二分網(wǎng)絡(luò)的top-n推薦算法與評分預(yù)測算法進(jìn)行并行化設(shè)計與實現(xiàn),利用Mapreduce的并行計算功能將整個算法的計算量分配到多個計算節(jié)點上并發(fā)進(jìn)行,以此提高算法的執(zhí)行效率,減少處理大規(guī)模數(shù)據(jù)時算法的時間消耗。這類方法的好處是,隨著數(shù)據(jù)量的不斷加大,在算法適用的前提下,只要提供足夠的計算節(jié)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論