2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、在當(dāng)今信息爆炸時代,Web是獲取任何信息的最佳來源或就某件事做出決策的重要途徑。人們在做出某項決定之前像購買任何產(chǎn)品,預(yù)訂電影票等都或多或少受到來自Web推薦的影響。由此可見,在這種情況下,推薦系統(tǒng)發(fā)揮重要作用。
  推薦系統(tǒng)已經(jīng)廣泛運用在各個領(lǐng)域像電子商務(wù),電影,音樂,搜索引擎和新聞網(wǎng)站等等。它的設(shè)計初衷就是基于用戶的長期或短期喜好給它的所有注冊用戶和潛在用戶推薦符合他們自己興趣的產(chǎn)品,包括組合選擇。而這些用戶喜好可以分為顯式信

2、息和隱式信息。由于隱式信息過于隱晦,需要推薦系統(tǒng)本身自發(fā)去收集和挖掘,而這些隱式信息往往存在于用戶過去的購買記錄,用戶過去的瀏覽網(wǎng)站,用戶曾經(jīng)點擊的鏈接,瀏覽器cookies甚至地理位置信息。顯式信息就比隱式信息體現(xiàn)用戶的喜好顯著的多。顯式信息采用的是有效的反饋,比如說購買或使用過該項目后的一次用戶評分。綜上所述,我們就能將用戶喜好數(shù)據(jù)化表示成用戶評分記錄,以用戶-物品矩陣的形式存儲。
  協(xié)同過濾是推薦系統(tǒng)中眾所周知和最廣泛的技

3、術(shù)之一,不僅在學(xué)術(shù)界得到了深入的研究,而且在工業(yè)界也有廣泛的應(yīng)用。其基本思想是根據(jù)用戶的偏好來預(yù)測用戶感興趣的項目。并且由于在電子商務(wù)中精準(zhǔn)推薦的出色表現(xiàn),該項技術(shù)已在該領(lǐng)域得到成熟的運用。協(xié)同過濾算法可以簡單分為兩類,一類是基于近鄰的協(xié)同過濾算法,還有一類是基于模型的協(xié)同過濾算法。
  一、基于近鄰的協(xié)同過濾算法。在這個算法中還需再細(xì)分,基于用戶的協(xié)同過濾算法和基于物品的協(xié)同過濾算法。他們的基本思想都是需充分運用相似用戶或相似物

4、品構(gòu)成的近鄰組合,去挖掘他們近鄰組合的信息來給近鄰組合的本體-被推薦的對象來進(jìn)行符合他的興趣物品推薦。
  在基于物品的協(xié)同過濾算法中,關(guān)于近鄰組合的定義是由不同用戶打分產(chǎn)生的有著相同或相似分?jǐn)?shù)的物品集合。然后系統(tǒng)推定用戶喜歡和他以前喜歡的東西相似的東西—近鄰集合,進(jìn)行打分。
  在基于用戶的協(xié)同過濾算法中,對于近鄰組合的定義是一組對同一個物品打分相同或類似的用戶集合。該算法的主要思想是為了將有著相同或相似的興趣愛好的用戶聚

5、集在一起。因為對于一個物品,用戶甲是存在潛在可能性喜歡在過去記錄中有著相同或相似愛好的用戶乙喜歡的商品。
  鑒于該算法必須對所有用戶的所有商品的評分?jǐn)?shù)據(jù)進(jìn)行處理才能對單個用戶進(jìn)行預(yù)測推薦,所以該算法提出了嚴(yán)重的可擴(kuò)展性問題。倘若存在海量的用戶、海量的項目以及海量的用戶對物品的評分記錄,此法不適合實時推薦系統(tǒng)。此外該法比推薦系統(tǒng)中的基于模型的協(xié)同過濾的推薦算法更加敏感。
  二、基于模型的協(xié)同過濾算法。不同于基于近鄰的協(xié)同過

6、濾算法直接采用用戶評分矩陣來學(xué)習(xí)預(yù)測模型進(jìn)而產(chǎn)生推薦的方法,基于模型的協(xié)同過濾算法的模型建立過程是由不同的機器學(xué)習(xí)算法如貝葉斯網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)和奇異值分解進(jìn)行學(xué)習(xí)預(yù)測模型進(jìn)而給單個用戶產(chǎn)生推薦結(jié)果。
  例如在線系統(tǒng)需要高效可用性和低時延的響應(yīng)時間,因為它們必須協(xié)同合作并快速處理來自所有用戶活動所產(chǎn)生的數(shù)據(jù)流,進(jìn)而產(chǎn)生推薦結(jié)果。而所有這些過程都必須在用戶等待幾秒的時間里開始并結(jié)束。因為推薦算法會選擇的最符合用戶興趣的物品,這當(dāng)然必須

7、在用戶瀏覽網(wǎng)站時向用戶顯示。繼而就有需要服務(wù)的用戶數(shù)量越多,要推薦的商品越多,所產(chǎn)生的計算量繼而會隨之增大大,從而增加生成給每個用戶建議所需的時間。
  為了解決這個問題,一些學(xué)者提出了一類快速簡單的基于模型的協(xié)同過濾算法,稱為潛在因子模型。他們試圖確定解釋觀察到的用戶評分的相關(guān)特征,也被稱為潛在因素。這些功能或者說是潛在因素可以解釋為用戶的偏好和推薦的項目的特征。充分使用這些潛在因素,可以推斷出用戶的偏好,并為他或她推薦符合自己

8、興趣的物品。而成功對潛在因素建模的關(guān)鍵技術(shù)是矩陣分解。由于基于模型的協(xié)同過濾算法它們結(jié)合了可擴(kuò)展性和預(yù)測準(zhǔn)確性,因此它們已經(jīng)在實時推薦系統(tǒng)中得到廣泛運用。此外,基于模型的協(xié)同過濾算法它們對不同現(xiàn)實實際情況建模的靈活性提供了不同的建模方法。因為它們允許并入附加信息,如隱含反饋,時間效應(yīng)和置信水平,這樣使得會優(yōu)于基于近鄰的協(xié)同過濾算法產(chǎn)生推薦結(jié)果。
  可擴(kuò)展性和高性能也是一個推薦系統(tǒng)的重要指標(biāo),因為計算的復(fù)雜度會隨用戶和物品的增多而

9、有指數(shù)爆炸性增長??紤]到推薦算法的效率,Map-Reduce的編程模型在對于機器學(xué)習(xí)的算法上并沒有體現(xiàn)出很好的優(yōu)勢,原因在于機器學(xué)習(xí)的算法需要Map-Reduce編程框架隨著迭代的次數(shù)而不斷進(jìn)行在磁盤進(jìn)行讀寫的I/O操作?;谏鲜龅默F(xiàn)狀,Apache Spark提出了基于內(nèi)存的處理大數(shù)據(jù)的快速通用引擎。
  Spark是在Map-Reduce上發(fā)展而來的,保留了分布式并行計算的特點并改進(jìn)了Map-Reduce的明顯缺陷。Spark

10、是將中間數(shù)據(jù)保存在了內(nèi)存中,迭代運算效率大大提高;其次Spark提出彈性分布式數(shù)據(jù)集RDD的抽象,達(dá)到了提高了自身對數(shù)據(jù)的容錯性;最后,Spark對于數(shù)據(jù)集的操作沒有像Hadoop一樣只提供了Map和reduce的操作。大致可以分為兩類,一類是轉(zhuǎn)化(Transformations)操作,一類是執(zhí)行(Actions)操作,對于使用者提供了很好的友好性。
  本文工作目標(biāo)是能夠充分運用Spark自帶的機器學(xué)習(xí)庫構(gòu)建并實現(xiàn)基于最小二乘法

11、的協(xié)同過濾系統(tǒng)。交替最小二乘算法(ALS)可以隨著數(shù)據(jù)量規(guī)模的增大而對其進(jìn)行并行和優(yōu)化處理。在現(xiàn)實數(shù)據(jù)中,用戶評分矩陣往往都是比較稀疏的,這給計算并推薦產(chǎn)生巨大的計算壓力,但交替最小二乘算法能克服這點。在實驗中,本文會比較部署在Linux單節(jié)點和部署在Linux集群的推薦效果。實驗中使用的數(shù)據(jù)集是MovieLens。
  本論文的貢獻(xiàn)如下:
  1)介紹了現(xiàn)有的基本推薦算法,比較了各個算法之間的優(yōu)缺點以及適應(yīng)的場景。結(jié)合自身

12、工作的特點,本文選取了適合自己的工作場景的協(xié)同過濾算法。
  2)本文根據(jù)大數(shù)據(jù)平臺Spark的實驗要求,搭建了一個主節(jié)點,兩個附節(jié)點的實驗集群。各個節(jié)點安裝的操作系統(tǒng)版本是Ubuntu16.04 LTS.1,使用HDFS存儲數(shù)據(jù)集并保存計算中的輸出結(jié)果,其中Hadoop的安裝版本是2.7.0,Spark快速通用大數(shù)據(jù)計算平臺安裝的版本是1.6.1.
  3)本文在Spark大數(shù)據(jù)處理平臺上使用Scala編程語言實現(xiàn)交替最小

13、二乘算法(ALS)。實驗中的數(shù)據(jù)集是來自電影領(lǐng)域的公開發(fā)布的MovieLens數(shù)據(jù)集。首先,筆者了解了公開MovieLens數(shù)據(jù)集的相關(guān)資料并為其找到最適合的ALS模型,換句話說,就是本文使用不同參數(shù)值的組合在公開數(shù)據(jù)集MovieLens訓(xùn)練了交替最小二乘模型,進(jìn)而發(fā)現(xiàn)在測試集上具有較低均方根誤差(RMSE)的組合。充分使用訓(xùn)練出且優(yōu)化的參數(shù)來得到交替最小二乘法(ALS)模型。本文采用的實驗評價標(biāo)準(zhǔn)是根據(jù)測試集上的執(zhí)行時間和精度結(jié)果呈現(xiàn)

14、實驗結(jié)果的好壞。
  實驗結(jié)果表明,通過使用Spark的MLlib庫實現(xiàn)的最佳匹配交替最小二乘模型展現(xiàn)了比較好的性能。該解決方案具有更好的性能。對于MovieLens數(shù)據(jù)集,測試集上的均方根誤差(RMSE)為0.800689025。
  本文還繼續(xù)在實驗研究中增加了具有可擴(kuò)展性實驗,換句話說就是在搭建的三臺機器的實驗集群上運行訓(xùn)練好的最佳參數(shù)交替最小二乘模型。本文作者發(fā)現(xiàn)結(jié)果非常有利于Spark,因為最小二乘法(ALS)在大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論