2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、推薦算法的最終目標(biāo)是通過一定的方式將用戶和商品聯(lián)系起來,讓消費(fèi)者和生產(chǎn)者從“信息超載”中找到自己真正的需求和目標(biāo)客戶,從而大大提高信息的有效使用率。個性化推薦研究和技術(shù)核心在于它的推薦能力,例如如何使用恰當(dāng)?shù)耐扑]算法提升推薦信息的準(zhǔn)確率,提高與用戶感興趣信息的吻合度,提高用戶對算法的信任度和驚喜度,算法的高效性等。為了突破這些瓶頸,研究人員不斷尋求更新的和更高效的推薦算法。
  本文的研究主要面對的是在電子商務(wù)大數(shù)據(jù)情況下,用戶商

2、品矩陣將增長到不可想象的地步,同時在大數(shù)據(jù)面前,用戶和物品之間的顯性反饋關(guān)聯(lián)信息缺少,隱形反饋數(shù)據(jù)巨大的特點(diǎn)。在如何應(yīng)對大量“稀疏數(shù)據(jù)”的推薦和如何選定核心算法使計(jì)算機(jī)運(yùn)行效率最大化,基于現(xiàn)有的個性化推薦算法的基礎(chǔ)上,找到一種方法既能滿足用戶需求又能使效率準(zhǔn)確率更高的推薦算法。基于以上目標(biāo),我們將算法融合作為我們研究推薦系統(tǒng)的重點(diǎn)關(guān)注目標(biāo),提出一種基于隨機(jī)森林和boosting的算法融合思想,用該思想重新構(gòu)建推薦。
  在特征集模

3、型構(gòu)建中,我們將以前需要耗費(fèi)大量精力的特征選取工作抽取為特征構(gòu)建,研究人員只要關(guān)注特征的挖掘,而不用做特征選取相關(guān)的工作,大大減少了特征選取等方面的工作量。我們首先從用戶,物品和用戶物品三個方面構(gòu)建特征序列,同時在構(gòu)造模型特征時候采用社會學(xué)中時間遺忘規(guī)律,將時間上下文信息作為特征構(gòu)造的重要依據(jù),不斷通過實(shí)驗(yàn)在平滑的計(jì)算時間影響因子。在特征集構(gòu)造中,采用hadoop下的mapreduce進(jìn)行編程,解決億級數(shù)據(jù)的計(jì)算問題。
  通過研

4、究決策樹模型,對單決策樹模型的處理數(shù)據(jù)規(guī)模較小的缺陷下,分析研究隨機(jī)森林等樹模型組合算法,采用boosting的提升思想,對數(shù)據(jù)錯誤殘差作為建樹依據(jù),對上述模型得到的特征集通過隨機(jī)森林和boost ing算法分別進(jìn)行計(jì)算預(yù)測,但是在隨機(jī)森林對關(guān)聯(lián)度較高的二級特征上結(jié)果不可信的情況下,將隨機(jī)森林算法的關(guān)注度在關(guān)聯(lián)度較小的一級特征上,同時通過時間上的不斷平滑移動,得到不同的結(jié)果集,結(jié)合boosting tree處理關(guān)聯(lián)度較高的特征集合,得到

5、時間平滑下幾組結(jié)果集合后通過線性回歸模型對預(yù)測到結(jié)果進(jìn)行線性融合,得到最終的推薦結(jié)果。經(jīng)試驗(yàn),該模型在大數(shù)據(jù)環(huán)境下不僅在計(jì)算可行性上得以實(shí)現(xiàn),而且在算法準(zhǔn)確率上也有提高。在本地數(shù)據(jù)集實(shí)驗(yàn)中,采用阿里巴巴4月到7月的小規(guī)模數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),最終將算法在阿里巴巴大數(shù)據(jù)競賽上進(jìn)行了實(shí)驗(yàn)分析,并取得了不錯了算法結(jié)果。本論文的主要工作有以下幾個方面:
  (1)對現(xiàn)有的推薦系統(tǒng)理論進(jìn)行了研究,對現(xiàn)有的基于鄰域的推薦算法,基于圖的推薦算法和隱語

6、意模型三種類型的推薦系統(tǒng)進(jìn)行了系統(tǒng)的研究,分別根據(jù)不同的算法實(shí)現(xiàn)原理分析各種算法的優(yōu)缺點(diǎn)。但是在電子商務(wù)大數(shù)據(jù)場景下,用戶商品矩陣過大,數(shù)據(jù)維度過高,顯性反饋與隱形反饋不平衡,在上述算法對其分析計(jì)算過于復(fù)雜的情況下,使用機(jī)器學(xué)習(xí)的理論來重構(gòu)推薦,將機(jī)器學(xué)習(xí)應(yīng)用在大規(guī)模數(shù)據(jù)推薦進(jìn)行了實(shí)現(xiàn);
  (2)推薦系統(tǒng)領(lǐng)域的重要研究熱點(diǎn)是算法融合和大規(guī)模分布。本文針對于電子商務(wù)平臺的大規(guī)模數(shù)據(jù)下,對數(shù)據(jù)建模的過程中,將數(shù)據(jù)處理采用并行化的思想

7、,對不同的數(shù)據(jù)采用hadoop的mapreduce編程對數(shù)據(jù)的聚集,抽樣和特征構(gòu)造進(jìn)行處理,得到模型特征集,hadoop計(jì)算接口由天貓ODPS平臺提供,并采用mapreduce保證了本文算法的實(shí)現(xiàn);
  (3)抽離了特征提取,特征提取一直是推薦系統(tǒng)相當(dāng)繁瑣的工作,本文通過研究樹模型算法的優(yōu)點(diǎn),將推薦問題轉(zhuǎn)化為用戶行為特征研究,大大減少了特征提取帶來的繁瑣工作。過深入的挖掘用戶的操作行為。從用戶,產(chǎn)品和交互特征來進(jìn)行特征集的構(gòu)造,然

8、后結(jié)合協(xié)同過濾和圖論算法,將協(xié)同過濾和圖論的結(jié)果當(dāng)做一組特征集來對待,實(shí)現(xiàn)算法融合。通過研究時間遺忘規(guī)律,得到人類行為習(xí)慣由遺忘規(guī)律影響,然后進(jìn)行時間分布
  (4)算法融合,從決策樹開始到樹模型的融合過程,然后實(shí)現(xiàn)隨機(jī)森林算法,從而見識了算法融合的強(qiáng)大之處。在研究決策樹模型的基礎(chǔ)上,對隨機(jī)森林和基于boosting的回歸樹模型進(jìn)行深入的研究。在隨機(jī)森林對關(guān)聯(lián)特征集訓(xùn)練結(jié)果不可信的缺陷下,提出基于隨機(jī)森林和boosting思想的算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論