基于隨機(jī)森林和boosting思想的推薦算法的研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-09 格式：pdf 頁(yè)數(shù)：55 大?。?.69MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

基于隨機(jī)森林和boosting思想的推薦算法的研究.pdf_第1頁(yè)

已閱讀1頁(yè)，還剩54頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、推薦算法的最終目標(biāo)是通過(guò)一定的方式將用戶和商品聯(lián)系起來(lái)，讓消費(fèi)者和生產(chǎn)者從“信息超載”中找到自己真正的需求和目標(biāo)客戶，從而大大提高信息的有效使用率。個(gè)性化推薦研究和技術(shù)核心在于它的推薦能力，例如如何使用恰當(dāng)?shù)耐扑]算法提升推薦信息的準(zhǔn)確率，提高與用戶感興趣信息的吻合度，提高用戶對(duì)算法的信任度和驚喜度，算法的高效性等。為了突破這些瓶頸，研究人員不斷尋求更新的和更高效的推薦算法。
　　本文的研究主要面對(duì)的是在電子商務(wù)大數(shù)據(jù)情況下，用戶商

2、品矩陣將增長(zhǎng)到不可想象的地步，同時(shí)在大數(shù)據(jù)面前，用戶和物品之間的顯性反饋關(guān)聯(lián)信息缺少，隱形反饋數(shù)據(jù)巨大的特點(diǎn)。在如何應(yīng)對(duì)大量“稀疏數(shù)據(jù)”的推薦和如何選定核心算法使計(jì)算機(jī)運(yùn)行效率最大化，基于現(xiàn)有的個(gè)性化推薦算法的基礎(chǔ)上，找到一種方法既能滿足用戶需求又能使效率準(zhǔn)確率更高的推薦算法。基于以上目標(biāo)，我們將算法融合作為我們研究推薦系統(tǒng)的重點(diǎn)關(guān)注目標(biāo)，提出一種基于隨機(jī)森林和boosting的算法融合思想，用該思想重新構(gòu)建推薦。
　　在特征集模

3、型構(gòu)建中，我們將以前需要耗費(fèi)大量精力的特征選取工作抽取為特征構(gòu)建，研究人員只要關(guān)注特征的挖掘，而不用做特征選取相關(guān)的工作，大大減少了特征選取等方面的工作量。我們首先從用戶，物品和用戶物品三個(gè)方面構(gòu)建特征序列，同時(shí)在構(gòu)造模型特征時(shí)候采用社會(huì)學(xué)中時(shí)間遺忘規(guī)律，將時(shí)間上下文信息作為特征構(gòu)造的重要依據(jù)，不斷通過(guò)實(shí)驗(yàn)在平滑的計(jì)算時(shí)間影響因子。在特征集構(gòu)造中，采用hadoop下的mapreduce進(jìn)行編程，解決億級(jí)數(shù)據(jù)的計(jì)算問(wèn)題。
　　通過(guò)研

4、究決策樹模型，對(duì)單決策樹模型的處理數(shù)據(jù)規(guī)模較小的缺陷下，分析研究隨機(jī)森林等樹模型組合算法，采用boosting的提升思想，對(duì)數(shù)據(jù)錯(cuò)誤殘差作為建樹依據(jù)，對(duì)上述模型得到的特征集通過(guò)隨機(jī)森林和boost ing算法分別進(jìn)行計(jì)算預(yù)測(cè)，但是在隨機(jī)森林對(duì)關(guān)聯(lián)度較高的二級(jí)特征上結(jié)果不可信的情況下，將隨機(jī)森林算法的關(guān)注度在關(guān)聯(lián)度較小的一級(jí)特征上，同時(shí)通過(guò)時(shí)間上的不斷平滑移動(dòng)，得到不同的結(jié)果集，結(jié)合boosting tree處理關(guān)聯(lián)度較高的特征集合，得到

5、時(shí)間平滑下幾組結(jié)果集合后通過(guò)線性回歸模型對(duì)預(yù)測(cè)到結(jié)果進(jìn)行線性融合，得到最終的推薦結(jié)果。經(jīng)試驗(yàn)，該模型在大數(shù)據(jù)環(huán)境下不僅在計(jì)算可行性上得以實(shí)現(xiàn)，而且在算法準(zhǔn)確率上也有提高。在本地?cái)?shù)據(jù)集實(shí)驗(yàn)中，采用阿里巴巴4月到7月的小規(guī)模數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，最終將算法在阿里巴巴大數(shù)據(jù)競(jìng)賽上進(jìn)行了實(shí)驗(yàn)分析，并取得了不錯(cuò)了算法結(jié)果。本論文的主要工作有以下幾個(gè)方面:
　　(1)對(duì)現(xiàn)有的推薦系統(tǒng)理論進(jìn)行了研究，對(duì)現(xiàn)有的基于鄰域的推薦算法，基于圖的推薦算法和隱語(yǔ)

6、意模型三種類型的推薦系統(tǒng)進(jìn)行了系統(tǒng)的研究，分別根據(jù)不同的算法實(shí)現(xiàn)原理分析各種算法的優(yōu)缺點(diǎn)。但是在電子商務(wù)大數(shù)據(jù)場(chǎng)景下，用戶商品矩陣過(guò)大，數(shù)據(jù)維度過(guò)高，顯性反饋與隱形反饋不平衡，在上述算法對(duì)其分析計(jì)算過(guò)于復(fù)雜的情況下，使用機(jī)器學(xué)習(xí)的理論來(lái)重構(gòu)推薦，將機(jī)器學(xué)習(xí)應(yīng)用在大規(guī)模數(shù)據(jù)推薦進(jìn)行了實(shí)現(xiàn);
　　(2)推薦系統(tǒng)領(lǐng)域的重要研究熱點(diǎn)是算法融合和大規(guī)模分布。本文針對(duì)于電子商務(wù)平臺(tái)的大規(guī)模數(shù)據(jù)下，對(duì)數(shù)據(jù)建模的過(guò)程中，將數(shù)據(jù)處理采用并行化的思想

7、，對(duì)不同的數(shù)據(jù)采用hadoop的mapreduce編程對(duì)數(shù)據(jù)的聚集，抽樣和特征構(gòu)造進(jìn)行處理，得到模型特征集，hadoop計(jì)算接口由天貓ODPS平臺(tái)提供，并采用mapreduce保證了本文算法的實(shí)現(xiàn);
　　(3)抽離了特征提取，特征提取一直是推薦系統(tǒng)相當(dāng)繁瑣的工作，本文通過(guò)研究樹模型算法的優(yōu)點(diǎn)，將推薦問(wèn)題轉(zhuǎn)化為用戶行為特征研究，大大減少了特征提取帶來(lái)的繁瑣工作。過(guò)深入的挖掘用戶的操作行為。從用戶，產(chǎn)品和交互特征來(lái)進(jìn)行特征集的構(gòu)造，然

8、后結(jié)合協(xié)同過(guò)濾和圖論算法，將協(xié)同過(guò)濾和圖論的結(jié)果當(dāng)做一組特征集來(lái)對(duì)待，實(shí)現(xiàn)算法融合。通過(guò)研究時(shí)間遺忘規(guī)律，得到人類行為習(xí)慣由遺忘規(guī)律影響，然后進(jìn)行時(shí)間分布
　　(4)算法融合，從決策樹開始到樹模型的融合過(guò)程，然后實(shí)現(xiàn)隨機(jī)森林算法，從而見識(shí)了算法融合的強(qiáng)大之處。在研究決策樹模型的基礎(chǔ)上，對(duì)隨機(jī)森林和基于boosting的回歸樹模型進(jìn)行深入的研究。在隨機(jī)森林對(duì)關(guān)聯(lián)特征集訓(xùn)練結(jié)果不可信的缺陷下，提出基于隨機(jī)森林和boosting思想的算

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于隨機(jī)森林和boosting思想的推薦算法的研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于隨機(jī)森林和boosting思想的推薦算法的研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載