面向推薦系統(tǒng)的關(guān)鍵問題研究及應(yīng)用.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-04 格式：pdf 頁數(shù)：130 大?。?.97MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

面向推薦系統(tǒng)的關(guān)鍵問題研究及應(yīng)用.pdf_第1頁

已閱讀1頁，還剩129頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著互聯(lián)網(wǎng)近年來在國內(nèi)外爆炸式的發(fā)展，互聯(lián)網(wǎng)上的數(shù)據(jù)、信息以前所未有的速度瘋狂增長。因此怎樣從海量數(shù)據(jù)中發(fā)現(xiàn)自己希望尋找的內(nèi)容已經(jīng)成為越來越多的用戶面臨的一大難題，也成為大量專家學(xué)者研究的熱門課題。
　　用戶從互聯(lián)網(wǎng)上發(fā)現(xiàn)并獲取數(shù)據(jù)信息，一般看來經(jīng)歷了三個(gè)階段:1，最初始是各類門戶網(wǎng)站的建立，如sina、sohu、yahoo等，他們幫助用戶梳理、組織各類常用的熱門的資源、信息，供用戶發(fā)現(xiàn)、瀏覽。但一方面梳理整合的信息畢竟是有限的，

2、用戶的需求不一定包含其中;另一方面隨著數(shù)據(jù)的爆炸式增長，太多的數(shù)據(jù)會(huì)使得門戶網(wǎng)站變得雜亂臃腫，因此這些網(wǎng)站也只能選擇相對(duì)重要的信息檢索。2，然后是搜索引擎的出現(xiàn)，如google，baidu等，用戶能通過搜索引擎檢索自己希望獲取的內(nèi)容;然而檢索結(jié)果的準(zhǔn)確性極依賴于用戶對(duì)問題的描述，同時(shí)一般用戶的描述通常是不夠準(zhǔn)確的，這會(huì)直接導(dǎo)致檢索結(jié)果出現(xiàn)偏差，用戶很難完全準(zhǔn)確的找到自己所需的結(jié)果。3，最近則是推薦系統(tǒng)的產(chǎn)生，用戶不再需要主動(dòng)搜索，而系統(tǒng)

3、會(huì)智能的通過用戶的屬性信息，用戶的歷史記錄，為用戶推薦用戶可能會(huì)需要的信息，如taobao、netflix等會(huì)智能的為用戶推薦商品、電影，這在用戶需求不夠明確時(shí)，能為用戶精簡信息。值得注意的是以上三個(gè)階段不是一個(gè)進(jìn)化的過程，而是一個(gè)相互補(bǔ)充，互相協(xié)作的關(guān)系。
　　由于推薦系統(tǒng)能很好的解決互聯(lián)網(wǎng)“信息過載”的問題，因此廣受用戶歡迎，也因此被越來越多的網(wǎng)站、公司使用，而與之相應(yīng)的推薦算法也越來越受到學(xué)術(shù)界的重視，成為一個(gè)重要的研究領(lǐng)域

4、。然而面對(duì)不同種類的數(shù)據(jù)與越來越復(fù)雜的應(yīng)用場景，推薦系統(tǒng)會(huì)面臨不同的問題，如冷啟動(dòng)問題和可擴(kuò)展性等常規(guī)問題;又如應(yīng)用場景的區(qū)別、數(shù)據(jù)分布的不一致會(huì)使得同樣的算法在不同場景、數(shù)據(jù)上得到的結(jié)果相差很遠(yuǎn);同時(shí)存在的是某些推薦算法問題的求解困難等新問題。針對(duì)以上推薦系統(tǒng)中存在的問題，本文深入研究推薦系統(tǒng)，做了以下幾點(diǎn)研究工作:
　　(1)基于非參數(shù)統(tǒng)計(jì)的相似度模型研究。
　　協(xié)同過濾算法是推薦系統(tǒng)最基本也是最主流的算法，被成功的運(yùn)用

5、于大量商業(yè)模型中，取得了很好的效果。該算法主要由兩步組成，其中相似度的計(jì)算是第一步也是最為關(guān)鍵的一步。然而1，不同應(yīng)用場景的數(shù)據(jù)會(huì)有各自的特點(diǎn)，具有明顯的差異性、分布明顯不同，使用同樣的相似度度量模型是不夠準(zhǔn)確的;2，傳統(tǒng)的歐氏距離、皮爾遜相關(guān)度、余弦相似度等都有各自的局限性，已經(jīng)不能直接應(yīng)用于越來越復(fù)雜的場景;3，對(duì)于稀疏的數(shù)據(jù)，算出的相似度置信概率極低，直接用于推薦會(huì)降低推薦精度。基于以上原因，本文提出了一種基于非參數(shù)統(tǒng)計(jì)的相似度模

6、型，基于非參數(shù)統(tǒng)計(jì)的思想，該模型能將不同場景的數(shù)據(jù)映射到統(tǒng)一的空間，去除不同數(shù)據(jù)間的差異，將其統(tǒng)一到相同的標(biāo)準(zhǔn)。同時(shí)由于投影后的空間具有良好的線性性，相似度度量能很好的使用線性相似度方式計(jì)算，解決上述幾點(diǎn)問題，提高推薦精度。
　　(2)基于時(shí)間回溯的特征預(yù)測模型研究。
　　數(shù)據(jù)量的不足往往是各種機(jī)器學(xué)習(xí)模型面臨的最大問題之一，大量的研究表明，數(shù)據(jù)對(duì)于模型結(jié)果的重要性遠(yuǎn)遠(yuǎn)大于算法對(duì)于模型的重要性。在推薦系統(tǒng)中，用戶的歷史行為是

7、最主要的模型數(shù)據(jù)來源。傳統(tǒng)的推薦系統(tǒng)可以根據(jù)用戶的歷史行為預(yù)測他們的屬性（如愛好、年齡、性別等），也可以直接通過歷史行為找到類似的用戶進(jìn)而進(jìn)行推薦。然而一直以來的研究中，對(duì)用戶歷史行為的使用都是樸素、簡單的，并沒有注重歷史行為的時(shí)間維度。本文提出了一種基于時(shí)間回溯的特征預(yù)測模型，使歷史數(shù)據(jù)的利用率大大增大，從某種意義上數(shù)倍的豐富了數(shù)據(jù)量，提高預(yù)測精度。并且，本文在taobao的真實(shí)數(shù)據(jù)上使用該方法預(yù)測用戶孩子的年齡，結(jié)果表明預(yù)測精度大大

8、高于傳統(tǒng)方法。
　　(3)基于演化博弈的全局優(yōu)化算法研究。
　　大量的推薦算法問題，甚至數(shù)據(jù)挖掘問題，在模型的求解過程中，都會(huì)規(guī)約到求解全局優(yōu)化問題。因此求解全局優(yōu)化問題是推薦系統(tǒng)中的一個(gè)重點(diǎn)問題，也是難點(diǎn)問題。目前，常用的算法，如梯度下降法、隨機(jī)梯度下降法或者牛頓法，只適合求解凸函數(shù)最優(yōu)化（凸優(yōu)化）問題。而本文提出的基于演化博弈的全局優(yōu)化算法嘗試求解連續(xù)域上的全局優(yōu)化問題，剔除掉凸函數(shù)這一強(qiáng)限制條件。同時(shí)在求解的過程中，基

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

面向推薦系統(tǒng)的關(guān)鍵問題研究及應(yīng)用.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

面向推薦系統(tǒng)的關(guān)鍵問題研究及應(yīng)用.pdf

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載