2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩129頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著互聯(lián)網(wǎng)近年來在國內(nèi)外爆炸式的發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)、信息以前所未有的速度瘋狂增長。因此怎樣從海量數(shù)據(jù)中發(fā)現(xiàn)自己希望尋找的內(nèi)容已經(jīng)成為越來越多的用戶面臨的一大難題,也成為大量專家學(xué)者研究的熱門課題。
  用戶從互聯(lián)網(wǎng)上發(fā)現(xiàn)并獲取數(shù)據(jù)信息,一般看來經(jīng)歷了三個階段:1,最初始是各類門戶網(wǎng)站的建立,如sina、sohu、yahoo等,他們幫助用戶梳理、組織各類常用的熱門的資源、信息,供用戶發(fā)現(xiàn)、瀏覽。但一方面梳理整合的信息畢竟是有限的,

2、用戶的需求不一定包含其中;另一方面隨著數(shù)據(jù)的爆炸式增長,太多的數(shù)據(jù)會使得門戶網(wǎng)站變得雜亂臃腫,因此這些網(wǎng)站也只能選擇相對重要的信息檢索。2,然后是搜索引擎的出現(xiàn),如google,baidu等,用戶能通過搜索引擎檢索自己希望獲取的內(nèi)容;然而檢索結(jié)果的準確性極依賴于用戶對問題的描述,同時一般用戶的描述通常是不夠準確的,這會直接導(dǎo)致檢索結(jié)果出現(xiàn)偏差,用戶很難完全準確的找到自己所需的結(jié)果。3,最近則是推薦系統(tǒng)的產(chǎn)生,用戶不再需要主動搜索,而系統(tǒng)

3、會智能的通過用戶的屬性信息,用戶的歷史記錄,為用戶推薦用戶可能會需要的信息,如taobao、netflix等會智能的為用戶推薦商品、電影,這在用戶需求不夠明確時,能為用戶精簡信息。值得注意的是以上三個階段不是一個進化的過程,而是一個相互補充,互相協(xié)作的關(guān)系。
  由于推薦系統(tǒng)能很好的解決互聯(lián)網(wǎng)“信息過載”的問題,因此廣受用戶歡迎,也因此被越來越多的網(wǎng)站、公司使用,而與之相應(yīng)的推薦算法也越來越受到學(xué)術(shù)界的重視,成為一個重要的研究領(lǐng)域

4、。然而面對不同種類的數(shù)據(jù)與越來越復(fù)雜的應(yīng)用場景,推薦系統(tǒng)會面臨不同的問題,如冷啟動問題和可擴展性等常規(guī)問題;又如應(yīng)用場景的區(qū)別、數(shù)據(jù)分布的不一致會使得同樣的算法在不同場景、數(shù)據(jù)上得到的結(jié)果相差很遠;同時存在的是某些推薦算法問題的求解困難等新問題。針對以上推薦系統(tǒng)中存在的問題,本文深入研究推薦系統(tǒng),做了以下幾點研究工作:
  (1)基于非參數(shù)統(tǒng)計的相似度模型研究。
  協(xié)同過濾算法是推薦系統(tǒng)最基本也是最主流的算法,被成功的運用

5、于大量商業(yè)模型中,取得了很好的效果。該算法主要由兩步組成,其中相似度的計算是第一步也是最為關(guān)鍵的一步。然而1,不同應(yīng)用場景的數(shù)據(jù)會有各自的特點,具有明顯的差異性、分布明顯不同,使用同樣的相似度度量模型是不夠準確的;2,傳統(tǒng)的歐氏距離、皮爾遜相關(guān)度、余弦相似度等都有各自的局限性,已經(jīng)不能直接應(yīng)用于越來越復(fù)雜的場景;3,對于稀疏的數(shù)據(jù),算出的相似度置信概率極低,直接用于推薦會降低推薦精度?;谝陨显?,本文提出了一種基于非參數(shù)統(tǒng)計的相似度模

6、型,基于非參數(shù)統(tǒng)計的思想,該模型能將不同場景的數(shù)據(jù)映射到統(tǒng)一的空間,去除不同數(shù)據(jù)間的差異,將其統(tǒng)一到相同的標準。同時由于投影后的空間具有良好的線性性,相似度度量能很好的使用線性相似度方式計算,解決上述幾點問題,提高推薦精度。
  (2)基于時間回溯的特征預(yù)測模型研究。
  數(shù)據(jù)量的不足往往是各種機器學(xué)習(xí)模型面臨的最大問題之一,大量的研究表明,數(shù)據(jù)對于模型結(jié)果的重要性遠遠大于算法對于模型的重要性。在推薦系統(tǒng)中,用戶的歷史行為是

7、最主要的模型數(shù)據(jù)來源。傳統(tǒng)的推薦系統(tǒng)可以根據(jù)用戶的歷史行為預(yù)測他們的屬性(如愛好、年齡、性別等),也可以直接通過歷史行為找到類似的用戶進而進行推薦。然而一直以來的研究中,對用戶歷史行為的使用都是樸素、簡單的,并沒有注重歷史行為的時間維度。本文提出了一種基于時間回溯的特征預(yù)測模型,使歷史數(shù)據(jù)的利用率大大增大,從某種意義上數(shù)倍的豐富了數(shù)據(jù)量,提高預(yù)測精度。并且,本文在taobao的真實數(shù)據(jù)上使用該方法預(yù)測用戶孩子的年齡,結(jié)果表明預(yù)測精度大大

8、高于傳統(tǒng)方法。
  (3)基于演化博弈的全局優(yōu)化算法研究。
  大量的推薦算法問題,甚至數(shù)據(jù)挖掘問題,在模型的求解過程中,都會規(guī)約到求解全局優(yōu)化問題。因此求解全局優(yōu)化問題是推薦系統(tǒng)中的一個重點問題,也是難點問題。目前,常用的算法,如梯度下降法、隨機梯度下降法或者牛頓法,只適合求解凸函數(shù)最優(yōu)化(凸優(yōu)化)問題。而本文提出的基于演化博弈的全局優(yōu)化算法嘗試求解連續(xù)域上的全局優(yōu)化問題,剔除掉凸函數(shù)這一強限制條件。同時在求解的過程中,基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論