統(tǒng)計(jì)關(guān)系學(xué)習(xí)若干問(wèn)題研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩42頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)關(guān)系學(xué)習(xí)是人工智能領(lǐng)域的一個(gè)新研究熱點(diǎn),其目的是在多關(guān)系的數(shù)據(jù)集中挖掘出數(shù)據(jù)中的統(tǒng)計(jì)關(guān)系模型。統(tǒng)計(jì)關(guān)系學(xué)習(xí)是集關(guān)系、邏輯表示,似然推理機(jī)制,機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘于一體。現(xiàn)有的統(tǒng)計(jì)關(guān)系學(xué)習(xí),大多數(shù)似然關(guān)系模型下的研究都是基于完備數(shù)據(jù)條件下進(jìn)行的,而現(xiàn)實(shí)問(wèn)題中,數(shù)據(jù)通常是不完備的。同時(shí)也由于不完備的關(guān)系數(shù)據(jù)問(wèn)題非常復(fù)雜,因此傳統(tǒng)的機(jī)器學(xué)習(xí)領(lǐng)域中處理不完備數(shù)據(jù)的學(xué)習(xí)的方法,也很難直接應(yīng)用到統(tǒng)計(jì)關(guān)系學(xué)習(xí)中。因此解決從不完備數(shù)據(jù)中學(xué)習(xí)統(tǒng)計(jì)關(guān)系模

2、型的問(wèn)題是非常必要的。 在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中,數(shù)據(jù)通常以“屬性一值”的方式存在,即表示為單表形式。但在現(xiàn)實(shí)世界中,許多數(shù)據(jù)都存在著內(nèi)部關(guān)系,即表示為多表形式的關(guān)系數(shù)據(jù)。因此,該問(wèn)題不滿(mǎn)足傳統(tǒng)機(jī)器學(xué)習(xí)中普遍要求的獨(dú)立同分布假設(shè)。在此類(lèi)數(shù)據(jù)的樣本之間或者樣本的屬性之間,往往存在著內(nèi)在的關(guān)系或結(jié)構(gòu)。由于關(guān)系數(shù)據(jù)的表示形式與“屬性一值”的形式截然不同,傳統(tǒng)的基于“屬性一值”表示的機(jī)器學(xué)習(xí)技術(shù)難以用于解決這類(lèi)問(wèn)題。于是,統(tǒng)計(jì)關(guān)系學(xué)習(xí)這一

3、研究領(lǐng)域應(yīng)運(yùn)而生,并且受到了越來(lái)越多研究者的重視。 似然關(guān)系模型(Probabilistic Relational Models,PRM)是一類(lèi)基于貝葉斯網(wǎng)(Bayesian)的統(tǒng)計(jì)關(guān)系學(xué)習(xí)方法,它是標(biāo)準(zhǔn)貝葉斯網(wǎng)模型的擴(kuò)展,PRM使用表示實(shí)體間關(guān)系的實(shí)體關(guān)系模型(Entity Relationship Model,ER)作為基本的表示框架,將PRM看成是描述關(guān)系型數(shù)據(jù)庫(kù)上概率分布的模板[9]。模型的結(jié)構(gòu)描述關(guān)系模式及屬性間的依賴(lài)

4、,模板的參數(shù)定義對(duì)象屬性依賴(lài)關(guān)系的概率分布。于是,該模型除了能使用概率進(jìn)行表示和不確定推理外,還可以處理關(guān)系數(shù)據(jù),具有更強(qiáng)的表達(dá)能力,可以用來(lái)在復(fù)雜的系統(tǒng)上建模,這對(duì)智能信息系統(tǒng)的開(kāi)發(fā)研究有著特別重要的意義。 GDT(Generalization Distribution table)的方法,描述了屬性值的所有組合可能情況,對(duì)實(shí)例的所有泛式的可能概括,以及實(shí)例與其泛式間的概率分布。同時(shí)GDT方法,通過(guò)概括強(qiáng)度、規(guī)則置信度和規(guī)則

5、強(qiáng)度,充分考慮到數(shù)據(jù)的不完整性,并可以把背景知識(shí),背景知識(shí)的先驗(yàn)概率自然得用于學(xué)習(xí)過(guò)程。目前,GDT的思想在處理不完備數(shù)據(jù)的完備化問(wèn)題中,缺省數(shù)據(jù)規(guī)則發(fā)現(xiàn),應(yīng)用背景知識(shí)對(duì)已有不完備數(shù)據(jù)進(jìn)行優(yōu)化學(xué)習(xí)一階規(guī)則等方面已經(jīng)有了廣泛的應(yīng)用。所以GDT的方法能夠很高的解決不完備數(shù)據(jù)完備化的問(wèn)題。 現(xiàn)有的關(guān)系學(xué)習(xí)研究大多是基于完備數(shù)據(jù)進(jìn)行的,而現(xiàn)實(shí)問(wèn)題中,數(shù)據(jù)通常是不完備的。在傳統(tǒng)的機(jī)器學(xué)習(xí)領(lǐng)域中,從不完備數(shù)據(jù)中學(xué)習(xí)的問(wèn)題已經(jīng)得到了研究,但不

6、完備的關(guān)系數(shù)據(jù)問(wèn)題非常復(fù)雜,因此,幾乎沒(méi)有任何一項(xiàng)技術(shù)可以直接被擴(kuò)展到關(guān)系學(xué)習(xí)領(lǐng)域。傳統(tǒng)的機(jī)器學(xué)習(xí)算法可以被看成是數(shù)據(jù)集中僅有的一個(gè)表,并且不存在關(guān)系的學(xué)習(xí)算法。例如,Bayesian網(wǎng)絡(luò)可以看成是僅包含一個(gè)屬性類(lèi),并且不存在關(guān)系的PRM。因此,PRM結(jié)構(gòu)學(xué)習(xí)的復(fù)雜度至少相當(dāng)于Bayesian網(wǎng)絡(luò)學(xué)習(xí)的復(fù)雜度。由于具有多個(gè)局部極值,如果將傳統(tǒng)的機(jī)器學(xué)習(xí)中處理不完備數(shù)據(jù)問(wèn)題的算法直接擴(kuò)展到關(guān)系學(xué)習(xí)中,學(xué)習(xí)的復(fù)雜度將會(huì)明顯提高,并且會(huì)得到較

7、差的結(jié)果。因此,從不完備的關(guān)系數(shù)據(jù)中學(xué)習(xí)是關(guān)系學(xué)習(xí)領(lǐng)域中一個(gè)重要的、有待解決的問(wèn)題。 在此基礎(chǔ)上本文主要完成了以下工作:本文提出了一種基于GDT的從不完備關(guān)系數(shù)據(jù)中學(xué)習(xí)似然關(guān)系模型probabilistic relational models,簡(jiǎn)稱(chēng)PRMs)的方法。該方法首先使用GDT技術(shù)來(lái)對(duì)缺失數(shù)據(jù)進(jìn)行預(yù)處理,填充不完備關(guān)系數(shù)據(jù)得到完備關(guān)系數(shù)據(jù);然后從通過(guò)GDT填充的數(shù)據(jù)樣本中,采用啟發(fā)式搜索方法學(xué)習(xí)得到似然關(guān)系模型并作為初始

8、PRM網(wǎng)絡(luò),并利用學(xué)習(xí)過(guò)程中前一步得到的網(wǎng)絡(luò)結(jié)構(gòu)中的規(guī)則強(qiáng)度形式的一節(jié)規(guī)則對(duì)數(shù)據(jù)集進(jìn)行重優(yōu)化:直到學(xué)習(xí)得出概率關(guān)系模型。 本文分別在一個(gè)模擬問(wèn)題和一個(gè)真實(shí)問(wèn)題域上進(jìn)行了實(shí)驗(yàn)討論。在模擬的School問(wèn)題域上,生成具有5000個(gè)數(shù)據(jù)樣本的4個(gè)數(shù)據(jù)集。分別在具有10%,20%,30%,40%的丟失數(shù)據(jù)這4個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試。在真實(shí)的movie域問(wèn)題上,我們?cè)跀?shù)據(jù)庫(kù)中選出了一個(gè)含有5000個(gè)movle、3000個(gè)actor和1500個(gè)

9、director的子集。 由于現(xiàn)存的放法中幾乎沒(méi)有從不完備數(shù)據(jù)中學(xué)習(xí)PRMs的方法,因此,實(shí)驗(yàn)中用于比較的方法是先隨機(jī)填充不完備數(shù)據(jù),然后開(kāi)始學(xué)習(xí)得到PRMs的方法?;贕DT的方法填充不完備關(guān)系數(shù)據(jù)并得到完備的關(guān)系數(shù)據(jù),然后,算法通過(guò)將進(jìn)化過(guò)程中最好的網(wǎng)絡(luò)結(jié)構(gòu)嵌入到不完備數(shù)據(jù)集中,有效地修復(fù)噪聲數(shù)據(jù)。隨著迭代的進(jìn)行,修正的數(shù)據(jù)越來(lái)越好,數(shù)據(jù)趨于穩(wěn)定并最終收斂。通過(guò)實(shí)驗(yàn)我們發(fā)現(xiàn)基于GDT的這種學(xué)習(xí)似然關(guān)系模型的方法,能夠很有效的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論