高維稀疏離群數(shù)據(jù)集延伸知識發(fā)現(xiàn)研究.pdf_第1頁
已閱讀1頁,還剩121頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)是當(dāng)今信息社會最寶貴的一種資源,發(fā)現(xiàn)隱藏在那些復(fù)雜數(shù)據(jù)集中的有用知識并利用這些知識已經(jīng)成為科學(xué)決策的前提。數(shù)據(jù)挖掘就是運(yùn)用基于計(jì)算機(jī)的智能技術(shù)從大量甚至海量數(shù)據(jù)集中獲取知識的過程,它通過關(guān)聯(lián)規(guī)則、分類與聚類等方法實(shí)現(xiàn)從數(shù)據(jù)集中挖掘出潛在的有用知識。 離群數(shù)據(jù)是那些與眾不同的遠(yuǎn)離常規(guī)數(shù)據(jù)對象的數(shù)據(jù),它們表現(xiàn)為與多數(shù)常規(guī)對象有明顯差異,以至于被懷疑可能是由另外一種完全不同的機(jī)制產(chǎn)生的。離群數(shù)據(jù)不等同于錯誤數(shù)據(jù),有的離群數(shù)據(jù)中可能

2、蘊(yùn)含著極重要的信息,如在信用卡欺詐檢測、疾病診斷、網(wǎng)絡(luò)入侵檢測、通信欺詐分析、故障檢測、災(zāi)害預(yù)測等諸多領(lǐng)域中離群點(diǎn)是數(shù)據(jù)分析的主要對象,在所有的科學(xué)研究領(lǐng)域,離群數(shù)據(jù)可能給予我們新的視角,從而導(dǎo)致新理論或新應(yīng)用的出現(xiàn),因此,對離群數(shù)據(jù)進(jìn)行研究具有十分重要的意義。已有離群數(shù)據(jù)研究主要集中于離群數(shù)據(jù)挖掘,而且其挖掘的目的也僅僅是為了通過去除被發(fā)現(xiàn)的離群對象獲得更好質(zhì)量的數(shù)據(jù)集,力圖為常規(guī)數(shù)據(jù)挖掘與分析提供更穩(wěn)定可靠的結(jié)果,較少涉及對已發(fā)現(xiàn)的

3、離群數(shù)據(jù)的進(jìn)一步分析。 本文認(rèn)為對離群數(shù)據(jù)的研究包括離群挖掘與離群分析兩個方面。論文的主要貢獻(xiàn)是:以現(xiàn)有的離群挖掘算法為基礎(chǔ),重點(diǎn)對高維稀疏離群數(shù)據(jù)集的分類、產(chǎn)生來源、含義、特征以及離群趨勢等進(jìn)行分析,結(jié)合粗糙集(Rough Set)理論定義了離群數(shù)據(jù)關(guān)鍵域子空間(Key Attribute Subspace,KAs)等一系列概念,提出了相應(yīng)的離群約簡及關(guān)鍵域子空間搜索算法、離群聚類算法、缺失值處理及離群趨勢分析方法等,建立了高

4、維稀疏離群數(shù)據(jù)集特征描述及延伸知識發(fā)現(xiàn)的整體框架。作為一項(xiàng)具有創(chuàng)新性意義的工作,論文在研究方法與思路上力求有所突破,其主要研究成果包括如下幾個方面。 ①對離群挖掘技術(shù)進(jìn)行了較為全面的分析與總結(jié),設(shè)計(jì)了一種基于k-最近鄰的離群檢測算法,介紹了基于分區(qū)的離群挖掘算法,詳細(xì)分析與設(shè)計(jì)了基于似然的一元離群檢測算法以及多元回歸分析離群檢測法等多種基于統(tǒng)計(jì)的離群檢測方法,并從離群挖掘的角度探討了聚類算法中對離群對象的處理技術(shù),分析了不平衡分

5、類及非頻繁模式關(guān)聯(lián)規(guī)則挖掘與離群檢測的相似性。 ②結(jié)合粗糙集理論以離群劃分的觀點(diǎn)去揭示離群對象子空間特性,提出了離群劃分相似度、離群約簡等概念,其目的是尋找一個范圍較小的屬性子集,從這個子集中去探索離群數(shù)據(jù)集的出現(xiàn)原因和概率。提出的基于遺傳算法(Genetic Algorithm)的離群約簡技術(shù)可以較好地解決離群約簡搜索問題。 ③對提出的離群對象關(guān)鍵域子空間KAS的意義、作用及搜索方法進(jìn)行了深入地研究?;贙AS將缺失值

6、、普通離群點(diǎn)與噪聲統(tǒng)一為離群對象,認(rèn)為具有非空KAS的離群點(diǎn)均蘊(yùn)含了一定的知識,是普通離群點(diǎn),而不存在對應(yīng)KAS的離群點(diǎn)是噪聲。提出了離群包絡(luò)與離群核、屬性值離群狀態(tài)矩陣等概念及相應(yīng)的一系列KAS搜索算法,包括基于統(tǒng)計(jì)的、基于顯著域子空間的單個離群對象KAS搜索算法,以及基于離群核、基于離群屬性頻度、基于統(tǒng)計(jì)的離群集KAS搜索算法,并對算法性能進(jìn)行了分析與測試。 ④根據(jù)離群共享屬性定義了離群簇,提出了簇數(shù)量、簇對象數(shù)以及相似度等

7、離群聚類三原則,并在此原則基礎(chǔ)上提出了基于KAS和基于離群鄰接圖的離群聚類算法,對算法的分類能力與性能進(jìn)行了測試與比較。在離群簇分析方面,提出了離群數(shù)據(jù)的內(nèi)、外及單關(guān)鍵域子空間分析方法以及基于離群K-最近鄰的離群分析技術(shù),并可從離群最近鄰與離群簇的相互關(guān)系中獲取知識。 ⑤含缺失值的對象作為一種特殊離群對象進(jìn)行研究,提出了一種基于灰預(yù)測模型GM(1,1)的序列缺失數(shù)據(jù)灰插值推理方法,該算法在估計(jì)每一個缺失值時均會充分利用其時區(qū)窗口

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論