非監(jiān)督知識發(fā)現(xiàn)過程中若干關(guān)鍵問題研究.pdf_第1頁
已閱讀1頁,還剩109頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、近年來,以計算機和通信為代表的信息技術(shù)得到迅猛發(fā)展,各個行業(yè)產(chǎn)生并累積了大量數(shù)據(jù),迫切需要使用知識發(fā)現(xiàn)方法從中挖掘出有價值的新穎知識.目前的知識發(fā)現(xiàn)研究中,傳統(tǒng)的線性預處理技術(shù)如PCA、CMDS等方法不能有效的處理非線性、強相關(guān)的高維數(shù)據(jù),有較大的應用局限性;在數(shù)據(jù)挖掘過程中,基于密度的聚類方法往往存在著全局密度閾值的限制,對輸入?yún)?shù)較為敏感等缺陷.本文針對當前研究中存在的問題,分別研究并提出了相應的解決方法,最后研究了這些方法在高維文

2、本處理中的應用. 針對數(shù)據(jù)預處理問題,本文提出了一種新的流形學習方法--可預知增量式嵌入PrePIE算法.該方法將全局優(yōu)化方法和局域自組織原理相結(jié)合,在局域優(yōu)化嵌入的基礎上逼近全局優(yōu)化的流形重構(gòu)質(zhì)量,從錨點集選擇方法、錨點集嵌入方式、全局點集嵌入方式三個方面提高了低維嵌入流形的重構(gòu)質(zhì)量,提高了流形低維嵌入的穩(wěn)定性和可用性. 在數(shù)據(jù)挖掘階段,本文針對當前基于密度的聚類知識發(fā)現(xiàn)方法存在的全局密度閾值限制,提出了基于局域密度分

3、布自適應調(diào)整鄰域半徑的算法CABDET. 該算法首先確立了簇內(nèi)對象之間的鄰接關(guān)系,通過考察父節(jié)點的局域密度狀況動態(tài)調(diào)整當前節(jié)點的鄰域半徑,反復尋找各自的子節(jié)點,直到不能找到新的子節(jié)點時停止.CABDET 算法不受全局密度閾值的限制,能夠發(fā)現(xiàn)任意形狀的簇,對參數(shù)的敏感性弱,能有效處理噪音數(shù)據(jù). 然而,CABDET算法存在執(zhí)行時間長和小參數(shù)設置下的簇分裂現(xiàn)象.對此,本文又提出了一種基于局域計算的層次化密度樹聚類方法LOCHD

4、ET.該算法通過預先指定局域計算系數(shù)將對象之間的相似性計算從全局轉(zhuǎn)換到局域,大幅度提高了算法的執(zhí)行效率,并對稀疏的相似矩陣實現(xiàn)了基于行的壓縮.實驗結(jié)果表明,在二維正態(tài)分布的測試集上,LOCHDET'算法對CABDET算法的時間加速比在6~8之間.此外,LOCHDET算法采用層次化的聚類方法,將滿足一定條件的簇合并,顯著提高了聚類質(zhì)量,解決了CABDET算法中存在的簇分裂現(xiàn)象. 本文討論了LOCHDET算法的模式發(fā)現(xiàn)能力及模式評估

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論