基于復(fù)雜網(wǎng)絡(luò)的數(shù)據(jù)挖掘分類問題研究與應(yīng)用.pdf_第1頁
已閱讀1頁,還剩61頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著信息技術(shù)的快速發(fā)展,特別是計算機(jī)技術(shù)的不斷普及,“數(shù)據(jù)豐富而信息貧乏”這一矛盾顯得日益突出,數(shù)據(jù)挖掘技術(shù)正是迎合了這一需求,同時結(jié)合數(shù)理統(tǒng)計、人工智能、神經(jīng)網(wǎng)絡(luò)和信息技術(shù)等學(xué)科出現(xiàn)的一項(xiàng)新技術(shù),并得到了迅速發(fā)展。數(shù)據(jù)挖掘的主要目的是從數(shù)據(jù)集中發(fā)現(xiàn)隱含的、事先未知的和用戶感興趣的知識。作為一種有效的數(shù)據(jù)分析技術(shù),近年來分類(Classification)已成為數(shù)據(jù)挖掘領(lǐng)域中的一項(xiàng)重要研究內(nèi)容,并廣泛應(yīng)用于商業(yè)、電子商務(wù)、基因工程和醫(yī)學(xué)

2、等諸多領(lǐng)域。
   復(fù)雜網(wǎng)絡(luò)作為一門新興學(xué)科,在不同的領(lǐng)域(如生態(tài)、人口、經(jīng)濟(jì)、社會、地理、軍事、醫(yī)學(xué))中有著很強(qiáng)的應(yīng)用背景,倍受廣大學(xué)者的青睞和關(guān)注,已成為一個充滿生命力的交叉研究領(lǐng)域。一切事物都是相互作用的表現(xiàn),大多可以通過復(fù)雜網(wǎng)絡(luò)來表現(xiàn),如物理學(xué)研究物體間最基本的相互作用;化學(xué)研究分子間的相互作用;生物學(xué)研究基因、蛋白質(zhì)以及生物體之間的相互作用;社會科學(xué)研究人和各種人類組之間的相互作用;分類問題研究數(shù)據(jù)點(diǎn)之間的相互作用。因

3、此,事物作為系統(tǒng),其結(jié)構(gòu)可以抽象為網(wǎng)絡(luò),各類作用體抽象為網(wǎng)絡(luò)節(jié)點(diǎn),各種相互作用抽象為節(jié)點(diǎn)之間的連接線或邊?;谶@種思想,本文將數(shù)據(jù)集按照某種度量抽象成為復(fù)雜網(wǎng)絡(luò),結(jié)合復(fù)雜網(wǎng)絡(luò)的理論、成果和已有的某些分類、聚類方法對數(shù)據(jù)挖掘分類問題進(jìn)行了相關(guān)研究,提高了對大型數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分類的能力,具有一定的研究價值。
   復(fù)雜網(wǎng)絡(luò)的社團(tuán)探測與數(shù)據(jù)挖掘中分類、聚類問題在本質(zhì)上是一樣的,因而社團(tuán)探測的研究和分類問題的研究在某種角度上是一脈相

4、承的。
   本文在復(fù)雜網(wǎng)絡(luò)的基礎(chǔ)上,對分類問題做了以下三個方面的工作:
   提出了一種基于K-means聚類算法的復(fù)雜網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)劃分方法,豐富和發(fā)展了復(fù)雜網(wǎng)絡(luò)社團(tuán)探測理論和方法。算法基于Fortunato等人提出的邊的信息中心度,定義了節(jié)點(diǎn)的關(guān)聯(lián)度,并通過節(jié)點(diǎn)關(guān)聯(lián)度矩陣來進(jìn)行聚類中心的選擇和節(jié)點(diǎn)聚類,從而將復(fù)雜網(wǎng)絡(luò)劃分成K個社團(tuán),然后通過模塊度來確定網(wǎng)絡(luò)理想的社團(tuán)結(jié)構(gòu)。該算法時間復(fù)雜度為線性的,適合大型網(wǎng)絡(luò)的社團(tuán)發(fā)

5、現(xiàn)。通過Zachary Karate Club和CollegePootball Network兩個經(jīng)典模型驗(yàn)證了該算法的可行性。
   遺傳算法作為一個成熟的理論,在分類方面有著很大優(yōu)勢,結(jié)合復(fù)雜網(wǎng)絡(luò)的部分新理論和遺傳算法的思想,提出了一種新的分類方法。該方法將數(shù)據(jù)集按給定的相似度公式構(gòu)造出具有社團(tuán)結(jié)構(gòu)的網(wǎng)絡(luò),在此網(wǎng)絡(luò)的基礎(chǔ)上用遺傳算法的思想進(jìn)行分類。算法引進(jìn)社團(tuán)模塊度作為適應(yīng)度函數(shù),并且提出了節(jié)點(diǎn)歸類錯誤率(NCM)對每次迭代

6、產(chǎn)生的解進(jìn)行糾錯,提高了分類質(zhì)量和速度。實(shí)驗(yàn)證明該方法在分類精度和分類速度方面都非常理想,并可實(shí)現(xiàn)并行性,將遺傳算法的優(yōu)點(diǎn)發(fā)揮到極致。
   醫(yī)學(xué)圖像分類對實(shí)現(xiàn)智能化診斷系統(tǒng)有著重要的實(shí)際意義,是典型的分類挖掘問題之一,同時也是一個熱點(diǎn)的應(yīng)用研究課題。為了建立高效的腫瘤自動診斷系統(tǒng),克服因醫(yī)學(xué)MIR圖像的復(fù)雜性帶來的直接從圖像中看出腫瘤及良、惡性質(zhì)的困難,結(jié)合復(fù)雜網(wǎng)絡(luò)的部分理論成果和K-means聚類算法的思想,提出了基于加權(quán)復(fù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論