數(shù)據(jù)挖掘中分類分析的策略研究及其生物醫(yī)學(xué)應(yīng)用.pdf_第1頁(yè)
已閱讀1頁(yè),還剩190頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、背景:數(shù)據(jù)挖掘是綜合利用了統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)和人工智能技術(shù),從海量數(shù)據(jù)中提取知識(shí)和信息的一門技術(shù)。據(jù)報(bào)導(dǎo),在我國(guó)生物醫(yī)學(xué)中僅有不足10%的數(shù)據(jù)用來(lái)分析。與此同時(shí),在生物醫(yī)學(xué)數(shù)據(jù)資源中數(shù)據(jù)挖掘方法學(xué)研究是相對(duì)匱乏和滯后的。當(dāng)前,數(shù)據(jù)挖掘已成為一個(gè)具有迫切現(xiàn)實(shí)需要且很有前途的熱點(diǎn)研究領(lǐng)域。隨著生物醫(yī)學(xué)數(shù)據(jù)量的急劇增漲及其數(shù)據(jù)的特殊性,需要加大數(shù)據(jù)挖掘的方法學(xué)研究。 在生物醫(yī)學(xué)領(lǐng)域,分類方法應(yīng)用非常廣泛,可應(yīng)用于影像學(xué)的圖像分類處理;病理

2、、檢驗(yàn)、腫瘤等學(xué)科進(jìn)行輔助診斷和識(shí)別;基因芯片、蛋白質(zhì)芯片等微陣列數(shù)據(jù)分子生物學(xué)技術(shù)診斷;中醫(yī)癥侯特征分類;人壽保險(xiǎn);預(yù)測(cè)和自動(dòng)控制等方面。因此,如何利用分類分析從大量數(shù)據(jù)中智能地、自動(dòng)地提取出有價(jià)值的知識(shí)和信息的研究,具有十分重要的現(xiàn)實(shí)意義和廣泛的應(yīng)用前景。 目的:應(yīng)用MonteCarlo方法比較數(shù)據(jù)挖掘中分類分析的八種方法,探討不同分類方法的特點(diǎn)及在特定數(shù)據(jù)條件下的優(yōu)勢(shì)與不足,據(jù)此提出數(shù)據(jù)挖掘中分類分析的策略,為數(shù)據(jù)挖掘的實(shí)

3、際應(yīng)用提供依據(jù)。 方法:選擇八種分類方法,即判別分析中的線性判別(LinnerDiscriminantAnalysis,LDA)、二次判別(QuadraticDiscriminantAnalysis,QDA)、K-最近鄰法(K-NearestNeighbors,KNN);logistic回歸;決策樹(shù)中的CHAID(Chi-squareAutomaticInteractionDetector,CHAID)、C4.5、CART(Cl

4、assificationandRegressionTrees,CART)及BP神經(jīng)網(wǎng)絡(luò)(BackPropagationNeuralNet-Work,BPNN)。采用MonteCarlo模擬研究對(duì)前述八種方法進(jìn)行比較。所有模擬數(shù)據(jù)的目標(biāo)變量設(shè)置為二分類,預(yù)測(cè)變量數(shù)目設(shè)置為3??紤]7個(gè)可能影響分類結(jié)果的因素,依次為: ①預(yù)測(cè)變量的分布類型;②樣本量大?。虎劢M間協(xié)方差的比率;④組間樣本量的比例;⑤兩組間的效應(yīng)量大??;⑥變量間的多重共線

5、性;⑦先驗(yàn)概率。預(yù)測(cè)變量的分布類型考慮4種情況,即①多元正態(tài)分布;⑦多元偏態(tài)分布(本研究設(shè)置總體偏度系數(shù)γ1=2.0、峰度系數(shù)為γ2=7.0);③混合型分布,即X1為正態(tài)分布變量,X2為偏態(tài)分布(總體偏度系數(shù)γ1=2.0、峰度系數(shù)γ2=7.0),X3為二分類計(jì)數(shù)屬性變量;④所有預(yù)測(cè)變量均為二分類計(jì)數(shù)屬性變量。本研究中兩組樣本量之和分別設(shè)置為60、100和400。組間樣本量比例設(shè)置為50:50、25:75與10:90。組間協(xié)方差比率設(shè)置為

6、1:1、1:4及1:8。組間效應(yīng)量大小設(shè)置為0.2、0.5及0.8。在模擬中對(duì)三個(gè)預(yù)測(cè)變量總體間的相關(guān)系數(shù)p設(shè)置為0.3。對(duì)于多重共線性的探討,設(shè)置X1與X2總體間的相關(guān)系數(shù)p別為0.6、0.9,與X3的相關(guān)關(guān)系不變。初步模擬時(shí)先驗(yàn)概率均設(shè)置為先驗(yàn)概率與樣本量比例相等,而后設(shè)置組間先驗(yàn)概率相等(0.5:0.5)以及先驗(yàn)概率為0.25:0.75作為對(duì)比。方法間性能評(píng)估所用指標(biāo)為總的錯(cuò)判率、靈敏度、特異度及ROC曲線下面積。對(duì)各種條件下數(shù)據(jù)

7、模式進(jìn)行2次隨機(jī)抽樣,一個(gè)樣本作為訓(xùn)練集構(gòu)造模型,另一個(gè)作為測(cè)試集驗(yàn)證模型。而后重復(fù)上述操作1000次,計(jì)算測(cè)試集數(shù)據(jù)錯(cuò)判率、ROC曲線下的面積、靈敏度及特異度的均值用以評(píng)價(jià)模型性能。 結(jié)果: 1.不同數(shù)據(jù)分布類型 ①多元正態(tài)分布,組間協(xié)方差相等時(shí),LDA最優(yōu),其次為logistic回歸,決策樹(shù)法較差。相對(duì)而言,參數(shù)方法較之非參數(shù)方法要優(yōu)。當(dāng)數(shù)據(jù)為正態(tài)分布,組間協(xié)方差不等時(shí),QDA最優(yōu),次之為非參數(shù)法,LDA與l

8、ogistic回歸較差。 ②多元偏態(tài)分布,組間協(xié)方差相等時(shí),決策樹(shù)及BP神經(jīng)網(wǎng)絡(luò)較優(yōu),LDA、QDA、logistic較差。偏態(tài)分布,組間協(xié)方差不等條件下,決策樹(shù)法、KNN及QDA較優(yōu),LDA與logistic回歸較差。 ③混合分布,組間協(xié)方差相等時(shí),決策樹(shù)及l(fā)ogistic回歸較優(yōu),三種判別分析較差。組間協(xié)方差不等條件下,決策樹(shù)法較優(yōu),LDA與logistic回歸較差。 ④當(dāng)數(shù)據(jù)為分類分布時(shí),決策樹(shù)與logis

9、tic回歸較優(yōu),三種判別分析及BP神經(jīng)網(wǎng)絡(luò)較差。 2.協(xié)方差對(duì)分類的影響組間協(xié)方差不等,對(duì)于參數(shù)方法影響較大,尤其是QOA及l(fā)ogistic分析。較大協(xié)方差組錯(cuò)判率大,較小協(xié)方差組錯(cuò)判率小,而且協(xié)方差比例越不均衡,這一趨勢(shì)愈為明顯。以正態(tài)分布為例,當(dāng)協(xié)方差為1:4時(shí),兩組錯(cuò)判率比值為1.14~2.30;在協(xié)方差為1:8時(shí),兩組錯(cuò)判率比值為1.10~3.80,KNN、BPNeural表現(xiàn)更為明顯。 3.樣本量及樣本量比例對(duì)

10、分類的影響當(dāng)諸如數(shù)據(jù)分布類型、效應(yīng)量、協(xié)方差不變時(shí),隨著樣本量的增大,錯(cuò)判率減少,同時(shí)ROC曲線下面積增大。以正態(tài)分布協(xié)方差相等條件為例,樣本量增大,錯(cuò)判率減小2%~11%,最為敏感的方法為BP神經(jīng)網(wǎng)絡(luò),最不敏感的方法為KNN。樣本量對(duì)分類效果的影響不如協(xié)方差影響大。 樣本量比例的不均衡對(duì)錯(cuò)判率的影響較大,以先驗(yàn)概率相等,正態(tài)分布、協(xié)方差相等條件下模擬結(jié)果為例,樣本量大組(larger)錯(cuò)判率低,樣本量小組(sinailer)錯(cuò)

11、判率大。如樣本量比例10:90條件,larger組下降了10%~98%,smaller組增大了17%~83%。下降的幅度高于增大的幅度,即使總的錯(cuò)判率減小,是以犧牲靈敏度為代價(jià)。 4.效應(yīng)量對(duì)分類的影響當(dāng)數(shù)據(jù)分布類型、組間協(xié)方差,樣本量一定的條件下,效應(yīng)量越大,錯(cuò)判率減少,同時(shí)ROC曲線下面積增大。以正態(tài)分布,等協(xié)方差,等樣本量條件的模擬結(jié)果為例,各方法都有不同程度的改變,當(dāng)效應(yīng)量由0.2增大為0.8時(shí),錯(cuò)判率減小了30%~55

12、%。LDA及l(fā)ogistic回歸尤為明顯。效應(yīng)量對(duì)錯(cuò)判率的影響較大。 5.共線性的影響隨著共線性程度的增強(qiáng),錯(cuò)判率增大,ROC曲線下面積減小。相關(guān)系數(shù)由0.6增至為0.9時(shí),錯(cuò)判率增加幅度并不大。以正態(tài)分布、等樣本量比例及協(xié)方差比率為1:4條件為例,當(dāng)相關(guān)系數(shù)由0.3增至0.9時(shí),錯(cuò)判率增大了1.36%~9.44%。出現(xiàn)這樣的結(jié)果,估計(jì)在條件設(shè)置時(shí)僅設(shè)置了X2、X3有較強(qiáng)相關(guān)性有關(guān)。 6.先驗(yàn)概率的影響先驗(yàn)概率對(duì)錯(cuò)判率的

13、影響很大,以正態(tài)分布為例,當(dāng)樣本量比例相等,先驗(yàn)概率為1:3,較大概率組錯(cuò)判率顯著減小,降低為先驗(yàn)概率1:1條件的1.48~8.57倍。而較小概率組錯(cuò)判率增大,與先驗(yàn)概率1:1條件相比,增大為1.35~2.94倍。當(dāng)先驗(yàn)概率設(shè)置為與樣本量比例相等時(shí),較之先驗(yàn)概率不等但樣本量比例相等條件,又加劇了前述趨勢(shì)。此條件下,較大概率組錯(cuò)判率降低為2.15~8.90倍,較小概率組錯(cuò)判率增大為1.59~2.95倍。顯著降低了靈敏度。 7.實(shí)證

14、分析依模擬結(jié)果為理論指導(dǎo),我們將分類方法應(yīng)用于三個(gè)實(shí)際醫(yī)學(xué)資料。其一,對(duì)心肌梗塞數(shù)據(jù)建立了二次判別分類模型。其二,聯(lián)合應(yīng)用logistic回歸與BP神經(jīng)網(wǎng)絡(luò)對(duì)脂肪肝數(shù)據(jù)構(gòu)建了分類模型。最后,又將CART法應(yīng)用于糖尿病數(shù)據(jù)探索其影響因素并建立了分類模型。結(jié)果表明,各模型與數(shù)據(jù)吻合較好,可應(yīng)用于醫(yī)學(xué)實(shí)際。 結(jié)論:在所研究的八種分類方法中,每種方法或多種方法的組合均在特定數(shù)據(jù)條件下體現(xiàn)出各自優(yōu)勢(shì),因此可依據(jù)本研究的結(jié)果制定分析策略。首

15、先,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,即數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。第二,進(jìn)行分類分析時(shí)關(guān)注數(shù)據(jù)的分布類型及其協(xié)方差的情況,而后進(jìn)行方法的選擇。當(dāng)數(shù)據(jù)為多元正態(tài)分布,組間協(xié)方差相等時(shí),可選擇LDA及l(fā)ogistic回歸。組間協(xié)方差不等時(shí),可選擇QDA。偏態(tài)分布,組間協(xié)方差相等時(shí),可選擇決策樹(shù)及BP神經(jīng)網(wǎng)絡(luò)。組間協(xié)方差不等時(shí),可選擇決策樹(shù)法、KNN和QDA。當(dāng)數(shù)據(jù)為混合分布,組間協(xié)方差相等時(shí),決策樹(shù)及l(fā)ogistic較優(yōu),組間協(xié)方差不等時(shí),決

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論