數(shù)據(jù)挖掘中分類分析的策略研究及其生物醫(yī)學(xué)應(yīng)用.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-13 格式：pdf 頁(yè)數(shù)：191 大?。?.28MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

數(shù)據(jù)挖掘中分類分析的策略研究及其生物醫(yī)學(xué)應(yīng)用.pdf_第1頁(yè)

已閱讀1頁(yè)，還剩190頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、背景：數(shù)據(jù)挖掘是綜合利用了統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)和人工智能技術(shù)，從海量數(shù)據(jù)中提取知識(shí)和信息的一門技術(shù)。據(jù)報(bào)導(dǎo)，在我國(guó)生物醫(yī)學(xué)中僅有不足10％的數(shù)據(jù)用來分析。與此同時(shí)，在生物醫(yī)學(xué)數(shù)據(jù)資源中數(shù)據(jù)挖掘方法學(xué)研究是相對(duì)匱乏和滯后的。當(dāng)前，數(shù)據(jù)挖掘已成為一個(gè)具有迫切現(xiàn)實(shí)需要且很有前途的熱點(diǎn)研究領(lǐng)域。隨著生物醫(yī)學(xué)數(shù)據(jù)量的急劇增漲及其數(shù)據(jù)的特殊性，需要加大數(shù)據(jù)挖掘的方法學(xué)研究。在生物醫(yī)學(xué)領(lǐng)域，分類方法應(yīng)用非常廣泛，可應(yīng)用于影像學(xué)的圖像分類處理；病理

2、、檢驗(yàn)、腫瘤等學(xué)科進(jìn)行輔助診斷和識(shí)別；基因芯片、蛋白質(zhì)芯片等微陣列數(shù)據(jù)分子生物學(xué)技術(shù)診斷；中醫(yī)癥侯特征分類；人壽保險(xiǎn)；預(yù)測(cè)和自動(dòng)控制等方面。因此，如何利用分類分析從大量數(shù)據(jù)中智能地、自動(dòng)地提取出有價(jià)值的知識(shí)和信息的研究，具有十分重要的現(xiàn)實(shí)意義和廣泛的應(yīng)用前景。目的：應(yīng)用MonteCarlo方法比較數(shù)據(jù)挖掘中分類分析的八種方法，探討不同分類方法的特點(diǎn)及在特定數(shù)據(jù)條件下的優(yōu)勢(shì)與不足，據(jù)此提出數(shù)據(jù)挖掘中分類分析的策略，為數(shù)據(jù)挖掘的實(shí)

3、際應(yīng)用提供依據(jù)。方法：選擇八種分類方法，即判別分析中的線性判別(LinnerDiscriminantAnalysis，LDA)、二次判別(QuadraticDiscriminantAnalysis，QDA)、K-最近鄰法(K-NearestNeighbors，KNN)；logistic回歸；決策樹中的CHAID(Chi-squareAutomaticInteractionDetector，CHAID)、C4.5、CART(Cl

4、assificationandRegressionTrees，CART)及BP神經(jīng)網(wǎng)絡(luò)(BackPropagationNeuralNet-Work，BPNN)。采用MonteCarlo模擬研究對(duì)前述八種方法進(jìn)行比較。所有模擬數(shù)據(jù)的目標(biāo)變量設(shè)置為二分類，預(yù)測(cè)變量數(shù)目設(shè)置為3?？紤]7個(gè)可能影響分類結(jié)果的因素，依次為： ①預(yù)測(cè)變量的分布類型；②樣本量大??；③組間協(xié)方差的比率；④組間樣本量的比例；⑤兩組間的效應(yīng)量大小；⑥變量間的多重共線

5、性；⑦先驗(yàn)概率。預(yù)測(cè)變量的分布類型考慮4種情況，即①多元正態(tài)分布；⑦多元偏態(tài)分布(本研究設(shè)置總體偏度系數(shù)γ1=2.0、峰度系數(shù)為γ2=7.0)；③混合型分布，即X1為正態(tài)分布變量，X2為偏態(tài)分布(總體偏度系數(shù)γ1=2.0、峰度系數(shù)γ2=7.0)，X3為二分類計(jì)數(shù)屬性變量；④所有預(yù)測(cè)變量均為二分類計(jì)數(shù)屬性變量。本研究中兩組樣本量之和分別設(shè)置為60、100和400。組間樣本量比例設(shè)置為50:50、25:75與10:90。組間協(xié)方差比率設(shè)置為

6、1:1、1:4及1:8。組間效應(yīng)量大小設(shè)置為0.2、0.5及0.8。在模擬中對(duì)三個(gè)預(yù)測(cè)變量總體間的相關(guān)系數(shù)p設(shè)置為0.3。對(duì)于多重共線性的探討，設(shè)置X1與X2總體間的相關(guān)系數(shù)p別為0.6、0.9，與X3的相關(guān)關(guān)系不變。初步模擬時(shí)先驗(yàn)概率均設(shè)置為先驗(yàn)概率與樣本量比例相等，而后設(shè)置組間先驗(yàn)概率相等(0.5:0.5)以及先驗(yàn)概率為0.25:0.75作為對(duì)比。方法間性能評(píng)估所用指標(biāo)為總的錯(cuò)判率、靈敏度、特異度及ROC曲線下面積。對(duì)各種條件下數(shù)據(jù)

7、模式進(jìn)行2次隨機(jī)抽樣，一個(gè)樣本作為訓(xùn)練集構(gòu)造模型，另一個(gè)作為測(cè)試集驗(yàn)證模型。而后重復(fù)上述操作1000次，計(jì)算測(cè)試集數(shù)據(jù)錯(cuò)判率、ROC曲線下的面積、靈敏度及特異度的均值用以評(píng)價(jià)模型性能。結(jié)果： 1.不同數(shù)據(jù)分布類型 ①多元正態(tài)分布，組間協(xié)方差相等時(shí)，LDA最優(yōu)，其次為logistic回歸，決策樹法較差。相對(duì)而言，參數(shù)方法較之非參數(shù)方法要優(yōu)。當(dāng)數(shù)據(jù)為正態(tài)分布，組間協(xié)方差不等時(shí)，QDA最優(yōu)，次之為非參數(shù)法，LDA與l

8、ogistic回歸較差。 ②多元偏態(tài)分布，組間協(xié)方差相等時(shí)，決策樹及BP神經(jīng)網(wǎng)絡(luò)較優(yōu)，LDA、QDA、logistic較差。偏態(tài)分布，組間協(xié)方差不等條件下，決策樹法、KNN及QDA較優(yōu)，LDA與logistic回歸較差。 ③混合分布，組間協(xié)方差相等時(shí)，決策樹及l(fā)ogistic回歸較優(yōu)，三種判別分析較差。組間協(xié)方差不等條件下，決策樹法較優(yōu)，LDA與logistic回歸較差。 ④當(dāng)數(shù)據(jù)為分類分布時(shí)，決策樹與logis

9、tic回歸較優(yōu)，三種判別分析及BP神經(jīng)網(wǎng)絡(luò)較差。 2.協(xié)方差對(duì)分類的影響組間協(xié)方差不等，對(duì)于參數(shù)方法影響較大，尤其是QOA及l(fā)ogistic分析。較大協(xié)方差組錯(cuò)判率大，較小協(xié)方差組錯(cuò)判率小，而且協(xié)方差比例越不均衡，這一趨勢(shì)愈為明顯。以正態(tài)分布為例，當(dāng)協(xié)方差為1:4時(shí)，兩組錯(cuò)判率比值為1.14～2.30；在協(xié)方差為1:8時(shí)，兩組錯(cuò)判率比值為1.10～3.80，KNN、BPNeural表現(xiàn)更為明顯。 3.樣本量及樣本量比例對(duì)

10、分類的影響當(dāng)諸如數(shù)據(jù)分布類型、效應(yīng)量、協(xié)方差不變時(shí)，隨著樣本量的增大，錯(cuò)判率減少，同時(shí)ROC曲線下面積增大。以正態(tài)分布協(xié)方差相等條件為例，樣本量增大，錯(cuò)判率減小2％～11％，最為敏感的方法為BP神經(jīng)網(wǎng)絡(luò)，最不敏感的方法為KNN。樣本量對(duì)分類效果的影響不如協(xié)方差影響大。樣本量比例的不均衡對(duì)錯(cuò)判率的影響較大，以先驗(yàn)概率相等，正態(tài)分布、協(xié)方差相等條件下模擬結(jié)果為例，樣本量大組(larger)錯(cuò)判率低，樣本量小組(sinailer)錯(cuò)

11、判率大。如樣本量比例10:90條件，larger組下降了10％～98％，smaller組增大了17％～83％。下降的幅度高于增大的幅度，即使總的錯(cuò)判率減小，是以犧牲靈敏度為代價(jià)。 4.效應(yīng)量對(duì)分類的影響當(dāng)數(shù)據(jù)分布類型、組間協(xié)方差，樣本量一定的條件下，效應(yīng)量越大，錯(cuò)判率減少，同時(shí)ROC曲線下面積增大。以正態(tài)分布，等協(xié)方差，等樣本量條件的模擬結(jié)果為例，各方法都有不同程度的改變，當(dāng)效應(yīng)量由0.2增大為0.8時(shí)，錯(cuò)判率減小了30％～55

12、％。LDA及l(fā)ogistic回歸尤為明顯。效應(yīng)量對(duì)錯(cuò)判率的影響較大。 5.共線性的影響隨著共線性程度的增強(qiáng)，錯(cuò)判率增大，ROC曲線下面積減小。相關(guān)系數(shù)由0.6增至為0.9時(shí)，錯(cuò)判率增加幅度并不大。以正態(tài)分布、等樣本量比例及協(xié)方差比率為1:4條件為例，當(dāng)相關(guān)系數(shù)由0.3增至0.9時(shí)，錯(cuò)判率增大了1.36％～9.44％。出現(xiàn)這樣的結(jié)果，估計(jì)在條件設(shè)置時(shí)僅設(shè)置了X2、X3有較強(qiáng)相關(guān)性有關(guān)。 6.先驗(yàn)概率的影響先驗(yàn)概率對(duì)錯(cuò)判率的

13、影響很大，以正態(tài)分布為例，當(dāng)樣本量比例相等，先驗(yàn)概率為1:3，較大概率組錯(cuò)判率顯著減小，降低為先驗(yàn)概率1:1條件的1.48～8.57倍。而較小概率組錯(cuò)判率增大，與先驗(yàn)概率1:1條件相比，增大為1.35～2.94倍。當(dāng)先驗(yàn)概率設(shè)置為與樣本量比例相等時(shí)，較之先驗(yàn)概率不等但樣本量比例相等條件，又加劇了前述趨勢(shì)。此條件下，較大概率組錯(cuò)判率降低為2.15～8.90倍，較小概率組錯(cuò)判率增大為1.59～2.95倍。顯著降低了靈敏度。 7.實(shí)證

14、分析依模擬結(jié)果為理論指導(dǎo)，我們將分類方法應(yīng)用于三個(gè)實(shí)際醫(yī)學(xué)資料。其一，對(duì)心肌梗塞數(shù)據(jù)建立了二次判別分類模型。其二，聯(lián)合應(yīng)用logistic回歸與BP神經(jīng)網(wǎng)絡(luò)對(duì)脂肪肝數(shù)據(jù)構(gòu)建了分類模型。最后，又將CART法應(yīng)用于糖尿病數(shù)據(jù)探索其影響因素并建立了分類模型。結(jié)果表明，各模型與數(shù)據(jù)吻合較好，可應(yīng)用于醫(yī)學(xué)實(shí)際。結(jié)論：在所研究的八種分類方法中，每種方法或多種方法的組合均在特定數(shù)據(jù)條件下體現(xiàn)出各自優(yōu)勢(shì)，因此可依據(jù)本研究的結(jié)果制定分析策略。首

15、先，對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，即數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。第二，進(jìn)行分類分析時(shí)關(guān)注數(shù)據(jù)的分布類型及其協(xié)方差的情況，而后進(jìn)行方法的選擇。當(dāng)數(shù)據(jù)為多元正態(tài)分布，組間協(xié)方差相等時(shí)，可選擇LDA及l(fā)ogistic回歸。組間協(xié)方差不等時(shí)，可選擇QDA。偏態(tài)分布，組間協(xié)方差相等時(shí)，可選擇決策樹及BP神經(jīng)網(wǎng)絡(luò)。組間協(xié)方差不等時(shí)，可選擇決策樹法、KNN和QDA。當(dāng)數(shù)據(jù)為混合分布，組間協(xié)方差相等時(shí)，決策樹及l(fā)ogistic較優(yōu)，組間協(xié)方差不等時(shí)，決

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘中分類分析的策略研究及其生物醫(yī)學(xué)應(yīng)用.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘中分類分析的策略研究及其生物醫(yī)學(xué)應(yīng)用.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載