2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩56頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、在現(xiàn)實(shí)環(huán)境中,由于各種原因存在著數(shù)據(jù)缺失的現(xiàn)象。而臨床數(shù)據(jù)集中的數(shù)據(jù)缺失可能與某些屬性的狀態(tài)有關(guān),這些缺失的數(shù)據(jù)中蘊(yùn)含的信息,如果處理方法不當(dāng)將導(dǎo)致錯(cuò)誤推斷結(jié)果的發(fā)生。如何對(duì)不完整的臨床數(shù)據(jù)集進(jìn)行操作從而提高分類和診斷的準(zhǔn)確率便成了一項(xiàng)重要的研究課題。將數(shù)據(jù)集中不含缺失值的變量(屬性)稱為完全變量,數(shù)據(jù)集中含有缺失值的變量稱為不完全變量,Little和Rubin定義了以下三種不同的數(shù)據(jù)缺失機(jī)制:第一種,完全隨機(jī)缺失(Missing Co

2、mpletely at Random,MCAR)。數(shù)據(jù)的缺失與不完全變量以及完全變量都是無關(guān)的。第二種,隨機(jī)缺失(Missing at Random,MAR)。數(shù)據(jù)的缺失僅僅依賴于完全變量。第三種,非隨機(jī)、不可忽略缺失(Not Missing at Random,NMAR)。不完全變量中數(shù)據(jù)的缺失依賴于不完全變量本身,這種缺失是不可忽略的。 當(dāng)前已有的為缺失數(shù)據(jù)集進(jìn)行分類的方法,基本有兩大類。一類是先對(duì)缺失數(shù)據(jù)進(jìn)行修補(bǔ),而后在得

3、到的完整數(shù)據(jù)集上建立分類器。修補(bǔ)缺失數(shù)據(jù)的方法除了有簡(jiǎn)單的空置和均值替代法之外,還有Gibbs抽樣、EM算法、BC(Bound&Collapse)法、梯度下降算法。它們雖然有各自的優(yōu)點(diǎn),但前兩種忽視了丟失信息的價(jià)值,修補(bǔ)質(zhì)量低。而后面幾種只能處理隨機(jī)丟失的數(shù)據(jù)集,在臨床數(shù)據(jù)集中信息的丟失情況并不一定是隨機(jī)的。第二類是將有丟失情況的數(shù)據(jù)集直接用分類器進(jìn)行分類,以達(dá)到我們想要的結(jié)果。主要有樸素貝葉斯分類器、貝葉斯網(wǎng)絡(luò)、C4.5決策樹、穩(wěn)健貝

4、葉斯估計(jì)(Robust Bayesian Estimation)等。其中貝葉斯網(wǎng)絡(luò)推理能夠處理不完備數(shù)據(jù)集,傳統(tǒng)推理是無法解決的,對(duì)于傳統(tǒng)的推理必須知道所有可能的數(shù)據(jù)輸入,如果缺少其中的某一輸入就會(huì)對(duì)建立的模型產(chǎn)生偏差。貝葉斯方法可以解決這個(gè)問題,因?yàn)樨惾~斯網(wǎng)絡(luò)反映的是整個(gè)數(shù)據(jù)域中數(shù)據(jù)間的概率關(guān)系,即使缺少某一數(shù)據(jù)變量仍然可以建立精確的模型。而穩(wěn)健貝葉斯估計(jì)雖然可以處理不同類型的缺失數(shù)據(jù),但容易導(dǎo)致有偏的結(jié)果或填入不準(zhǔn)確的值。又考慮到在

5、醫(yī)學(xué)診斷規(guī)則的表示上貝葉斯網(wǎng)絡(luò)較決策樹易于表達(dá)。最后我們決定選取貝葉斯網(wǎng)絡(luò)來進(jìn)行該項(xiàng)研究。 隨著醫(yī)院信息化建設(shè)的發(fā)展,醫(yī)院信息系統(tǒng)中積累了大量的病人資料和醫(yī)療數(shù)據(jù),這些數(shù)據(jù)中蘊(yùn)涵著對(duì)醫(yī)生、醫(yī)院管理者和醫(yī)療管理部門都有重要意義的信息,如何提取出這些信息,成為日益突出的需求。貝葉斯網(wǎng)絡(luò)是數(shù)據(jù)挖掘的有效工具之一,它提供了一種自然地表示因果信息的方法,用來發(fā)現(xiàn)數(shù)據(jù)間的潛在關(guān)系,并以圖形的方法描述出來。貝葉斯網(wǎng)絡(luò)在國外醫(yī)院信息管理中的應(yīng)用

6、越來越廣泛,美國學(xué)者將貝葉斯網(wǎng)絡(luò)運(yùn)用于手術(shù)結(jié)果預(yù)測(cè)、護(hù)士護(hù)理研究、醫(yī)院診療報(bào)告進(jìn)行的有效性和可靠性評(píng)價(jià)等。歐洲學(xué)者將其運(yùn)用于對(duì)肝硬化病人進(jìn)行治療效果的預(yù)測(cè)、緊急醫(yī)療服務(wù)的評(píng)價(jià)等。臺(tái)灣學(xué)者將貝葉斯網(wǎng)絡(luò)運(yùn)用在全民保健醫(yī)療費(fèi)用審查自動(dòng)化方面進(jìn)行研究,以及對(duì)非典型肺炎的確診和對(duì)醫(yī)療服務(wù)診斷進(jìn)行評(píng)價(jià)等。由于目前在內(nèi)地的大部分地區(qū),醫(yī)院信息系統(tǒng)都已投入應(yīng)用,系統(tǒng)積累的數(shù)據(jù)也越來越多,有學(xué)者將貝葉斯網(wǎng)絡(luò)運(yùn)用于醫(yī)療診斷研究。貝葉斯網(wǎng)絡(luò)是以概率論為理論依

7、據(jù),以概率推理為推理基礎(chǔ),以圖論的形式表達(dá)和描述數(shù)據(jù)實(shí)例中的關(guān)聯(lián)和因果關(guān)系的。它由兩部分組成,一個(gè)是有向無環(huán)圖(DAG),另一個(gè)是條件概率表(CPT)。它不僅能在診斷過程中清晰直觀地表達(dá)知識(shí),很好地解決系統(tǒng)的不確定性、數(shù)據(jù)的不完整性和復(fù)雜性,還能自動(dòng)更新知識(shí)規(guī)則。貝葉斯網(wǎng)絡(luò)除了依靠專家知識(shí)以外,還可以利用訓(xùn)練數(shù)據(jù)擴(kuò)充自身的知識(shí)和網(wǎng)絡(luò)推理能力。像貝葉斯網(wǎng)絡(luò)這樣的智能處理工具在醫(yī)學(xué)診斷中是極具利用價(jià)值的。 本文分別使用了兩種方法將缺

8、失臨床數(shù)據(jù)集進(jìn)行分類。第一種方法是將缺失數(shù)據(jù)集用屬性選擇的貝葉斯網(wǎng)絡(luò)進(jìn)行分類。第二種方法是利用原始數(shù)據(jù)先對(duì)缺失數(shù)據(jù)進(jìn)行修補(bǔ),而后在得到的完整數(shù)據(jù)集上用貝葉斯網(wǎng)絡(luò)檢測(cè)分類效果。方法的內(nèi)容過程簡(jiǎn)要描述如下。 方法一:首先,為每個(gè)屬性添加一個(gè)二元變量指示各屬性丟失情況。接著,使用基于包裝法的遺傳因子搜索法對(duì)原始的有缺失的臨床數(shù)據(jù)集進(jìn)行屬性選擇。屬性選擇主要有兩種方法,第一種稱為過濾法(filter method),主要建立在選擇屬性之

9、間分散程度的衡量標(biāo)準(zhǔn)。它是要在學(xué)習(xí)開始之前,先過濾屬性集產(chǎn)生一個(gè)最優(yōu)的屬性子集。第二種稱為包裝法(wrapper method),它是建立在使用分類器的效果來衡量屬性選擇的結(jié)果。之所以稱為包裝法,是因?yàn)閷W(xué)習(xí)方法被包裹在選擇過程中。本文的屬性優(yōu)化部分采用的就是第二種。最后,應(yīng)用貝葉斯網(wǎng)絡(luò)對(duì)以上優(yōu)化屬性集進(jìn)行分類并檢驗(yàn)分類效果。實(shí)驗(yàn)是對(duì)三種急性病的不完整數(shù)據(jù)集進(jìn)行分類,它們的屬性從多到少。用有不同診斷難度的急性病來進(jìn)行我們的實(shí)驗(yàn)比較有代表性

10、。整個(gè)實(shí)驗(yàn)在WEKA3.5.6環(huán)境下運(yùn)行實(shí)現(xiàn)。結(jié)果證明該方法不僅考慮到了丟失的臨床信息的價(jià)值,也除去了無關(guān)和冗余的屬性,分類準(zhǔn)確性高,優(yōu)于直接使用貝葉斯網(wǎng)絡(luò)模型。 方法二:首先,利用原始數(shù)據(jù)中隱含屬性之間的關(guān)聯(lián)性,同時(shí)結(jié)合專家知識(shí),建立數(shù)據(jù)集屬性的修復(fù)結(jié)構(gòu)。我們可以借助專家知識(shí)選出數(shù)據(jù)集中關(guān)系密切的屬性,但是專家的主觀意見可能無法將數(shù)據(jù)集中隱含的關(guān)聯(lián)性選出。此時(shí)可以使用互信息來計(jì)算各個(gè)屬性值之間的關(guān)聯(lián)性,進(jìn)而選取子數(shù)據(jù)集加以分析

11、。第二步,使用類神經(jīng)網(wǎng)絡(luò)的反向傳播(BP)算法及其函數(shù)模擬功能來修復(fù)第一步中各個(gè)待修復(fù)數(shù)據(jù)子集中的缺失值。最后,用貝葉斯網(wǎng)絡(luò)對(duì)完整的數(shù)據(jù)集進(jìn)行分類,檢驗(yàn)修復(fù)后的臨床數(shù)據(jù)集是否較均值修補(bǔ)更有效地提高了分類準(zhǔn)確率。我們從UCI數(shù)據(jù)集中挑選出心臟病和乳腺癌的完整數(shù)據(jù)集在Matlab7.0的環(huán)境下進(jìn)行實(shí)驗(yàn),分別比較了它們?cè)诓煌S機(jī)缺失比例下經(jīng)修復(fù)后對(duì)分類效果的影響。實(shí)驗(yàn)證明該數(shù)據(jù)修復(fù)方法確實(shí)較一般的均值修補(bǔ)法更有效地提高了診斷準(zhǔn)確率。

12、對(duì)于數(shù)據(jù)缺失國內(nèi)外學(xué)者已經(jīng)做了廣泛的研究。目前各種新興的方法層出不窮。但無論采用何種填補(bǔ)方法,都無法避免主觀因素對(duì)原系統(tǒng)的影響,并且在缺失值過多的情形下將整個(gè)數(shù)據(jù)集完整化是不可行的。所以針對(duì)各種實(shí)際問題,要注意分清問題的實(shí)質(zhì),合理并且適當(dāng)?shù)剡\(yùn)用處理方法才是解決好實(shí)際問題的關(guān)鍵所在。對(duì)不同缺失機(jī)制的臨床數(shù)據(jù)集使用合適的方法定能在診斷準(zhǔn)確率和效率上取得滿意的結(jié)果。但是,現(xiàn)實(shí)中臨床數(shù)據(jù)集的缺失機(jī)制一般都是未知的,所以,如何找到一個(gè)可達(dá)到更加高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論