基于數(shù)據(jù)挖掘技術的肺癌早期預警模型研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-09 格式：pdf 頁數(shù)：125 大?。?1.38MB 人氣指數(shù)：12 舉報 版權申訴

已閱讀1頁，還剩124頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、肺癌是當今世界各國最常見的惡性腫瘤,其發(fā)病率和死亡率呈不斷上升趨勢,對人類的健康和生命構(gòu)成了極大威脅。在中國,肺癌每年大約導致40萬例患者死亡,已成為發(fā)病率和死亡率最高的惡性腫瘤。研究顯示Ⅰ期肺癌術后10年生存率可達到92％。然而肺癌早期不易診斷,惡性程度高,一經(jīng)病理確診多數(shù)已屬晚期,失去手術治療的最佳時機,總的5年生存率僅為15%左右。因此,要降低肺癌患者的死亡率關鍵在于肺癌的早期發(fā)現(xiàn)、早期診斷和早期治療。肺癌的發(fā)生是多因素、多基因和

2、多階段發(fā)展的復雜過程,由于傳統(tǒng)的影像學檢查和支氣管鏡等檢查手段存在敏感性、特異性和適用度等方面的局限,近年來國內(nèi)外學者對肺癌早期預警或診斷相關的分子標志和多種腫瘤生物標志的聯(lián)合檢測做了大量有益的探索,以期找到更合理、敏感性和特異性更高的分子聯(lián)合標志。
　　肺癌的發(fā)生是環(huán)境因素和遺傳因素共同作用的結(jié)果,因此在尋找肺癌早期預警或診斷的生物標志時,也可以從兩方面著手,即反映機體先天具有或后天獲得的對外源性物質(zhì)產(chǎn)生反應能力的易感性標志

3、;反映早期生物效應、結(jié)構(gòu)和/或功能改變以及疾病的效應標志。遺傳因素屬于前者,其作用體現(xiàn)在同一環(huán)境暴露中個體腫瘤易感性的差異,歸根到底由基因多態(tài)所代表的遺傳背景決定。另一方面,在很多情況下,許多分子事件的發(fā)生早于明顯惡性表型的出現(xiàn),因此,運用分子生物學的方法檢測肺癌發(fā)生過程中的早期分子事件,從而發(fā)現(xiàn)癌前病變或早期癌變也被認為是肺癌早期預警最具應用前景的手段。腫瘤發(fā)生的早期生物效應包括了DNA甲基化和端粒損傷在內(nèi)的遺傳學和表觀遺傳學改變。<

4、br>　　數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery fromDatabase,KDD),它是從大量數(shù)據(jù)中提取并挖掘未知的、有價值的模式或規(guī)律等知識的復雜過程。它通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析有著本質(zhì)的區(qū)別。數(shù)據(jù)挖掘是在沒有明確的假設的前提下挖掘信息和發(fā)現(xiàn)知

5、識。同時,通過數(shù)據(jù)挖掘得到的信息具有先前未知、有效及可實用3個特征。數(shù)據(jù)挖掘中的決策樹和人工神經(jīng)網(wǎng)絡技術(Artificial Neural Networks,ANN)能夠?qū)?shù)據(jù)信息進行大規(guī)模并行處理和分布式存儲,且具有良好的自適應性、自組織性及較強的學習功能、聯(lián)想功能和容錯功能。在腫瘤的診斷方面,不僅能夠起到檢測可疑病變和分類的作用,還能挖掘用于檢測和分類的潛在特征標志,為腫瘤的診斷做出建設性貢獻。
　　本研究檢測對象外周血

6、中CYP1A1,GSTM1,GSTT1,mEH,XRCC1基因多態(tài)性、p16和RASSF1A基因甲基化水平及端粒相對長度,探討5種基因多態(tài)性與p16、RASSF1A基因甲基化和端粒相對長度的相關關系,在此基礎上應用數(shù)據(jù)挖掘技術,檢測這些分子指標對肺癌早期預警的相關性,抽取可用于肺癌預警的有效特征,構(gòu)建較為適合的預測模型,探討是否有助于提高肺癌早期預警或診斷的正確率及聯(lián)合檢測對肺癌輔助診斷的意義,以實現(xiàn)肺癌早期預警、診斷和分類的自動化,為

7、高危人群的篩查和臨床肺癌診斷提供有價值的參考資料。
　　目的：
　　 1.探討肺癌患者外周血I相代謝酶基因CYP1A1,Ⅱ相代謝酶基因GSTM1、GSTT1、mEH,及DNA修復酶基因XRCC1的多態(tài)基因型與肺癌易感之間的關系,探討抑癌基因p16、RASSF1A甲基化及端粒相對長度與肺癌發(fā)生的關系,篩選出與肺癌發(fā)生相關的有效分子生物標志,找出對肺癌早期預警意義最大的幾項,為肺癌的早期預警提供基礎資料。
　　 2

8、.將數(shù)據(jù)挖掘技術和上述分子標志相結(jié)合,構(gòu)建可“自動”處理信息的智能預警模型,為肺癌智能預警系統(tǒng)的研制開辟一條新途徑,提高肺癌早期預警的準確率。
　　材料與方法：
　　 1.以251例肺癌患者和256例健康體檢者為研究對象。
　　 2.采用等位基因特異性擴增法(allele-specific amplification,ASA)檢測CYP1A1-exon7位點多態(tài)性,采用多重PCR法檢測GSTM1、GSTT1基因

9、多態(tài)性,采用聚合酶鏈反應-限制性片段長度多態(tài)性(polymerase chain reaction-restrictionfragment length polymorphism,PCR-RFLP)方法分別檢測CYP1A1-Msp1位點、mEH-exon3、mEH-exon4、XRCC1-194、XRCC1-280及XRCC1-399位點基因多態(tài)性。采用實時熒光定量甲基化特異PCR(real-time methylation speci

10、fic PCR,qMSP)技術檢測p16和RASSF1A基因甲基化水平,采用熒光定量PCR法檢測端粒相對長度。
　　 3.應用SPSS12.0統(tǒng)計分析軟件,采用x2檢驗、t檢驗、秩和檢驗、Logistic回歸分析等方法對基因多態(tài)、甲基化水平和端粒相對長度的結(jié)果進行一般統(tǒng)計學分析處理,探討基因多態(tài)性、DNA甲基化及端粒相對長度變化與肺癌發(fā)生的關系,篩選可能用于肺癌早期判別模型的有效指標。
　　 4.將每組樣本按3:1的比例

11、隨機分為訓練集和測試集,將CYP1A1-exon7、GSTM1、mEH-exon3、XRCC1-194和XRCC1-280位點基因多態(tài)性、p16基因和RASSF1A基因甲基化水平、端粒長度及吸煙情況作為輸入?yún)?shù),用Fisher判別分析、決策樹C5.0和反向傳播神經(jīng)網(wǎng)絡算法(Back-Propagation,BP算法)分別對訓練集進行訓練建立模型,用訓練好的模型對相應的測試集進行盲法預測,驗證判別模型的優(yōu)劣,最終建立肺癌早期智能化預警模型

12、。
　　結(jié)果：
　　 1.GSTM1基因缺失型,CYP1A1-exon7、mEH-exon3、XRCC1-194及XRCC1-280基因位點純和突變型在病例組與對照組中的分布頻率差異均有統(tǒng)計學意義(P＜0.05),GSTM1基因缺失者與GSTM1基因陽性者相比發(fā)生肺癌的危險性升高(Oradj=1.727,95%CI:1.211-2.463);攜帶CYP1A1-exon7 Ile/val+val/val基因型的個體較攜帶

13、CYP1A1-exon7 Ile/Ile基因型的個體發(fā)生肺癌的危險性升高(Oradj=1.727,95%CI:1.203-2.477):mEH-exon3突變基因型攜帶者與野生純合型的個體相比發(fā)生肺癌的危險性升高(ORadj=1.758,95%CI:1.194-2.589):攜帶XRCCI-194 Arg/Trp+Trp/Trp基因型的個體較攜帶XRCC1-194 Arg/Arg基因型的個體發(fā)生肺癌的危險性升高(ORadj=1.542,

14、95%CI:1.083-2.196);XRCC1-280His/His基因型攜帶者較XRCC1-280 Arg/Arg+Arg/His基因型攜帶者發(fā)生肺癌的危險性升高(ORadj=2.941,95%CI:1.427-6.060)。CYP1A1-Msp1、GSTT1、mEH-exon4及XRCC1-399多態(tài)基因型在病例組與對照組中的分布頻率差異均無統(tǒng)計學意義(P＞0.05)。基于5種基因多態(tài)性建立肺癌判別模型,結(jié)果為Fisher判別分析

15、、決策樹及ANN對訓練集和預測集的準確率分別為63.59%、63.25%;95.64%、82.61%;84.1%、80.77%,Fisher判別分析、決策樹及ANN模型的ROC曲線下面積(AUC)分別為0.627、0.836、0.821。
　　 2.肺癌組外周血p16基因和RASSF1A基因甲基化水平及端粒相對長度分別為0.59(0.16～4.50)、27.62(9.09～52.86)、0.93±0.32,與對照組相比差異具有統(tǒng)

16、計學意義(P＜0.05);p16基因和RASSF1A基因啟動子區(qū)甲基化水平增高及端粒相對長度縮短與肺癌發(fā)生危險性增加有關;性別、年齡、吸煙情況、肺癌分期和病理類型與p16基因、RASSF1A基因甲基化及端粒長度無關(P＞0.05)?；谏鲜鲋笜私⒎伟┡袆e模型,結(jié)果為Fisher判別分析、決策樹及ANN對訓練集和預測集的準確率分別為66.34%、65.82%:77.26%、75.45%:72.15%、71.72%,3種模型的AUC分別為

17、0.660、0.782、0.759。
　　 3.XRCC1-280位點不同基因型之間p16甲基化水平有差異,CYP1A1-exon7、GSTM1、mEH-exon3和XRCC1-280位點不同基因型之間RASSF1A基因甲基化水平不同,CYP1A1-exon7和GSTM1基因突變型與野生型相比端粒相對長度差異。基于上述綜合指標建立肺癌判別模型結(jié)果顯示,Fisher判別分析、決策樹及ANN對訓練集和預測集的準確率分別為72.15%

18、、70.59%:93.88%、93%:92.96%、89.62%,3種模型的AUC分別為0.722、0.929、0.894。決策樹模型對臨床早期(I+II期)肺癌的判別準確率為96.36%,ANN模型為89.09%。
　　結(jié)論：
　　 1.CYP1A1-exon7、GSTM1、mEH-exon3、XRCC1-194和XRCC1-280基因位點的變異、p16和RASSF1A基因甲基化水平異常增高、端粒相對長度縮短與肺癌患

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于數(shù)據(jù)挖掘技術的肺癌早期預警模型研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

基于數(shù)據(jù)挖掘技術的肺癌早期預警模型研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載