數(shù)學建模及數(shù)據(jù)挖掘方法在結(jié)直腸癌轉(zhuǎn)移機制中的應用.pdf_第1頁
已閱讀1頁,還剩155頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、結(jié)直腸癌是最常見的惡性腫瘤之一,2007年全球結(jié)直腸癌新發(fā)病例數(shù)達近120萬,63萬人死于結(jié)直腸癌,結(jié)直腸癌死亡病例占所有癌癥的8%。結(jié)直腸癌轉(zhuǎn)移是結(jié)直腸癌患者最主要的死因。結(jié)直腸癌在早期階段相對容易治愈,到晚期階段(發(fā)生遠處轉(zhuǎn)移)則往往預后較差。無侵襲轉(zhuǎn)移的結(jié)直腸患者的5年生存率可高達90%,有局部轉(zhuǎn)移的結(jié)直腸癌患者的5年生存率有68%,而帶有遠處轉(zhuǎn)移的結(jié)直腸癌患者的5年生存率很低,僅有11%。據(jù)估計,大約60%的結(jié)直腸癌患者最終會發(fā)

2、生轉(zhuǎn)移。
  結(jié)直腸癌的轉(zhuǎn)移,作為結(jié)直腸癌發(fā)生發(fā)展的后期過程,是一個復雜的、多步驟的生物學過程,目前開展的系統(tǒng)研究較少,機理尚不完全明了。在結(jié)直腸癌轉(zhuǎn)移過程中需要多個原癌基因和抑癌基因的參與。識別這些基因,有助于建立新的診斷方法,確定正確的術(shù)后治療方案,開發(fā)靶向治療藥物和提高對患者預后的判斷能力。
  染色體異常通常被認為是癌細胞的一個重要特征,接近90%的腫瘤被觀察到不同類型的染色體異?,F(xiàn)象。當前,各實驗室和公共數(shù)據(jù)庫已積

3、累了大量的染色體變異數(shù)據(jù),使得數(shù)學建模成為可能。本文通過系統(tǒng)的回顧,總結(jié)了幾個實際應用的數(shù)學模型:樹模型、貝葉斯網(wǎng)絡(luò)模型、多元分析模型。并對這幾個模型的優(yōu)缺點進行了相互的比較,闡述了數(shù)學模型在腫瘤發(fā)生發(fā)展分子機制研究中的原理,方法和應用??偟膩碚f,以上模型有不同的數(shù)學背景,它們有各自的優(yōu)勢和缺陷,在這種情況下,我們可以通過整合這些模型來獲得對腫瘤的發(fā)生發(fā)展分子機制的進一步了解。通過這些模型的建立,將深化我們對于腫瘤發(fā)病機理的生物學認識,

4、可以為我們后續(xù)的分子生物學實驗提供新的線索。
  為了解釋結(jié)直腸癌發(fā)生發(fā)展的分子機制,1988年,Vogelstein等人提出了一個經(jīng)典的線性模型,該模型得到了學術(shù)界的廣泛認可。然而,最近的研究表明了結(jié)直腸癌的腫瘤遺傳異質(zhì)性,挑戰(zhàn)了經(jīng)典的線性模型。結(jié)直腸癌的發(fā)生發(fā)展并非線性這么簡單,可能是一個多途徑非線性的過程。有鑒于此,Desper等人設(shè)計了腫瘤發(fā)病機制的樹模型,該模型旨在刻畫腫瘤的異質(zhì)性,界定腫瘤的染色體異常模式,確定染色體畸

5、變之間的關(guān)聯(lián)性。
  在本文的研究中,我們從9篇公開的文獻中收集了244例比較基因組雜交技術(shù)(CGH)數(shù)據(jù),構(gòu)建了結(jié)直腸癌發(fā)病機制的樹模型。識別了6個最常見的結(jié)直腸癌染色體位點擴增區(qū)域,包括7p(37.0%),7q11-32(34.8%),8q(48.3%),13q(49.1%),20p(36.1%)和20q(50.4%)等;9個最重要的結(jié)直腸癌染色體位點缺失區(qū)域,包括1p13-36(30.9%),4p15(24.3%),4q33

6、-34(24.3%),8p12-23(50.9%),15q13-14(23.5%),15q24-25(24.3%),17p(34.8%),18p(36.5%)和18q(61.7%)等。通過對分支樹和距離樹的分析,發(fā)現(xiàn)散發(fā)性結(jié)直腸癌可被區(qū)分為兩個亞型:一個亞型以+20q事件為標志,另一個以-8p12-23事件為標志。構(gòu)建了基于樣本的分類樹,發(fā)現(xiàn)結(jié)直腸癌樣本可被分為-8p12-23事件和+20q事件標志的子樹,驗證了這一結(jié)論。
  結(jié)

7、合相關(guān)的臨床資料,對145例結(jié)直腸癌原發(fā)灶和85例轉(zhuǎn)移灶樣本中的以上15重要染色體改變位點進行了統(tǒng)計學分析。將該結(jié)果與樹模型對照,提出了包括(-18q,-18p),(-8p12-23,-4p15,-4q33-34),(+20q,+20p),(+20q,+7p,+7q11-32)和+8q等五個分子事件子集有可能組成結(jié)直腸癌發(fā)生發(fā)展的轉(zhuǎn)移通路?;?5個重要染色體改變位點的分布模式,對結(jié)直腸癌原發(fā)灶和轉(zhuǎn)移灶樣本進行分類,用特征消減算法,得到

8、-8p12-23和+20q是區(qū)分原發(fā)灶和轉(zhuǎn)移灶樣本的最重要事件。對-8p12-23和+20q事件在原發(fā)灶和轉(zhuǎn)移灶樣本的分布進一步分析,發(fā)現(xiàn)92.9%(79/85)的結(jié)直腸癌轉(zhuǎn)移灶樣本發(fā)生-8p12-23或+20q事件,提示-8p12-23和+20q是結(jié)直腸癌轉(zhuǎn)移的可能標志物。
  大量的研究表明,采用基因表達譜可有效地對各類腫瘤進行分類,對于腫瘤的診斷和預后有重要意義?;蜻x擇是基于基因芯片數(shù)據(jù)分類中的關(guān)鍵技術(shù)。Guyon等人提出

9、了支持向量機遞歸基因消除算法(support vector machine recursivefeature elimination,SVM-RFE)。SVM-RFE基因選擇算法近年來吸引了眾多的研究者。在本文的研究中,我們結(jié)合t檢驗統(tǒng)計量,提出了一種新的基于SVM-RFE的基因選擇算法(support vector machine and t statistics recursive feature elimination,SVM-T

10、-RFE)。
  在5個公開的基因芯片數(shù)據(jù)集中,比較了SVM-F-RFE和SVM-RFE算法的性能。在結(jié)直腸癌,淋巴瘤和前列腺癌數(shù)據(jù)集中,SVM-T-RFE算法與SVM-RFE算法預測精度相同(均為100%),但SVM-T-RFE算法獲得的最小基因集更小,其中結(jié)直腸癌數(shù)據(jù)集(n=5 vs n=9),淋巴瘤數(shù)據(jù)集(n=3 vs n=5)和前列腺癌數(shù)據(jù)集(n=5 vs n=6)。在白血病和髓母細胞瘤數(shù)據(jù)集中,由于SVM-RFE算法取得

11、了最高預測精度(均為100%),且最小基因集基因數(shù)目已經(jīng)很少,其中髓母細胞瘤(n=2),白血病(n=3),給另外算法留出的提高空間很小,SVM-T-RFE算法取得的預測精度相同(均為100%),最小基因數(shù)量相同。
  從GEO網(wǎng)站獲取了55例結(jié)直腸癌原發(fā)灶早期樣本(病理分期:0或1,n=55,組1),56例結(jié)直腸癌原發(fā)灶晚期樣本(病理分期:4,n=56,組2),以及34例結(jié)直腸癌轉(zhuǎn)移灶樣本(組3)。所有樣本的表達譜數(shù)據(jù)采用HG-U

12、133Plus2.0芯片(Affymetrix公司)檢測獲得,包含54,675條探針值。為了挖掘結(jié)直腸癌轉(zhuǎn)移相關(guān)基因,我們對結(jié)直腸癌原發(fā)灶早期樣本和晚期樣本分類,組1和組2樣本合并為PRI數(shù)據(jù)集.同樣,對結(jié)直腸癌原發(fā)灶晚期樣本和轉(zhuǎn)移灶樣本進行分類,組2和組3樣本合并為META數(shù)據(jù)集。
  基因選擇算法輸出有序基因集,該基因集中的基因排序得分由高至低。選擇200個排序得分最高的探針作為基因子集。依次將200個探針減為1,并用留一交叉

13、驗證法評估分類器的性能。在PRI數(shù)據(jù)集,SVM-RFE算法得到PRI-GS-1基因子集,PRI-GS-1基因子集采用最少12個探針獲得100%的預測精度。SVM-T-RFE算法得到PRI-GS-2基因子集,PRI-GS-2基因子集采用最少10個探針獲得100%的預測精度。在META數(shù)據(jù)集中,SVM-RFE算法得到META-GS-1基因子集,該子集采用10個探針得到100%的預測精度,SVM-T-RFE算法得到META-GS-2基因子集,

14、該基因子集采用6個探針得到100%的預測精度。就分類表現(xiàn)而言,SVM-T-RFE算法優(yōu)于SVM-RFE算法。
  PRI-GS-1基因子集包含20個表達差異顯著探針(P<0.05),而PRI-GS-2基因子集包含132個表達差異顯著探針。META-GS-1基因子集包含15個表達差異顯著探針(P<0.05),而META-GS-2基因子集包含29個表達差異顯著探針。相比SVM-RFE算法,SVM-T-RFE算法能挖掘更多的表達差異顯著

15、基因。
  下載Jorissen等人研究中發(fā)表的基因表達譜數(shù)據(jù)。該數(shù)據(jù)集包含364個結(jié)直腸癌樣本,其中86例Dukes A期,94例Dukes B期,91例Dukes C期和93例DukesD期。樣本均采用HG-U133Plus2.0芯片(Affymetrix公司)檢測,包含54,675條探針值。對Dukes A和Dukes D樣本分類,SVM-T-RFE算法采用16個探針獲得100%預測精度,少于SVM-RFE算法的21個探針。

16、采用SVM-T-RFE算法獲得的16個探針訓練模型,對Dukes B期樣本分類,將樣本分為預后好(stage A-like)和預后差(stage D-like)。通過Kaplan-Meier生存分析,發(fā)現(xiàn)stage A-like的病人生存預期好于stage D-like病人(log-rank P=.019)。證實了16條探針與Dukes B期病人的預后相關(guān)。
  總之,SVM-T-RFE算法優(yōu)于現(xiàn)有的SVM-RFE算法:首先,使用

17、同樣數(shù)量或更小數(shù)量的基因,獲得了同等的預測準確度。其次,在選擇的基因子集中,有更多的差異表達基因。通過我們的實驗,發(fā)現(xiàn)基因芯片技術(shù)具有很強的分類預測能力.在選擇的基因子集中,部分基因已知與結(jié)直腸癌發(fā)生發(fā)展或腫瘤轉(zhuǎn)移相關(guān),另外一些基因則需要進一步的實驗證實。
  近年來由于分子生物學實驗技術(shù)突飛猛進的發(fā)展,產(chǎn)生了包括基因組、轉(zhuǎn)錄組和蛋白質(zhì)組各種檢測平臺得到的大量數(shù)據(jù),以往的研究往往只是局限于來自某個平臺的某組數(shù)據(jù),很少將各種平臺數(shù)據(jù)

18、進行整合研究。DNA拷貝數(shù)的變化會對原癌基因和抑癌基因產(chǎn)生影響。普遍認為,染色體擴增區(qū)域存在原癌基因,而抑癌基因很可能位于染色體的缺失片段。
  在15個重要染色體變異位點,結(jié)合基因芯片數(shù)據(jù),采取集成策略挖掘結(jié)直腸癌轉(zhuǎn)移相關(guān)基因。在PRI數(shù)據(jù)集中,發(fā)現(xiàn)基因DNA拷貝數(shù)的增加或缺失對表達值的上調(diào)或下調(diào)有著直接的影響。在PRI數(shù)據(jù)集中,獲得重疊基因集的探針161條,應用SVM-T-RFE基因選擇算法選擇特征基因,得到了最小基因數(shù)量(n

19、=14)且分類準確度最高(100%)的最小基因集。在META數(shù)據(jù)集中,重疊基因集含有探針70條,應用SVM-T-RFE算法選擇特征基因,得到了最小基因數(shù)量(n=14)且分類準確度最高(100%)的最小基因集。研究顯示,整合分析策略是挖掘腫瘤相關(guān)基因的有效策略。
  通過上述的研究,得出以下結(jié)論:
  1.采用244例比較基因組雜交技術(shù)數(shù)據(jù),構(gòu)建了結(jié)直腸癌發(fā)病機制的樹模型。識別了15個最常見的結(jié)直腸癌染色體變異位點。散發(fā)性結(jié)直

20、腸癌可被區(qū)分為兩個亞型:一個亞型由+20q事件標志,另一個由-8p12-23事件標志。
  2.-8p12-23或+20q是結(jié)直腸癌轉(zhuǎn)移的標志物。包括(-18q,-18p),(-8p12-23,-4p15,-4q33-34),(+20q,+20p),(+20q,+7p,+7q11-32)和+8q等五個分子事件子集有可能組成結(jié)直腸癌發(fā)生發(fā)展的轉(zhuǎn)移通路。
  3.提出了SVM-T-RFE算法,該算法優(yōu)于SVM-RFE算法。使用同

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論