頭頸部鱗癌放射敏感性的文本挖掘和基因表達數(shù)據(jù)分析.pdf_第1頁
已閱讀1頁,還剩116頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、目的:頭頸部癌是全球常見的腫瘤之一,涉及頸部、耳鼻喉以及口腔頜面三大部位,其原發(fā)部位之多居全身腫瘤之首。鱗狀細胞癌(以下簡稱頭頸部鱗癌)是頭頸部癌的主要病理組織學類型,占比超過90%。并且,在全世界范圍內,頭頸部鱗癌約占每年新診斷腫瘤病例的8%。來自不同部位的頭頸部鱗癌具有相似的流行病學特征及臨床治療策略,其中放射治療是頭頸部鱗癌重要的治療方式之一。
  但在臨床實踐中,不是所有的頭頸部鱗癌患者都對放療比較敏感。即使在臨床期別、病

2、理分級、腫瘤體積、淋巴轉移等臨床病理因素等都相同的條件下,頭頸部鱗癌患者之間的放療效果也存在較大差別,仍有相當數(shù)量的患者在放療后出現(xiàn)殘灶、局部復發(fā)和遠處轉移等疾病進展,預后不良。這表明不同個體頭頸部鱗癌的放射敏感性存在顯著不同,可能因腫瘤細胞內源性放射抵抗所致。近年來,全球的研究人員開展了較多的頭頸部鱗癌放射敏感性相關研究,獲得的研究發(fā)現(xiàn)增進了人們對其分子機制的理解,但有些結果仍然存在爭議,關于頭頸部鱗癌放射敏感性的具體機制仍不清楚。因

3、此有必要從新的視角進一步詳細研究,探討頭頸部鱗癌的放射抵抗分子機制。
  本研究通過文本挖掘技術和基因表達分析技術對頭頸部鱗癌的放射敏感性進行生物信息學分析,抽取文獻中的相關基因,預測新的候選基因,篩選放射抵抗和放射敏感組頭頸部鱗癌細胞系基因芯片的差異表達基因,構建蛋白質相互作用網(wǎng)絡,并進行基因功能富集,以識別出頭頸部鱗癌放射敏感性相關的重要基因,闡明相關的分子機制,為進一步開展頭頸部鱗癌放射敏感性研究及開發(fā)與應用靶向放射增敏藥物

4、提供新思路。
  研究方法:本研究從文本挖掘和基因表達芯片數(shù)據(jù)分析兩個方面對人類頭頸部鱗癌放射敏感性開展生物信息學分析。
  (1)利用文獻挖掘人類頭頸部鱗癌放射敏感性相關基因:首先,利用PubMed數(shù)據(jù)庫檢索人類頭頸部鱗癌放射敏感性相關基因的文獻。應用PubTator工具對題目文摘中的基因進行標識后,利用自編的R程序提取標識后的基因和相應文獻的PMID號;另一方面,對利用高通量技術進行研究的文獻,將其全文相關表格中的基因進

5、行人工抽取。應用HPRD和BioGRID數(shù)據(jù)庫查詢抽取基因編碼的蛋白質間相互作用關系對,導入Cytoscape軟件中構建基因編碼蛋白質相互作用網(wǎng)絡,根據(jù)CentiScaPe2.1插件計算網(wǎng)絡拓撲結構參數(shù),分析網(wǎng)絡拓撲結構,根據(jù)4個網(wǎng)絡拓撲結構度量指標(度、介數(shù)、接近中心性、特征向量中心性)找出編碼網(wǎng)絡中重要節(jié)點蛋白質的關鍵基因;采用DAVID在線工具對提取的全部相關基因和關鍵基因分別進行GO功能和KEGG通路富集分析。將提取的頭頸部鱗癌

6、放射敏感性相關基因編碼蛋白質作為種子,根據(jù)最近鄰居擴增法,構建蛋白質相互作用網(wǎng)絡,挖掘新的頭頸部鱗癌放射敏感性候選基因,對通過擴大的網(wǎng)絡預測得到的排秩靠前的候選基因進行GO功能和KEGG通路富集分析研究,來進一步考證其與頭頸部鱗癌放射敏感性的相關性。
  (2)對人類頭頸部鱗癌細胞系放射敏感性基因表達芯片進行整合分析:在GEO數(shù)據(jù)庫中檢索人類頭頸部鱗癌細胞系放射敏感性基因表達芯片研究系列,下載數(shù)據(jù)集。本研究共納入4個數(shù)據(jù)集(GSE

7、9712、GSE9713、GSE9714和GSE48501),涉及兩種芯片平臺、SCC-61和CNE2兩個細胞系。用R軟件affy包的MAS5算法對原始芯片進行預處理,獲得基因探針的原始表達值,然后進行以2為底的對數(shù)轉換。因本研究納入了不同平臺的芯片數(shù)據(jù),故對每個基因探針經(jīng)對數(shù)轉化的表達值進行全局標準化,分別在各個研究數(shù)據(jù)集中將其轉化為z-分數(shù)。對放射抵抗組和放射敏感組的頭頸部鱗癌樣本的每個基因的z-分數(shù)執(zhí)行t檢驗,選取Benjamin

8、i andHochberg法校正后P值<0.05為顯著性閾值,識別差異表達基因。在R軟件中使用pheatmap程序包繪制差異表達基因z-分數(shù)—樣本的雙聚類熱圖,可視化樣本被差異表達基因分類的效果。應用HPRD和BioGRID數(shù)據(jù)庫,一方面篩選差異基因編碼蛋白質間的相互作用關系對,另一方面篩選差異基因編碼蛋白質與整個基因組范圍內蛋白質間的相互作用關系對。用Cytoscape構建差異基因編碼蛋白質相互作用網(wǎng)絡圖,找到重要的節(jié)點基因;構建差異

9、基因編碼蛋白質相關的蛋白質相互作用網(wǎng)絡,并利用Cytoscape的插件ClusterONE進行模塊聚類分析,獲得重要的功能模塊及中心基因。采用DAVID工具對差異表達基因以及顯著功能模塊的基因分別進行GO功能和KEGG通路富集分析,理解基因的作用機制。
  結果:(1)本研究共納入551篇人類頭頸部鱗癌放射敏感性基因研究的文獻,抽取到534個頭頸部鱗癌放射敏感性基因。這些基因編碼蛋白質相互作用網(wǎng)絡圖共包含457個節(jié)點,3198個邊

10、,發(fā)現(xiàn)了TP53、HSP90AA1、EGFR、EP300、BRCA1等39個關鍵基因,通過富集分析發(fā)現(xiàn)涉及PI3K-Akt信號通路、HIF-1信號通路、局部粘附等生物學通路和功能術語。此外,通過擴展的蛋白質相互作用網(wǎng)絡分析,新挖掘出NTRK1、ELAVL1、ESR1、APP、NR3C1等139個候選基因。(2)通過對GEO數(shù)據(jù)庫的4個頭頸部鱗癌細胞系放射敏感性基因表達數(shù)據(jù)集的整合分析,獲得STC2、NMI、LIMCH1、STAT1、DC

11、N、NR3C1等175個差異表達基因,聚類熱圖顯示這些基因可以明顯地將樣本劃分為放射抵抗和放射敏感兩個組別。其中DCN、FAS、STAT1、AREG等11個(6.29%)差異表達基因已有文獻報道;5個(2.86%)差異表達基因也是通過文本挖掘預測出的新基因,具體為NR3C1、YWHAB、CAND1、HNRNPD、SMARCA4。通過差異表達基因編碼蛋白相互作用網(wǎng)絡發(fā)現(xiàn),STAT1是連通度最高的蛋白質編碼基因。構建的差異表達基因相關的蛋白

12、質相互作用網(wǎng)絡共含3641個節(jié)點、5587條邊,模塊聚類后,選取前10個顯著的功能子模塊進行分析,模塊內中心節(jié)點基因依次為NMI、RCHY1、DCN、PDCD6、NR3C1、DNM1、TAB2、AP3S1、AFF4、MPDZ。差異表達基因及功能模塊內基因富集的GO術語和KEGG通路主要與局部粘附、自噬調節(jié)、細胞凋亡等有關。
  結論:(1)利用文本挖掘技術從PubMed數(shù)據(jù)庫已發(fā)表文獻中抽取基因,全面展示了現(xiàn)有頭頸部鱗癌放射敏感性

13、相關基因的研究現(xiàn)狀,確定了39個關鍵基因,并挖掘出了新的候選基因。(2)對GEO數(shù)據(jù)庫多個數(shù)據(jù)集和不同芯片平臺的頭頸部鱗癌細胞系放射敏感性基因表達數(shù)據(jù)的整合分析,識別出了放射抵抗和放射敏感組間的差異表達基因,并通過蛋白質相互作用網(wǎng)絡聚類分析獲得了重要的功能模塊和中心節(jié)點基因。(3)將文獻數(shù)據(jù)和基因表達數(shù)據(jù)分析結果相結合,有助于系統(tǒng)探究和深入剖析頭頸部鱗癌共同的放射抵抗機制,發(fā)現(xiàn)了STAT1、DCN等基因是重要的差異表達基因,預測出NMI

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論