基因探針富集分析(gsea)_第1頁
已閱讀1頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基因探針富集分析(GSEA)翻譯心得(例子部分除外)2011010416:24:44|分類:【主】微陣列|標簽:探針基因gsea富集表型|字號訂閱作者:為為作者:為為基因探針富集分析:通過基礎知識來揭示基因組表達數(shù)據(jù)的一種方法基因探針富集分析:通過基礎知識來揭示基因組表達數(shù)據(jù)的一種方法盡管通過RNA表達分析基因組在生物醫(yī)學研究中已經(jīng)成為一種直接途徑,但從這些信息中能顯示出生物學的重大發(fā)現(xiàn)(insight)現(xiàn)在仍然是一個大問題(2005)

2、。在這里,我們將講述一個給力的分析軟件(GSEA:GeneSetEnrichmentAnalysis基因探針富集分析)是如何揭示基因芯片所表達的數(shù)據(jù)關(guān)系。這個分析軟件是源于一個強力的聚集基因理論——有很多基因成組具有共同的生理功能,或染色體位置,或調(diào)節(jié)位點。我們將討論GSEA如何在癌癥晚期(包括白血病和肺癌)的基因探針集大顯身手。尤其是在單獨分析兩個獨立研究組的肺癌病人基因組時,能發(fā)現(xiàn)不同基因組的細微類似之處的能力。GSEA的初始數(shù)據(jù)包

3、已經(jīng)含有了1325有生物學意義的探針集,并在很多免費的軟件包中可用了。ByEricS.LerAugust22005當今通過DNA微陣列分析基因表達已成為基因研究的主流。獲得基因表達數(shù)據(jù)已不再是困難與挑戰(zhàn),但是從獲得的數(shù)據(jù)(基因表達)中揭示出生物的意義的原理和方法才是研究的終極目的。在一個典型實驗中,mRNA的表達文件(無數(shù)基因)大部分(既是概率也是數(shù)量)都會被分為一到兩個大類,對于癌癥基因來說相對(其他生物意義(如疾病))的敏感。根據(jù)這

4、些基因的不同表達值可以排成一個序列(按大小順序),暫且成為L?,F(xiàn)在的最大問題就是找出其中的意義所在。一個普遍的方法是把注意力放在L的頂部和底部的少數(shù)基因上(因為能體現(xiàn)最大的差別),來辨別其中的跡象以揭示生物意義的線索。但這種一般方法有很多主要的限制。(i)在校正多重假設實驗后,沒有任何單獨基因顯示出有統(tǒng)計學意義的臨界值,這是因為相關(guān)的生物學意義誤差值被微陣列技術(shù)處理中的相關(guān)噪聲掩蓋了。步驟1:計算富集積分(EnrichmentSce,E

5、S)我們計算出一個富集積分值(ES),其為S的基因超表達在整個L序列的頭部和尾部的多少。積分值的計算是從L序列的頭部開始往尾部走,每當遇到一個基因是在S上就加分,沒有則減分。加分的分值大小根據(jù)基因表型相關(guān)系數(shù)大小。富集分值是從沒有遇到的時候開始計算直到最大值誤差值;而且它還與KStest統(tǒng)計加權(quán)值有關(guān)。步驟2:估計ES的顯著程度我們估計統(tǒng)計學上有意義部分的ES值(名義上的P值),是通過一個經(jīng)驗基礎表型方法——置換檢驗,保存基因表達數(shù)據(jù)的

6、結(jié)構(gòu)的復雜相關(guān)系數(shù)。明確地,我們置換不同表型標簽下的數(shù)據(jù),并且再一次計算ES值,使之形成一個新的ES分布(假分布)。從經(jīng)驗上說,交換之后,ES的P值相對于新的ES值(統(tǒng)計分布)來說若是顯著的變化,則有理由說明此基因集是有一定的生物學意義的。步驟3:多重假設檢驗的調(diào)整當評估了所有基因探針數(shù)據(jù)之后,我們會用多重假設檢驗來評價它們的顯著性。我們首先把每一個探針的ES值做根據(jù)探針多少的一個標準化,生成一個標準化富集積分值(NES)。之后我們計算

7、出假陽性發(fā)現(xiàn)率(FDR),并以此劃出假陽性部分對應每一個NES值。FDR是評估一個NES表達值中所發(fā)現(xiàn)的假陽性可能性大小;它是由NES的觀測值和零分布時比較得出的。以上幾步的實行細節(jié)在附錄附錄里面有更詳細的說明。(在相關(guān)出刊物和PNAS網(wǎng)頁上也有支持文件。)我們注意到GSEA方法中很重要的幾步跟初始版本很不一樣了。在原始版本中,統(tǒng)計表達值總和的時候,我們用的是平均權(quán)重的方法,這樣探針會被認為富集在列表中間,則使高分段集中在列表中部。這樣

8、子的探針分布不能代表出跟表型相關(guān)的生物學意義。所以我們改變權(quán)重加權(quán)方式為與表型的相關(guān)性。這樣就會發(fā)現(xiàn),ES值會偏差于一兩種表型上了。因此我們評估顯著性以此來分離陽性與陰性功能基因集。我們初始運用了一個不同以往的交換方法,叫做FWER,來糾正多重假設檢驗。FWER是一種保守的修改方法,所以會保證沒有一個假陽性的基因探針值。但是這種標準實在太過保守以至于很多程序產(chǎn)生了沒有顯著的統(tǒng)計結(jié)果。因為我們的初衷是產(chǎn)生一個假設能夠成立(譯者注:霸王硬上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論