蛋白質組表達譜基本生物信息學研究及全蛋白質組等電點分布研究.pdf_第1頁
已閱讀1頁,還剩127頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、人類基因組研究為我們提供了人類基因組圖譜,但基因組圖譜所能提供的基因組內蘊含的功能信息非常有限。為了系統(tǒng)闡釋其編碼基因的功能,以及其間的相互關系等,蛋白質組研究日益受到關注。 蛋白質組研究最根本的目標是建立生物體組織或器官的蛋白質組表達譜,以及隨后系統(tǒng)地闡明表達譜的生物學意義。至今,蛋白質組的多種鑒定儀器已經能以較高的通量進行蛋白質鑒定,這些技術為大規(guī)模的蛋白質組表達譜研究奠定了基礎。然而,與高速發(fā)展的儀器相比較,適合于大規(guī)模

2、蛋白質組表達譜研究的數(shù)據(jù)處理、整合及分析方法明顯滯后。雖然個別表達譜研究也建立了部分數(shù)據(jù)處理、整合的方法,但至今仍然沒有一個系統(tǒng)、全面的數(shù)據(jù)處理、整合體系。蛋白質鑒定的可靠性依然是蛋白質質譜鑒定的難點;而且,在質譜產出數(shù)據(jù)和最終表達譜的系統(tǒng)生物學意義分析之間仍然存在著難以跨越的鴻溝。 為進一步提高蛋白質鑒定的可靠性,并填補蛋白質質譜鑒定和表達譜分析之間的鴻溝,為最終鑒定蛋白質的生物學分析提供便利,本文在對現(xiàn)有研究的充分調研以及

3、對蛋白質組表達譜需求詳細分析的基礎上,建立了多種策略以加強鑒定結果的可靠性,并為隨后的生物學分析提供了鑒定蛋白質的基本注釋信息。 對于基因組序列已知的生物,數(shù)據(jù)庫搜索策略是最經濟、最有效的蛋白質鑒定方法。為獲得盡可能多高可靠性的鑒定結果,采用了分步搜索的策略:首先通過對一個質量相對較高、覆蓋率較大的非冗余數(shù)據(jù)庫的搜索完成基本鑒定;其次,為了充分利用質譜數(shù)據(jù),我們建立了用其它數(shù)據(jù)庫(包括蛋白質數(shù)據(jù)庫和核酸數(shù)據(jù)庫)進行分步搜索的策

4、略,完成了質譜數(shù)據(jù)的補充鑒定和新蛋白質挖掘。 由于數(shù)據(jù)庫搜索屬于一種模式匹配的策略,所用的質譜鑒定結果往往不是特別精確,而且數(shù)據(jù)庫中也存在大量的相似蛋白質或肽段,有時一個質譜鑒定結果可能匹配不止一個蛋白質或肽段。為了充分利用這些質譜數(shù)據(jù),并準確地描述肽段和蛋白質鑒定的不精確性,建立了肽段和蛋白質鑒定的Group模型。 對于肽質量指紋譜的結果,針對其數(shù)據(jù)的特殊性,首先利用統(tǒng)計方法獲得樣品和儀器產生的噪音數(shù)據(jù),并通過Ho

5、ugh轉換獲得偏差較大的結果。通過對這些結果的去除,有效地排除了肽質量指紋譜鑒定結果的不可靠肽段。此外,通過對同一個PMF鑒定結果聚類的方法解決了爭執(zhí)良久的MALDI-TOF/TOF結果中一個PMF結果鑒定多個蛋白質時數(shù)據(jù)取舍的問題。 在上述盡量提高蛋白質質譜鑒定可靠性的基礎上,仍然需要對最終結果進行可靠性評估。在現(xiàn)有可靠性評估方法的基礎上,建立了一種比現(xiàn)有方法更準確估算鑒定結果的陽性(正確鑒定結果)和陰性(隨機匹配結果)分布

6、及比例的方法,即利用混合數(shù)據(jù)庫(正向數(shù)據(jù)庫+反向數(shù)據(jù)庫)和正向數(shù)據(jù)庫搜索結果結合進行差減運算的方法。 最后,為了有效銜接蛋白質質譜鑒定結果和最終表達譜數(shù)據(jù)的生物學分析,建立了質譜數(shù)據(jù)處理、整合和注釋系統(tǒng)。數(shù)據(jù)的處理首先用Group模型獲得鑒定結果的Group,隨后利用集合運算的方法進行數(shù)據(jù)的整合:即先對有交叉蛋白質的鑒定Group取并集,而后對屬于一個并集的所有Group進行交集運算。最后獲得鑒定結果的Cluster(同一個并

7、集的所有Group)和Uniquegroup(交集的結果)。此外,為了展示Cluster內部各Uniquegroup間的關系,借鑒進化樹繪制的方法建立了Uniquegroup間樹形關系圖表示法。 這些數(shù)據(jù)處理和整合體系將獲得盡量可靠的鑒定蛋白質列表。為便于最終的表達譜數(shù)據(jù)分析,在EBI和NCBI提供的核酸和蛋白質相關信息的基礎上,建立了鑒定蛋白質的注釋體系,為隨后的蛋白質組表達譜分析提供了必要的信息。 上述多種策略是

8、在本實驗室人胎肝蛋白質組表達譜研究、HLPP表達譜研究及CNHLPP標準蛋白的數(shù)據(jù)分析過程中逐步建立的,并在這些研究中得到了應用,實踐證明,這些策略是行之有效的。 本研究能為大規(guī)模蛋白質組表達譜研究獲得高可靠性的蛋白質鑒定結果提供了較嚴格的數(shù)據(jù)處理、整合方法,有望在某種程度上降低蛋白質鑒定的假陽性率。同時,這些方法也對小規(guī)模的蛋白質鑒定等研究有一定的借鑒意義。 此外,本論文還包含了對全蛋白質組等電點多峰分布現(xiàn)象的研究

9、。早在1988年,就有研究發(fā)現(xiàn)等電點近中性的蛋白質非常缺乏。隨后的研究表明,等電點可能呈現(xiàn)雙峰或三峰的分布現(xiàn)象,并且這些峰可能和亞細胞定位有關系。為了驗證此結論,作者對多種不同生物全基因組編碼蛋白質組及隨機蛋白質組的等電點分布進行仔細研究,發(fā)現(xiàn)這種多峰分布是不同生物蛋白質組等電點分布的普遍現(xiàn)象,而且人類隨機蛋白質組和全基因組編碼蛋白質組的等電點分布非常相似。全蛋白質組模擬2DE圖表明,多峰分布的根源在于低分子量區(qū)域等電點分布的不連續(xù)性。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論