

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、從pLink1到pLink2更快、更準的交聯(lián)肽段鑒定引擎,劉超中科院計算所 pFind團隊,2016第四屆中國計算蛋白質(zhì)組學研討會 中國·大連,提綱,背景與問題算法與軟件現(xiàn)狀與未來,CNCP 2016,2,背景,為什么要鑒定交聯(lián)肽段蛋白質(zhì)-蛋白質(zhì)相互作用蛋白質(zhì)結(jié)構(gòu),3,,,,,,CNCP 2016,以pLink1(Yang et al, 2012)應用為例,使用pLink1發(fā)表的文章29
2、篇Nature 2篇Science 1篇Nature Communications 1篇Nature Structural & Molecular Biology 3篇,4,pLink1,CNCP 2016,pLink1下載591套(2016.5.31),5,168,173,17,145,3,5,15,CNCP 2016,交聯(lián)鑒定面臨三大挑戰(zhàn),,6,01樣品復雜,02搜索空間大,03譜圖復雜,C
3、NCP 2016,交聯(lián)鑒定面臨三大挑戰(zhàn),,7,01樣品復雜,02搜索空間大,03譜圖復雜,,常規(guī)候選肽3.4×106,交聯(lián)候選肽5.35×1011,候選肽數(shù)目擴大10萬倍,人類數(shù)據(jù)庫,CNCP 2016,三個解決方案,,8,01 引入標記技術(shù)(濕)一級譜圖中有輕、重同位素峰簇對兒的認為是交聯(lián)肽段,CNCP 2016,三個解決方案,,9,01 引入標記技術(shù)(濕)一級譜圖中有輕、重同位素峰簇對兒的認為是
4、交聯(lián)肽段,02引入可碎裂交聯(lián)劑(濕)搜索交聯(lián)肽段n2 搜索兩條單肽2n,CNCP 2016,02引入可碎裂交聯(lián)劑(濕)搜索交聯(lián)肽段n2 搜索兩條單肽2n,三個解決方案,,10,01 引入標記技術(shù)(濕)一級譜圖中有輕、重同位素峰簇對兒的認為是交聯(lián)肽段,03使用高效的索引技術(shù)(干)?,CNCP 2016,提綱,背景與問題算法與軟件現(xiàn)狀與未來,11,CNCP 2016,技術(shù),,12,2008~2010,
5、CNCP 2016,技術(shù),,13,,,之前,之后,CNCP 2016,2012,FDR估計,NU:NF:NT 2: 1 : 1FDR=(NU-NF)/NT,14,CNCP 2016,從pLink1到pLink2,,15,開始,RAW?,格式轉(zhuǎn)換,蛋白質(zhì)數(shù)據(jù)庫,譜圖預處理,候選單肽,開放式索引,E-value,估計FDR,報告結(jié)果,結(jié)束,,速度,,精度,否,是,pLink1,候選雙肽,CNCP 2016,從pLink1到p
6、Link2,,16,開始,RAW?,格式轉(zhuǎn)換,蛋白質(zhì)數(shù)據(jù)庫,譜圖預處理,搜索α肽段,搜索β肽段,離子索引,,速度,精度,No,Yes,肽段索引,特征提取,機器學習,估計FDR,報告結(jié)果,結(jié)束,,改進1,改進2,改進3,CNCP 2016,pLink2,譜圖預處理 – 確定母離子單同位素峰,單肽 雙肽(交聯(lián)肽段),17,Yuan, Z.F., et a
7、l., pParse: a method for accurate determination of monoisotopic peaks in high-resolution mass spectra. Proteomics, 2011.,CNCP 2016,單同位素峰更低同位素峰數(shù)目更多,從pLink1到pLink2:搜索空間更精準,改進1 pLink1
8、 pLink2母離子質(zhì)量誤差正負5 Da 母離子質(zhì)量誤差正負20 ppm,18,pLink1,pLink2,pLink1的搜索空間大,二級譜圖中記錄的單同位素峰,單同位素峰,CNCP 2016,從pLink1到pLink2:搜索空間更精準,改進1 pLink1 pLink2母
9、離子質(zhì)量誤差正負5 Da 母離子質(zhì)量誤差正負20 ppm,19,pLink1,pLink2,pLink2的搜索空間,CNCP 2016,Yuan, Z.F., et al., pParse: a method for accurate determination of monoisotopic peaks in high-resolution mass spectra. Proteomics, 2011.,改進
10、2:從肽段索引到離子索引,20,SequenceDatabase,Pre-scoring,搜索兩個肽段兩兩組合 搜索空間巨大,對一個肽段的開放式搜索 搜索空間可控,CNCP 2016,改進2:從肽段索引到離子索引,21,Combining and Refined Scoring,SequenceDatabase,Pre-scoring,對一個肽段的開放式搜索 搜索空間可控,保留可信的單肽進行兩兩組合
11、 搜索空間較小,CNCP 2016,改進2:從肽段索引到離子索引,22,實際譜圖,……,,,來自數(shù)據(jù)庫的理論肽段理論譜圖,肽段間匹配,需要匹配所有的理論譜圖,無效匹配多,肽段索引,耗時:11毫秒結(jié)果:匹配譜峰數(shù)目為0,耗時:10毫秒結(jié)果:匹配譜峰數(shù)目為0,耗時:9 毫秒結(jié)果:匹配譜峰數(shù)目為3,無效匹配,無效匹配,有效匹配,CNCP 2016,改進2:從肽段索引到離子索引(Ion-Index),針對離子建立索引一個二級譜
12、圖的譜峰就是一個離子離子與離子匹配,23,……,離子間匹配,跳過肽段直接進行有效匹配,,,,離子索引,實際譜圖,來自數(shù)據(jù)庫的理論肽段理論譜圖,不在搜索空間內(nèi),不在搜索空間內(nèi),CNCP 2016,Chi Hao et al. Journal of Proteomics. 2015,改進3:機器學習(11維特征),24,CNCP 2016,改進3:機器學習(SVM在線訓練),pLink1計算E-Value耗時長適應性弱pLi
13、nk2使用機器學習(SVM)耗時短適應性強,25,開始,特征提取,迭代,終止,選擇訓練樣本,SVM訓練模型,重打分,重排序,達到終止條件,CNCP 2016,pLink2與pLink1對比,速度pLink2提升10到20倍精度pLink2交聯(lián)肽段數(shù)目提升50%,26,CNCP 2016,我們在10余套數(shù)據(jù)上進行了對比,pLink2與pLink1對比,pLink1 與 pLink2 鑒定不一致的主要來自兩類:1、67
14、%,鑒定結(jié)果母離子不一致。(改進1:譜圖預處理)2、20%,肽譜匹配一樣,但未通過FDR過濾。(改進2:機器學習),27,CNCP 2016,pLink2與Kojak對比,,28,Michael R. Hoopmann,Robert L. Moritz,CNCP 2016,Kojak的流程與pLink1類似,,29,開始,RAW?,格式轉(zhuǎn)換,蛋白質(zhì)數(shù)據(jù)庫,譜圖預處理,候選單肽,開放式索引,E-value,估計FDR,報告結(jié)果,結(jié)
15、束,,速度,,精度,否,是,pLink1,候選雙肽,500,CNCP 2016,Kojak的流程與pLink1類似,,30,開始,RAW?,格式轉(zhuǎn)換,蛋白質(zhì)數(shù)據(jù)庫,譜圖預處理,候選單肽,開放式索引,機器學習Percolator,估計FDR,報告結(jié)果,結(jié)束,,速度,,精度,否,是,Kojak,候選雙肽,250,CNCP 2016,測試數(shù)據(jù)集1,合成肽段38條(答案),兩兩組合,使用BS3交聯(lián)與“答案”一致的高可信譜圖1030
16、張(正確結(jié)果);Kojak分析可以得到869張1047張母離子質(zhì)量增加50ppm的譜圖(錯誤結(jié)果);,31,pLink,38條合成肽段,1030張,CNCP 2016,手工驗證,搜索Human庫,增大搜索空間,測試軟件的速度和精度,32,2077張MSMS,pLink2,Kojak,38條合成肽段Swissprot Human(20197 entries),CNCP 2016,pLink2與Kojak:速度,,33,pLin
17、k2,Kojak,CNCP 2016,使用64位的PC進行測試,Intel® Xeon® E5-2670(主頻2.6GHz ),4線程“2000張二級譜圖”“人庫” “10分鐘”,34,CNCP 2016,使用64位的PC進行測試,Intel® Xeon® E5-2670(主頻2.6GHz ),4線程“2000張二級譜圖”“人庫”“10分鐘”“1萬張二級譜圖”“人庫”“約50分鐘”,35,C
18、NCP 2016,pLink2與Kojak:精度,36,,,Kojak,pLink2,77 276 739,譜圖層次FDR小于等于5%,CNCP 2016,pLink2與Kojak:精度,37,,,Kojak,pLink2,77 276 7398 276 70210% 1
19、00% 95%,譜圖層次FDR小于等于5% 紫色:與正確結(jié)果一致的肽譜匹配,CNCP 2016,測試數(shù)據(jù)集二:15N代謝標記,候選肽1:GNTSLYDHNNNTSDYSK,候選肽2:QSYMDAMLDPMAWMGK,Zhong, H., S.L. Marcus, and L. Li, Two-dimensional mass spectra generated from the analysis of
20、15N-labeled and unlabeled peptides for efficient protein identification and de novo peptide sequencing. J Proteome Res, 2004. 3(6): p. 1155-63.,CNCP 2016,38,精度:15N代謝標記,候選肽1:GNTSLYDHNNNTSDYSK,,1:1,C79H116N24O22S0,24 Da,候
21、選肽2:QSYMDAMLDPMAWMGK,,C81H123N19O24S4,19 Da,,正確的鑒定結(jié)果,錯誤的鑒定結(jié)果,NaN,CNCP 2016,39,精度 - 15N代謝標記,,,Kojak Both pLink 2,644 1738 1738,28.3% 2.4% 4.7%,,,Kojak
22、 Both pLink 2,134 279 251,47.8% 1.8% 11.2%,復雜樣品:15N labeled E. coli,F(xiàn)DR小于等于5%,只看交聯(lián)結(jié)果紫色:NaN比值的比例,即沒有一級譜圖輕、重信號對兒證據(jù)的結(jié)果比例,譜圖層次,肽段層次,CNCP 2016,40,干、濕技術(shù)結(jié)合:pLink2支持可碎裂
23、交聯(lián),特征峰減少搜索空間減少譜圖數(shù)目,41,CNCP 2016,干、濕技術(shù)結(jié)合:pLink2支持可碎裂交聯(lián),特征峰減少搜索空間可以得到單肽的母離子質(zhì)量,開放式搜索 限定式搜索減少譜圖數(shù)目沒有特征峰的是單肽,有特征峰的為交聯(lián)肽段,42,CNCP 2016,pLink2支持可碎裂交聯(lián),,43,10524MSMS,716MSMS,含有特征峰,pLink2DSSO,pLinkIon-Index,流程1,流程
24、2,流程3,利用特征峰信息搜索兩條單肽高效的限定式搜索,不利用特征峰信息搜索雙肽開放式搜索:離子索引,Liu, F., et al., Nat Methods, 2015. 12(12): p. 1179-84.,CNCP 2016,干、濕技術(shù)結(jié)合:速度提升160倍,44,縮減譜圖數(shù)目,縮減搜索空間,Intel® Xeon® E5-2670(主頻2.6GHz ),單線程,與Kojak對比: “四線程”
25、“1萬張二級譜圖”“人庫”“約50分鐘”干、濕技術(shù)結(jié)合:“單線程”“1萬張二級譜圖”“人庫”“不到2分鐘”,CNCP 2016,總結(jié),在這個報告之前“搜索人庫的交聯(lián)肽段”?,45,CNCP 2016,總結(jié),在這個報告之前“搜索人庫的交聯(lián)肽段”?,46,CNCP 2016,總結(jié),在這個報告之后“搜索人庫的交聯(lián)肽段”?,47,CNCP 2016,總結(jié),速度干:使用多線程、離子索引等技術(shù)“1萬張二級譜圖”“人庫”“約50分鐘
26、”干、濕結(jié)合:pLink支持可碎裂交聯(lián)“1萬張二級譜圖”“人庫”“不到2分鐘”精度在標注集和標記數(shù)據(jù)集上,可信度較高建議:可以考慮下“富集”問題(Tan et al. 2016),48,CNCP 2016,致謝,49,董夢秋實驗室Cross-linkER楊兵 博士朱明 博士盧珊 博士譚丹 博士董夢秋 研究員,CNCP 2016,致謝,50,pFind團隊pLinkER吳妍潔 碩士 樊盛博
27、 博士孟佳明 碩士尹吉澧 碩士賀思敏 研究員,CNCP 2016,謝謝!,訪問http://pfind.ict.ac.cn/獲取更多信息,51,,,,,,,,,,,,,,,,,,,,,,,,,2016,2003,2009~2010,2012,2014~2015,pFind v1.0 問世,發(fā)布pTop 、pQuant,pFind 第一次實戰(zhàn)發(fā)布pNovo,發(fā)布pLink1,發(fā)布pFind 3 pLink 2pGly
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國精神衛(wèi)生工作規(guī)劃(2002—2010年)
- 2007——2010年直屬機關(guān)黨委黨建工作規(guī)劃
- 《全國健康教育與健康促進工作規(guī)劃綱要(2005—2010年
- 工作規(guī)劃文檔
- 縣安監(jiān)局2019年 工作規(guī)劃
- 顧問工作規(guī)劃
- 綜采二區(qū)2010年黨支部工作總結(jié)及2011年工作規(guī)劃2
- 教研工作規(guī)劃
- 質(zhì)量工作規(guī)劃
- 教研工作規(guī)劃
- 鄉(xiāng)鎮(zhèn)五年工作規(guī)劃精品
- 縣安監(jiān)局(2019年)工作規(guī)劃
- 2015年“六五”普法工作規(guī)劃
- 縣安監(jiān)局2019年工作規(guī)劃
- 2018年農(nóng)業(yè)局工作規(guī)劃
- 德育工作規(guī)劃
- 學校科普工作規(guī)劃
- 2019年工作總結(jié)及2020年工作規(guī)劃
- 醫(yī)院客服工作規(guī)劃
- xx普法工作規(guī)劃
評論
0/150
提交評論