蛋白質相互作用文獻挖掘方法、注釋體系及挖掘平臺研究.pdf_第1頁
已閱讀1頁,還剩95頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、蛋白質相互作用(Protein-Protein Interaction, PPI)是細胞中一類極其重要的生物分子活動,這類活動參與細胞生命周期各個生物學過程。對其研究不僅有助于我們認識生命活動更深的層次,同時對臨床疾病的診斷和治療也具有重要意義。隨著生命科學研究的發(fā)展,研究成果文獻也日益增多。這些文獻中含有大量的PPI知識以及PPI最新的研究發(fā)現(xiàn)。然而傳統(tǒng)的手工閱讀文獻方式已經難以及時、高效地收集和整理這些信息,從而使得分子生物學家的研

2、究工作變得越發(fā)困難,成為人們面臨的一大挑戰(zhàn)。采用自動化的挖掘方法從文獻中獲取蛋白質相互作用信息并進行信息結構化存儲和展示是解決這一難題的有效途徑。然而目前蛋白質相互作用自動挖掘研究領域仍存在不少不足之處:蛋白質相互作用關系挖掘方法性能仍需進一步提高;缺乏合理的描述蛋白質相互作用的注釋體系,限制了蛋白質相互作用重要功能注釋信息的深入挖掘;缺少滿足批量化數據處理需求的蛋白質相互作用輔助挖掘平臺以及對文獻挖掘結果進行結構化存儲和展示的蛋白質相

3、互作用知識庫等等。針對這一系列問題,我們提出本課題研究目標:在蛋白質相互作用關系挖掘方法提升基礎上,進一步構建蛋白質相互作用本體用于挖掘蛋白質相互作用注釋信息;同時,基于建立的蛋白質相互作用挖掘方法開發(fā)適合當前需求的蛋白質相互作用挖掘平臺,設計適合存儲和展示文獻挖掘結果的蛋白質相互作用知識庫。
  首先,我們建立了對文獻數據進行蛋白質相互作用關系挖掘的支持向量機(Support Vector Machines, SVM)方法。該方

4、法整合四種有效句子特征,即關鍵詞特征、詞性特征、邏輯特征以及依存句法特征,并對這些特征進行組合優(yōu)化研究。在LLL05測試語料上,基于SVM方法取得了準確率為81.8%,召回率為96.4%和F值為88.5%的良好效果。方法的效果優(yōu)于當前在同一測試集上最好方法。
  然后,我們構建了蛋白質相互作用功能注釋體系——蛋白質相互作用本體(PPI Ontology)。為了更好地挖掘蛋白質相互作用注釋信息,我們從蛋白質相互作用本質——生物分子事

5、件的角度出發(fā),提出蛋白質相互作用本體框架,包含蛋白質相互作用發(fā)生時間、地點、發(fā)生方式、結果以及證據等方面信息。通過這個框架明確了蛋白質相互作用信息的范疇,通過重用現(xiàn)有相關本體以及重新構建蛋白質相互相互作用類型本體,整合得到了包括相互作用參與者的角色及狀態(tài)、生物學過程、亞細胞定位、相互作用類型、生物學功能以及檢測方法六個部分在內的蛋白質相互作用本體。該本體在BC-PPI測試語料集以及人類肝臟相關文獻蛋白質相互作用注釋信息挖掘應用上取得了較

6、好效果。
  進一步,我們在構建的蛋白質相互作用挖掘方法基礎上,開發(fā)了蛋白質相互作用文獻挖掘平臺(PPICurator)。該平臺考慮了當前批量化文獻及蛋白質數據處理的需求。同時,用戶可以在文獻檢索及蛋白質相互作用挖掘結果階段進行數據篩選。平臺還具有對蛋白質相互作用挖掘結果進行導出和可視化等功能。該系統(tǒng)可以有效提高研究人員挖掘領域相關文獻的蛋白質相互作用信息的速度。
  最后,我們設計并實現(xiàn)了用于存儲從文獻挖掘得到的蛋白質相互

7、作用數據的知識庫系統(tǒng)(dbPPII)。該系統(tǒng)采用瀏覽器/服務器(B/S)架構,能為用戶提供基于本體概念名稱、蛋白質名稱和蛋白質名稱對三種方式來查詢和獲取蛋白質相互作用信息。同時本體的層次結構可以直觀展示蛋白質相互作用的功能分布,具有導航和瀏覽作用,為用戶查找相應功能蛋白質相互作用提供了垂直、便捷的方式。
  綜上所述,本研究工作有以下幾點創(chuàng)新之處:
 ?。?)基于SVM模型探索了關鍵詞特征、詞性特征、邏輯特征以及依存句法特征

8、多個有效的學習特征在蛋白質相互作用關系挖掘中的不同作用效果,并最終獲得了這些特征的最優(yōu)組合,是目前在同一測試數據集上的最好方法。
  (2)新的蛋白質相互作用注釋體系的構建。該體系首次從生物分子事件的角度描述蛋白質相互作用,建立蛋白質相互作用本體,更符合蛋白質相互作用知識表示以及適用于文獻挖掘任務。在相互作用注釋信息挖掘任務中取得了較好的效果。
 ?。?)基于研發(fā)的SVM蛋白質相互作用挖掘方法搭建全新的蛋白質相互作用挖掘平臺

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論