基因組詞語構成特性分析及應用研究.pdf_第1頁
已閱讀1頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、近幾年來生物信息學主要關注了DNA序列上的數(shù)據(jù)特點,利用DNA序列中的堿基信息去探索序列中的功能區(qū),挖掘序列中可能含有功能信息的潛在位點,探索隱藏在堿基下的遺傳信息。本文目的在于挖掘出DNA序列中的功能詞語和功能信號,但由于現(xiàn)階段對非編碼區(qū)表達信息知道的很少,因此對于更加準確理解DNA序列有一定困難。
  在本文中主要提出了條件隨機場模型作為序列切分的工具,與其他統(tǒng)計模型相比,它解決了標記偏置的問題,同時可以任意添加特征。首先是對

2、英文序列進行分析,選取與語言無關的特征,最后發(fā)現(xiàn)改進的信息熵包含的信息量最多。然后對添加了特征和標記的英文的序列進行切分,發(fā)現(xiàn)準確率在90%以上,說明基于條件隨機場的英文序列的切分是有效的,選取的特征有很好的切分效果。利用英文序列和DNA序列都是小字符集的特點,同時經(jīng)過英文序列切分選取到好的與語言無關的特征。考慮遷移學習的思想,對英文序列和DNA序列的特征值進行擬合分析,發(fā)現(xiàn)兩個樣本空間的特征值可以通過轉換函數(shù)連接起來,對英文序列的特征

3、值經(jīng)過轉換函數(shù)處理后映射到DNA序列的樣本空間;同時考慮不采用遷移學習,利用已有的位點信息來構造模型進行序列的切分,對兩者的序列切分的結果進行比較,遷移學習的召回率在80%左右,而只基于已有位點的切分召回率只有40%左右,這說明遷移學習對DNA序列切分的準確性要比采用已有的位點信息進行切分準確的多。
  最后研究DNA序列的詞序列應用。通過采用向量空間模型和改進的序列比對方法去計算人和黑猩猩序列的物種相似度,發(fā)現(xiàn)改進的序列比對的方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論