版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著第一條人類DNA被解碼成2.8GB的字符串,許多生物學(xué)的研究都集中在對(duì)DNA序列的分析上。本文選取DNA序列的索引進(jìn)行研究,旨在解決目前DNA序列的FM-index不能夠在普通電腦(4-8G內(nèi)存)上高效構(gòu)造的問題。本文提出的增量式構(gòu)造FM-index的算法框架為繼續(xù)研究高效構(gòu)造FM-index提供了理論基礎(chǔ)。現(xiàn)實(shí)意義上,該算法擴(kuò)展了FM-index的應(yīng)用范圍,節(jié)約了購(gòu)買超級(jí)計(jì)算機(jī)的成本。
FM-index是壓縮全文本自索引
2、的一種。通常FM-index的算法框架分為以下步驟:首先,將文本T經(jīng)過BWT變換(Burrow-Wheeler Transform)得到的文本L;然后,采用小波樹(Wavelet-tree)對(duì)文本L進(jìn)行編碼存儲(chǔ);接著為小波樹的內(nèi)部節(jié)點(diǎn)提供高效的rank查詢結(jié)構(gòu);最后采樣后綴數(shù)組(SA)和名次數(shù)組(SA-1)。FM-index在這些基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)的支持下實(shí)現(xiàn)高效的count,locate和extract操作。它最初最多使用5nHk(T)+o
3、(n)位的空間存儲(chǔ),其中Hk(T)表示T的k階經(jīng)驗(yàn)熵,n表示文本的長(zhǎng)度。FM-index可在普通電腦內(nèi)存中存儲(chǔ),然而構(gòu)造過程中過高的峰值內(nèi)存或者過長(zhǎng)的構(gòu)造的時(shí)間均限制了FM-index的應(yīng)用。通過大量閱讀和分析之前的研究成果,深入理解BWT變換的過程,理解SA、SA-1和LF映射的關(guān)系以及rank查詢結(jié)構(gòu)的特點(diǎn),經(jīng)過大量實(shí)驗(yàn)測(cè)試與分析,最終得到了本文的算法。
本文主要分3個(gè)部分進(jìn)行了研究:首先,為了解決DNA數(shù)據(jù)的BWT變換無
4、法在普通電腦上完成的問題,本文提出了LF-BWT算法。該算法理論上在線性時(shí)間內(nèi)利用線性空間完成了DNA數(shù)據(jù)的BWT變換,實(shí)驗(yàn)表明,LF-BWT算法僅需不到原文本1倍的空間就可以快速完成DNA數(shù)據(jù)的BWT變換,并且可以調(diào)整參數(shù)來獲得時(shí)間和空間的權(quán)衡,進(jìn)一步擴(kuò)展了LF-BWT算法的使用范圍。該算法在與最新的主流算法的比較中也表現(xiàn)出了優(yōu)勢(shì)。第二,為了解決LF-BWT算法在構(gòu)造過程沒有獲得SA和SA-1采樣的問題,本文提出了由BWT變換生成的文
5、本通過LF映射在線性時(shí)間內(nèi)獲得SA和SA-1采樣的算法。該算法并不完整存儲(chǔ)SA,而是每次LF映射過程中遇到采樣點(diǎn)就進(jìn)行采樣,這極大的減小了內(nèi)存空間的占用。第三,為了更進(jìn)一步提高FM-index的壓縮率和查詢效率,本文提出了RRR算法的一個(gè)改進(jìn)版本CF算法,它充分結(jié)合了CPU字長(zhǎng)以及數(shù)據(jù)的局部性原理,提高了cache命中率。該算法在保持了與RRR算法的空間和查詢時(shí)間理論復(fù)雜性一致的情況下,提供了更加高效的實(shí)際性能。實(shí)驗(yàn)表明,不管是隨機(jī)數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于FM-index的壓縮查詢方法研究與應(yīng)用.pdf
- 面向基因組重測(cè)序的BWT索引壓縮算法.pdf
- 雙重基因組重構(gòu)算法的實(shí)現(xiàn).pdf
- 大規(guī)?;蚪M比對(duì)算法.pdf
- 基因、基因組和基因組學(xué)
- 基因組重組排序問題的算法研究.pdf
- 無向基因組的移位排序算法.pdf
- 基因組移位排序算法的改進(jìn)和評(píng)測(cè).pdf
- 高效的分布式大規(guī)模基因組序列組裝.pdf
- 基因組島識(shí)別算法研究及應(yīng)用.pdf
- 基因組變異仿真與基因組模式鑒定.pdf
- 無參考基因組的比較基因組學(xué)研究.pdf
- 元基因組序列聚類算法研究.pdf
- 基因組比對(duì)中若干改進(jìn)算法研究.pdf
- 基因組短序列片段拼接算法研究.pdf
- 基于錨點(diǎn)的多基因組序列比對(duì)算法.pdf
- 群體基因組學(xué)若干模型與算法.pdf
- 基因組的排序問題.pdf
- 13769.宏基因組的序列拼接算法研究
- 面向材料基因組的材料信息學(xué)技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論