新檢索方法可在幾分鐘內(nèi)找到靶DNA序列

編輯: 逍遙路 關(guān)鍵詞: 高中生物 來源: 高中學(xué)習(xí)網(wǎng)

從數(shù)據(jù)庫中檢索DNA序列需要花費生物學(xué)家和醫(yī)學(xué)研究人員幾天的時間,多虧美國卡耐基梅隆大學(xué)計算機科學(xué)家們開發(fā)出的一種新的檢索方法,如今這種檢索只需幾分鐘時間就可完成。

由計算生物學(xué)副教授CarlKingsford和計算生物學(xué)系博士生BradSolomon開發(fā)的這種方法旨在檢索所謂的短測序片段(shortreads),即由高通量測序技術(shù)產(chǎn)生的DNA和RNA序列。它依賴一種新的被稱作序列布隆樹(SequenceBloomTree,SBT)的索引數(shù)據(jù)結(jié)構(gòu)。

美國國家衛(wèi)生院維護著一個龐大的被稱作序列片段歸檔(SequenceReadArchive)的數(shù)據(jù)庫,該數(shù)據(jù)庫總共含有(3×1015)個堿基對。這種信息對很多研究人員---從對基礎(chǔ)生物學(xué)過程提出問題的那些研究人員到研究潛在癌癥治愈方法的那些研究人員---有用。

Kingsford說,“這種數(shù)據(jù)庫含有未知數(shù)量的迄今為止尚未發(fā)現(xiàn)的新認(rèn)識,而且被人們大量地使用。它的主要問題是檢索比較困難!

它需要上千個硬盤來儲存這些序列。他注意到,通過短測序片段---通常每個片段長50到200個堿基對---進行搜索以便觀察哪些短測序片段能夠組裝成可能長1萬個堿基對的靶基因,是比較繁瑣的,在某些情形下需要數(shù)天時間才能完成。

正如索引能夠加快書本或目錄檢索,這種由Kingsford和Solomon開發(fā)的基于SBT的索引能夠極大地加快這種生物信息學(xué)數(shù)據(jù)庫檢索。利用被稱作布隆過濾器(Bloomfilters)的數(shù)據(jù)結(jié)構(gòu),他們實際上將每個短測序片段描述為一個固定長度的子序列集合。布隆過濾器能夠高效地在小空間中儲存信息,并且能夠測試一種元素是不是一個集合的成員。

在一級查詢水平上,SBT能夠判別靶DNA序列是否包含在這個數(shù)據(jù)庫中。如果包含的話,那么這種檢索進行到下一個水平:SBT指示這種序列是否存在于這個數(shù)據(jù)庫的前半部分還是后半部分。在每個水平上,這種查詢以某種方式擴散開去直到所需檢索的序列被檢索到。

Kingsford和Solomon利用2652項人血液、乳腺和大腦實驗---其中每項實驗產(chǎn)生的數(shù)據(jù)經(jīng)常含有十億多個RNA序列堿基對---產(chǎn)生的數(shù)據(jù)庫測試了它們的技術(shù)。他們發(fā)現(xiàn)對這種數(shù)據(jù)庫的絕大多數(shù)的檢索可以在平均20min內(nèi)完成。作為比較,他們利用現(xiàn)有的被稱作SRA-BLAST和STAR之類的技術(shù)估計了所需的檢索時間:SRA-BLAST需要2.2天,而STAR需要921天。

他們注意到,進一步的加快檢索是可能的,這是因為這種新檢索方法每批次能夠同時進行20萬多個查詢。


本文來自:逍遙右腦記憶 http://www.yy-art.cn/gaozhong/880036.html

相關(guān)閱讀:生物設(shè)計實驗步驟常用“四步法”