• 免費服務熱線
  • 400-065-6886
  • 電話:86(0)512-6295 9990
  • 傳真:86(0)512-6295 9995
新聞中心

迄今為止最全的多物種微衛星注釋數據庫MSDB發布

發稿時間:2019-10-28來源:天昊生物


               去年十月,Nucleic Acids Research刊登了一篇SSRome數據庫的文章,發布了一個整合了所有物種SSR在線數據資源的專業SSR數據庫(“終于等到你!“SSRome”,所有物種SSR標記開發整合數據庫發布)。今年十月,Nucleic Acids Research又帶來一個最新的SSR數據庫—MSDB,微衛星綜合注釋數據庫,涉及的物種增加到了37262種,增加了近7倍,可謂SSRome的“加強版”!


發表時間:2019-10-10  影響因子:11.147

                                       MSDB網址:https://data.ccmb.res.in/msdb/


網站首頁節選


微衛星數據庫(MicroSatellite DataBase,MSDB)是簡單序列重復序列的集合。微衛星是存在于所有基因組中的1-6個堿基基序的短串聯重復序列。人們研究它們作為分子標記和法醫學的用途,最近研究它們的基因調節功能。此外,許多研究指出它們在進化中的作用,因為它們在物種內和物種間的多態性比率很高。MSDB的目標是成為獲取和可視化SSR相關信息的直接資源。

MSDB來自37680個基因組的40億多個微衛星的集合,呈現在一個用戶友好的門戶網站上,便于進行交互式分析和可視化。這是迄今為止訪問和分析多物種微衛星數據的最全面、帶注釋、最新的數據庫。MSDB的特性使用戶能夠以可過濾和導出的表格的形式瀏覽數據,也可以以交互式圖表的形式同時查看和比較多個物種的數據。它的模塊化和架構允許新數據的無縫更新,特別是在它們的進化和基因組組織和基因調控新作用的背景下,會使它成為研究微衛星的強大工具和有用資源,

表1、MSDB與現有微衛星數據庫的比較,基于(A)可獲得數據的物種數量,(B)數據庫的特征和功能


MSDB搭建方法

MSDB中所有基因組數據都是從NCBI的RefSeq和GenBank,以及UCSC中獲得的。序列信息以FASTA格式下載,基因注釋以GFF/GTF格式下載。如果相同裝配水平的多個基因組可用,則選擇最近發布的版本。除了序列之外,還記錄了該物種的其他信息,如系統發育分類。

在重復的識別方面,使用PERF鑒定來自基因組序列的微衛星。PERF根據基序序列的周期性變化,將5356個1-6nt長的DNA基序的可能排列分為501個獨特的微衛星類別。所有基序最小長度截止值為12 nt。PERF的輸出是一個TSV文件,它遵循BED格式規范來描述所識別的微型衛星的位置和其他信息。除了FASTA輸入之外,還向PERF提供基因注釋,根據這些注釋確定每個微衛星的最近基因以及到最近TSS(轉錄起始位點)的距離。此外,微衛星被分為外顯子、內含子或基因間重復。

數據庫設計方面,MSDB的后端由MySQL支持,使用基于Python的Django框架作為中間件進行查詢和訪問。重新設計的數據庫由兩個表組成;基因組表將所有關于可用基因組的信息存儲在數據庫中,所有微衛星信息存儲在單個大重復表中。這提高了整個網絡界面的速度和響應性,并最小化了服務器上的計算量。

MSDB的Web界面方面,其前端是一個單頁應用程序,它是使用虛擬環境接口和元素界面構建的。網站的整個狀態存儲在一個JavaScript對象中,該對象在網站的選項卡中有效。這可以確保網頁記住用戶選擇和其他設置,直到網站重新加載。微衛星的基本信息是預先計算的,并存儲在特定物種的JSON文件中。


數據庫概述和功能

MSDB是一個4330912429個長度≥12 nt的完整SSR的集合,來自37680個基因組,分屬37 262種。MSDB的網絡應用程序是為跨基因組交互式探索和分析SSR而設計的。主頁提供了關于MSDB的一般信息,并提供了訪問常用物種表格和微衛星數據的快速鏈接。如下所述,MSDB的其他功能可通過網站的各種選項卡訪問。MSDB的主頁將所選物種的微衛星信息總結為交互式表格和圖表(圖1)。默認情況下,該頁面顯示了Homo sapiens微衛星信息。


圖1、瀏覽顯示人類微衛星信息的MSDB網頁


物種選擇:可以通過左側的物種選擇面板添加或更改物種(圖1,左側)。用戶可以通過搜索欄按他們的學名或通用名搜索物種,也可以通過物種表過濾感興趣的物種。

模態視圖:大多數在標題中有一個按鈕(圖1,紅色箭頭),用于切換MSDB的模態視圖,這讓用戶可以用有用的方式自定義圖。通過該模式,用戶可以獲得MSDB最獨特的特征之一--微衛星數據的多物種特性比較。該模式還提供了基于物種基因組大小標準化數據的選項,以便于不同大小基因組之間的數據比較。


表格視圖:點擊“探索重復”按鈕(圖1,黑色箭頭)打開一個新窗口,所選物種的微衛星數據顯示為表格。頁面頂部的過濾面板允許用戶過濾顯示的各種屬性的數據,如基因組位置、微衛星基序(重復類)或長度、與特定基因的接近度、基因組上下文或與轉錄起始位點的距離。可以通過單擊列標題對表進行排序,并可以使用“導出表”按鈕將其導出為TSV文件。通過復選框選擇感興趣的重復序列,并點擊表格上方的“獲取序列”按鈕,可以獲得微衛星的側翼序列。這將啟動一個新窗口,顯示所有選定微衛星的序列,默認側翼大小為兩側100 bp。側翼大小是可定制的,序列格式可以在表格格式和FASTA格式之間切換。


數據下載:MSDB提供了一個專門的下載頁面來快速檢索所需基因組的微衛星數據。下載頁面以類似于瀏覽頁面物種表的布局顯示基因組列表。對于每個基因組,提供了三個鏈接--啟動基因組的表格視圖,將整個數據作為TSV文件下載,或者作為gzip壓縮的TSV文件下載。


幫助頁面:MSDB的幫助頁面包含一個廣泛的手冊,幫助新用戶理解網站的功能和布局。帶注釋的截圖指導用戶瀏覽網站。頁面的各個部分詳細描述了MSDB的每個圖表,并提供了數據是如何獲得或處理的信息。


關于天昊:

天昊生物長期從事基因及遺傳分析,可以提供包括SSR檢測在內的多項基因檢測服務天昊生物自主研發的基于二代測序技術的SSR檢測新方法--SSRseqTM,這種方法幾乎克服了現存所有電泳檢測方法的不足,尤其適合對多SSR位點、超高深度的分型,準確度高,并且分辨率達到單堿基的水平。因此適合所有二倍體人類、動植物、真核微生物,以及多倍體物種的SSR基因型分析。歡迎聯系我們具體咨詢!郵箱:techsupport@geneskies.com 電話:400-065-6886


Copyright ? 2012-2019 天昊基因科技(蘇州)有限公司    All Rights Reserved    蘇ICP備17064027號-1
国语二级一代女皇