記事一覧

參考基因體該如何下載(1) - Ensembl

reference_genome_download.png

Ensembl

由European Bioinformatics Institute(EBI)與Wellcome Trust Sanger Institute(WTSI)共同合作開發的Ensembl 資料庫覆蓋物種廣,資訊更新快;隨著技術發展和研究的深入,有的物種基因體會有多個版本,Ensembl 資料庫以最即時的更新受到廣大研究者的青睞。

Ensembl_web.png


查詢方法一:以物種名稱進入

如果想要直觀看到更多物種的基因體資訊,那請選擇方法一。

(A) 進入 Ensembl 資料庫首頁

ensembl_a.png


(B) 點選 View full list of all Ensembl species,進入以物種名稱排序的列表

ensembl_b.png


(C) 如果列表中含有目標物種,可直接點選名稱入進,若沒有目標物種,需在Filter中輸入搜尋物種英文名稱。例如輸入"dolphin",將會篩選留下該物種的資訊,如下:

ensembl_c.png


(D) 點選 Download DNA sequences (FASTA),即進入參考基因體的下載頁面

ensembl_d.png

即可下載該物種的全基因體序列 (*.toplevel.fa.gz),下載後可直接用於該物種的重定序研究。


查詢方法二:以Downloads進入

如果想要一次下載多個參考基因體,那可以用此方法。

(A) 進入Ensembl 資料庫首頁

ensembl_down_a.png


(B) 點選 Downloads 進入

ensembl_down_b.png


(C) 點選右側的 Download data via FTP,進入FTP Download頁面

ensembl_down_c.png


(D) 點選FTP site進入ftp://ftp.ensembl.org/pub/ 索引頁面,可看到多種參考基因體版本可供選擇

ensembl_down_d_1.png    ensembl_down_d_2.png 


(E) 這邊以較新的 release-84 版本為例,點選 release-84,出現如下頁面

ensembl_down_e.png  


(F) 點選fasta,進入ftp://ftp.ensembl.org/pub/release-83/fasta/ 的索引頁面,會出現以不同物種拉丁命名的資料夾

ensembl_down_f.png 


(G) 點選感興趣的物種,進入該物種的資料夾

ensembl_down_g.png

需要基因體序列,則點選 dna 資料夾

ensembl_down_h.png

即可下載該物種的全基因體序列 (*.toplevel.fa.gz),下載後可直接用於該物種的重定序研究。


(H) 分析中我們需要FASTA格式檔案和GTF/GFF檔案,因此在(E)步驟中還需要下載GTF檔案,有GTF檔案則優先選擇下載,沒有GTF則選擇GFF3,然後再轉換成GTF檔案使用。點選GTF進入下方頁面:

ensembl_down_i.png

點選 *.gtf.gz 檔案下載~


今天小編就先介紹以Ensembl資料庫下載參考基因體,之後再來陸續介紹NCBI及UCSC等資料庫~~


圖爾思生物科技 / 諾禾致源文案


NCBI

NCBI(National Center for Biotechnology Information)由美國政府所設定並負責更新維護,其網站資訊全面且功能強大,1992年10月建立並負責維護 GenBank DNA 序列資料庫。

UCSC

由 University of California Santa Cruz (UCSC) 創立和維護的 UCSC 資料庫,但是覆蓋物種資訊有限,而且資訊更新相對較慢(如基因體版本更新),所以 UCSC 資料庫使用率稍遜色於前兩個資料庫。


留言

等待許可的留言

此留言需要管理員的許可

發表留言

秘密留言