TBI workshop 2014, 次世代序列分析與組裝研習會

次世代序列分析與組裝研習會

 

主辦單位:

國家衛生研究院
國科會生技類核心設施平台維運計畫

日期:9/17 (三)

地點:國家衛生研究院圖資大樓 5樓電腦教室

           苗栗縣竹南鎮科研路 35 號 [地理位置]


 

高通量生物序列比對平台/ myBLAST: A customized BLAST platform for genomics /transcriptomis and proteomics with paralleled computing on your desktop

 

9:30-10:30 林仲彥 副研究員 (Chung-Yen Lin Ph.D.)

中央研究院資訊科學研究所 系統網路生物實驗室

 

myBLAST為一個客製化BLAST序列比對平台,使用者可以上傳fasta格式序列,自行建立DNA或是蛋白質資料庫(如16S rRNA與特定立體結構蛋白序列或是尚未發表的私有序列/組裝序列),進行自有序列的相似性比對,在上載大量欲比對序列後,可透過圖像介面的協助,執行不同類型的序列比對(blastn, Megablast, blastp,blastx, tblastx ...),以條列式的方式呈現分析的結果,並能留存並加以註解,與後續的分析結果協同比對,同時這些已建立之資料庫可重複使用。使用者所建置的資料庫與比對結果,也都能透過圖像的管理介面,進行下載與篩選,協助後續的研究工作的深入分析。同時,也可以透過NCBI 或是Aftergenbank等系統,下載所需之序列,如細菌之ncRNA等,可快速建置可供搜尋的資料庫。目前此一系統已被應用來解析環境基因體(Metagenomics)、基因體(Genomics)、轉錄體(Transcriptomics)與蛋白質體(Proteomics)等的分析工作,亦能透過序列比對的方式,協助使用者找尋同源序列,再配合分子演化分析工具(如POWERPALM)來進行親緣分析。除了目前已在線上提供服務的web平台外,研究小組也針對有資料安全需求的實驗室或是個人,設計一套可安裝於一般windows/MAC平台,客製化BLAST平行運算高效能比對系統,可協助使用者快速地建立myBLAST網站,並以平行化技術驅動多核CPU,充分發揮運算設備的計算能力,減少大量計算所需耗用的時間,所建置之資料庫與所得結果,都能透過網路與研究伙伴一同分享,加速研究的進程。此外,我們也提供以BioLinux為基礎的Live-DVD,包含myBLAST, Galaxy及本實驗室所發展的電子實驗室記錄本(Electronic Lab Notebook, ELN),還有許多生物資訊相關分析工具,可在免除繁雜的系統安裝工作下,使用者可以透過這些工具的協助來跨越研究上所遇到的數位障壁,真正進入研究問題的核心。

 


 

次世代序列分析平台/ Galaxy: An Open Platform for Data Intensive Biomedical Research

 

10:40-11:40 蘇聖堯 先生 (Mr. Sheng-Yao Su)

中央研究院資訊科學研究所 系統網路生物實驗室

 

Galaxy 是一個以開放軟體為基本架構的線上生物序列分析平台,可以協助生物醫學的研究人員解析新世代定序所產生的大量資料,完成初步的資料分析工作。目前已有一些網站提供小型資料的Galaxy線上使用,研究人員也可自行下載安裝整個平台,供內部私有大量資料分析所需。透過Galaxy圖像化的介面,除了有許多序列分析的軟體工具外,使用者也可以執行、重製與分享由其他研究團隊所串接建置的分析步驟,並可以客製化修改整個流程,符合特定研究需求,減少分析的複雜度與耗用的資源。目前,在BioLinux LiveDVD中,已預裝Galaxy系統,可減少使用者在佈建平台時所面臨的安裝困難度。然而,由於次世代序列資料產出龐大,一次實驗的產出數據由數GB到數百GB不等,同時分析過程往往會有數倍於輸入檔案大小的中繼檔出現,此外分析所需之特定物種資料庫也因需求空間頗多,無法放在一般的DVD光碟中,必須自行下載安裝。若有大量資料或是內部資料的分析需求,建議使用者需與資訊專業人員討論,考量合宜的硬體設備(處理器數目與記憶體大小)與儲存方案,自行建置私有之分析平台,或是使用國家高速電腦中心之主機,甚至考慮商業平台如Amazon Web Service (AWS) Elastic Compute Cloud (EC2)上的雲端Galaxy等。由於平台本身為開放系統,我們的合作團隊也在上面開發一些插件 (plug-in) ,協助基因體短序列的重組與全基因體的甲基化分析等,因此,若是配合其他團隊所研發的插件,將能自行組合出符合研究目的所需的分析流程,減少因個別程式操作中所可能產生的錯誤,讓研究人員更能專注於結果的解析與判讀。