TBI workshop 2014, 次世代序列分析與組裝研習會

次世代序列分析與組裝研習會

主辦單位：
國家衛生研究院

國科會生技類核心設施平台維運計畫

日期：9/17 (三)

地點：國家衛生研究院圖資大樓 5樓電腦教室

苗栗縣竹南鎮科研路 35 號　[地理位置]

高通量生物序列比對平台/ myBLAST: A customized BLAST platform for genomics /transcriptomis and proteomics with paralleled computing on your desktop

9:30-10:30 林仲彥副研究員 (Chung-Yen Lin Ph.D.)

myBLAST為一個客製化BLAST序列比對平台，使用者可以上傳fasta格式序列，自行建立DNA或是蛋白質資料庫(如16S rRNA與特定立體結構蛋白序列或是尚未發表的私有序列/組裝序列)，進行自有序列的相似性比對，在上載大量欲比對序列後，可透過圖像介面的協助，執行不同類型的序列比對(blastn， Megablast， blastp，blastx， tblastx ...)，以條列式的方式呈現分析的結果，並能留存並加以註解，與後續的分析結果協同比對，同時這些已建立之資料庫可重複使用。使用者所建置的資料庫與比對結果，也都能透過圖像的管理介面，進行下載與篩選，協助後續的研究工作的深入分析。同時，也可以透過NCBI 或是Aftergenbank等系統，下載所需之序列，如細菌之ncRNA等，可快速建置可供搜尋的資料庫。目前此一系統已被應用來解析環境基因體(Metagenomics)、基因體(Genomics)、轉錄體(Transcriptomics)與蛋白質體(Proteomics)等的分析工作，亦能透過序列比對的方式，協助使用者找尋同源序列，再配合分子演化分析工具(如POWER與PALM)來進行親緣分析。除了目前已在線上提供服務的web平台外，研究小組也針對有資料安全需求的實驗室或是個人，設計一套可安裝於一般windows/MAC平台，客製化BLAST平行運算高效能比對系統，可協助使用者快速地建立myBLAST網站，並以平行化技術驅動多核CPU，充分發揮運算設備的計算能力，減少大量計算所需耗用的時間，所建置之資料庫與所得結果，都能透過網路與研究伙伴一同分享，加速研究的進程。此外，我們也提供以BioLinux為基礎的Live-DVD，包含myBLAST, Galaxy及本實驗室所發展的電子實驗室記錄本（Electronic Lab Notebook, ELN），還有許多生物資訊相關分析工具，可在免除繁雜的系統安裝工作下，使用者可以透過這些工具的協助來跨越研究上所遇到的數位障壁，真正進入研究問題的核心。

線上網站: http://mybioweb.nhri.org.tw/myblast
單機版下載網站: http://eln.iis.sinica.edu.tw (for MAC OS 10.5, 10.7/ Windows 7)
For Windows 8 and Mac OS 10.9
線上使用說明影片： http://eln.iis.sinica.edu.tw (影音簡介)
Slides for this session:[PDF]
Live-DVD: Biolinux，our LiveDVD download site (4.2 GB, as DVD ISO)
Slides for Live-DVD: [PDF]
Demo file: DB (30M, Human protein sequence from swissprot/ UniProtKB), Query Sequence

次世代序列分析平台/ Galaxy: An Open Platform for Data Intensive Biomedical Research

10:40-11:40 蘇聖堯先生 (Mr. Sheng-Yao Su)

中央研究院資訊科學研究所系統網路生物實驗室

Galaxy 是一個以開放軟體為基本架構的線上生物序列分析平台，可以協助生物醫學的研究人員解析新世代定序所產生的大量資料，完成初步的資料分析工作。目前已有一些網站提供小型資料的Galaxy線上使用，研究人員也可自行下載安裝整個平台，供內部私有大量資料分析所需。透過Galaxy圖像化的介面，除了有許多序列分析的軟體工具外，使用者也可以執行、重製與分享由其他研究團隊所串接建置的分析步驟，並可以客製化修改整個流程，符合特定研究需求，減少分析的複雜度與耗用的資源。目前，在BioLinux LiveDVD中，已預裝Galaxy系統，可減少使用者在佈建平台時所面臨的安裝困難度。然而，由於次世代序列資料產出龐大，一次實驗的產出數據由數GB到數百GB不等，同時分析過程往往會有數倍於輸入檔案大小的中繼檔出現，此外分析所需之特定物種資料庫也因需求空間頗多，無法放在一般的DVD光碟中，必須自行下載安裝。若有大量資料或是內部資料的分析需求，建議使用者需與資訊專業人員討論，考量合宜的硬體設備(處理器數目與記憶體大小)與儲存方案，自行建置私有之分析平台，或是使用國家高速電腦中心之主機，甚至考慮商業平台如Amazon Web Service (AWS) Elastic Compute Cloud (EC2)上的雲端Galaxy等。由於平台本身為開放系統，我們的合作團隊也在上面開發一些插件 (plug-in) ，協助基因體短序列的重組與全基因體的甲基化分析等，因此，若是配合其他團隊所研發的插件，將能自行組合出符合研究目的所需的分析流程，減少因個別程式操作中所可能產生的錯誤，讓研究人員更能專注於結果的解析與判讀。

Galaxy Project: http://galaxyproject.org/
Galaxy 101: https://main.g2.bx.psu.edu/u/aun1/p/galaxy101
Available sever list: http://wiki.galaxyproject.org/PublicGalaxyServers
NCHC galaxy: http://alps1.nchc.org.tw/galaxy
Slides for this section: [PDF]
Data set for practice: read1.fastq read2.fastq
Your opinion about this lecture

Lab of Systems and Network Biology

User login

English Version

News

TBI workshop 2014, 次世代序列分析與組裝研習會

高通量生物序列比對平台/ myBLAST: A customized BLAST platform for genomics /transcriptomis and proteomics with paralleled computing on your desktop

9:30-10:30 林仲彥副研究員 (Chung-Yen Lin Ph.D.)

次世代序列分析平台/ Galaxy: An Open Platform for Data Intensive Biomedical Research

10:40-11:40 蘇聖堯先生 (Mr. Sheng-Yao Su)

Lab of Systems and Network Biology

User login

English Version

News

TBI workshop 2014, 次世代序列分析與組裝研習會

高通量生物序列比對平台/ myBLAST: A customized BLAST platform for genomics /transcriptomis and proteomics with paralleled computing on your desktop

9:30-10:30 林仲彥 副研究員 (Chung-Yen Lin Ph.D.)

次世代序列分析平台/ Galaxy: An Open Platform for Data Intensive Biomedical Research

10:40-11:40 蘇聖堯 先生 (Mr. Sheng-Yao Su)

9:30-10:30 林仲彥副研究員 (Chung-Yen Lin Ph.D.)

10:40-11:40 蘇聖堯先生 (Mr. Sheng-Yao Su)