中研院善用運算資源順利推動癌症登月計畫
在2017年7月,國際頂尖期刊「Cell」的封面故事,是關於東亞不吸菸肺癌的成因分析,受到全球醫學界極大矚目;這個研究成果的背後推手,正是來自由中央研究院化學所特聘研究員陳玉如所組成跨領域及跨單位團隊的「台灣癌症登月計畫」。陳玉如指出,此計畫源自2016年美國癌症登月計畫的邀約,希望建立台灣本土病人的蛋白基因體大數據,從分子層次勾勒重大癌症的藍圖及進展,再提供給產學研界,做為開發癌症、標靶治療及體外檢驗原型的關鍵線索。
建立癌症多體學智識庫,延伸更多臨床或生物學應用
台灣癌症登月計畫是一個整合型計畫,需串聯基因體、蛋白體、生物統計及聚焦於重要醫學問題,因此團隊成員來自中研院、臺灣大學、臺北醫學大學、臺灣大學附設醫院、三軍總醫院、中山醫學大學附設醫院等眾多單位,最終目標是建立全台第一個「癌症多體學智識庫」。
計畫主軸在於剖析東西方癌症病人檢體的分子圖譜差異,需要有完善的檢體收集過程;因此團隊特別建立癌症檢體高品質控管允收標準流程、尖端國際標準化之蛋白基因體整合分析平台,及相關管理系統,確保計畫順利運行。
此計畫聚焦國人重大癌症-肺癌及乳癌,團隊啟動的第一道題目為早期肺癌研究,陳玉如表示首階段完成120名肺腺癌病人蛋白基因體分析,也是第一套針對東亞(臺灣)肺癌病人之深度蛋白基因體暨磷酸化蛋白體之大數據,此研究成果正式發表於Cell,揭示許多新發現,包括台灣與西方病人的不同之處,以及從內生性到外源環境致癌物的標記;另值得留意,也發現到部分早期病人具有類似晚期分子特徵之高風險新亞型。
回顧研究成果的孕育歷程,除整合基因體、蛋白體到轉錄體等不同數據外,另須搭配病人臨床結合資料科學的演算法,探討癌症發生的機轉。臺大基因體中心俞松良教授便是居中扮演臨床端與基礎研究的橋樑,負責研究的選題並將研究成果商品化,例如找出疾病的特異蛋白,開發診斷試劑或篩檢套組。
陳玉如期望藉由智識庫的建立,將所有的可能性蘊含在內,讓其他學者或醫師藉由這個源頭、延伸更多臨床或生物學上的應用,找出發現癌症、預防癌症的好方法,甚至找尋治療的可能標靶。
國研院國網中心適時奧援,化解120PB大數據儲存難題
大數據統計分析則是借助中研院統計所副研究員陳璿宇的專長,陳璿宇表示連同全基因體定序、外顯子定序及轉錄體定序,及蛋白質譜、臨床蛋白等體學數據,以致百位病人的合計數據量高達120PB。因量體過大,使團隊欲從實驗室取出數據、轉到伺服器來進行分析,看似稀鬆平常的過程,都顯得格外困難。
幸而獲得國研院國網中心支援,憑藉在硬體、計算工具整合等深厚經驗,協助團隊成員將實驗室數據直接傳送到國網中心的儲存設備,且後續可輕易藉由程式來呼叫、掛載這個儲存系統,迅速擷取所需資料執行分析,完成分析後再將結果回傳國網中心。
儘管陳玉如團隊不乏大數據分析的研究經驗,但以往不論計算、儲存都在自家實驗室,導致必須耗費可觀人力工時來建構與維持作業環境,難免備多力分、壓縮到真正投入研究的時間。如今有了國網中心協助,讓團隊得以專注進行研究,為強大的後盾。
陳玉如由衷感謝國網中心,為台灣產學研界提供如此優良的計算環境,她強調未來是大數據時代,不論生醫或其他領域皆需啟用更大量的運算資源,若每個研究人員都需要在自己實驗室安裝系統、維護系統,確實不切實際;期盼攻府繼續支持國網中心,使產學研都能在長期穩定的資源上彼此合作,各自貢獻各自的專長,加速串聯異質數據,讓每一個研究計畫都能獲得最大的效益。
文章來源:本文擷取自DIGITIMES。