Enews20 簡介生物資訊( 詳全文 )

出自KMU e-News

跳轉到: 導航, 搜索

高雄醫學大學 第20期 生命科學院專題

簡介生物資訊

生命科學院-生物科技學系 鄒文雄 助理教授 編撰

自從人類基因解碼完成,現代生物學已經轉變成另一種面貌。生物及醫學研究已經在假說導向 (hypothesis-driven) 中加入另一活力元素,那就是發現導向 (discovery-driven) 研究法,其實這種說法不僅是在實驗的作法方面,更重要的是實驗設計及實驗結果的詮釋。就實驗方法來說,高效率 DNA 定序、生物晶片及酵母菌雙雜和等方法的出現使實驗速度腳步加快,產生大量實驗數據,但是在新技術大量轉變了以往傳統實驗作法同時,也對生物學家形成另一極大的挑戰,那就是如何設計實驗才能有效利用如此強大的技術解答生物相關問題,以及如何處理、分析實驗數據結果並進一步建立或修改生物相關模型,因此生物資訊學的重要性與日遽增。

一、生物資訊的演變

自從在 1951 年 Sanger 及 Tuppy 發表蛋白質定序方法, Margaret Dayhoff 在 1972 年首先把一些蛋白質序列收集起來放在資料庫中,這個資料庫就是 Protein Information Resource (PIR) ,這是第一個有關生物體序列相關的資料庫。 Dayhoff 不僅將所收集到的蛋白質序列依照序列相似程度分類,更將這些分類與序列比對獲得的知識化成各氨基酸相互突變的機率,這就是現在常用的 PAM 表,所以 Dayhoff 與她的同事們確立了現代序列分析的典範與生物資訊的先河。繼而利用 Dynamic Programming 及其他方法從事 DNA 及蛋白質的序列比對,全面性的排序 (global alignment) 與區域性的排序 (local alignment) 的差別也被提出,利用 DNA 及蛋白質的序列建構演化樹也開始出現。 Web Page 的廣泛使用是生物資訊的一大里程碑, NCBI 利用表單式的查詢,使得生物學家能夠有效查詢資訊。

生物資訊學的發展另一脈絡來自於結構生物學,自從蛋白質與 DNA 的結晶結構可以 X 光繞射法解出以來,牽涉在結構決定的化學觀念與數學計算就已漸漸轉化成電腦輔助的模式,更進一步有量子化學與生物巨分子結構模擬的技術進步,及生物學家的普遍認知 - 所有生物功能皆有其結構基礎,所以「結構生物學」乃繼「分子生物學」之後成型;但是大部分的生物學家雖然知道結構生物學的重要,但是由於實驗設備與訓練門檻高,及結構解出的速度遠低於序列產生的速度,所以無法像分子生物學般地全面改變生物學家的思考與實驗模式。

人類基因體計畫里程碑,其實這個計畫不是一蹴可幾的,這是過去幾十年來分子生物技術進步的必然結果,這些技術包含 Recombinant DNA 、 PCR 、 Sequencing 等,大量產生的 DNA 序列自然形成了如 Dr. Leroy Hood 所稱 ”Biology is an information science” ,人類就有多達 30 億個鹼基對, 4 萬個左右基因,如果沒有資訊學的幫忙,根本無法處理如此量多且複雜的資訊。所以生物資訊學的發展可以說絕大部分歸功於「基因體學」 (Genomics) 。由於生物資訊學藉著基因體學滲入生物學研究的每一個領域,吾人可以在很多方面看到生物資訊學的運用,舉例來說,為了瞭解某基因及其蛋白質產物,可以從事以下所述生物資訊的方法

A. 序列的資料庫搜尋比對可以找到序列類似的蛋白質;

B. 蛋白質功能預測 (motif 預測 ) ;

C. 結構預測 (Homology Modeling 或 Fold Recognition) ;

D. 基因結構分析 (exon 、 intron 、 UTR 、 alternative splicing) ;

E. 基因轉錄調控序列及其轉錄因子預測;

F. 基因表現量 (CGAP 、 SAGE 、 EST 、 Microarray) ;

G. 預測與其交互作用的蛋白質 (Interolog 、酵母菌模型、線蟲模型 ) ;

H. 單核甘酸多變性 (SNP) ;

I. 可能參與的生物途徑 (Biological Pathway) ;

就在生物學家享用生物資訊所帶來的便利與豐厚富的資訊時,生物學家已不知不覺地面臨了科學方法與思維的重大考驗,在基因體學與生物資訊方法發展前,實驗觀察者通常用化約的方法來探討生物現象,而在後基因體時代實驗觀察者面臨了一個難題,那就是生物現象本身的複雜性,可以拿波音客機做比喻,如果把數百萬個零件放在足球場上,要如何把飛機組裝起來呢?如何來測試飛機的運作呢?這就是「系統生物學」 (Systems Biology) 。本文將在最後一節以人類疾病訊號傳遞的動態研究論述系統生物學的作法與重要性。

蛋白質的轉錄現象與蛋白質 - 蛋白質交互作用是後基因體學中幾個重要的研究主題中的兩項,也是在發育學、細胞分化、訊號傳遞、癌症等生物現象中的主要分子機制決定者,而生物資訊學在這些方面的研究都扮演著關鍵的角色,以下敘述轉錄體 (Transcriptome) 與交互作用體 (Interactome) 的研究。

二、轉錄體

自從基因晶片發明後,有愈來愈多的應用,包括生物反應機制的探討、新藥開發、醫療檢驗、農漁牧業、環境檢測與法醫鑑定等。目前最常用的是探測基因表現的 DNA 晶片。 DNA 晶片已經應用在非常廣泛的生物醫學研究上。在醫學上,利用基因表現圖譜分析與分群 (clustering) ,血癌、大腸直腸癌、乳癌、肝癌等可以利用基因表現來分類及發現與癌症相關的基因。在基礎研究上,也有極多應用在模型系統的基因表現分析,這些模型系統以酵母菌研究最早而且資料最豐富,酵母菌有大約 6000 個基因,這些研究著重在酵母菌對外界環境反應、分化、細胞週期。 Cho 等人利用 DNA 晶片觀察 6220 個基因中有 416 個基因與細胞週期有關,此中有 60% 的基因已經在以前的研究中發現有特殊與細胞週期相關的生物功能; Chu 等人利用 DNA 晶片分析酵母菌從雙倍體 (diploid) 產生單倍體 (haploid) 中芽孢形成 (sporulation) 的基因表現變化,發現至少有七個基因表現與芽孢形成相關; DeRisi 等人利用 DNA 晶片探討酵母菌從發酵生活轉到呼吸生活 ( 從無氧轉變到有氧生活 diauxic shift) 的代謝轉變。

接下來重要的課題就是如何從 DNA 晶片所產生大量的基因表現資訊,探討基因調控的機制。對於酵母菌來說,有 124 個轉錄因子已經由基因或生化實驗證實調控其他特殊基因的表現,這些轉錄因子所辨認的 DNA 序列都已經知道。這些轉錄因子調控 367 個其他非轉錄因子的基因表現,除此之外,有 52 轉錄因子調控本身的基因表現,有 72 個轉錄因子調控其他轉錄因子的表現。其實酵母菌不僅擁有 100 多個轉錄因子,在 SCPD(http://cgsigma.cshl.org/jian/) 中列有 256 個轉錄因子。目前已經可以藉助基因表現分析來搜尋基因的調控位置, Roth 等人及 Hughes 等人針對有類似基因表現圖譜的基因啟動子 (promoter) 位置,尋找統計上經常出現的 DNA 序列,發現 3311 個 DNA motif ,經歸類後有近 400 個 DNA motif 。由於一個基因的 promoter 區域通常含有一個以上的不同 DNA motif ,並無法知道哪些 DNA motif 必須同時與轉錄因子結合進而促進基因表現。 Pilpel 等人設計一種稱做基因表現一致性分數 (Expression Coherence Score) 的度量,作法是先收集酵母菌全部在 promoter 上擁有某種特殊 DNA motif 組合的基因,接下來計算酵母菌在不同生理狀況下基因表現的相關性 ( 即 Expression Coherence Score) ,如果相關係數高,則可以推論此種 DNA motif 的特殊組合調控基因表現。

三、交互作用體

蛋白質交互作用在大部分的生命現象中都扮演關鍵角色,近來為發掘蛋白質功能,常用 ”guilt-by-association” 方法來推論蛋白質功能,也就是說,如果兩個有交互作用的蛋白質其中之一知道其功能,就可以推論另一蛋白質應該與此功能有極大的相關性,這也是為何蛋白質交互作用研究在功能性基因體學 (Function Genomics) 扮演極重要角色的原因。蛋白質交互作用依照功能可分為三類:代謝或訊號途徑、型態形成途徑 ( 在分化過程中,一群蛋白質參與在同一細胞功能 ) 、一些生物巨分子所形成的結構複和體或分子機器。有不同的實驗方法探測蛋白質交互作用,不同的方法擁有不同的解析度,第一種方法為原子層次觀察,通常是 X 光繞射或核磁共振,第二是直接觀察,例如酵母菌 two hybrid ,第三是複和體探測,如免疫共沈澱法,第四是細胞中交互作用,如受體與 ligand 的交互作用的生物檢測 (bioassay) 。不同的實驗方法有不同的可信賴程度,在 DIP(http://dip.doe-mbi.ucla.edu/) 資料庫中存有以上四種實驗法探測得到的蛋白質交互作用資訊,並在每一個交互作用標上實驗方法。以上的四種方法中以酵母菌的 two hybrid 產生最多資料,在 MIPS(http://mips.gsf.de/proj/yeast/CYGD/db/index.html) 中已經存有多達 9,750 個交互作用,但必須注意其中可能會有相當比例的偽陽性。

蛋白質交互作用也可以用網路的觀念來分析,不僅可以直接在 2 維上觀察,並可用網路的系統分析來探討多達數千交互作用的機制。 Barabasi 研究群針對 1870 個酵母菌蛋白質所形成的 2240 個蛋白質交互作用網路進行分析,發現一個結點連接到其他結點的機率分佈呈 power-law 分佈 ( 機率 P( 連接數 )=k -r , k= 連接數, r=2.2~2.4) ,這種網路稱為 scale-free 網路。同研究群在另一個相關研究中,針對在 WIT(http://wit.mcs.anl.gov/WIT2/) 中 43 個物種的代謝途徑網路分析也發現,儘管所分析的物種涵蓋三個生物界,而且代謝途徑的組成份子不同,但它們的網路特性都是具有 scale free 特性。 scale-free 網路有別於指數 (exponential) 網路,針對每個結點的網路連接數來說,後者是非常平均,通常每個結點都有類似的連接數 ( 發現一個結點連接到其他結點的機率分佈呈近似 Poisson 分佈,機率 P( 連接數 )=e -(k-<k>) , k= 連接數, <k>=k 的平均數 ) ,而前者網路中擁有少連接的結點較多,而擁有較多連接的結點數依 power law 減少。 exponential 網路是一種均質 (homogeneous) 網路,每個結點均勻地 ” 散亂 ” 連結,而 scale-free 網路為異質 (heterogeneous) 網路,在這種網路中,可以觀察到少數結點擔任樞紐 (hub) 的角色, hub 與很多結點相連接,而這些 hub 又互相彼此連接。如果隨機去除 scale-free 網路的結點,網路的整體性幾乎不會受到影響,這表示錯誤容忍度 (error tolerance) 很高,但是選擇性地去除 hub ,則網路立刻破碎成不相連接的小網路,這表示脆弱性 (fragility) 高。

四、系統生物學 - 以人類疾病訊號傳遞的動態研究為例

在後基因體時代,對人類致病基因的探討已從發現疾病基因轉向致病機制的瞭解,以癌症致病機制來說,目前以經知道並不是單一致癌因子所能造成,而是多因子及多步驟的致癌機制 (multiple factors 、 multiple steps) ,若想要積極治療及預防疾病,則對於疾病的靜態瞭解是不夠的,而必須針對所有與疾病有關連的基因及其產物進行動態研究。

細胞藉由訊號傳遞 (signal transduction) 來接受訊號、處理訊號、放大訊號等,以執行各種生物指令,訊號傳遞錯誤,通常是很多疾病的發生原因;參與某一生物訊號傳遞途徑 (pathway) 的基因及其蛋白質形成一個系統 (system) ,而這個系統的特性乃由系統各成員 ( 基因或蛋白質 ) 的分子功能與彼此的連結 (connection) 來決定,在途徑中分處上游與下游的蛋白質擔任不同的角色。生物訊號傳遞途徑通常都不是線性的,而是交錯複雜的網路 (network) ,在此網路中常會有回饋 (feedback) 現象,此現象至少有三種功能,其一是乃是加強訊號強度,其二是外部刺激訊號消失後而訊號傳遞仍能保持一段時間,其三是促使系統回復至穩定狀態,其四是訊號轉化 ( 類比轉成數位、數位轉成類比 ) 。

錯綜複雜的訊號傳遞途徑看起來是個網路,而事實上通常是由小的生物途徑所構成,對於生物學家來說,小的生物途徑是比較容易用直覺來瞭解以及設計實驗來干涉與驗證假說;另一方面,生物學家也知道途徑是互相影響的,在細胞內很難找到一種途徑是可以單獨存在運作,生物學家比較熟悉的字彙是交互作用 (interaction) 或交談 (cross talk) ,而這其實就是 ” 網路 ” 。要瞭解全部有參與 ” 交談 ” 的途徑,也就等同於瞭解小途徑所組成的大途徑,也就是一個 ” 系統 ” 。

生物學家比較習慣針對一個生物問題,基於假說,設計實驗,而用定量的實驗結果給予定性的解釋以及假說的檢驗;舉個簡單的例子,其實一個系統的動態研究就是想要知道在何時、何地、有多少個 EGF 受體 (receptor) 接受到生長因子、多少個 MAPK 蛋白質藉由磷酸化活化、多少條 c-fos RNA 被轉錄等;一個小系統的實驗設計與結果詮釋是可以很直接由途徑的觀察達成,但嘗試瞭解由四、五個小途徑所構成的系統則相當不易,這是因為大系統的行為常常不等同於小途徑單元行為的總和,而會有 ” 突現現象 ”(emergent property) ,這些現象包括 ” 閥值 ”(threshold) 、訊號延長 (signal prolongation) 、訊號衰減 (signal attenuation) 、適應 (adaptation) 等,這些現象並不奇怪,生物學家早已熟悉,舉個例子,閥值的觀念常用在酵素活性的分析,而 sigmoid 的酵素催化曲線亦廣為人知。

觀察生物訊號傳遞系統的行為常會發現 ” 突現現象 ” ,這是不會從觀察小途徑而得知,欲瞭解訊號傳遞途徑及其相關疾病機制,生物學家必須直接探究由許多小途徑所構成的系統及其行為與特性。由於系統本身的複雜度與特殊現象,生物學家已無法根據直覺來形成假說並設計實驗,在這裡系統的動態模擬就扮演一關鍵角色,系統的動態模擬根據已知的途徑模型中所描述的分子間結合常數、酵素催化常數及錯綜複雜的網路連結 ( 包括上下游及正負回饋 ) 等,針對每一個分子 ( 各種存在形式的蛋白質或 RNA) 的依時消長生物化學規則寫成通式 ( 數學的微分方程式 ) ,再用數學計算平台解答出每一個分子依時消長的個數,繼而詮釋此模擬結果的生物意義,進一步形成假說與實驗驗證。

五、結語

吾人可以把生物資訊學看成一種研究工具,基因體學研究必須大力藉助生物資訊學,而就像分子生物學一般,部分生物資訊的方法會漸漸成為實驗室的基本技能;另一方面,從生物醫學研究的演進來看,生物資訊學扮演一個承先啟後的角色,從分子生物學、結構生物學到最近的基因體學,從此生物學家正式以資訊學的觀點探究生命,使得生命現象的研究在物理及化學維度上加入資訊維度,在此更與複雜性 (complexity) 科學接軌。


enews20