從基因體組到轉錄體,或許您可在這些例子,找到近似的分析目標。當然,我們也可以再討論其他的可能性。
即使在定序可輕易高過數十倍的今日,全基因體基因組或甚至轉錄體的組裝,也很不容易到達高完整性或高正確率。但在考量組裝軟體優劣、演化遺傳關係,並且參考公開資料庫的特色與豐富性之後,目前已經有經驗且有信心,可組裝獲得達近90%的完整率、近88%的正確率。
以目前尚未有全基因組參考序列的日本柳杉(Cryptomeria japonica)為例,採用大約 20組定序序列庫(library),各定序庫之成對(paired-end)短序列超過4千萬對 (40x106 pairs, or 40 Million)的資料量。當時,利用日本農林水產省的生物資訊計算設備,經過三輪的調整重組,各輪不含事後的鑑驗驗證,大約各近一個月。最後,因為已探索得目標基因而停止再一輪的重新組裝。在此引用其中一篇發表[1]Wei et al., 2021的BUSCO評估結果圖,最上面的一列CJ3006NRE即為該篇最終的組裝結果編號。在1440個由BUSCO製作單位選定的共通且單套的直交基因 (Universal Single-Copy Orthologs) 組合中,只有除了155個(10.76%) 缺遺及 32個 (2.22%) 片段,被評估為完整的基因數量約近於 90%。另外,與其他具有全基因體資料的針葉物種比對,考量到物種之間的差異,以超過70%的覆蓋率為低標,有近88%的轉譯後蛋白質,可以被其他物種的基因體序列覆蓋。
Figure 1 轉錄體重新組裝結果之評估。節錄自Wei et al., 2021.的Figure 2。
因為體細胞因為人工處理複製而產生的變異,會隨著處理時間的增長而增加,當然,也會因為處理的過程而有所差異。然而,這些變異點的單位,可能是以千為單位的片段缺失,也可能是以單一nucleotide的變異,不論是transitions 或transversions。雖然現在的變異檢驗軟體可以幫助掃出大部分可信的差異點,不可諱言的,軟體本身的 false positive 及 false negative仍然很高。
在於對於體細胞變異的相關論文中,利用撰寫簡單的驗證程式,並採取了階段性的篩選,再用基因體資料瀏覽器—IGV (Integrated Genome Viewer),進行視覺化的確認。這是考量將大量可疑變異點,送交wet-lab驗證,可能耗費過多的資源,而採取的策略。但最終的結果顯示,除了較其他人的做法更嚴謹,整個團隊也對如此得到的結果,更有信心。
如果委託者有需要類似的服務,在此建議需要搭配可信任的基礎人力,經過基本的辨識訓練之後(大約0.5~1小時),可加速處理速度。
Figure 2. 由(C) 表現單核苷酸變異點,紅點標示相較於a, b, 的鹼基差異。節錄自 [2]Wei et al., 2016 的 Figure 1.。
Table 1 表列各樣本被計算得的變異數。節錄自Wei et al., 2016的 Table 2。
既然探索單一樣本相對於參考序列的變異點,已經可以達成,藉由參考序列的定位,比較多樣本之間的變異點,當然可行。
以稻米品種臺中65號的基因體定序資料為例,相較於參考序列,經過篩選大約有近五萬個SNP。其中,與兩個文獻紀載的親本(神力、龜治)和邢老師實驗室探索到的另外兩個最可能親本(Muteka 及 Nakabo),分別大約有兩萬一千到四萬五千個SNP是一樣的。這些SNP的交集與聯集的關係,以Venn-diagram繪製成Figure 3. (該篇 Wei et al, 2016的 Figure 1.)。
Figure 3. 以Venn diagram比較多樣本之間變異點的重疊與特有數,節錄自 Wei et al., 2016的Figure 1。
過去以分子標幟搭配交換率的計算得到染色體區段的cM,經過後代調查,才知道親本或疑似有親緣關係者,在目標染色體上的基因型分配,形成目標樣本的單倍體圖譜。現在搭配次世代定序,可以nucleotide為單位標示,甚至多樣本之間,以單一染色體組一次標示。
以稻米品種臺中65號的基因體研究為例。可以將分析所得各可能親本或親本交集的SNP,以全12條稻米染色體組為底,著以不同顏色,如Figure 4. (原發表Wei et al., 2016a 的 Figure 3)。
另外,以研究田間自然發生的花粉滲入的結果為例。我們將非原始親本的SNP,採片段且飛出式的標示。不僅是同質結合的SNP,還包含了異質結合的區段,經過快速的採樣與在電腦上確認,繪製出如 Figure 5 (原發表 Wei et al., 2016b的Figure 3)。
Figure 4. 各種可能的親本在稻米臺中65號的基因型貢獻分布。節錄自 Wei et al., 2016的Figure 3.。
Figure 5 相對於中間黃色的樣本理論基因型,各樣本與之差異的基因型片段。節錄自 Wei et al., 2016的Figure 3。