全基因合成

是指在體外利用人工方法合成雙鏈DNA分子的技術。基因合成無需模板,是獲取基因的重要手段之一。目前該技術主要應用在克隆一些不易獲取模板的基因、自然界不存在的新基因以及異源基因表達上,經常在對基因密碼子最佳化後進行。

全基因合成技術已經很成熟,一般的做法是:設計合成相互重疊的單鏈寡核苷酸,透過重疊延伸PCR法拼接出全長。關於全基因合成方法的資料網上一大堆,單全基因合成的相關專利就有上百篇,常見的有重疊延伸PCR(OE-PCR)法[1,7],雙不對稱PCR(DA-PCR)法[2],聚合酶連反應法(PCR)[3],連線酶鏈反應法(LCR)[4],熱力學平衡由內向外法(TBIO) [5],PCR介導兩步法(PTDS)[6]。方法很多,但它們的共同特點基本相同:基於具有重疊區的引物,透過重疊延伸PCR逐漸延伸生成長片段。

全基因合成最簡單的方法是什麼?

當然是讓DNA合成公司來合成,我們只需要提供DNA序列資訊,他們會合成dsDNA並克隆在通用載體上,一般還提供測序資訊,確保合成的正確性。這無疑是最簡單、最省事的方法。而且現在全基因合成十分廉價,1bp不到一塊錢還帶測序的那種。

既然DNA合成公司那麼方便,為什麼還要自己合成呢?

①公司合成較慢,一般需要1-2周。如果碰到特殊序列,比如對大腸桿菌毒性較大的編碼序列,那週期就難說了(我們做過一個核酸酶,合成公司一個月沒搞定,自己合成一週搞定)。

② 後繼操作麻煩,合成公司提供的一般是攜帶目標基因的重組載體,拿到後還要用酶切切下來,如果基因內部含有酶切位點還需要避開,當然這些一般不是什麼大問題,但你確實沒得選。

③如前所述,全基因合成一般用於異源基因表達,異源表達的物件大多是酶,研究酶的性質可能又需要構建大量突變體。合成公司只提供一個序列,構建突變體還得自己設計引物重新構建,如果自己合成全基因,只需要將包含突變的引物替換掉,就可以同時獲得各類突變體,這在構建含大量突變的突變體時,更有優勢。

④序列需要保密,畢竟自己才最可靠。

總有人喜歡自己動手豐衣足食,

本文要介紹的是自己來合成的方法,

介紹兩種方法:

1 基於“搭橋”PCR的一次性拼接法

如何自已動手做全基因合成?

這種方法依賴於引物間的相互退火,彼此作為模板相互延伸,因此需要的引物總是一正一反。首先把全基因序列打斷為短的oligos,一般不大於59bp,因為一般引物合成以59bp為分水嶺,超過59bp價格和時間成本都會高很多。oligos靠3‘末端互補序列相互退火,形成帶有gaps的雙鏈產物,再由DNA聚合酶補齊gaps,形成帶有切刻的DNA雙鏈,這種產物經過Taq DNA Ligase連結形成完整的雙鏈產物,依此為模板進行PCR擴增即可得到目標基因,也可以直接使用帶有切刻的DNA雙鏈作為模板進行PCR擴增。

2 基於逐漸延伸的step by step法

如何自已動手做全基因合成?

這種方法僅最後一條引物為反向,其餘均為正向,正向引物間具有重疊序列。倒數第一條oligo與倒數第二條oligo靠末端互補序列相互退火,經過第一次PCR迴圈,雙鏈延長,延長的雙鏈與倒數第三條oligo繼續退火、延長,……,依此類推,直至全長序列合成。這種方法理論上一次PCR迴圈只能延伸一條引物,N條oliogs就至少需要經過N個PCR迴圈,由於只有一個延伸端,引物設計比方法1簡單,而且引物數目不需要必須為偶數。

全基因合成一般步驟

1.設計PCR引物

可以藉助自動設計工具也可以人工設計,藉助工具後面會詳細介紹。如果人工設計,推薦使用SnapGene(這款軟體的強大就不多說了,搞分子生物學的應該都知道,網上有很多破解版),將全基因序列複製進去之後,先調出“Preferences”面板,找到“Primer”選項,把3’端最短匹配長度和最低Tm分別設定為10bp和40℃,這樣當你新增引物時軟體就會自動提醒有沒有次級結合位點(如下圖)。

如何自已動手做全基因合成?

因為3’端錯配對本文中的全基因合成方法十分不利,如果這兩個設定太低實在難以設計出引物,可以適當調高至12bp和45℃,還不行的話只能最佳化密碼子後再重新設計。

引物的長度預設為59bp,重點是重疊區的設計,一般應該根據重疊區的Tm來確定,不同重疊區之間的Tm平衡很重要,一般∆Tm不超過3℃,推薦把Tm設定在55-58℃之間。需要注意的是,針對本文的方法一,引物數目必須是偶數,從序列開頭往後一條一條的拉,下一條oligo的起點是上一條的終點-重疊區,上正下反,如果最後為奇數條,要調整最後幾條長度,補出一條反向引物。

如何自已動手做全基因合成?

針對方法二,從序列開頭拉一條正向,剩餘全部為反向直到末尾,也可以從末尾拉一條反向,剩餘為正向直到開頭,這種方法不用管引物數目。

如何自已動手做全基因合成?

2.PCR獲得全長產物

一般需要兩輪PCR。第一輪,加入少量引物,推薦50uL體系中0。5-1pmol/個oligo,10-15個迴圈,獲得全長模板,本輪PCR推薦使用的DNA聚合酶應該同時缺失3’-5’和5’-3’外切酶活性,這兩種活性會損傷重疊區的Tm平衡;第二輪,取1uLPCR產物做模板,加入20pmol全長上下游引物,20-25個迴圈獲得目標基因,本輪PCR應使用高保真DNA聚合酶。

3.克隆至表達載體

透過同源重組,酶切連結等方法將目標基因插入載體中,轉化大腸桿菌或其他宿主感受態細胞,獲取單克隆子。提示:在全基因合成前,一定要針對克隆/表達載體設計好同源臂或者酶切位點,直接加在全基因序列上,否則還要單獨設計引物新增同源臂或者酶切位點。

4.測序鑑定

菌體PCR鑑定陽性克隆子並挑選陽性克隆子測序,正確的克隆可用於下游的表達和純化。

線上設計工具

以前有很多優秀的引物設計工具,比如

OPTIMIZER

http://

genomes。urv。es/OPTIMIZE

R/

,集密碼子最佳化和全基因合成於一身,

Gene2oligo

[9]:

http://

berry。engin。umich。edu/g

ene2oligo

,它設計出的引物之間是沒有空隙(gaps)的,不過該連線好像失效了。其他還有

Assembly PCR Oligo Maker

[10],

GeMS

[11],

GeneDesign

[12],遺憾的是他們的連結可能目前都失效了。

DNA Works

[8]:

https://

hpcwebapps。cit。nih。gov/

dnaworks/

,這是一個可用的全基因合成引物設計工具,該工具來源於《Nucleic Acids Research》,支援密碼子最佳化等操作,不過引數比較多,使用起來有點複雜。

Gene2oligos

http://www。

biorun。com/tools/104。ht

ml

,這個是伯遠研發人員編寫的線上工具,包括密碼子分析與oligos引物設計,將目標基因自動轉化為oligos引物,用於隨後的全基因合成。生成的oligos,具有統一長度,重疊區具有相同的Tm值,有利於引物間退火平衡,生成的oligos可以一鍵複製,匯入SnapGene進行詳細分析。

如何自已動手做全基因合成?

引物設計原則

長度:

40-59bp,原則上引物長度即不能太短也不能太長。太短可能重疊區不夠,無法達到Tm均衡,而且oligos之間空隙很短或者沒有空隙,這樣相當於對目標基因全覆蓋,比較耗費鹼基。引物越長,gaps越大,更節省鹼基,但引物越長,引物合成越困難,我在[《》]()一文中介紹過,引物越長副產物越多,如果沒有高規格的純化方式,可能會導致增高的非特性拼接機率。有些文獻喜歡用40-46nt的引物,本文優先考慮長鹼基,畢竟節儉鹼基嘛。利用本文的方法,一般需要合成的總鹼基數是全長序列的1。5倍,按照普通引物合成的價格,能夠比合成公司節約將近40%的成本。

重疊區:

在oligos相互退火時,引物間的結合是同時發生的,因此重疊區的Tm均衡就十分重要,如果某些oligo的Tm過低,退火時不易與其它oligos結合可能導致缺失,如果Tm過高,可能形成穩定的中間片段,不利於獲得全長模板。

3’端錯配:

針對本文所述的兩種方法,3’端的錯配可能會導致錯誤的產物,比如有1-6條oligo,原本應該按順序連線起來,如果引物1和4末端存在互補序列,那麼就可能形成縮短產物,而且這種產物在第二輪PCR中往往被優先擴增,這會影響下游實驗。當然有時某些引物的3’端可能存在多個結合位點,尤其是高GC的序列,可能不得不存在幾個錯配鹼基。那麼這個3’端錯配長度是多少才能使用呢?當然這個沒有絕對界限,比如按Tm計算比完整重疊區的Tm低20℃,實際上這也是降低了錯配的機率,我在以前的文章中解釋過Tm的意義,Tm為40℃的序列不是說在50℃就完全不退火了,實際上仍然有一部分退火,只不過比例很低。如果使用長度來界定,8-10bp是一個常用的標準。此外,引物3’端對PCR延伸效率也很重要,有研究認為最後一個鹼基最好為G/C,因此這一點也需要考慮。

引物條數:

一般,我們想要儘可能少的使用引物,那麼只能使用盡可能長的引物。至於引物數目是不是必須為偶數,這跟方法有關係,依靠一正一反相互延伸的,理論上需要偶數條,如果最後一條為奇數條,一般需要調整前面的引物長度,再補出一條反向引物。

驗證設計效果

我們的程式輸出的引物格式可以被SnapGene識別,選單欄點選“Primer”工具,點選”Import Primer from a List“選項,選擇從剪貼簿匯入序列。

如何自已動手做全基因合成?

可以檢視個引物是否完全覆蓋目標序列,引物的“頭尾“是否衝突等等。

以GFP為目標序列測試一下:

①從NCBI上找到GFP的序列,貼上到文字框中,首先分析密碼子偏性。

如何自已動手做全基因合成?

大腸桿菌的稀有密碼子用紅色標出,可見GFP原生基因中含有很多稀有密碼子,可以先執行密碼子最佳化。

②生成oligos,有兩種方式,預設為方法一,如果引物見相似性高,會提示使用方法二。

點選生成oligos按鈕後,會彈出總鹼基數的統計資訊,然後輸出oliogs序號及序列,同時生成實驗方案按鈕和複製按鈕,一鍵複製後可匯入SanpGene分析。

③SanpGene分析

如何自已動手做全基因合成?

如何自已動手做全基因合成?

完全覆蓋了GFP的基因,並且為偶數條引物,引物間的Tm基本一致(由於本程式與SnapGene的Tm演算法不一致,因此在SnapGene上會有一定差異)。

④生成實驗方案

如何自已動手做全基因合成?

體外全基因合成一般一次不超過1000bp,一次性合成太長會增加出錯的機率,推薦你按800bp分段,一般3個及以內的基因片段可使用伯遠2×BioRun Seamless Cloning Kit一次性連入載體。

參考文獻

[1] Prodromou,C。 and Pearl,L。 (1992) Recursive PCR: a novel technique for total gene synthesis。 Protein Eng。, 5, 827–829。

[2] Sandhu,G。S, Aleff,R。A。 and Kline,B。C。 (1992) Dual asymmetric PCR: one-step construction of synthetic genes。 Biotechniques, 12, 14–16。

[3] Stemmer,W。P。, Crameri,A。, Ha,K。D。, Brennan,T。M。 and Heyneker,H。L。 (1995) Single-step assembly of a gene and entire plasmid from large numbers of oligodeoxyribonucleotides。 Gene, 164, 49–53。

[4] Au,L。C。, Yang,F。Y。, Yang,W。J。, Lo,S。H。 and Kao,C。F。 (1998) Gene synthesis by a LCR-based approach: high-level production of leptin-L54 using synthetic gene in Escherichia coli。 Biochem。 Biophys。 Res。 Commun。, 248, 200–203。

[5] Gao,X。, Yo,P。, Keith,A。, Ragan,T。J。 and Harris,T。K。 (2003) Thermodynamically balanced inside-out (TBIO) PCR-based gene synthesis: a novel method of primer design for high-fidelity assembly of longer gene sequences。 Nucleic Acids Res。,31, e143。

[6] Xiong,A。-S。, Yao,Q。-H。, Peng,R。-H。, Li,X。, Fan,H。-Q。, Cheng,Z。-M。 and Li,Y。 (2004) A simple, rapid, high-fidelity and cost-effective PCR-based two-step DNA synthesis method for long gene sequences。 Nucleic Acids Res。, 32, e98。

[7] Young,L。 and Dong,Q。 (2004) Two-step total gene synthesis method。 Nucleic Acids Res。, 32, e59。

[8] Hoover,D。M。 and Lubkowski,J。 (2002) DNAWorks: an automated method for designing oligonucleotides for PCR-based gene synthesis。 Nucleic Acids Res。, 30, e43。

[9] Rouillard,J。-M。, Lee,W。, Truan,G。, Gao,X。, Zhou,X。 and Gulari,E。(2004) Gene2oligo: oligonucleotide design for in vitro gene synthesis。 Nucleic Acids Res。, 32, W176–W180。

[10] Rydzanicz,R。, Zhao,X。S。 and Johnson,P。E。 (2005) Assembly PCR oligo maker: a tool for designing oligodeoxynucleotides for constructing long DNA molecules for RNA production。 Nucleic Acids Res。, 33, W521–W525。

[11] Jayaraj,S。, Reid,R。 and Santi,D。V。 (2005) GeMS: an advanced software package for designing synthetic genes。 Nucleic Acids Res。, 33, 3011–3016。

[12] Richardson,S。M。, Wheelan,S。J。, Yarrington,R。M。 and Boeke,J。D。 (2006) GeneDesign: rapid, automated design of multikilobase synthetic genes。 Genome Res。, 16, 550–556。

更多資訊請關注伯遠生物公眾號:biorun2011 網址:

http://www。

biorun。com