转录组测序多少生物重复合适?2个?3个?48个?
2016年英國鄧迪大學(xué)的Geoffrey J Barton教授在RNA發(fā)表一篇文章專門評(píng)估這一問題。作者對(duì)野生型和snf2突變型酵母樣品分別測(cè)序了48個(gè)生物學(xué)重復(fù);質(zhì)控后,野生型樣品保留42個(gè)生物學(xué)重復(fù),突變型樣品剩余44個(gè)生物學(xué)重復(fù)。
在控制假陽性率為0.05的標(biāo)準(zhǔn)下,用所有可用生物重復(fù)計(jì)算出的差異基因定義為該差異基因鑒定工具的金標(biāo)準(zhǔn)差異基因集。
作者評(píng)估了11個(gè)常用的差異基因分析工具,性能最好的是edgeR,?DESeq2和limma。
下面以edgeR為例展示了不同生物學(xué)重復(fù)數(shù)目對(duì)鑒定差異基因的影響。
圖A展示了,在控制相同的假陽性率水平下,不同的生物學(xué)重復(fù)鑒定出的差異基因數(shù)目 (nr: number of biological replicates)。作者從所有生物重復(fù)中隨機(jī)抽取2組、3組、4組…生物學(xué)重復(fù),分別計(jì)算差異基因,發(fā)現(xiàn):
差異基因的數(shù)目整體與生物重復(fù)數(shù)量正相關(guān)。
差異基因數(shù)目的穩(wěn)定性與生物重復(fù)數(shù)量負(fù)相關(guān);
生物重復(fù)較少時(shí),不同的抽樣導(dǎo)致的差異基因數(shù)目波動(dòng)較大;
生物重復(fù)較多時(shí),檢測(cè)出的差異基因數(shù)目受抽樣影響較小,體現(xiàn)在柱狀圖數(shù)據(jù)分布更集中 (可視化之為什么要使用箱線圖?)。
圖B展示了,不同生物學(xué)重復(fù)與鑒定的差異基因的真陽性率的關(guān)系。不同的實(shí)線代表不同的差異基因篩選倍數(shù)變化(T=|Log2(FC)|)條件下的真陽性率。虛線代表假陽性率,近乎一條直線,說明edgeR的假陽性率控制的還是比較好的,比較低,且不受生物重復(fù)數(shù)影響。如果篩選閾值比較高,比如4倍差異(T=2)時(shí),較低的重復(fù)數(shù)即可獲得較高的真陽性率。而篩選閾值較低(T=0)時(shí),真陽性率受生物學(xué)重復(fù)影響較大;生物學(xué)重復(fù)越少,真陽性率越低。常規(guī)篩選標(biāo)準(zhǔn)2倍差異(T=1)時(shí)需要20個(gè)生物重復(fù)才能達(dá)到與4倍差異相同的真陽性率。
圖C則是圖B的另一種展現(xiàn),橫軸是篩選倍數(shù)閾值 (T=|Log2(FC)|)。藍(lán)色虛線代表3個(gè)生物重復(fù)條件下的假陽性率,在常規(guī)篩選標(biāo)準(zhǔn)2倍差異(T=1)時(shí),假陽性率已趨近于0。不同顏色的實(shí)現(xiàn)代表不同生物重復(fù)下的真陽性率隨篩選閾值差異倍數(shù)的變化,整體呈現(xiàn)正相關(guān);且生物重復(fù)越多,真陽性率越高,并受篩選閾值影響越少。
圖D展示了真陽性、真陰性 (非金標(biāo)準(zhǔn)差異基因定義為真陰性(無差異)基因)、假陽性、假陰性基因數(shù)目隨生物重復(fù)數(shù)的變化。生物重復(fù)越多,漏掉的差異基因(假陰性基因)越少。
原文:https://rnajournal.cshlp.org/content/22/6/839.long
總結(jié)
以上是生活随笔為你收集整理的转录组测序多少生物重复合适?2个?3个?48个?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐我们在B站免费的转录组课程|测序原理
- 下一篇: 把函数包起来就是一个R包 - 完整开发指