這篇文章上次發出后,有朋友留言說到底要測幾個重復?其實也沒有定論,有錢多多益善。只是需要知道
重復少時,發現的差異基因會有不少假陰性,獲得不了結果時,可嘗試加測一些,可獲得更穩定的結果。
重復少時,抽樣隨機性大。如下圖隨機抽取2個生物重復獲得的差異基因數目最多時是最少時的5倍以上;隨機抽取3個生物重復獲得的差異基因數目最多時是最少時的3倍左右。
(相關資料圖)
2016年英國鄧迪大學的Geoffrey J Barton教授在RNA發表一篇文章專門評估這一問題。作者對野生型和snf2突變型酵母樣品分別測序了48個生物學重復;質控后,野生型樣品保留42個生物學重復,突變型樣品剩余44個生物學重復。
在控制假陽性率為0.05的標準下,用所有可用生物重復計算出的差異基因定義為該差異基因鑒定工具的金標準差異基因集。
作者評估了11個常用的差異基因分析工具,性能最好的是edgeR, DESeq2和limma。
下面以edgeR為例展示了不同生物學重復數目對鑒定差異基因的影響。
圖A展示了,在控制相同的假陽性率水平下,不同的生物學重復鑒定出的差異基因數目 (nr: number of biological replicates)。作者從所有生物重復中隨機抽取2組、3組、4組…生物學重復,分別計算差異基因,發現:
差異基因的數目整體與生物重復數量正相關。
差異基因數目的穩定性與生物重復數量負相關;
生物重復較少時,不同的抽樣導致的差異基因數目波動較大;
生物重復較多時,檢測出的差異基因數目受抽樣影響較小,體現在柱狀圖數據分布更集中 (可視化之為什么要使用箱線圖?)。
圖B展示了,不同生物學重復與鑒定的差異基因的真陽性率的關系。不同的實線代表不同的差異基因篩選倍數變化(T=|Log2(FC)|)條件下的真陽性率。虛線代表假陽性率,近乎一條直線,說明edgeR的假陽性率控制的還是比較好的,比較低,且不受生物重復數影響。如果篩選閾值比較高,比如4倍差異(T=2)時,較低的重復數即可獲得較高的真陽性率。而篩選閾值較低(T=0)時,真陽性率受生物學重復影響較大;生物學重復越少,真陽性率越低。常規篩選標準2倍差異(T=1)時需要20個生物重復才能達到與4倍差異相同的真陽性率。
圖C則是圖B的另一種展現,橫軸是篩選倍數閾值 (T=|Log2(FC)|)。藍色虛線代表3個生物重復條件下的假陽性率,在常規篩選標準2倍差異(T=1)時,假陽性率已趨近于0。不同顏色的實現代表不同生物重復下的真陽性率隨篩選閾值差異倍數的變化,整體呈現正相關;且生物重復越多,真陽性率越高,并受篩選閾值影響越少。
圖D展示了真陽性、真陰性 (非金標準差異基因定義為真陰性(無差異)基因)、假陽性、假陰性基因數目隨生物重復數的變化。生物重復越多,漏掉的差異基因(假陰性基因)越少。
原文:https://rnajournal.cshlp.org/content/22/6/839.long
這么多重復測序起來需要多少錢?有沒有便宜的方法?見遺傳所屠強研究組開發Decode-seq方法顯著提高差異表達基因分析的準確性。
Nature重磅綜述 |關于RNA-seq,你想知道的都在這
39個工具,120種組合深度評估 (轉錄組分析工具哪家強)
DESeq2差異基因分析和批次效應移除
轉錄組分析的正確姿勢(第三版)
120分的轉錄組試題(第三份答案)
往期精品(點擊圖片直達文字對應教程)后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
標簽: