RUVSeqの使用を検討してください。 2013 NatureBiotechnologyの出版物からの抜粋を次に示します。
外部RNAコントロールコンソーシアム(ERCC)のスパイクインコントロールのパフォーマンスを評価し、正規化のためにそれらを直接使用します。スパイクインは、標準のグローバルスケーリングまたは回帰ベースの正規化手順で使用するのに十分な信頼性がないことを示しています。制御遺伝子の適切なセット(ERCCスパイクインなど)またはサンプル(複製ライブラリなど)で因子分析を実行することにより、厄介な技術的影響を調整する、不要な変動の除去(RUV)と呼ばれる正規化戦略を提案します。
RUVSeqは、基本的に一般化線形モデル(GLM)を式データに適合させます。ここで、式行列$ Y $は$ m $ x $ n $行列であり、$ m $はサンプル数です。そして$ n $は遺伝子の数です。モデルは要約すると
$ Y = X * \ beta + Z * \ gamma + W * \ alpha + \ epsilon $
ここで、$ X $は対象の条件を表します(たとえば、治療と対照)、$ Z $は観察された共変量(たとえば、性別)を表し、$ W $は観察されなかった共変量(たとえば、バッチ、温度、実験室)を表します。 $ \ beta $、$ \ gamma $、および$ \ alpha $は、$ X $、$ Z $、および$ W $の寄与を記録するパラメーター行列であり、$ \ epsilon $はランダムノイズです。慎重に選択された遺伝子のサブセット(ERCCスパイクイン、ハウスキーピング遺伝子、技術的複製など)の場合、$ X $と$ Z $はゼロであると想定し、サンプル内の「不要なバリエーション」である$ W $を見つけることができます。
他の人が将来役立つと思われる場合に備えて、すべてのRNASeqデータにERCCスパイクインを追加しました。ただし、合理的な使用方法が考えられないため、自分の分析では使用したことがありません。
ERCCの一般的な推奨事項は、入力RNA量に比例して追加することです。 、しかし、それは、総細胞RNA数が異なる細胞間で類似していることを前提としています(これは、単一細胞RNASeqの結果を見ると明らかに誤りです)。元の読み取りからサンプリングされた「ハウスキーピング」遺伝子セットよりも結果。