質問:
欠落している遺伝子とEBSeqを使用したRSEM出力の正規化
J0HN_TIT0R
2017-06-02 03:57:13 UTC
view on stackexchange narkive permalink

あまり背景に触れずに、フィールドで修士号を取得している間、バイオインフォマティクスのインターンとしてラボに参加しました。ラボには、外部委託したRNA-seqからのデータがありますが、唯一の問題は、シーケンスを実行した会社からのデータのみが前処理されていることです。つまり、読み取りのフィルタリング、整列、および整列された読み取りのRSEMへの送信です。私は現在、遺伝子ID、転写物ID、長さ、予想数、およびFPKMで構成される4つのサンプルのそれぞれについてRSEMから出力しています。シーケンスからFASTQファイルを取得しようとしていますが、今のところ、これが私が持っているものであり、可能であればそれから何かを取得しようとしています。

この記事を見つけました EBSeqを使用して差分式を分析する場合、予想される読み取りカウントが生の読み取りカウントよりも優れている可能性があることについて説明しています。たった一人の意見で、2014年のものなので、間違っているか時代遅れかもしれませんが、予想される数があるので試してみようと思いました。

しかし、私には2、3しかありません。答えが見つからないEBSeqの実行に関する質問の例:

1:私が持っている出力RSEMファイルでは、すべての遺伝子がそれぞれに表されているわけではなく、それらの約80%が表されていますが、そうでないものは、EBSeqで分析する前に削除する必要がありますか?実行すると実行されますが、正しいかどうかはわかりません。

2:EBSeqを実行するときに使用する正規化係数を知るにはどうすればよいですか?これは技術的な質問というよりは概念的な質問です。

ありがとうございます!

二 答え:
#1
+6
Daniel Standage
2017-06-02 05:14:21 UTC
view on stackexchange narkive permalink

はい、そのブログ投稿は 1人の男性の意見を表しています(こんにちは!)。2014年までさかのぼります 。ゲノミクス年。 :-)ちなみに、期待値最大化アルゴリズムから導出された期待値読み取り数が生の読み取り数よりも優れていることを説明している文献はかなりあります。最初にRSEMの論文を読むことをお勧めします [ 1] [ 2] sup>。

しかし、あなたの主な質問はRSEMとEBSeqを実行するメカニズムについてです。まず、RSEMはEBSeqと互換性があるように明示的に記述されているため、そのままでは正しく機能しない場合は非常に驚きます。次に、EBSeqの MedianNorm 関数は、ライブラリ数を正規化するための私の経験では非常にうまく機能しました。これらの方針に沿って、上記のブログには、役立つと思われる別の投稿があります。

しかし、冗談はさておき、これらのツールは確かに古くなっています。アラインメントフリーのRNA-Seqツールは、同等の精度で、古いアラインメントベースの代替ツールに比べて実行時の桁違いの改善を提供します。 Sailfishは、 Salmon Kallistoを含むツールのリストの最初のものでした。新しい分析を最初から開始する場合(つまり、元のFASTQファイルを取得した場合)、これらのはるかに高速なツールを使用して発現を推定し、その後にDESeq2、edgeR、またはsleuthを使用した差次的発現分析を行わない理由はありません。


1 sup> Li B、Ruotti V、Stewart RM、Thomson JA、Dewey CN (2010)読み取りマッピングの不確実性を伴うRNA-Seq遺伝子発現推定。 Bioinformatics 、26(4):493–500、 doi:10.1093 / bioinformatics / btp692

2 sup> Li B、Dewey C (2011)RSEM:リファレンスゲノムの有無にかかわらず、RNA-Seqデータからの正確な転写産物の定量化。 BMC Bioinformatics 、12:323、 doi:10.1186 / 1471-2105-12-323

「これらのはるかに高速なツールを使用して式を推定しない理由は本当にありません」-ここの場合のように、生の読み取りがない場合を除きます。
ああすごい。私の側の大きな見落とし!
わあ、実際の作者から返事が来るとは思ってもみませんでした! Rを使用して、データフレームを処理し、各サンプルの各遺伝子について予想されるすべてのカウントの単一の行列にしました。
StackExchangeで私の古いブログへのリンクを見て同じように驚きました! :)
小さなフォローアップの質問として、私は最終的に、条件ごとの各遺伝子の倍率変化と関連するp値を取得しようとしています。 GetMultiFC()でフォールドの変更を取得することがわかりましたが、フォールドの変更と後部のフォールドの変更の正確な違いについてはわかりません。後方の倍率変化は正規化された値の倍率変化だと思っているので、これを使用する必要がありますが、よくわかりません。また、関連するp値を取得することは可能ですか?
#2
+3
gringer
2017-06-02 06:40:29 UTC
view on stackexchange narkive permalink
  1. すべての遺伝子/転写物を分析に含めます。
  2. ol>

    検出されない転写物は、サンプリングエラーによって検出されない可能性があります(つまり、シーケンサー/ライブラリープレップがたまたまそれを見逃していた)トランスクリプト)、またはトランスクリプトが特定のサンプルで生成されていないことが原因である可能性があります。さまざまな生物学的要因に応じて遺伝子がオフになることは珍しいことではないため、ゼロカウント遺伝子を無視するべきではありません。 EBSeqの経験から話すことはできませんが、分析パッケージがゼロカウントを「存在しない」ではなく「観察されない」として扱う(そして関連する修正を行う)限り、それらを維持することをお勧めします。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...