質問:
ChIP-seq実験のシーケンスデータのマージ
olga
2017-06-03 17:42:58 UTC
view on stackexchange narkive permalink

異なるシーケンス実行からのシーケンスデータをマージする必要がありますが、同じChiP-seqライブラリ(HiSeq 2000)用です。

.fastqまたは.BAMステージでファイルをマージする場合、潜在的な長所または短所はありますか? (Bowite / 1.1.2との整合)?

三 答え:
#1
+7
Konrad Rudolph
2017-06-03 17:48:05 UTC
view on stackexchange narkive permalink

それは重要ではないと思います。どちらも簡単にマージでき( samtools merge を介したBAM、および(gzipされた) cat を介したFASTQ)、FASTQファイルが何らかの理由でソートされない限り、どちらの方法にも特定の欠点はありません。 (ただし、通常はそうすべきではありません)。

FASTQファイルを個別に保持する利点の1つは、マッピング手順の並列化が少し簡単になることです。個別のFASTQファイルでマッパーを並列に実行するだけです。 bowtie にはこのためのオプション( -p )がありますが、そこからのスループットは、分割ファイルでマッピングを実行するよりもわずかに劣ります。

#2
+3
Sarah Carl
2017-06-06 13:19:38 UTC
view on stackexchange narkive permalink

ChIP-seqの場合、それは実際には重要ではありません。ただし、デフォルトでは、 samtools merge は各入力ファイルからの読み取りグループ情報(ヘッダーの @RG フィールド)を保持することに注意してください。マージされたデータをすべて同じサンプルの一部と見なしたい場合、これは一部のダウンストリーム分析(GATK HaplotypeCallerなど)で問題を引き起こす可能性があります。この動作は、 -c オプションを使用して変更できます。

ChIP-Seqに `@RG`情報が必要だとは思いません。つまり、誰かがChIP-Seqで呼び出しているバリアントを実行したいと思う可能性はほとんどありません。したがって、いずれにせよ、それはほとんど問題になりません。人々が混乱するかもしれないので、ここでは「@RG」については触れません。
フェアポイント。しかし、オルガは長所と短所について尋ねたので、言及する価値があると思いました。 `samtools merge`が広く使用されているため、ChIP-seq以外の他のアプリケーションのファイルをマージするときに、将来、または他のユーザーにとって役立つ可能性があります。
#3
+2
ewels
2017-06-06 22:40:14 UTC
view on stackexchange narkive permalink

それは本当に重要ではないということで他の人たちに同意します。ただし、注意すべき点が1つあります。BAMファイルを重複排除する場合(ChIP-seqデータの場合はおそらくそうする必要があります)、マージ後に必ずこれを行ってください。 :)

1つのライブラリではなく、複数の技術的複製がある場合(つまり、同じサンプルからの複数のライブラリ)、技術的複製ごとに個別に調整を行ってから、重複排除してからマージする必要があることに注意してください。これにより、PCRの重複のように見えるかもしれないが(同じ場所にマップされるため)、実際には一意である各ライブラリから一意のフラグメントを保持できます。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...