質問:
ChIP-seqデータ分析でブラックリストに載っているゲノム領域をいつ説明するのですか?
olga
2017-06-05 22:15:40 UTC
view on stackexchange narkive permalink

グループでは、機能ゲノミクス実験、特にChIP-seqからのデータを分析する際に、アーティファクト領域を追跡してフィルタリングすることが重要であると聞いています。

ここでは、i)相互相関QCの前、ii)相互相関QCの後、ピーク呼び出しの前、iii)ピーク呼び出しの後にENCODEトラックを削除するパイプラインを見てきました。

トラックを削除しても、相互相関やピークに依存しないQCに大きな影響はないことに気づきました。ただし、フィルタリングされたトラックでピークコールを実行する必要があるかどうかはわかりませんか?

1 回答:
#1
+9
Devon Ryan
2017-06-05 22:41:43 UTC
view on stackexchange narkive permalink

余談ですが、ENCODEの人々の何人かが主張するかもしれないことに関係なく、相互相関はほとんど意味がありません。 DEEPサンプルを処理するとき、その値も確認しません。

相互相関にSPP / phantomPeakQualを使用している場合は、以前にデータセットから最も高いピークがすでに削除されていることに注意してください。相互相関を計算します(実際、実際のピークのほとんども削除できるため、実際に何を示しているのかがさらに不思議になります)。これが実際にどこかに文書化されているかどうかはわかりません。deepToolsに実装するかどうかを考えているときにコードを調べたときに気づいたことです。しかし、少なくともこれらの領域はすでに無視されています:)

一般に、ブラックリストに登録された領域と重なるピークを削除するのが最も便利です。理想的な世界では、ピークコールの前にブラックリストに登録された読み取りを除外しますが、(1)これは本当に不便であり(より多くの時間とディスクが必要です)、(2)ピークコールのパフォーマンスが大幅に向上することはありません。理論的には、ブラックリストに登録された領域と重複する読み取りを削除しないと、少なくともブラックリストに登録された領域の周辺で感度が低下するはずですが、とにかくそのようなピークを信頼するかどうかを自問する必要があります。他のQCステップについては、少なくともdeepToolsでは、スキップするブラックリスト領域のBEDファイルを指定するためのパラメーターをすべてのツールに提供します。

余談ですが、最近のゲノムビルドではブラックリスト領域がはるかに少なくなっています(少なくともGRCh38とGRCm38)なので、これは一般的にはそれほど問題にはなりません。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...