質問:
ChIP-seqスタイルのデータを呼び出すバリアント:最小限のフィルターを備えたsamtools mpileup
719016
2017-05-26 18:23:01 UTC
view on stackexchange narkive permalink

カバレッジが非常に不安定なbamファイル(ChIP-seqスタイルのデータ)でsamtools mpileup(v1.4)を実行しています。読み取りカウントによって報告されるSNVとその頻度を含む位置のファーストパスリストを取得したいのですが、何をしても、QCに合格しないものとしてすべてのSNVを除外し続けます。

SNVと周波数の初期リストに設定された魔法のパラメータ?

編集:これは「他の」ウェブサイトに投稿した質問ですが、返信がありませんでした。

確認するためだけに別の発信者を試すことができますか? [varscan](http://dkoboldt.github.io/varscan/)のようなものですか?
@nuin試してみるかもしれませんが、varscanではフィルタリングをオフに切り替えることができますか?
試したコマンドの例をいくつか追加していただけますか?
@719016この[コマンド](http://dkoboldt.github.io/varscan/using-varscan.html#v2.‌3_pileup2snp)を試して、_-- min-coverage _、_-- min-reads2_などのオプションを変更してくださいおよび_-- min-avg-qual_。これは、問題がsamtools関連かBAMファイル関連かを確認するのにも役立ちます
深さが高くなく、ChIP-Seqデータにバイアスがある場合、信頼性の高いSNPではないことを少し心配しています。 HC SNPの要点は、従来のChIP-Seqではそれほど多くない読み取り深度でもあります。
はい、多分、呼び出しはピークに近いサミットに制限されるべきであり、そのようなSNVのサブセットでサンプルをサンプルと比較します
二 答え:
#1
+7
burger
2017-05-27 06:16:16 UTC
view on stackexchange narkive permalink

過去にChIP-seqデータにこれを使用し、SNVを生成しました:

  samtools mpileup \ -uncompressed --max-depth 10000 --min-MQ 20 --ignore -RG --skip-indels \ -fasta-ref ref.fa file.bam \ | bcftools call --consensus-caller \ > out.vcf  

違いが生じる場合に備えてこれはsamtools1.3でした。

これらのパラメーターで動作するようになりました。ありがとう!
#2
+5
user172818
2017-05-29 19:47:27 UTC
view on stackexchange narkive permalink

別のアプローチは htsboxです。候補リストは次のコマンドで取得できます:

  htsbox tileup -Cvcf ref.fa -q20 -Q20 -s5 file.bam > out.vcf  

こちら、 -q は最小マッピング品質を設定し、 -Q は最小基本品質を設定し、 -v はバリアントのみを出力します -c 出力VCF、 -C は両方のストランドのベースカウントを提供し、最後に -s5 は対立遺伝子を呼び出すために少なくとも5つの高品質のベースを必要とします。これは、データが一般的なバリアント呼び出し元による想定に失敗している場合に役立ちます。

samtools + bcftoolsまたはvarscanを使用しないのはなぜですか?透明性とスピード。このコマンドラインは、使用するパラメーターに基づいてカウントするだけです。追加の操作は適用されません。このため、samtoolsmpileupやvarscanよりも1桁以上高速です。 samtoolsはデフォルトでBAQを使用するため、FPがときどき減少することに注意してください。ただし、BAQは、イルミナの読み取りが長くなるために必要なわけではなく、同時に感度が低下します。

パラメータに基づいて数えるだけで機能するとおっしゃっていますが、私は間違いなくhtsboxを試してみるつもりです。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...