質問:
ソフトクリップされたベースは、samtools + bcftoolsでのバリアント呼び出しに使用されますか?
mattm
2017-05-19 23:50:05 UTC
view on stackexchange narkive permalink

SAM / BAMファイルで読み取るためにCIGAR文字列で指定されたソフトクリップされた塩基対がある場合、これらは samtools + bcftools aでのバリアント呼び出しに使用されますか? >ワークフロー?

たとえば、 GATK HaplotypeCallerには、ソフトクリップされたベースを使用するかどうかの明示的なオプション -dontUseSoftClippedBases があります。 samtoolsのドキュメントには、クリップされたベースについては触れられていません。

1 回答:
#1
+12
Devon Ryan
2017-05-20 00:19:13 UTC
view on stackexchange narkive permalink

いいえ、samtools(したがってbcftools)はソフトクリップされたベースを使用しません。 samtoolsdepth または samtools mpileup を使用して、ソフトクリップされた配置の領域を確認することで、これをすばやく確認できます。ソフトクリップされた領域は深度/パイルアップでは使用されないことに注意してください(どちらのツールも同じ基になるコードを使用するため、どちらを使用してもかまいません)。興味がある場合、samtoolsはソフトクリップされたベースを無視します。これは、各位置をカバーするアライメントのベースごとのスタックを作成することに基づいているためです。 BAM形式では、配置は開始/終了位置に従って並べ替えられ、ビンに割り当てられます。これにはソフトクリッピングは含まれません。その結果、samtoolsがパイルアップを作成しているとき、ソフトクリップされたベースが含まれている場合に特定のベースとオーバーラップするアライメントも表示されません。

これは、GATKのHaplotypeCallerが何をしているのかという疑問を投げかけます。別の方法で。そこでは、ゲノム内の領域は基本的に小さなde Bruijnグラフに組み立てられます。これにより、グラフがインデルの両側を少し過ぎて開始/終了する場合、インデルの周りのソフトクリップされたベースを解決できます。これが、HaplotypeCallerでインデルの再調整を行う必要がない理由でもあります(これは古いUnifiedGenotyperで必要でした)。

編集:HaplotypeCallerの詳細については、を参照してください。 GATKのウェブサイトのこの素敵なページは、私がここで行ったよりもはるかに詳細になっています。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...