質問:
ほとんどのアライナーが「X」CIGAR操作を出力しないのはなぜですか?
medbe
2017-06-03 04:58:11 UTC
view on stackexchange narkive permalink

SAM仕様を読んだとき、「X」CIGAR演算子は不一致を表しています。リファレンスゲノムを見なくてもミスマッチがどこにあるかを知ることができるので、これは便利なようです。ただし、BWAなどの一般的なアライナーの多くは「X」を出力しません。なぜ「X」を省略するのですか?

不思議なことに、不一致情報は(少なくともBWAの場合)MDタグに格納されているため、単純さではなく、意識的な決定であるように見えます。
また、通常は `=`を出力しません。
@DevonRyan`M`または `X` /` = `のいずれかを出力すると思いますので、` X`を省略すると、自動的に `=`も省略されます。
1 回答:
#1
+8
John Marshall
2017-06-03 23:39:38 UTC
view on stackexchange narkive permalink

SAM形式には元々 M I D N S 、 H 、および P CIGAR演算子。 元のSAM仕様(Apple Pagesドキュメントを表示できる場合)および Sequence Alignment / Map形式とSAMtools (Li et al 、2009)。これは、CIGAR文字列を使用する以前のツール、特に M I だけで導入された exonerate と一致していました。 、および D 演算子。

BWA-backtrackは、2008年と2009年にSAM形式と同時に作成されました(および 2009年5月に公開)。その ChangeLog は、2009年1月から MD タグで不一致情報を出力しており、 MD が当時のSAM仕様で定義されていたことを示しています(また、2009年2月には、タグ値の構文が多少流動的でした)。 MD タグは、初期のv1.0ページ形式のSAM仕様でも説明されています。

= および X CIGAR演算子は、この長いsamtools-develメーリングリストスレッドの結果として、 SAM v1.3で後で導入されました。演算子と初期実装に使用される文字は、基本的に2009年11月までに配置されました。

それ以来、 = / X 演算子は実際には使用されていません。ご覧のとおり、 M から引き継がれています。これにはおそらくいくつかの要因があります。

  • 基本的な M / I / Dのずっと後の、後の導入演算子と MD タグは十分に確立されていました。
  • おそらくSAMに固有であり、他のCIGARフレーバーでは使用できません。
  • MD タグはさらに多くの情報を提供します— X は不一致の参照ベースが何であったかを教えてくれません。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...