質問:
bwaを使用するときにbwa-memが標準アルゴリズムであるのはなぜですか?
terdon
2017-06-03 18:58:27 UTC
view on stackexchange narkive permalink

短い読み取りを調整するための業界標準はbwa-memのようです。ただし、私のテストでは、bwaバックトラック(bwa-aln + bwa-sampe + bwa-samse)を使用した方がパフォーマンスが高いことがわかりました。少し遅くなりますが、感度と特異性の両方の点で大幅に優れた結果が得られます。ボトルデータと公開サンプル(とりわけNA12878とNA12877)のゲノムを使用してテストしたところ、バックトラックが一貫してbwa-memを上回っていたことがわかりました。

では、なぜbwa-memが標準なのですか?私は間違っていますか、他のテストは反対を示していますか?最も一般的なデータセットと検証データを使用してテストしたので、実際にはどのようになっているのかわかりません。効率のわずかな増加がパフォーマンスの低下を上回っているということですか?

私が見ることができる他の唯一の説明は、bwa backtrackがイルミナの読み取り用に特別に設計されており、私のテストはすべてイルミナのデータで行われているということです。 bwa-memが「シーケンサーにとらわれない」というだけですか?どのシーケンスプラットフォームが使用されているかに関係なく、同じアルゴリズムを使用できるようにするには?その場合、イルミナのデータのみを処理する場合はバックトラックを使用し、異なるシーケンサーを使用できる場合はmemを使用するのが理にかなっています。しかし、もしそうなら、イルミナが非常に普及しているので、なぜイルミナのデータでバックトラックがより頻繁に使用されないのですか?何かが足りないと感じています。

Heng Liは、これに対応するのに最適な人物です。また、既存のベンチマークを引用したり、実行したベンチマークの詳細を示したりする価値があるかもしれません。
bwamemペーパーも常にありますhttps://arxiv.org/pdf/1303.3997.pdf
@MatthewBashtonはい、わかっています。残念ながら、私はそれらを簡単に表示できる形式で持っておらず、1年以上前に実行したので、もはや関連性がない可能性があります。他の人が同様の問題を見て、なぜ一方が他方よりも好まれるのかを知っていることを願っています。または、それらを比較する総説が公開されていて、私のpubmed-fuが失敗しただけです。そうでない場合は、自分で再実行し、さらに詳しく調べて、新しい質問を投稿すると思います。
読み取りの長さはどれくらいですか? http://bio-bwa.sourceforge.netは、70bpを超える場合に最適なmemを推奨しています。他の方法で見つけた場合は、再現可能なベンチマークを見るのは興味深いでしょう
@blmooreは、平均してほとんど150ntです。だからこそ、これを見て驚いたのです。ただし、データを表示しない限り(再生成する必要がありますが、恐れ入ります)、私の言葉をそのまま受け入れるのは難しいことを認識しています。私はこれがよく知られた問題であることを望んでいました、そして私はただ無知でした。
こんにちは@terdon;シーケンシングコアチームは、いくつかのデータセットについてBWA-MEMとバックトラックを比較し、MEMがバックトラックよりも高速で正確であることを一貫して発見しました。また、テールバックトラックで大幅な品質の低下がある場合、パフォーマンスが大幅に低下することもわかりました...これはMEMのもう1つの利点です。品質のトリミングが不要で、バックトラックの読み取りをフルレングスでマッピングする必要があります。 、Heng Liとは独立して、またそれに加えて観察しました([このスレッド](https://www.biostars.org/p/90149/)を参照)。
@WyattMcDonnellありがとうございます。そのような混沌としたスレッドを読むのに苦労していますが、それは面白そうです。これらの点で答えを出すことができると思いますか?
私たちの部門は、イルミナシーケンスデータにもbwaバックトラックを使用しています。ちなみに、minimap2(heng liによって書かれた)は、長い読み取りではbwa memよりも優れているため、bwamemが画像のどこに該当するかを理解するのに苦労しています。
密接に関連している(おそらく重複している):https://bioinformatics.stackexchange.com/q/15/3144。ただし、ここのOPが求めていた種類の2つのアプローチの有効性の経験的な比較はまだありません。
[BWA-backtrackとBWA-MEMの違い](https://bioinformatics.stackexchange.com/questions/15/difference-between-bwa-backtrack-and-bwa-mem)の重複の可能性
1 回答:
#1
+7
gringer
2017-06-04 12:38:44 UTC
view on stackexchange narkive permalink

bwa mem は、特に長い読み取りの場合、より新しく、より速く、より正確である必要があります。

bwa のmanページから(おそらくHengLi自身の言葉で):

BWAは、ヒトゲノムなどの大きなリファレンスゲノムに対して低発散配列をマッピングするためのソフトウェアパッケージです。これは、BWA-backtrack、BWA-SW、およびBWA-MEMの3つのアルゴリズムで構成されています。最初のアルゴリズムは最大100bpのイルミナシーケンス読み取り用に設計されており、残りの2つは70bpから1Mbpの範囲のより長いシーケンス用です。 BWA-MEMとBWA-SWは、ロングリードサポートやスプリットアラインメントなどの同様の機能を共有していますが、 最新のBWA-MEMは、高速で高速であるため、高品質のクエリに一般的に推奨されます正確です。 BWA-MEMは、70〜100bpのイルミナ読み取りに対してBWAバックトラックよりも優れたパフォーマンスを発揮します。

はい、私はそれが彼が主張していることを知っています。それは私が見たものではありません。ベンチマークや総説など、bwa-memの方が実際に正確であることを示すものはありますか?
BWAに関するHengLiの論文は、[こちら](https://arxiv.org/abs/1303.3997)です。これは、BWA-MEMとBWA-SWの精度を比較し、BWA-MEMが、同じ数の誤ってマップされた読み取りに対してより多くのマップされた読み取りを持っていることを示しています(図1を参照)。
はい、しかし彼はそれを私が求めているbwaバックトラックと比較していません。
[Brian Bushnell](https://www.biostars.org/p/199625/#199627)は、BWA-MEMがBWA-backtrackよりも正確であると考えているようです。
はい、多くの人がそうします。しかし、私は誰もこれを支持する証拠を与えるのを見たことがなく、私のテストはそうではないことを示しました。
公平を期すために、あなたはこれを裏付ける証拠も何も与えていません。グラフやその他の結果を質問に追加できれば素晴らしいと思います(できればダウンロード可能な読み取り/参照セットを使用して)。
はい、確かに。データを表示する必要があります。正直なところ、私は1年以上前にこれを行いましたが、もう持っていません。私が間違っている可能性は絶対にあり、私がそう言ったからといって誰かが私を信じる理由は何もありません。私は誰かが自分のベンチマークで、あるいはもっと良いことに、比較データを示す査読記事で答えてくれることを望んでいました。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...