質問:
ペアエンドのショートリードリシーケンシングデータから構造バリアント(SV)を呼び出すにはどうすればよいですか?
Kamil S Jaron
2017-05-18 19:28:48 UTC
view on stackexchange narkive permalink

リファレンスゲノムがあり、イルミナのペアエンド全ゲノムリシーケンシングデータ(挿入サイズ700bp)から構造変異体を呼び出したいと思います。

SV呼び出し用のツールはたくさんあります(以下のツールの不完全なリストを作成しました)。複数のメソッド/サンプルからのSV呼び出しをマージするためのツールもあります- SURVIVOR。感度と特異性の最適なバランスを備えたSV検出の方法の組み合わせはありますか?

シミュレートされたペアを使用して個々のメソッドのSV呼び出しの感度と特異性を評価するベンチマークペーパーがあります-読み取りを終了します。ただし、メソッドの組み合わせに関する詳細はありません。

構造バリアントを呼び出すためのツールのリスト:

完全な答えではないので、コメントを追加します。ボトルコンソーシアムのゲノムを確認してください。現在、新しいアプローチのベンチマークとテストのための標準的な一連の呼び出しで、最適な呼び出し元と定義を決定する方法についての議論があります。私の仕事では、Socratesで良い結果が得られましたが、現在は[GRIDSS](https://github.com/PapenfussLab/gridss)に置き換えられています。
@nuin-私はボトルコンソーシアムのゲノムについて知りませんでした。面白そうに見えますが、議論の公的な記録は見つかりませんでした。リンクはありますか?
二 答え:
#1
+6
roblanf
2017-05-19 15:18:41 UTC
view on stackexchange narkive permalink

最適な方法または方法の組み合わせは、データセットごとに異なる可能性のあるデータの側面に依存すると思います。例えば。構造バリアントのタイプ、サイズ、頻度、SNVの数、参照の品質、汚染物質、その他の問題(読み取り品質、シーケンスエラーなど)など。

そのため、私は2つのアプローチ:

  1. 多くのメソッドを試して、それらの重複を確認します
  2. ウェットラボ実験によって、さまざまなメソッドからの呼び出しのサブセットを検証します。最終的には、これが特定のケースの精度を知る唯一の実際の方法。
  3. ol>
「さまざまなメソッドからの呼び出しのサブセットを検証する」とはどういう意味ですか?
おかしなことに、レビューペーパー(simデータ)はあなたに同意します-すべての方法には多くの誤検知があります-重複する方が良いです。しかし、論文「構造変化の統合マップ」(Germainの回答)は反対のことをしました-誤検知を減らすためにすべてのソフトウェアを微調整し、それらすべてを取るよりも。
検証とは、予測されたバリアントの束にアクセスして再シーケンスすることを意味します。すべてのバイオニンフォーマット法は、多くの偽陽性を示します(もちろん、陰性を見つけるのは難しいですが、多くの偽陰性があります)。したがって、通話の正確さを知る唯一の本物の方法は、独立した情報を取得することです。再シーケンスから。
#2
+3
German Demidov
2017-05-20 13:33:59 UTC
view on stackexchange narkive permalink

完璧な結果を得ることに専念している場合は、1000GP第3フェーズSV検出ペーパーでそこに説明されている戦略を使用できます-これらのツールを使用し、IRSテストで通話を検証し、通話をマージします1つのコールセットに。

この論文の準備中に費やしたように数千人時間を費やしたくない場合は、私の経験から、1つのペアエンド挿入距離法と1つの読み取り深度ベースの方法を使用することをお勧めします。それらのそれぞれは、ゲノム内の「異なる」領域をカバーしています。 (重複が大きい​​場合でも、ペアエンド検出では両方のSVブレークポイントを領域内に配置し、マッピング性を高める必要があります。これは常に当てはまるわけではありませんが、読み取り深度メソッドの解像度は一般的に低く、ペアエンドは削除/タンデム複製/反転ですが、非タンデム複製で問題が発生します。

お役に立てば幸いです。

私は論文の補足を調べましたが、それは本当にクレイジーです-異なる計算方法の重複はほとんどないようですが、偽発見率は非反転タイプのSVでかなり良いです(2-10%)。しかし、彼らは膨大な人口データセットを使用しており、私は参照を含む9人の個人のシーケンスを持っています。
はい、重なりは少し小さいですが、これは主に、さまざまなツールがさまざまなタイプのCNVを探すためです(上記で説明したように、読み取り深度と挿入距離ベースの方法を比較しています)。これはあなたが得ることができる最高の精度です。個人が9人しかない場合は、母集団で1%を超える頻度で発生するCNVを除外し(論文を参照)、DELLYやcn.mopsなどを使用することをお勧めします(単なる例です。これが理想的な選択かどうかはわかりませんが、どちらもかなり良いです)。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...