質問:
バリアント呼び出しのスコアの再調整にポイントはありますか?
Kamil S Jaron
2017-06-01 03:33:00 UTC
view on stackexchange narkive permalink

パイプラインGATKを呼び出す最もバリアントには、既知のバリアントのリストを必要とする基本品質スコア再調整(BQSR)が含まれます。最近、スコアの参照なしの再キャリブレーションのためにいくつかの作業が行われました。 Lacer atlasは、aDNAと低カバレッジのデータセットを最大限に活用することを目的としています。

aDNAの重要性はこの講義で説明されていますが、BQSRが適切な(> 15x)カバレッジの新鮮なDNAサンプルにとって重要であるかどうか/どのように重要であるかは私にはわかりません。特に、モデル以外の生物を扱っていて、標準のツールを単純に使用できない場合。

スコアの再調整は、バリアントの呼び出しにどの程度の影響を与えますか?それが/努力する価値がないという経験則はありますか?

四 答え:
#1
+5
burger
2017-06-02 03:07:27 UTC
view on stackexchange narkive permalink

個人的には、BQSRがバリアント呼び出しに大きな影響を与えるとは思いませんが、推測する必要はありません。 GATK BQSRを実行すると、調整された品質スコアの正確な表とグラフが出力されます。調整は、読み取りおよびゲノムコンテキスト(前および後のベース)での位置によって異なります。私の経験では、違いはせいぜい数ポイントですが、確かに顕著です。

GATKは、ゲノムデータとエクソームデータの両方にBQSRを推奨しています。これは、通常15倍よりはるかに高い値です。

#2
+2
Manuel
2017-06-01 04:27:28 UTC
view on stackexchange narkive permalink

それは良い質問です。

サンプル数が少ない(たとえば、2つだけ)場合は、バリアントの再キャリブレーションを気にする必要はないと思います。

  • トリオ);とにかくバリアントスコアのGTAK再キャリブレーションを機能させることができませんでした
  • DNAサンプル自体が高品質で同等の品質であり、一貫性のあるシーケンスが行われている高カバレッジサンプル(たとえば、30倍のカバレッジを持つX Tenゲノム)

一般的に、GATKに組み込まれている多くの考えや高度な統計モデルは、1000人ゲノムプロジェクトの初期段階からのものであるというのが私の印象です。これは、(1)カバレッジが低い、(2)カバレッジが異なるゲノム(3)さまざまなテクノロジーバージョンで(4)異なるサンプル、(5)集団シーケン​​スによってシーケンスされていることを意味します。

臨床現場にいる場合とにかくXTenプラットフォームでのみ30xシーケンスを実行する場合、バリアントの再キャリブレーションはおそらくそれほど役に立ちません。

一方、異なるデータセンターやマシンバージョンなどからの多くのデータセットを統合する場合。、バリアントの再キャリブレーションは一見の価値があるかもしれません。

再キャリブレーションの前後に、遺伝子型の品質分布やその他のバリアント/品質関連の指標を確認することをお勧めします。

誰でも:訂正してください私が間違っていたら私!

ここで基本品質スコアの再調整(BQSR)について話しているのですか、それともバリアント品質スコアの再調整(VQSR)について話しているのですか? OPはBQSRを参照していると思いますが、あなたはVQSRについて話し合っています。
はい、OPは確認しました。質問はBQSRに関するものなので、間違った質問に答えているのではないかと思います。
*ため息*そしてそこで私は何か貢献できると思いました。
#3
+1
vchris_ngs
2017-06-06 16:07:56 UTC
view on stackexchange narkive permalink

理想的には、これらのBQSRメソッドは、技術的なエラーが実際に基本品質の呼び出しを台無しにする方法と、1000Gプロジェクトで使用されているマシンがまだ開発段階にあるときを念頭に置いて作成されました。現在のところ、マシンはより強力で強力であり、使用する可能性は低いですが、リストされたSNPを使用して共変量を見つけ、機械学習のトリックを使用して情報を使用してデータのモデルを構築し、これらの基本呼び出しの品質を向上させます。理想的には、イルミナや他の標準的な会社の古いマシンを使用している場合はより適切ですが、非常に強力でスループットの高い新しいマシンでは、ダウンする傾向があります。そのようなテストが行​​われたかどうかは思い出せませんが、新しいシーケンスマシンが常にそのようなテストを行って、そのようなエラーが減少したことを示していますが、バリアント呼び出しにはそのようなBQSRを推奨しています。今問題はSNPのリストです。私たちが使用するリストはゴールドスタンダードとはほど遠いので、これは本当の問題です。それが適切に処理されない場合、品質について推測するすべてがまだ不安定です。 このリンクはかなり有益ですが、古いものです。新しいシーケンサーで本当に改善が見られるでしょう。しかし、学術研究でそのようなテストを気にする人はほとんどいません。また、研究所の新しいシーケンサーを購入する際に常にそのようなテストを行うバイオインフォマティシャンが施設にいない限り、トランスレーショナルラボは実際に時間とお金を投資しません。バリアントを見つけるための臨床ゲノミクスに関しては、最も強力で最新のシーケンサーを使用する必要があると思いますが、BQSRをまだ使用しているかどうか、使用している場合は、データの共分散モデルを構築するために使用するリストは何ですか。

質問は非モデル生物の研究によって動機付けられていることに注意してください-既知のバリアントのリストは私の種には存在しないため、使用できません。したがって、私はQSを再調整することがどれほど重要であるかを知りたいと思いました。
私はそれが非モデル生物であり、それがあなたがそのような変異体のリストを持たない理由であることに同意します。しかし、アプローチの動機はBQSRについても尋ねていたので、私は言いました。使用方法については、このhttps://media.readthedocs.org/pdf/lts-workflows-sm-non-model-toolkit/latest/lts-workflows-sm-non-model-toolkit.pdfをご覧ください。再キャリブレーションするサンプルのHCバリアント。また、このgatlkリンクも役立つ可能性があります。 http://gatkforums.broadinstitute.org/gatk/discussion/3286/quality-score-recalibration-for-non-model-organisms。使用するか比較するかはあなたの手に委ねられています。
非モデルの@KamilSJaronは、これを行う1つの方法ですが、シーケンスマシンがかなり新しく、精度が向上している場合は、この手順を廃止することもできます。私は出版物を読んでそれらが何をするかを確認しましたが、それでも私のために、BQSRなしで、HCバリアントを使用したBQSRで呼び出しを行い、それらをデータベースとして使用し、比較して自分で結論を出します。それが私の意見です。それはまた、プロジェクトの美徳にも依存します。
最初のリンクは、私の最初の質問に非常に関連しています。「GATK UnifiedGenotyperは、再調整や再調整を行わずにインデル通話中に問題が発生しますが、HaplotypeCallerとFreeBayesはどちらも、これらの手順がなくても同等以上のパフォーマンスを発揮します。」ありがとう。 2番目のリンクも関連していますが、再キャリブレーションのアプローチを選択するのに十分な数の個人がシーケンスされていません。
@KamilSJaron関連性があることをうれしく思いますが、それでも、ありとなしの両方で実行し、いくつかの見積もりを行うことができると言います。独自のHCSNPデータベースを作成するためのサンプルがあまりないため、個人の厳密なSNPを使用して作成することもできます。または、サンプルが少ないため、BQSRステップを避けて、バリアントの大部分ではなく、上位のバリアントを引き出します。スコアはあまり正確ではないかもしれませんが、呼び出しは依然として高い信頼性があり、できれば真のポジティブである場合でも、上位のバリアント。ストリーミングするバリアントの数に依存すると思います。
BQSRは依然として関連性があり、この理由の1つは、NextSeqがビン化されたQスコアしか出力できないなど、いくつかの新しいイルミナハードウェアです。 http://gatkforums.broadinstitute.org/gatk/discussion/4594/beware-of-using-binned-quality-scores-with-some-gatk-procedures。さらに、NextSeqは信頼性の高いポリGの問題に悩まされており、BQSRはここでも有益ですhttps://sequencing.qcfail.com/articles/illumina-2-colour-chemistry-can-overcall-high-confidence-g-bases/
ああ、NextSeqにまだ遭遇する必要がなかったので、それは私が気付いていなかったことでした。これは良い点です。次に、OPもそれについて考える必要があります。そうです、私は単にBQSRが最初にどのように登場したかを考えていました。しかし、これはビニングされたQスコアとポリGの問題についての良いキャッチです。
#4
  0
Bekir Ergüner
2020-01-22 16:32:17 UTC
view on stackexchange narkive permalink

BQSRがオプションではない場合(つまり、非モデル生物)、イルミナプラットフォームにPhiXなどの内部制御シーケンスを使用するのが最善です。これは一般的な慣行であると思われますが、一部の施設はそれを無視します。原則として、スコアリングがより正確になるように、マシンはこれらのシーケンスを参照として使用する必要があります。私の経験では、イルミナ読み取りの最初の10〜15塩基は常に低品質でした。これはヌクレオチド分布で簡単に見ることができます。低カバレッジのリシーケンシングやデノボゲノムアセンブリアプリケーションなど、個々の読み取りの品質が重要な場合は、最初の10〜15塩基のトリミングと品質ベースのエンドトリミングをお勧めします。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...