質問:
一連のサンプル内の未知のバーコード/アダプターシーケンスを体系的に検出するにはどうすればよいですか?
story
2017-05-31 14:49:30 UTC
view on stackexchange narkive permalink

SRAからデータセットをダウンロードすることがよくありますが、作成者は処理中にどのアダプターがトリミングされたかについて言及していませんでした。

ローカルアライメントはこの障害を克服する傾向がありますが、少し野蛮な感じがします。

fastQCは時々それらを取得するように機能しますが、実際のアダプターシーケンスを見つけることができない場合があります。

通常、私はそれらが使用するキットを検索し、可能なすべてのバーコードをgrepしようとしました。

これを行うためのより堅牢で効率的な方法はありますか?

これはあなたの質問に答えるものではありませんが、そのような問題をSRAに報告して、不足している情報を公開するように著者に依頼する可能性があることを願っています。
なぜローカルアラインメントは少し野蛮だと思いますか? smallRNAシーケンスを使用している場合を除き、この時代のデフォルトの方法である必要があります。私は安全のためにアダプターをトリミングする傾向がありますが、私は気にせずに多くの作業を行い、ローカルアライメントに依存していました。
四 答え:
#1
+4
ewels
2017-06-02 12:52:08 UTC
view on stackexchange narkive permalink

FastQC が「実際のアダプターシーケンスを見つけられない」とおっしゃっています-アダプターシーケンスの汚染プロットを意味していると思います。ただし、kmerおよびSequence Content Plotsは、前者が失敗した場合でも役立つことがよくあります。私は過去にこれらを使用しました-シーケンスコンテンツプロットの最初からアダプターシーケンスを読み取ることができる場合があります(または少なくともトリミングする塩基数を確認できます)。

#2
+2
gringer
2017-05-31 15:45:23 UTC
view on stackexchange narkive permalink

これを行うための既存の方法はわかりませんが、これを行う方法についていくつかのアイデアがあります。

Canuには、不在を探すことを含むアダプタートリミングの方法があります。読み取りのオーバーラップの。特定の領域でシーケンスを共有する他の読み取りがない場合、読み取りはカバレッジが低いポイントで分割され、小さな断片は破棄されます。このような方法を使用して、短い読み取りを保持することにより、可能なアダプター/バーコードシーケンスを探すことができます。

別のオプションは、読み取りの開始時にkmer検索を実行し、豊富なkmerは、一緒に組み立てたり、既存の既知のアダプターやバーコードと一致させたりすることができます。

#3
+1
bli
2017-05-31 15:28:26 UTC
view on stackexchange narkive permalink

ライブラリに非常に豊富にあるはずのシーケンスを知っている場合は、その開始または終了をgrepして(パターン一致の強調表示を使用)、同じシーケンスがそれぞれ直前または直後に体系的に来るかどうかを確認できます。この種の目視検査は、アダプターを見つけるのに役立ちます。

たとえば、以前のラボでは、 Dに取り組んでいました。ショウジョウバエの低分子RNAシーケンスデータと私の同僚は、この種のデータに関する以前の経験から、次の低分子RNAが豊富である可能性が高いことを知っていました: http://flybase.org/reports/FBgn0065042.html

fastqファイルでそれをgrepするだけで、このシーケンスの多くの行が、たまたま常に同じであった別のシーケンス、つまり不明なアダプターの隣に表示されました。

反対票の理由を教えてもらえますか?この方法が、1つの非常に豊富な配列が予想される低分子RNA-seqの場合に適用されるのを見ました。このシーケンスのgrepの出力を視覚的に検査すると(パターンが強調表示されている)、アダプターが何であるか(強調表示されていない部分)の非常に良いヒントが得られました。
問題は、未知のアダプターシーケンスを検出する方法について尋ねているため、OPは豊富なシーケンスを事前に知ることはできません。それが質問のポイントです...
@tallphilアダプターを知らないことと、データに存在すると予想される豊富なシーケンスを知らないこととの間に関連性が見られません。私がよく覚えているなら、私のコメントで言及した例では、私の同僚は、この種のデータの以前の経験から、次の低分子RNAが豊富である可能性が高いことを知っていました:http://flybase.org/reports/FBgn0065042.htmlたまたま常に同じであった別のシーケンス、つまり不明なアダプターの隣に、このシーケンスの多くの行を表示するには、fastqファイルでgrepする必要がありました。
実際、私はあなたの投稿を読み直したところ、あなたが何を意味していたのかがわかりました。これは合理的な考えです。ただし、読者が混乱する可能性があるという意味で説明が不十分であり、最も豊富なシーケンスを検索するとバーコードが見つかる可能性があると思います。この場合の「豊富な配列」は、アダプターが一端または両端にライゲーションされていると予想される既知の核酸配列であると指定する必要があります。
ああ、そうです、お詫びします-これはまさに私がそれを読んだ方法です。おそらく、元の質問が予想されるアダプターシーケンスのgrepに言及していることを助けなかったので、これは私の心の中で新鮮でした:)申し訳ありませんが@bli!反対票は私からのものではなかったので、私はそれを撤回することはできません。
私は自分の説明を明確にしようとしました。
#4
+1
Nils
2017-06-02 16:41:16 UTC
view on stackexchange narkive permalink

kraken / reaperツールキットの minion ユーティリティは、これに役立つ場合があります: http://wwwdev.ebi.ac.uk/enright-dev/kraken/reaper/src/ reaper-latest / doc / minion.html

これはまさに正しいタイプのツールのように見えます。残念ながら、主に3 'エンドアダプター用に設計されました。すべての読み取りを反転して、5 '末端に適用できるかどうか疑問に思います。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...