質問:
反復ゲノムを使用して、長い間読み取られたアセンブリをどのように改善できますか?
gringer
2017-05-25 16:46:36 UTC
view on stackexchange narkive permalink

現在、げっ歯類の寄生虫 Nippostrongylus brasiliensis からゲノムを組み立てようとしています。このゲノムには既存のリファレンスゲノムがありますが、非常に断片化されています。現在のNippoリファレンスゲノム(イルミナのリードから組み立てられた)の足場のいくつかの連続性統計は次のとおりです。

 合計シーケンス:29375合計長:294.400206 Mb最長シーケンス:394.171 kb最短シーケンス:500 b平均長:10.022 kbMedian長さ:2.682 kbN50:2024シーケンス; L50:33.527 kbN90:11638シーケンス; L90:4.263 kb  

このゲノムは、ゲノム配列の反復性が高いため、組み立てが難しい可能性があります。これらの反復配列には、(少なくとも)3つのクラスがあります。

  1. イルミナのシーケンサーの読み取り長(例:171bp)よりも長い反復単位のタンデム反復 e li>
  2. タンデムリピートは、イルミナシーケンサーのフラグメント長またはリンクされた読み取りのテンプレート長(例:20kb)よりも長い累積長さで繰り返されます
  3. 複雑(つまり、非ゲノム全体の複数の場所に現れる反復)配列
  4. ol>

    Canuは、ゲノムに反復構造が豊富にあるにもかかわらず、最初の2種類の反復を非常にうまく処理しているようです。これは、私が試みたアセンブリの1つでCanuによって作成された統合の要約です。読み取りの約30%がスパンであるか、長い繰り返しを含んでいることに注意してください。

     カテゴリ読み取り%読み取り長機能サイズまたはカバレッジ分析-------------- ----------- ------- ---------------------- ------------ ------------ -------------------- Middle-missing 694 0.07 7470.92 + -5552.00 953.06 + -1339.13(不正なトリミング)middle -こぶ5490.05 3770.05 + -3346.10 74.23 + -209.86(トリミング不良)no-5-prime 3422 0.33 6711.32 + -5411.26 70.92 + -272.99(トリミング不良)
    no-3-prime 3161 0.30 6701.35 + -5739.86 87.41 + -329.42(悪いトリミング)低カバレッジ27158 2.59 3222.51 + -1936.79 4.99 + -1.79(組み立てが簡単、低品質のコンセンサスの可能性)unique 636875 60.76 6240.20 + -3908.44 25.22 + -8.49(組み立てが簡単、完璧、イェーイ)repeat-cont 48398 4.62 4099.55 + -3002.72 335.54 + -451.43(コンセンサスエラーの可能性、組み立てへの影響なし)repeat-dove 135 0.01 16996.33 + -6860.08 397.37 + -319.52 (組み立てが難しい、正しく組み立てられない、またはまったく組み立てられない可能性が高い)span-repeat 137927 13.16 9329.94 + -6906.27 2630.06 + -3539.53(読み取りは大きな繰り返しにまたがり、通常は組み立てが簡単です)uniq-repeat-cont 155725 14.86 6529.83 + --3463.16(一意に配置する必要があり、コンセンサスエラーの可能性が低く、アセンブリに影響を与えない)uniq-repeat-dove 28248 2.70 12499 .99 + -8446.95(コンティグを終了し、誤組み立ての可能性があります)uniq-anchor 5721 0.55 8379.86 + -4575.71 3166.22 + -3858.35(繰り返し読み取り、一意のセクション、おそらく不正な読み取り) 

    しかし、3番目のタイプの繰り返しは私に少し悲しみを与えています。上記のアセンブリを使用して、アセンブルされたコンティグの連続性パラメーターは次のとおりです。

     合計シーケンス:3505合計長:322.867456 Mb最長シーケンス:1.762243 Mb最短シーケンス:2.606 kb平均長:92.116 kb中央長:42.667 kbN50: 417シーケンス; L50:194.126 kbN90:1996シーケンス; L90:35.634 kb  

    特にゲノムの複雑さを考えると、悪いアセンブリではありませんが、複雑なゲノムリピートに取り組むことで改善できると思います。なんらかの形で。このアセンブリの約60Mbのコンティグは、巨大なWebで相互にリンクされています(CanuからのGFA出力に基づく):

    60Mb linked structure from Canu GFA

    反復領域は通常500bpを超え、平均で約3kbであり、複数の領域で複製された20kbのシーケンスのように見えるケースを少なくとも1つ見ました。

    Canuのデフォルトはトリミングという1つの例外を除いて、私が試したいくつかのパラメーターで最良のアセンブリ結果が得られます。トリミングパラメータを少し試してみましたが、不思議なことに、5Xのトリミングカバレッジ(500bpのオーバーラップ)は、2Xのトリミングカバレッジ(同じオーバーラップ)よりも連続したアセンブリを提供するようです。

    これらのデータ自体を確認することに興味がある場合は、Nippoシーケンス実行からのFASTQファイルと呼ばれるものがここにあります。私はまだ生のナノポア信号ファイルをアップロードしている最中ですが、ENAプロジェクトPRJEB20824に関連して数週間以内に利用できるようになります。 GFAとアセンブリコンティグを含むZenodoアーカイブもここにあります。

    これらの複雑な繰り返しを解決する方法について他に何か提案はありますか?

明確にするために:あなたは計算ソリューションが必要ですか、それともアセンブリを改善するために特定の技術を使用して再シーケンスすることにオープンですか?
計算ソリューションが望ましいですが、リシーケンシングは問題外ではありません。
私はその質問と混同しています。イルミナアセンブリからの統計情報と、報告された統計情報の一部ではないナノポアデータがあるようです。したがって、明白な答えは、たとえば、 Canu + pilon(または同様のもの)を使用して、両方のデータ型を組み合わせたより良いアセンブリを試みます。しかし、私はそれがあなたが求めているものではないと推測しています。明確にできますか?
Ix Canu [このアセンブラー](https://github.com/marbl/canu)?イルミナとのアセンブリのコンティグは誰のように見えますか。 nanoPoreを使用すると、アセンブリがはるかに優れているようです。
はい、イルミナのデータを使用してCanuアセンブリを修正できますが、それは「タイプ3」の繰り返しの解決には役立ちません。領域は十分に類似しているため、イルミナの読み取りはゲノム内の複数のポイントにマッピングされます。
イルミナのコンティグは高品質ですが(つまり、BUSCOスコアが高く、バリアントエラーがほとんどないことを示しています)、非常に短いです。リピートとコンティグのスニフは終了します。イルミナの読み取り(10倍のリンクされた読み取りでさえ)を恐れさせる地域の例がいくつかあります。
イルミナのコンティグが高品質であっても、そのような繰り返されるゲノムに対してうまく機能するわけではありません。
1 回答:
#1
+6
user172818
2017-05-30 04:41:53 UTC
view on stackexchange narkive permalink

10kbの読み取りでほぼ同一のリピート/セグダップに近い20kbを解決することはできません。あなたができることは、偶然にいくつかのユニットにまたがるいくつかの過度に長い読み取りにあなたの運を賭けることです。発散したコピーについては、この論文を見る価値があります。イルミナの読み取りを使用して、一意の領域のk-merを識別し、重複する段階で一意でないk-merを無視します。この論文では、この戦略は私が購入した標準のオーバーラップを使用するよりも優れていると述べていますが、おそらく、少数の不一致がある20kbのセグメントを解決することもできません。

このような不一致に基づくアプローチには常に制限があります。最近のsegdups / repeatsでは機能しない可能性があります。究極の解決策は、リピート/セグダップユニットよりも長い読み取りを取得することです。 最近のプレプリントの約100kbの読み取りは、ゲームチェンジャーになります。 〜20kbの繰り返しがタンデムでない場合は、10Xの〜100kbのリンクされた読み取りも役立つ可能性があります。

サンプルにはすでに100kbの読み取りがいくつかありますが、さらに必要になる可能性があります。 DNAサンプルがキャンベラに送られ、(同僚によって)Nanoporeトレーニングコースでシーケンスされたので、そこから長い読み取りが得られることを願っています。
「数回」の100kbの読み取りはあまり役に立ちません。標準プロトコルとは異なる超ロングプロトコルを適用する必要があります。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...