質問:
エラーが発生しやすい読み取りからのゲノムアセンブリ
gagro
2017-10-22 17:20:58 UTC
view on stackexchange narkive permalink

エラーのない読み取りからゲノムを組み立てる方法を理解しています。私は次のように実装しました:

2つの頂点間の最大オーバーラップとして読み取りを頂点として、エッジを使用して有向オーバーラップグラフを作成します。エッジは、1つの読み取りサフィックスと他の読み取りプレフィックスの最大部分文字列が重なる長さを表します。オーバーラップグラフで、すべての頂点に1回だけアクセスするパスを見つけます。小さなグラフでは、貪欲なアプローチを使用できます。最初のパターンから始めて、常に最大重みのegdeを選択し、このパスによってスペルされた最短の一般的なスーパーストリングを結果のストリングに格納します。パスで綴られた結果の文字列は、すべての読み取りの中で最も短い共通のスーパー文字列であり、アセンブルされたゲノムです。

たとえば

  AACTAG CTAGAT  

結果として AACTAGAT を提供します

ここで、エラーが発生しやすい2つの読み取りに最大で1つのエラー(不一致)があるとします。

  AACTAG CTCGAT  

ご覧のとおり、2回目の読み取りでは、3番目の文字が 'A' から 'C' に1つ置換されています。

では、エラーが発生しやすい読み取りでは、アセンブルされたゲノムはどのように見える必要がありますか?結果の文字列に A または C を使用しますか?または、何かが足りませんか?

注:単純さのために、たとえば短い読み取りを使用しました。私は、100ヌクレオチドの長さで、文字の置換が1つしかない、はるかに多くの読み取りを処理します。これは大きなオーバーラップグラフです。 De Bruijnグラフを使用できることは知っていますが、貪欲なアプローチを使用できますか(エラーのない例のように)?

二 答え:
user172818
2017-10-22 19:13:23 UTC
view on stackexchange narkive permalink

短い読み取りの場合、一般的で最も広く使用されている解決策は、アセンブリの前にシーケンスエラーを修正することです。 k-merスペクトル、トライ、またはマルチアラインメントでエラーを修正できます。このトピックに関する論文はたくさんあります。

エラー訂正だけでは、すべてのシーケンスエラーが修正されるわけではありません。残りのエラーは、重なり/ deBruijnグラフにバブルやヒントをもたらす可能性があります。アセンブリグラフのローカルトポロジを調べることで、それらを識別できます。

では、上記のエラーが発生しやすいサンプルからの解決策は何でしょうか?
あなたの例に対する解決策はありません。十分なカバレッジがあるエラーのみを識別できます。
gringer
2017-10-22 23:47:50 UTC
view on stackexchange narkive permalink

コンティグを適切にアセンブルするのに十分な読み取りが同じ領域にあることを確認するために、アセンブラーがカバレッジしきい値を設定するのが一般的です。

状況から理想的なソリューションを見つけることはできません。コンセンサス配列はあいまいです。オーバーラップが代表的なものである場合(たとえば、6bpではなく100bpの数十回の読み取りに基づく、2倍体ゲノムのヘテロ接合型バリアント)、結果のアセンブリでは、バリアントポイントのアセンブリグラフにバブルが表示されます。

  A / \ AACT GAT \ / C  

保守的なアセンブラは、これら2つのパスAACTAGATとAACTCGATに対応する2つのアセンブルされたコンティグを生成する場合があります。貪欲なアセンブラは、1つのパスを選択してそれを使用します。後続の組み立て手順では、バブルを検索し、組み立てられたコンティグにさまざまな場所で注釈を付けようとする場合があります。

すべての主流のショートリードオーバーラップについて、不一致がある場合、オーバーラップは完全に失われます。あなたは泡を取得しません。通常、バブルを表示するには少なくとも4回の読み取りが必要であり、バブルは文字列/オーバーラップグラフで単一ベースではありません。
はい、与えられた特定の例では、バブルは形成されませんでした。私は、読み取りがより良いカバレッジを持つものを表すと想定していました(たとえば、50の長いシーケンスの重なり、半分にはバリアントがあり、半分にはない)


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...