重複が多いゲノムでgffアノテーションを転送する方法は？

scalefreegan

2017-05-31 16:01:10 UTC

view on stackexchange narkive permalink

微生物ゲノムには広範な重複が含まれている可能性があります。多くの場合、注釈付きの種から新しくシーケンスされた種に注釈を転送したいと思います。

既存のツール（RATT、LiftOver、Krakenなど）は、種がどれほど密接に関連しているかについて特定の仮定を行うか、新しいゲノムで複数の一致が見つかった場合、特に配列が非常に類似している場合は転送に失敗します。

具体的には、遺伝子が広範囲に複製できる合成生物学のアプリケーションがあります。それらは順番は同じですが、何度も複製され、再配置されます（つまり、互いに隣接しているだけではありません）。上記のツールはいずれも、フィーチャの複数のコピーを持つゲノムにアノテーションの座標を転送できません。

このシナリオでアノテーションを転送する既存のツールまたはソフトウェアはありますか？これを確実に行う方法のアイデアはありますか？

詳細を教えていただけますか？あなたの入力は何ですか（例えば、生の読み取り、アセンブリ、オープンリーディングフレーム）？どんなシーケンス？あなたが望む正確な出力は何ですか？「仮定についてのあなたの主張を理解できるかどうかはわかりません。また、LiftOverとKrakenは、用途が異なる完全に異なるツールです。

これは理論的にも可能でしょうか？重複が多い場合、注釈が転送可能であるとどのように想定できますか？代わりに同族体を探す方がおそらく良いでしょう。

@terdonオーソログのことですか？同族体=オルソログ（重複なし）+パラログ（重複）

@Chris_Randsいいえ、私は同族体を意味しました。それらがオルソかパラかを知ることができないからこそ（私は2つの[ここ]（https://biology.stackexchange.com/a/4964/1306）の違いについて素晴らしい投稿をしています。方法）、最初にできることは、同族体を見つけてから、注釈を引き継ぐのに十分類似しているかどうかを確認することだけです。

@terdonオーソログ/パラログをうまく解決することはもちろん簡単ではありませんが、正確なデータに応じて（OPのデータがどのように見えるかわかりません）、たとえば、同僚の何人かはorthodb http：/を維持しています。 /www.orthodb.org/

ああ、もちろんそれはできます！私のポイントは、（どんなタイプの）相同性の領域を探すことは、異なる種のゲノム間でゲノム座標を翻訳しようとするよりも、注釈を転送するためのより良い方法のように思えるということでした。

@Chris_Rands:入力はアセンブリになります。 gDNAシーケンシングからのdenovo。出力は、特性化された種から新しく組み立てられたゲノムへの注釈（gff形式など）の転送（座標転送）になります。 LiftOverとKraken（これは、同じページにあることを確認するために：https：//github.com/nedaz/kraken）の両方がこれを行います。密接に関連するシーケンス間の座標転送に適したLiftOver。異なるアセンブリ; Krakenはゲノムアラインメント（MUMer、Satsuma）を使用しているため、より多様な配列に適しています。

相同性のタイプ/起源を区別する@terdon:は、私が達成したいことの範囲を超えますが、あなたが指摘するように、違いは重要です。また、特に分岐した種の場合、より小さな相同領域を転送する方が良いと言うことも正しいです。アプリケーションについてのfyi：私は遺伝子が広範囲に複製できるsynbioアプリケーションを持っています。それらは順番は同じですが、何度も複製されて再配置されます（つまり、隣接していません）。上記のツールはいずれも、注釈の複数のコピーを持つゲノムに注釈の座標を転送できませんでした。

はい、私は彼らがそうすることを期待していません。それが私が言っていたことです。リフトオーバーツールは単に座標をマッピングするだけで、この種のことを処理することはできません。関心のある遺伝子/タンパク質のリストを取得し、それらのホモログを見つけてアノテーションを転送することにより、手動で行う必要があります（アノテーションが転送可能であると想定できるかどうかについての明らかな警告があります）。残念ながら、あまり楽しくはありません。

謝罪あなたはクラーケンを意味していると思いました：http：//ccb.jhu.edu/software/kraken/、これらのツールの名前は誰ですか？とにかく、これを適切に行うことは非常に簡単ではありません。ゲノムアセンブリ、遺伝子予測、オルソログ/パラログの割り当てを行う必要があります。さまざまなパイプラインがありますが（一部はここで確認できます：https：//www.ncbi.nlm.nih.gov/pubmed/27043882）、時間がかかります。あるいは、もっと「迅速で汚い」ものについては、@terdonの提案は賢明なようです