質問:
重複が多いゲノムでgffアノテーションを転送する方法は?
scalefreegan
2017-05-31 16:01:10 UTC
view on stackexchange narkive permalink

微生物ゲノムには広範な重複が含まれている可能性があります。多くの場合、注釈付きの種から新しくシーケンスされた種に注釈を転送したいと思います。

既存のツール(RATT、LiftOver、Krakenなど)は、種がどれほど密接に関連しているかについて特定の仮定を行うか、新しいゲノムで複数の一致が見つかった場合、特に配列が非常に類似している場合は転送に失敗します。

具体的には、遺伝子が広範囲に複製できる合成生物学のアプリケーションがあります。それらは順番は同じですが、何度も複製され、再配置されます(つまり、互いに隣接しているだけではありません)。上記のツールはいずれも、フィーチャの複数のコピーを持つゲノムにアノテーションの座標を転送できません。

このシナリオでアノテーションを転送する既存のツールまたはソフトウェアはありますか?これを確実に行う方法のアイデアはありますか?

詳細を教えていただけますか?あなたの入力は何ですか(例えば、生の読み取り、アセンブリ、オープンリーディングフレーム)?どんなシーケンス?あなたが望む正確な出力は何ですか? 「仮定についてのあなたの主張を理解できるかどうかはわかりません。また、LiftOverとKrakenは、用途が異なる完全に異なるツールです。
これは理論的にも可能でしょうか?重複が多い場合、注釈が転送可能であるとどのように想定できますか?代わりに同族体を探す方がおそらく良いでしょう。
@terdonオーソログのことですか?同族体=オルソログ(重複なし)+パラログ(重複)
@Chris_Randsいいえ、私は同族体を意味しました。それらがオルソかパラかを知ることができないからこそ(私は2つの[ここ](https://biology.stackexchange.com/a/4964/1306)の違いについて素晴らしい投稿をしています。方法)、最初にできることは、同族体を見つけてから、注釈を引き継ぐのに十分類似しているかどうかを確認することだけです。
@terdonオーソログ/パラログをうまく解決することはもちろん簡単ではありませんが、正確なデータに応じて(OPのデータがどのように見えるかわかりません)、たとえば、同僚の何人かはorthodb http:/を維持しています。 /www.orthodb.org/
ああ、もちろんそれはできます!私のポイントは、(どんなタイプの)相同性の領域を探すことは、異なる種のゲノム間でゲノム座標を翻訳しようとするよりも、注釈を転送するためのより良い方法のように思えるということでした。
@Chris_Rands:入力はアセンブリになります。 gDNAシーケンシングからのdenovo。出力は、特性化された種から新しく組み立てられたゲノムへの注釈(gff形式など)の転送(座標転送)になります。 LiftOverとKraken(これは、同じページにあることを確認するために:https://github.com/nedaz/kraken)の両方がこれを行います。密接に関連するシーケンス間の座標転送に適したLiftOver。異なるアセンブリ; Krakenはゲノムアラインメント(MUMer、Satsuma)を使用しているため、より多様な配列に適しています。
相同性のタイプ/起源を区別する@terdon:は、私が達成したいことの範囲を超えますが、あなたが指摘するように、違いは重要です。また、特に分岐した種の場合、より小さな相同領域を転送する方が良いと言うことも正しいです。アプリケーションについてのfyi:私は遺伝子が広範囲に複製できるsynbioアプリケーションを持っています。それらは順番は同じですが、何度も複製されて再配置されます(つまり、隣接していません)。上記のツールはいずれも、注釈の複数のコピーを持つゲノムに注釈の座標を転送できませんでした。
はい、私は彼らがそうすることを期待していません。それが私が言っていたことです。リフトオーバーツールは単に座標をマッピングするだけで、この種のことを処理することはできません。関心のある遺伝子/タンパク質のリストを取得し、それらのホモログを見つけてアノテーションを転送することにより、手動で行う必要があります(アノテーションが転送可能であると想定できるかどうかについての明らかな警告があります)。残念ながら、あまり楽しくはありません。
謝罪あなたはクラーケンを意味していると思いました:http://ccb.jhu.edu/software/kraken/、これらのツールの名前は誰ですか?とにかく、これを適切に行うことは非常に簡単ではありません。ゲノムアセンブリ、遺伝子予測、オルソログ/パラログの割り当てを行う必要があります。さまざまなパイプラインがありますが(一部はここで確認できます:https://www.ncbi.nlm.nih.gov/pubmed/27043882)、時間がかかります。あるいは、もっと「迅速で汚い」ものについては、@terdonの提案は賢明なようです
二 答え:
#1
+5
BaCh
2017-05-31 20:34:48 UTC
view on stackexchange narkive permalink

私が使用する非常に単純な方法が1つあります。これは、あなたがしていることに対して機能する可能性があります。これは、terdonが提案したものと似ています。

de-novo微生物ゲノムアノテーションを取得します。ツール(私は自分のものを持っていますが、 prokkaを使用/変更できます)。このようなツールは、多くの場合、最初に遺伝子境界を予測し(放蕩グリマーなどの他のツールを使用)、次に見つかった遺伝子に機能を割り当てようとします。この機能の割り当ては、多くの場合、BLASTやその他のツールを使用して行われます...ここで、必要な操作を実行するためにアクセスして変更できます。

必要な遺伝子の「知識」タンパク質データベースを使用します。注釈の最初の行として非常に厳密に注釈が付けられています(たとえば、あなたの場合:注釈付きゲノム)。そのために、徐々に緩和される非常に厳密な同一性/類似性パラメーターをループします。

例:ループ0:100%DNA同一性、同じ長さで注釈のみを転送します。ループ1:100%類似性で注釈のみを転送します。 、同じ長さ。ループ2:99%の類似性、長さ+/- 1%で注釈のみを転送...ループn:100-(n-1)%の類似性、長さ+/-(n-1)で注釈のみを転送)%。

各ループでは、明らかに前のループで注釈が付けられていないものだけに注釈を付けます。

その後、ツールの「通常の」注釈パイプラインを使用して残りに注釈を付けます。

それには、標的ゲノムの遺伝子が最初に発見されている必要はありませんか?または、あなたのツールはデノボ遺伝子予測も行うことができますか? (ちなみに、非常に便利なツールのように聞こえますが、称賛に値します!)
原核生物の遺伝子発見/予測は多かれ少なかれ解決された問題であり、既存のツールはかなりうまく機能します。 http://prodigal.ornl.gov/およびhttp://prodigal.ornl.gov/を参照してください(2つ挙げるだけです)。
はい、私は知っています、私はあなたがあなたの答えでそれについて言及しなかったことにただ驚いた。私が正しく理解していれば、最初のステップは、OPが新しく配列決定されたゲノム内の推定遺伝子のリストを見つけることですよね?
正しい。 Prokka(http://www.vicbioinformatics.com/software.prokka.shtml)は、一連のサードパーティツール(prodigalを含む)を使用して、ゲノムのデノボに注釈を付けています。私は、自分で作成する前に、prokkaを変更することから始めました。 、prokkaパイプラインからのいくつかのアイデアを使用します。
#2
+3
terdon
2017-05-31 19:04:23 UTC
view on stackexchange narkive permalink

最初にGFFで定義された領域と相同な領域を特定してから、アノテーションを転送する必要があると思います。もちろん、同族体にも同じ注釈が付けられるという仮定がありますが、これはしばしば真実ではありません。ただし、ゲノムが非常に異なる場合は、ゲノム座標を使用できないため(とにかく、可能であっても同じ仮定を行うことができるため)、他の方法でそれを行う方法がわかりません。

非常に単純なアプローチの場合(あなたが言うように、シーケンスがほぼ同一である場合はこれで十分かもしれません)、次のようなことができます。

  1. 目的のシーケンスを収集するすでに注釈が付けられている種から。

  2. genewise exonerate codeなどのツールを使用します>これらをターゲットゲノムにマッピングします。どちらのツールもgff形式の出力を返すことができ、ターゲットゲノム内の複数のヒットを見つけることができます。必要に応じて、配列類似性とクエリカバレッジの非常に高いしきい値を使用することをお勧めします(見つかったターゲットシーケンスは、使用されるクエリシーケンスのすべてまたはほとんどをカバーします)。

    これらは微生物ゲノムであるため、スプライシングは問題ではありません。タンパク質配列から始めれば、単純なBLASTnまたはtBLASTnでも同じことができます。

  3. この時点で、リストが作成されているはずです。同族体(その一部はオルソログおよびその他のパラログ)の数であり、クエリシーケンスの注釈をターゲットに転送できます。

  4. ol>

    繰り返しになりますが、これは非常に大きな仮定をしていることを強調します。相同配列は同じ機能を持ち、クエリゲノムにあるものと同じように自動的に注釈を付けることができます。これは多くの場合に当てはまりますが、他の場合にも当てはまります。特にパラログ(種分化イベント後に重複が発生したため、機能が分岐している可能性が高い遺伝子)を調べている場合。

    ただし、前にも言ったように、ゲノムのシンテニー領域を特定するだけでアノテーションを転送できたとしても、この問題はまったく同じである 1 sup>ので、大きな違いはありません。


    1 sup> コメントで述べたように、これがどのように可能になるかわかりません。定義上、重複が多い場合、ゲノム座標は完全に異なり、あるゲノムから別のゲノムにマッピングすることは不可能です。 sub>



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...