質問:
ゲノムワイドなリピートエレメントアノテーションのRepBaseの代替手段はありますか?
Konrad Rudolph
2017-06-01 16:11:10 UTC
view on stackexchange narkive permalink

RepBaseライブラリをRepeatMaskerと組み合わせて使用​​して、特に転移因子のゲノム全体の繰り返し要素アノテーションを取得しています。

これで十分に機能し、

ただし、RepBaseの使用には2つの問題があります。そのため、私(および他の人)は代替案を探していました(これまでのところ成功していません):

  1. RepBaseはオープンデータではありません。彼らのアカデミックライセンス契約には、 RepBaseから派生したデータの配布を明示的に禁止する条項が含まれています。これがどの程度拘束力/強制力があるかは不明ですが、私が使用および生成しているデータの少なくとも一部を公開することを事実上妨げています。これはオープンサイエンスには受け入れられません。

    • これに従属して、RepBaseのサブスクリプションモデルでは、ユーザーの操作が必要なため、RepBaseを完全に自動化されたパイプラインに統合することもできません。 RepBaseにサブスクライブし、ログイン資格情報を提供します。
  2. RepBaseは手動で厳選されています。これは良いことでも悪いことでもあります。シーケンスデータの手動キュレーションが最も信頼できるキュレーションの形式であることが多いため、良いです。反対に、手動キュレーションは本質的に偏っています。さらに悪いことに、このバイアスを定量化することは困難です— これはRepBaseメンテナによって認められています

  3. ol>
定義されたリピートライブラリについてのみ質問しましたか?私はそれをライブラリを構築するために使用されるツールについても少し広く解釈しました(これは新しい分類群からのゲノムが配列決定されるときに関連するようになります)
@Chris_Rands両方(ライブラリとツール)。あなたの答えは的確です。
目標は、繰り返しの注釈付きライブラリを構築することですか、それともゲノムの繰り返し部分をマスクすることですか?
@KamilSJaron TEを使用しているので、(単なる)繰り返しマスクされたシーケンスではなく、注釈付きライブラリが必要です。
痛いですが、TEには反復領域のサブセットにすぎないため、注釈を付けるための専用ツールがあります([DNApipeTE](https://github.com/clemgoub/dnaPipeTE)や[REPET](https://urgi.versaillesなど)。 inra.fr/Tools/REPET))。多分あなたは質問でそれを指定することができます。
@KamilSJaronいいですね、これは答える価値があるかもしれません。質問も更新します。そうは言っても、私はTE以外の反復要素も求めています。
また、RepBaseは、データに基づいて情報を引き出す出版物に反対していると確信していますか?彼らが提供する生データとファイルをあなたが共有することを彼らが望んでいないのかもしれません。さまざまな分野で多数の引用があるため:https://scholar.google.de/scholar?um = 1&ie = UTF-8&lr&cites = 11574259945967474319
@story彼らは、私がリンクしているアカデミックユーザー契約で文字通りそう言っています。関連する引用は次のとおりです。「Repbase(またはRepbaseレポート、リピートマップ**、その他の派生資料を含む、変更されているかどうかに関係なく**)を研究グループ外の人が利用できないようにすることに同意するものとします。」強調鉱山。実際、私の研究所では公開データの保管が義務付けられているため、契約の別の条項では技術的に署名することさえ禁じられています。そのため、おそらくそのような契約に署名することは許可されていません。」
私の前の声明に同意するようです。私のポイントは、彼らのデータベースから考慮される(元の投稿に基づいて)正確に何を共有する必要があったかということだと思います。これには機能の数は含まれないように感じますが、シーケンスが問題になる可能性があります。
@story分析で使用/生成されたすべてのデータを共有する必要がある可能性があります。これには特に、RepBaseから派生した、私が使用した特定のリピートアノテーションと、これらのリピートからの潜在的なシーケンスデータが含まれます。
これは古い質問かもしれませんが、誰かがrepBase(私は完全に商用化しています)の代わりに新しいオープンな代替手段をセットアップしようとしています、または少なくともそれは私がそれを認識する方法です:https://twitter.com/ TransposableMan / status / 1060519887897067521
6 答え:
#1
+12
Konrad Rudolph
2017-06-01 17:15:48 UTC
view on stackexchange narkive permalink

Dfamは最近、姉妹リソース Dfam_consensus を立ち上げました。その明確な目的は、RepBaseを置き換えることです。発表から:

Dfam_consensusは、シードアラインメント(特定のファミリのインスタンスの複数のアラインメント)と対応するコンセンサスシーケンスモデルの両方を格納するためのオープンフレームワークをコミュニティに提供します。

RepeatMaskerとRepeatModelerの両方が更新され、Dfam_consensusがサポートされるようになりました。

まだ試していませんが、有望に見えます。

#2
+6
Jens Bast
2017-06-27 13:06:22 UTC
view on stackexchange narkive permalink

既存のreliabeTEライブラリの場合、誰もがRepBaseのようなデータベースに種固有のTEライブラリを寄託しているわけではないため、少し混乱します。そして、私が知る限り、DFAMには人的資源しか含まれていませんか、それとも間違っていますか?

de novo の種固有のTEライブラリの生成(これはすべての種に対して実行する必要があります)まだ存在していません。例:RepBase):これに最善の方法で取り組むための「ゴールドスタンダード」はありません。原則として、リピート検出とアノテーションの2つの主要部分について考える必要があります。

リピートの場合検出 2つの組み合わせを使用することをお勧めします(繰り返し領域を組み立てるのが難しく、最終的なアセンブリで破棄される傾向があるため、TEコピーがアセンブリで欠落する可能性があるため、これが必要です)。

I)生の読み取りからの繰り返し検出(例えば、DNApipeTEまたはtednaまたはRepeatExplorerの場合)。私にとって、DNAPipeTEは非常にうまく機能しましたが、すべてに長所と短所があります。II)アセンブリからの繰り返し検出(例:REPETまたはRepeatModelerの前に述べたように)

次に、注釈ほとんどの方法は、 de novo TEといくつかの(おそらく遠い)関連種のTEとの間の相同性に依存しているため、これらの繰り返しも注意が必要です。ただし、一部のプログラムでは構造も考慮されます(REPCLASSなど)。 REPETは検出と注釈の両方を実行できますが、実行するのは面倒です。

いくつかのプログラムを使用して、生の読み取りとアセンブリの両方で目的の種をde novo繰り返し検出し、これらのライブラリをクラスター化して(たとえば、uclustと95%の同一性)、アノテーションを実行することをお勧めします。相同性と構造的同定を備えています。

おそらく、プログラムは完全な完全長のTEを提供するのではなく、TEファミリーからのいくつかのコピーのコンセンサス配列を提供します。 必要に応じて、1つのファミリのすべてのコピーを検索し、コンティグと境界からそれらを抽出して手動で位置合わせし、境界を手動でキュレートすることができます。次に、LTRやTIRなどのTEの周囲の(位置合わせできない)領域またはランドマークに当たらない場合は、境界を拡張します。しかし、たとえば種間のTE存在量を比較するだけの場合、これは非常に時間がかかります。私はこれを行わず、読み取りカバレッジを使用して存在量を比較します( Bastetal。2016のように)。あなたが聞きたい質問にすべて依存します。

#3
+4
Chris_Rands
2017-06-01 17:09:58 UTC
view on stackexchange narkive permalink

RepeatScoutを使用できます。これは、限られた数の種(ヒト、マウス、ラットを含む)のリピートライブラリを定義しています。分類群が表されていない場合は、RepeatScoutを使用してdenovoリピート予測を実行し、RepeatMaskerにフィードする独自のライブラリを構築することもできます。 RepeatScoutパブリケーションには、RepBaseとの比較がいくつか含まれています。もう1つの関連ツールは RepeatModelerです。これは、RepeatScoutを RECONやその他のプログラムでラップし、RepeatMaskerチームと作成者を共有します。

プラス面のRepeatScout / RepeatModelerはオープンソースであり、基準を満たす手動キュレーションを使用しません。ネガティブなことに、RepeatModelerとコンポーネントツールがどのように維持されているのか正確にはわかりません。 RepeatScout Webページとgithubページは数年間更新されていませんが、RepeatModelerページには最新のリリースが2017年であることが示されています。とにかく、RepeatScout / RepeatModelerの組み合わせを使用して、かなり最近のリピートに注釈を付けていることを知っています。 新しくシーケンスされたゲノム、例: シクリッドシーラカンスダーウィンフィンチの場合、少なくともこの種のアプローチはこの分野で受け入れられていると言っても過言ではありません。脊椎動物のゲノムプロジェクト。

#4
+4
matt
2019-02-27 22:17:14 UTC
view on stackexchange narkive permalink

AFAIK DfamとRepbaseは、現在(さまざまな)TEシーケンスの2つの最良のソースです。

ゲノムアノテーションでは、RepeatModeler + RepeatMaskerを使用し、後でRepbase + tblastxとDfam + nhmmerを使用しました。

パイプラインPhyLTR( https://github.com/mcsimenc/PhyLTR)の分類プロセスは、DfamとRepbaseに基づいています。 LTRの識別に使用したプロセスは、

  1. LTRHarvestを使用した推定ID(構造シーケンスの特性に基づく)
  2. RepbaseおよびDfamへの相同性による分類
  3. RepbaseまたはDfamの配列と相同性のない要素の削除。
  4. ol>

    これにより、完全長であり、LTR-Rであるという証拠があるLTR-Rのセットが生成されます。

#5
+3
AntiSocialBehaviourOrder
2017-12-14 12:52:14 UTC
view on stackexchange narkive permalink

+ 1は、RepBaseで問題が発生しました。

私は、 TEtoolkitで出力したHammellLabGTFの注釈を使用します。これはあなたが使用していると説明したものと似ているので、これは冗長で役に立たない答えかもしれませんが、私が行った掘り下げから、それらは包括的でよくキュレーションされているようです(少なくともショウジョウバエにとって)。

#6
+1
jpalmer
2018-06-25 21:59:09 UTC
view on stackexchange narkive permalink

この質問は少し古いことは知っていますが、これは多くの研究者がRepBaseにアクセスできないという問題です。人間以外のものをマスキングする場合、RepeatMaskerの最新バージョンは完全な機能をRepBaseに依存しているようです(現在、DFAMには人間のモデルしかありません)。最近、REpeat Detector(赤)と呼ばれる de novo リピートマスキングアプローチを発見しました。これは、アノテーションのためにゲノムアセンブリの繰り返しをマスクしようとしている人にとっての解決策かもしれません。論文はこちらです。次に、Redのラッパーを作成して、ゲノムをソフトマスクするのが少し簡単になるようにしました。これはここにあります。

Redの制限の1つは、繰り返しが分類されないため、識別されるだけであるということです。それらを分類するには、上記の他のツールのいくつかを使用する必要があります。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...