質問:
ドラフトゲノムでパラログを見つける
aechchiki
2018-07-05 15:29:30 UTC
view on stackexchange narkive permalink

PacBioを使用して(2倍体、脊索動物、高度に異質な)ゲノムを生成し、系統固有の重複(基本的にはパラログ)が含まれているかどうかを確認したいと思いました。ゲノムはまだEnsemblにありません。

現時点で入手できるデータは次のとおりです。

  • ゲノム
  • トランスクリプトアノテーション
  • RNAseq

論文からいくつかの方法を見つけました:

喜んでアドバイスを提供します。

脊索動物...非常にヘテロ接合...私は尾索動物を感じますか?
いいえ、ナメクジウオ;)
分類群の近くに他のゲノムまたはトランスクリプトームがある場合は、ホモログをクラスター化し、ホモロググループから遺伝子ツリーを推測して重複を検出しようとする場合があります。
@NatWHに感謝します。はい私はゲノム/トランスクリプトームを持っています(統計は私たちのアセンブリよりも良くありませんが、ひどい問題ではないはずです)
1 回答:
conchoecia
2018-07-09 09:48:22 UTC
view on stackexchange narkive permalink

これは、高度にヘテロ接合の動物で行うのは本当に難しいです。あなたのゲノムアセンブリ統計は何ですか?具体的には、コンティグ、スキャフォールド、アセンブリサイズ、およびN50の数はいくつですか?

近接ライゲーションデータがある場合、潜在的なパラログが本当にゲノムのさまざまな領域に由来するのか、それとも最終的なアセンブリで折りたたまれていない姉妹染色分体の相同な場所からだけです。

私があなたで、優れたゲノムを持っている場合は、RNAseqデータを使用して遺伝子モデルに注釈を付け、次に各遺伝子をブラストすることから始めますモデル内のすべての遺伝子に対するモデル。これにより、潜在的なパラログがより詳細に検討を開始できるようになります。

ありがとう。私のPacBioゲノムについて:ハプロサイズ〜550Mbp(canu +パージハプロティグ)、〜1000コンティグ、〜1.6 Mbp N50、まだ足場がないが、関連性があるかどうかわからない。残念ながら、近接ライゲーションデータはありませんが、パラログが別のアセンブリ(同じ種ですが、イルミナなので非常に断片化されています)にあることを確認して、パラログの信頼性を確認することを考えていました。入力をありがとう、3番目の段落でもあなたが提案することをテストします!
これらは非常に多くあります。RNAseqリードをマッピングして遺伝子モデルを生成する前に、必ずピロンで磨いてからラコンでインデルを除去してください。
また、@conchoeciaは、ピロンの代替案を提案できますか?明らかに「現在、生のPacBio読み取りのエラーモデルに調整されておらず、それらを使用すると誤った修正が行われる可能性があります」(https://github.com/broadinstitute/pilon/wiki/Methods-of-Operation)
ああ、ピロンの場合、イルミナのデータを使用することを意味します。 Arrow(pb読み取り)を使用してからpilon(Illumina読み取り)を使用する場合があります。
オーケー!イルミナのデータはまだありません。 Arrowで試してみます(Raconで試してみましたが、アセンブリが悪化したようです-.-理由はわかりません)。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 4.0ライセンスに感謝します。
Loading...