質問:
Bowtie2のリファレンスゲノムのダウンロード
EMiller
2017-06-01 03:56:27 UTC
view on stackexchange narkive permalink

bowtie2で使用できるリファレンスゲノムをダウンロードするにはどうすればよいですか?具体的にはHG19。 UCSCには多くのファイルオプションがあります。

二 答え:
#1
+11
Konrad Rudolph
2017-06-01 14:38:53 UTC
view on stackexchange narkive permalink

好みの問題だと思いますが、 Ensembl ビルドをお勧めします。トップレベルアセンブリとプライマリアセンブリのどちらが必要か、およびソフトマスク、リピートマスク、またはマスク解除されたファイルが必要かどうかを決定します。命名スキーマは非常に単純です。組み合わせは README ファイルに記述されており、すべてのファイルは 1つのディレクトリにあります

たとえば、マスクされていないプライマリアセンブリが必要な場合、ダウンロードするファイルは Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz になります。

strong> GoldenPath / UCSC の場合、個別の染色体をダウンロードして連結する必要はありません(他の回答の内容とは異なります)。 (トップレベルの)参照全体を bigZips ディレクトリからダウンロードできます。 README から:

このディレクトリには、2009年2月のヒトゲノムアセンブリ(hg19、GRCh37 Genome Reference Consortium Human Reference 37(GCA_000001405.1))が含まれています。繰り返し注釈とGenBankシーケンスも同様です。

ここには基本的に3つのオプションがあります:

  1. chromFa.tar.gz 、これは、ファイルごとに1つの染色体に全ゲノムが含まれています。
  2. chromFaMasked.tar.gz N でマスクされた繰り返しと同じです;
  3. hg19.2bit は、1つのファイルの全ゲノムですが、ユーティリティプログラム twoBitToFa を使用して抽出する必要があります。 twoBitToFa は、個別にダウンロードする必要があります。
  4. ol>

    いずれにせよ、私は常に参照をダウンロードし、マッピング用に独自のインデックスを作成します。これにより、より詳細に制御できるようになります。誰もがこれほど多くの制御を必要とするわけではありませんが、インデックスの作成はとにかくかなり高速です。

これは、「同じゲノムビルドの異なるバージョン間の違いは何ですか?」という別の質問を引き起こすと思います。質問の答えには、DNAとRNA-seq /機能ゲノミクス分析の違いを含める必要があります。DNA/バリアントの世界では、人々は一般に、大規模なシーケンスプロジェクト/ HenLiが「最良」と判断したものに固執します。 RNA-seq /機能ゲノミクスの世界では、リードマッパーとダウンストリームツールがサポートするものに応じて、ゲノムの注意深いキュレーションが重要です(ツールのセットが大きいほど、特異な要件を持つ使用頻度の低いツールのテールが長くなります)。
#2
+9
Manuel
2017-06-01 04:21:54 UTC
view on stackexchange narkive permalink

tl; dr: Bowtie2ホームページのダウンロードまたは Illumina iGenomesのいずれかを使用してください。または、UCSCゴールデンパスにある FASTAファイルを解凍して連結し、インデックスを作成します。

もう少し長い答え:

「」には2つの要素があります。 BowtieやBWAなどの「リードマッパーのゲノム」。

最初に、実際のシーケンス(GRCh37 / hg19やGRCh38 / hg38などのゲノムリリース)を選択する必要があります。 GRCh37.p3など、一部の塩基が交換され、リリースによっては「マッピングされていない」遺伝子座コンティグが追加されるパッチリリースがありますが、通常、GRCh37.p1はGRCh37.p2とほぼ同じです。通常、人々は読み取りごとに特定のパッチバージョンに同意し、これを読み取りマッピングに使用します。

一般に、UCSCフレーバーhg19 / hg38などとNCBI / GRCフレーバーGRCh37、GRCh38などがあります。 (マウスと同様)。 UCSCには、ゲノムリリース以外にバージョン管理がなく、(私の知る限り)hg19FASTAファイルをリリースした後にゲノムシーケンスを更新しません。

次に、各ゲノムのインデックスファイルを作成する必要があります。使用するリードマッパーに応じて、アライメントに元のFASTAファイルが必要な場合と不要な場合があります。 BowtieおよびBowtie2の場合、Bowtie 1/2はインデックスファイルから「オンザフライ」でシーケンスを再構築できるため、インデックスの作成後に元のFASTAファイルは必要ありません。

HTH

ボウタイのホームページでダウンロードを逃した理由がわかりません。これが他の誰かに役立つことを願っています!


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...