bowtie2で使用できるリファレンスゲノムをダウンロードするにはどうすればよいですか?具体的にはHG19。 UCSCには多くのファイルオプションがあります。
bowtie2で使用できるリファレンスゲノムをダウンロードするにはどうすればよいですか?具体的にはHG19。 UCSCには多くのファイルオプションがあります。
好みの問題だと思いますが、 Ensembl ビルドをお勧めします。トップレベルアセンブリとプライマリアセンブリのどちらが必要か、およびソフトマスク、リピートマスク、またはマスク解除されたファイルが必要かどうかを決定します。命名スキーマは非常に単純です。組み合わせは README
ファイルに記述されており、すべてのファイルは 1つのディレクトリにあります。
たとえば、マスクされていないプライマリアセンブリが必要な場合、ダウンロードするファイルは Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz
になります。
strong> GoldenPath / UCSC の場合、個別の染色体をダウンロードして連結する必要はありません(他の回答の内容とは異なります)。 (トップレベルの)参照全体を bigZips
ディレクトリからダウンロードできます。 README
から:
このディレクトリには、2009年2月のヒトゲノムアセンブリ(hg19、GRCh37 Genome Reference Consortium Human Reference 37(GCA_000001405.1))が含まれています。繰り返し注釈とGenBankシーケンスも同様です。
ここには基本的に3つのオプションがあります:
chromFa.tar.gz
、これは、ファイルごとに1つの染色体に全ゲノムが含まれています。 chromFaMasked.tar.gz
、 N
でマスクされた繰り返しと同じです; hg19.2bit
は、1つのファイルの全ゲノムですが、ユーティリティプログラム twoBitToFa
を使用して抽出する必要があります。 twoBitToFa
は、個別にダウンロードする必要があります。。いずれにせよ、私は常に参照をダウンロードし、マッピング用に独自のインデックスを作成します。これにより、より詳細に制御できるようになります。誰もがこれほど多くの制御を必要とするわけではありませんが、インデックスの作成はとにかくかなり高速です。
tl; dr: Bowtie2ホームページのダウンロードまたは Illumina iGenomesのいずれかを使用してください。または、UCSCゴールデンパスにある FASTAファイルを解凍して連結し、インデックスを作成します。
もう少し長い答え:
「」には2つの要素があります。 BowtieやBWAなどの「リードマッパーのゲノム」。
最初に、実際のシーケンス(GRCh37 / hg19やGRCh38 / hg38などのゲノムリリース)を選択する必要があります。 GRCh37.p3など、一部の塩基が交換され、リリースによっては「マッピングされていない」遺伝子座コンティグが追加されるパッチリリースがありますが、通常、GRCh37.p1はGRCh37.p2とほぼ同じです。通常、人々は読み取りごとに特定のパッチバージョンに同意し、これを読み取りマッピングに使用します。
一般に、UCSCフレーバーhg19 / hg38などとNCBI / GRCフレーバーGRCh37、GRCh38などがあります。 (マウスと同様)。 UCSCには、ゲノムリリース以外にバージョン管理がなく、(私の知る限り)hg19FASTAファイルをリリースした後にゲノムシーケンスを更新しません。
次に、各ゲノムのインデックスファイルを作成する必要があります。使用するリードマッパーに応じて、アライメントに元のFASTAファイルが必要な場合と不要な場合があります。 BowtieおよびBowtie2の場合、Bowtie 1/2はインデックスファイルから「オンザフライ」でシーケンスを再構築できるため、インデックスの作成後に元のFASTAファイルは必要ありません。
HTH