質問:
RefSeqアノテーション付きのhg38GTFファイル
Mark Ebbert
2017-09-21 06:17:29 UTC
view on stackexchange narkive permalink

何が欠けているのかわかりませんが、RefSeqアノテーションが付いた公式の hg38 GTF ファイルを見つけるのに苦労しています。 GTF Salmonに提供して、遺伝子レベルのアノテーションを取得したいと思います。

-geneMap に関するSalmonのヘルプ情報は次のとおりです。

トランスクリプトから遺伝子へのマッピングを含むファイル。このファイルが提供されている場合、Salmonはquant.sfファイルとquant.genes.sfファイルの両方を出力します。後者には、集約された遺伝子レベルの存在量の推定値が含まれています。転写産物から遺伝子へのマッピングは、GTFファイルとして、または各行に転写産物の名前とそれが属する遺伝子がタブで区切られた単純なタブ区切り形式で提供する必要があります。ファイルの拡張子は、ファイルの解析方法を決定するために使用されます。 「.gtf」、「。gff」、または「.gff3」で終わるファイルは、GTF形式であると見なされます。その他の拡張子を持つファイルは、単純な形式であると見なされます。 GTF / GFF形式では、「transcript_id」にはトランスクリプト識別子が含まれていると見なされ、「gene_id」には 対応する遺伝子識別子。

これが私が試したものです:

  1. NCBIは GFF ファイルしか提供していないようです。私はあなたが2つの間で変換できることを知っていますが、それは過去に私にとってうまくいきませんでした。どちらのファイル形式でも多くの自由度があり、変換がお粗末になります。具体的には、サーモンは gene_id および transcript_id アノテーションを探しています。
  2. UCSCはRefSeqから GTF ファイルを提供しますが、 gene_id アノテーションは、 transcript_id アノテーションと同じです(つまり、NM番号です)。または、不足しているオプションがあるかもしれません。
  3. Ensemblは、 transcript_id がEnsemblID(ENST#)であることを除いて、希望する形式とすべての情報を正確に提供します。 、RefSeq(NM#)ではありません。
  4. ol>

    hg38RefSeqアノテーションが付いた GTF ファイルを取得する方法を教えてもらえますか?

refseq IDはトランスクリプトごとであるため、遺伝子IDとトランスクリプトIDは同じであると予想されます。それを踏まえて、gene_idとして何を望みますか?
@Devon Ryan EntrezGene IDまたはHUGOシンボルを推測していますか?
@Mark Ebbert:あなたのダウンストリームアプリケーションは何ですか?私の知る限り、サーモンの出力にはgene_idが含まれていないため、transcript_idと同じである必要はありません。
私はあなたの助けに感謝します。 `--geneMap`にSalmonのヘルプを追加しました。彼らは `gene_id`が「遺伝子識別子」を含むことを期待しています。私はそれがいくつかの可能性があることを理解していますが、@IanSudberyが示唆したように、私はHUGOシンボルを好みます。私の熟読では、サーモンはおそらく `gene_name`をターゲットにすべきだと思います。少なくとも、EnsemblがGTFをフォーマットする方法です。どちらの場合でも、 `gene_id`が` transcript_id`と等しいという@DevonRyan'sのコメントに驚いています。それが事実であると主張していませんが、それは誰かに何の利益をもたらしますか? :-)
@IanSudbery,私は最終的に、転写産物の発現を親遺伝子に集約したいと考えています。昨夜、サーモンの作者の1人が「tximport」(https://github.com/COMBINE-lab/salmon/issues/98)を推奨していることがわかりました。これを使用します。しかし、RefSeq GTFが「必要」で、見つからなかったのはこれが初めてではありません。ただ私を驚かせます、しかし多分それは私が私のアプローチを評価する必要があることを示しますか?
1 回答:
Christopher Lee
2017-09-21 23:11:33 UTC
view on stackexchange narkive permalink

次のUCSCwikiページに興味があるかもしれません。このページでは、ほとんどのUCSCテーブルからGTF / GFFに移動する方法を説明しています。
http://genomewiki.ucsc.edu/index.php / Genes_in_gtf_or_gff_format

基本的な要点は、UCSCはデータをGTFまたはGFFとして内部に保存しないため、内部に保存されているgenePredから変換するには、genePredToGtfユーティリティを使用する必要があるということです。 GTF / GFF3にフォーマットします。

これは、メーリングリストでこの質問を受け取ったときに通常与えるコマンドです。

 $ mysql --user = Genome --host = Genome- mysql.cse.ucsc.edu -A -N -e "select * from refGene" hg19 |カット-f2- | genePredToGtf -source = hg19.refGene.ucsc file stdin stdout 

stdoutを最後のコマンドで必要な出力ファイル名に変更して、hg19 refGeneGTFファイルを取得します。

 chr1hg19.refGene .ucscトランスクリプト1186914362。 +。 gene_id "LOC102725121"; transcript_id "NR_148357"; gene_name "LOC102725121"; chr1 hg19.refGene.ucsc exon 1186912227。 +。 gene_id "LOC102725121"; transcript_id "NR_148357"; exon_number "1"; exon_id "NR_148357.1"; gene_name "LOC102725121"; chr1 hg19.refGene.ucsc exon 1261312721。 +。 gene_id "LOC102725121"; transcript_id "NR_148357"; exon_number "2"; exon_id "NR_148357.2"; gene_name "LOC102725121"; chr1hg19.refGene.ucscエクソン1322114362。 +。 gene_id "LOC102725121"; transcript_id "NR_148357"; exon_number "3"; exon_id "NR_148357.3"; gene_name "LOC102725121"; chr1hg19.refGene.ucscトランスクリプト1187414409。 +。 gene_id "DDX11L1"; transcript_id "NR_046018"; gene_name "DDX11L1"; ... 

UCSCデータまたはツールについてさらに質問がある場合は、以下のメーリングリストのいずれかに質問を送信してください。

  • 一般質問:genome@soe.ucsc.edu
  • プライベートデータに関する質問:genome-www@soe.ucsc.edu
  • ミラーサイトに関する質問:genome-mirror@ose.ucsc。 edu
UCSCテーブルブラウザから出力された「GTF」形式が単にこれを正確に返した場合(常に欠落している「gene」エントリを含む)、かなり良いでしょう。これは、人々が実際に期待しているようなものです。
これが理想的であることに同意します。問題は、返されるgene_idが人々が望むものではないかもしれないということです。たとえば、wgEncodeGencodeBasicV27テーブルのGTF出力を取得しようとした場合、DDX11L1のようなgene_idまたはENSG *のようなgene_idが必要ですか?もう1つの問題は、プレーンなgenePredテーブル形式にはname2フィールドすら含まれていないため、この場合、gene_idとして何を割り当てるのでしょうか。テーブルが、name2を持たないgenePredの他のバリエーションである場合はどうなりますか?多くの異なるテーブルバリエーションを使用しており、それらすべてに対してGTF出力をサポートすることは困難です。
完璧な@ChristopherLee,、ありがとう。 @DevonRyan'sのコメントに対するあなたの回答に関して、考えられるすべてのバリエーションをサポートすることは難しい(そしておそらく非現実的)ことは理解できますが、HUGOはおそらくほとんどの人が望んでいるものだと私は主張します。どちらの場合でも、 `gene_id`と` transcript_id`の*両方*のトランスクリプトIDを報告することは理想的ではないと確信しています。 :-)


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...