何が欠けているのかわかりませんが、RefSeqアノテーションが付いた公式の hg38
GTF
ファイルを見つけるのに苦労しています。 GTF
を Salmonに提供して、遺伝子レベルのアノテーションを取得したいと思います。
-geneMap
に関するSalmonのヘルプ情報は次のとおりです。
トランスクリプトから遺伝子へのマッピングを含むファイル。このファイルが提供されている場合、Salmonはquant.sfファイルとquant.genes.sfファイルの両方を出力します。後者には、集約された遺伝子レベルの存在量の推定値が含まれています。転写産物から遺伝子へのマッピングは、GTFファイルとして、または各行に転写産物の名前とそれが属する遺伝子がタブで区切られた単純なタブ区切り形式で提供する必要があります。ファイルの拡張子は、ファイルの解析方法を決定するために使用されます。 「.gtf」、「。gff」、または「.gff3」で終わるファイルは、GTF形式であると見なされます。その他の拡張子を持つファイルは、単純な形式であると見なされます。 GTF / GFF形式では、「transcript_id」にはトランスクリプト識別子が含まれていると見なされ、「gene_id」には 対応する遺伝子識別子。
これが私が試したものです:
- NCBIは
GFF
ファイルしか提供していないようです。私はあなたが2つの間で変換できることを知っていますが、それは過去に私にとってうまくいきませんでした。どちらのファイル形式でも多くの自由度があり、変換がお粗末になります。具体的には、サーモンはgene_id
およびtranscript_id
アノテーションを探しています。 - UCSCはRefSeqから
GTF
ファイルを提供しますが、gene_id
アノテーションは、transcript_id
アノテーションと同じです(つまり、NM番号です)。または、不足しているオプションがあるかもしれません。 - Ensemblは、
transcript_id
がEnsemblID(ENST#)であることを除いて、希望する形式とすべての情報を正確に提供します。 、RefSeq(NM#)ではありません。 ol>
hg38RefSeqアノテーションが付いた GTF
ファイルを取得する方法を教えてもらえますか?