Michael
2017-06-08 12:57:22 UTC
この質問は、2年以上前にユーザージャックによって投稿されたBioStarsの質問に基づいています。
非モデル生物のGOアノテーションを生成する際の非常に頻繁な問題について説明しています。 。特定の形式と単一のアプリケーション(Ontologizer)に基づいていますが、GAFファイルに到達するまでの経路の一般的な説明があると便利です。
入力形式には、取得方法などの重要な情報が少し不足していることに注意してください。したがって、証拠コードを割り当てるのは難しいです。したがって、GO用語の割り当てが自動的に行われたと仮定しましょう。
事前定義された関連付けファイルなしでOntologizerを使用して遺伝子濃縮を行いたい(モデル生物ではない)。
次のように、その生物の2つの列を持つファイルを解析しました:
geneA GO:0006950、GO:0005737geneB GO:0016020、GO:0005524、GO:0006468 、GO:0005737、GO:0004674、GO:0006914、GO:0016021、GO:0015031geneC GO:0003779、GO:0006941、GO:0005524、GO:0003774、GO:0005516、GO:0005737、GO:0005863geneD GO:0005634 、GO:0003677、GO:0030154、GO:0006350、GO:0006355、GO:0007275、GO:0030528
この情報を含むGeneオントロジーファイルから.obファイルをダウンロードしました(ここから):
!! GO ID(プライマリのみ)と名前のテキスト文字列! GO:0000000 [タブ]テキスト文字列[タブ] F | P | C!ここで、F =分子機能、P =生物学的プロセス、C =細胞成分!GO:0000001ミトコンドリアゲノム維持PGO:0000002ミトコンドリアゲノム維持PGO:0000003生殖PGO:0000005リボソームシャペロン活性FGO:0000006高親和性亜鉛取り込み膜輸送体活性FGO:0000007低親和性亜鉛イオン膜輸送体活性FGO:0000008チオレドキシンFGO:0000009アルファ-1,6-マンノシルトランスフェラーゼ活性FGO:0000010トランスヘキサプレニルトランストランスフェラーゼ活性FGO:0000011空胞遺伝P
必要なもの出力は次の形式の.gafファイルです( ファイルの形式ここ):
!gaf-version:2.0!Project_name:Leishmania major GeneDB!URL:http://www.genedb.org/leish !お問い合わせ先Eメール:mb4@sanger.ac.uk GeneDB_Lmajor LmjF.36.4770 LmjF.36.4770 GO:0003723 PMID:22396527 ISO GeneDB:Tb927.10.10130 FミトコンドリアRNA結合複合体1サブユニット、推定LmjF36.4770遺伝子分類群:347515 20120910 GeneDB_Lmajor GeneDB_L .36.4770 LmjF.36.4770 GO:0044429 PMID:20660476 ISS CミトコンドリアRNA結合複合体1サブユニット、推定LmjF36.4770遺伝子分類群:347515 20100803 GeneDB_Lmajor GeneDB_Lmajor LmjF.36.4770 LmjF.36.4770 GO:0016554 PMID:22396527 ISODBミトコンドリアRNA結合複合体1サブユニット、推定LmjF36.4770遺伝子分類群:34751520120910 GeneDB_Lmajor GeneDB_Lmajor LmjF.36.4770 LmjF.36.4770 GO:0048255 PMID:22396527 ISO GeneDB:Tb9 27.10.10130 PミトコンドリアRNA結合複合体1サブユニット、推定LmjF36.4770遺伝子分類群:347515 20120910 GeneDB_Lmajor
独自のGOアソシエーションファイル(gaf)を作成する方法
ブロッククォート>
GO、非モデル生物、gaf、過剰表現分析などのタグをいくつか追加してください。リストに適切なタグがまだ多くないため、ランダムタグを使用しました。
質問を少し変更し、タグを追加し、その形式でファイルを作成する際に質問を中央に配置しました。同意しない場合は、変更を元に戻してください。
[tag:gene-ontology]と[tag:gaf]を追加しました。 [tag:over-representation-analysis]と[tag:enrichment-analysis]のどちらが適切かわかりません。
@Llopis:うまくいけば、誤って変更を上書きしただけではありません。
運が悪い、私の編集は拒否された(または少なくとも表示されない):\
別のサイトから質問を持ち込みたい場合は、[そのままコピーして貼り付けないでください](https://bioinformatics.meta.stackexchange.com/q/78/298)。代わりに、*自分の言葉でもう一度聞いてください*。また、コピーする場合は、引用されたテキストを引用ブロックに入れて、それが引用であることを明確に示すことをお勧めします。
@terdon,申し訳ありませんが、新しいルールに適応する必要があります;)編集を受け入れましたが、質問を自分の言葉で書き直す時間がなく、厳密に必要だとは思いません。それが私の前の投稿と矛盾しているように見えるかもしれませんが、質問はかなり古いので、それはimoではありません。
@Michaelいいえ、今これを書き直すとは思っていませんでした。でも次回はそうしてください。他のサイトから質問を逐語的につまむだけで回るのは正しくないようです。あなたが説明を提供する立場にあるか、これがあなたにも影響を与える問題でない限り、そうではありません。
確かに、私はこの質問について十分な説明を提供できます。ここで使用された可能性が高いBlast2GOではなくGO用語を割り当てるためにInterproScanを使用していることを除いて、まったく同じことを行っています。 IPS出力をGAFに変換するための同様のスクリプトがあります。
ハ!私は今、あなたが最初に他のサイトからのコピー全体を問題として提起した人であることに気づきました:)