質問:
ある公開データベース形式から別の形式への遺伝子名の変換
gringer
2017-06-06 18:38:20 UTC
view on stackexchange narkive permalink

これはredditの / u / apivan19からの質問です。元の投稿はここにあります。

列1にUniProt遺伝子識別子を使用して提供されたプロテオミクスデータがいくつかあります。さまざまなプログラムを使用してこれらを通常の遺伝子シンボルに変換しますが、困難であることが証明されています。

Uniprot Webサイトはかなり適切に変換しますが、すべてを変換することはできず、未知の遺伝子をいくつか追加します。リストに追加します。

たとえば、UniProt表記で5439個の遺伝子を指定し、「5439個のUniProt識別子のうち5420個が5450個の遺伝子シンボルに変換されました」と言います...これはばかげています。

Davidを使用して記号を変更しようとしましたが、ばかげたランダムな順序で返され、並べ替える方法がありません...実際にはあるかもしれませんが、1秒かかります。

これを行う最も簡単な方法は何ですか?すでに非常に時間がかかり、より簡単な解決策を探しています

6 答え:
#1
+9
Konrad Rudolph
2017-06-06 19:16:39 UTC
view on stackexchange narkive permalink

このようなクエリには Ensembl Biomartを使用する傾向があります。これは、さまざまなプログラミング言語用のAPIがあるためです。 biomaRt、そしておそらくもっと興味深いことに、 REST APIを介して(かなりひどいものですが)。

さまざまなデータベースから識別子を変換するには、次に進みます。次のように:

  1. データベース「Ensemblgenes」を選択します
  2. データセットを選択します希望する有機体
  3. 「フィルター」に進みます›「遺伝子:」›「外部参照IDリストの入力」
    1. 選択したソースデータベースを選択します
    2. 新しい行で区切られたIDのリストを提供します
    3. ol>
  4. 「属性」に移動›「遺伝子:」›「トランスクリプト安定ID」のチェックを外します
    1. Ensembl IDが必要な場合は、「遺伝子安定ID」にチェックを入れたままにします…
    2. それ以外の場合チェックを外します。 [外部:]に移動し、目的の識別子の形式にチェックマークを付けます
    3. ol>
  5. 左上の[結果]をクリックします。これにより、さまざまな形式にエクスポートできるプレビューが表示されます。あるいは、上部中央のボタン「XML」と「Perl」は、XML(SOAP / RESTリクエスト用)および(ひどくフォーマットされた)実行可能Perlスクリプトとしてクエリを提供します。
  6. ol>
遺伝子名biomartは、これに非常に役立ちます。一括翻訳用の優れたユーザーインターフェースがあり、さまざまな識別子をカバーし、同義語や廃止された名前にアクセスできます。ただし、サービスはヨーヨーなどのように上下することがあります。ラッパークライアントライブラリは、biomartのバージョンについては困難です。
@agapow絶対に、同意しました。 :-(
#2
+8
Andrew
2017-06-06 22:52:18 UTC
view on stackexchange narkive permalink

少しのプログラミングに慣れている場合は、 mygene.info(あらゆる種類の遺伝子アノテーションのWebサービス)を確認してください。 ID変換は、特に bioconductor client vignetteを参照)で扱われるユースケースの1つであり、 pythonクライアントも利用できます。 pypiを介して。 mygeneのドキュメントはここにあります。

#3
+4
arupgsh
2017-06-06 23:32:15 UTC
view on stackexchange narkive permalink

Bioconductorの AnnotationDbiパッケージを使用して同じことを行うことができます。マウス用の org.Mm.eg.dbなどの生物固有のアノテーションファイルをダウンロードし、現在の遺伝子IDを遺伝子名/遺伝子シンボルにマッピングします。

#4
+3
gringer
2017-06-06 18:46:44 UTC
view on stackexchange narkive permalink

私のお気に入りの遺伝子データベース変換サイトは db2dbです。多数の異なるパブリック形式の1つでIDのリストを提供し、1つ以上のIDを変換ターゲットとして選択できます。次に、さまざまな既知のパスをたどって翻訳を行い、要求した情報を取得するための最も信頼できるルートであると判断したものを選択します。結果はブラウザにテーブルとして表示されますが、Excelファイルまたはタブ区切りのテキストファイルとしてエクスポートすることもできます。

あるデータベースから別のデータベースへの遺伝子のマッピングは1つではないことに注意してください。 1対1のマッピング。ソースデータベースには、ターゲットデータベース内の複数の遺伝子にマッピングされる遺伝子(およびその逆)が存在する可能性があり、ターゲットデータベースには存在しない遺伝子も存在する可能性があります。 これらの現象は、おそらくここで見られた「ばかげた」結果を説明しています。

#5
+3
morgantaschuk
2017-06-06 19:37:23 UTC
view on stackexchange narkive permalink

私は使いにくいので、EnsemblBioMartシステムの大ファンではありません。 Synergizerのインターフェースは非常に単純で、ほとんどのリストで非常にうまく機能します。注:しばらくの間更新されていません。

#6
+2
ithinkiam
2017-07-11 14:18:12 UTC
view on stackexchange narkive permalink

これを手動で行うための私の好ましいオプションはPICRです: http://www.ebi.ac.uk/Tools/picr/

BTWではありません "与えられたタンパク質のセットについて報告された異なる数の遺伝子を取得するのはばかげています。いくつかの理由:

  1. Uniprot IDは消えたり、マージされたり、分割されたりする可能性があります
  2. すべてのuniprotIDと遺伝子IDが1対1の関係にあるわけではありません
  3. 種によっては、一部の遺伝子記号があいまいまたは同義語になる場合があります。
  4. ol>


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...