質問:
6〜12bpの長さのDNAモチーフを持ち、保全スコアを取得しようとしている
Eric Brenner
2017-05-31 02:18:08 UTC
view on stackexchange narkive permalink

私はヒトゲノムから約200個の短いヌクレオチドモチーフ(長さ6〜12 bp)を持っており、脊椎動物全体でそれらがどれほど保存されているかを調べようとしています。

モチーフごとに、ヒトゲノムでのすべての出現をリストしたベッドファイルを作成する必要があると考えていました。そこから、ベッドを PhastConsスコアのbigwigファイルにマッピングできました(基本的に、PhastConsソフトウェアが設計したのとは逆のことを行います)。それは最善のアプローチのように聞こえますか?

モチーフからベッドファイルに移行する段階で行き詰まっています。 BLASTを使用してモチーフのすべての出現箇所を見つけようとしましたが、長さが短いために問題が発生しています。
e値のしきい値、ワードサイズ、フィルターパラメータをいじってみましたが、それでも取得できません。ヒット。

この問題の回避策はありますか、それともアプローチ全体を再考する必要がありますか?

私は似たようなことをしましたが、「モチーフ」の代わりに明確に定義されたn-merのリストを使用し、すべて同じnの値を使用しました。これが役立つ場合は、ベッドファイルの作成に使用したコードは次のとおりです:https://bitbucket.org/blaiseli/conservation_mirna_targets/src/20b7a0894b957e69912f637ef2d0493779036029/trie.py?at = master&fileviewer = file-view- defaultコードは超メモリ効率ではない可能性があります。
三 答え:
#1
+7
BaCh
2017-05-31 02:53:31 UTC
view on stackexchange narkive permalink

モチーフにACGTしかない場合

短いモチーフは、まるでkmerカウンターを探しているかのように聞こえます。既存のソフトウェアを使用するか、独自のソフトウェアを作成するかを選択できます。

  1. 既存のソフトウェアを使用するのが最も簡単な方法かもしれません。 2014年の古い投稿では、おそらく最初のアイデアが得られるでしょう: http://homolog.us/blogs/blog/2014/04/07/kmer-counting-a-2014-recap/。そこに記載されているいくつかのアルゴリズムには後継者が含まれているため、少し掘り下げる価値があることに注意してください。小さいkmerサイズは、それらのほとんどをニーズに使用できるようにします。
  2. kmerの最大サイズは比較的小さいため(12 ntは24ビットを必要とします。つまり、kmerテーブルに最大1670万エントリ)、自分のクメール語を、好きな言語や最近のコンピューターで簡単に数えることができるはずです。 kmersの Wikipediaエントリの擬似コードセクションには、そのための最初のポインタが表示されます。少し手間がかかるかもしれませんが、ニーズに応じてより柔軟になる可能性があります。
  3. ol>

    モチーフにIUPACベース(N、Wなど)がある場合

    必要なことを実行している既存のソフトウェアを知りません。短いモチーフが正規表現を使ってこの種の検索を実行できるようになると想像できましたが、私は間違っているかもしれません。すべての主要なプログラミング言語にはRE用のモジュールまたはライブラリがあるため、これをテストするのは簡単なスクリプトで簡単です。データセットで実行するのに数時間かかる場合でも、1回限りの計算には十分です。

#2
+3
rightskewed
2017-05-31 03:46:53 UTC
view on stackexchange narkive permalink

ゲノム(またはデータベース)内のモチーフをスキャンするには、 FIMOを使用します。これにより、ゲノム内のこれらのモチーフの正確な位置がわかります。

位置が決まったら、UCSCの phastCons bigiwigを使用して、基本的な保全スコアを計算できます。ただし、 phastCons スコアはウィンドウ間で平滑化されるため、モチーフマッチングサイトの保存レベルを隣接するシーケンスと比較する場合は、最適な指標ではない可能性があることに注意してください。

これを行うために、しばらく前にパッケージを作成しました。これには、デノボモチーフの発見も含まれます。ただし、ユースケースにとってはやり過ぎかもしれません。

私は実際に以前にFIMOを使用しましたが、モチーフをPWM(JASPARから)と比較するために使用しました。ばかげた質問かもしれませんが、PWMのデータベースよりもゲノムと比較するのはかなり簡単ですか?
@EricBrennerWebバージョンのシーケンスファイルをアップロードするだけです。
#3
+1
Alex Reynolds
2018-03-07 06:10:38 UTC
view on stackexchange narkive permalink

転写因子結合部位に関する場合、私たちの論文では、平滑化されたphastConsスコアの代わりに、塩基ごとの phyloP保存データを使用しました。

BEDOPS bedmap を使用して、特定のモチーフモデルの複数のパッド付き結合部位(BED形式)にスコアをマッピングします。 phyloPスコアはUCSCゴールデンパスから取得されたWIGファイルであり、 wig2bed を介してBEDに変換されます。

結果として得られる結合部位間隔のマトリックスとそれらの塩基ごとのスコアは、ランク付けされたものに変換できます。ヒートマップまたは集計して、モチーフモデルのベースあたりの平均保存量を決定します。

TF結合部位は本質的に高い情報量を示し、したがって高い保存性を示しますが、マトリックスはChIP-seqまたはDNaseI-seqタグ密度のスコアマップによってさらにソートできます。

これは、興味深い低ノイズ、高信号パターンのフィルタリングに役立ち、マトリックスがウィンドウ化されており、ウィンドウにメインモチーフの外側にいくつかの高情報残基がある低情報領域が含まれている場合に役立ちます。たとえば、CTCFの場合のように。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...