質問:
遺伝子濃縮分析から最も代表的な経路を選択する方法は?
llrs
2017-05-26 19:07:00 UTC
view on stackexchange narkive permalink

遺伝子クラスターの濃縮分析を実行しました。出力は、経路とそのp値のリストです(p値< 0.05のため、経路が選択されています)。リストはまだかなり長いので、減らしたいと思います。その目的のために、行列$ p $ x $ p $内の経路のダイス係数を計算しました。ここで、$ p $はリスト内の経路の数です。私は、より異なるもの(重複が少なく、ダイス係数が低い)と、最も類似した経路をより代表する経路(したがって、0.8を超えて重複する5つの経路のグループがある場合は1つだけを取る)の両方が必要です。

最も代表的な経路を選択するにはどうすればよいですか?

GOにも同様のツールがありますが、重要ではないGOの破棄を中継しますが、ここではすべての初期経路がすでに重要です。

ダイス係数行列を使用して経路のクラスタリングを行うと、どこで(またはどのように)切断するかわかりません。

circular dendrogara

高さを使用して経路を選択してみました。しかし、私は高さの解釈がわかりません。

私が見た他のいくつかのツールは多次元尺度構成法を使用していますが、それを実行して最初の次元の特定のポイントでカットすることが役立つかどうかはわかりません。 MDS plot

p値<0.05またはp値<0.05 /(テストされた用語の数)を使用していますか?多重検定による誤検出を避けるために、前者を使用することをお勧めします
解決しようとしている問題にはいくつかの異なる変数(グループ内の経路の数、経路間の望ましいオーバーラップ/距離など)があるため、「適度に優れた」ヒューリスティックソリューションで解決する必要があると思います。 。)私は多くの可能な答えを想像することができます。
多重検定の@CloudyGloudy修正はすでに行われています。申し訳ありませんが、以前は言及していませんでした。はい、私は0.5のオーバーラップ/距離を選択し、それを超えるものを維持するというアイデアで遊んでいましたが、それは他とは完全に異なる経路の外側に残りますが、0.75を超えるものと0.25未満のものを選択できるかもしれません
三 答え:
#1
+4
gringer
2017-05-28 15:23:34 UTC
view on stackexchange narkive permalink

これは、クラスター化されたヒートマッププロット、相関行列プロット、または同様のものに適している可能性があるもののように聞こえます。ダイス係数行列の相関行列(または相関行列なしのその行列のヒートマッププロット)を見たことがありますか?

corrplot パッケージは次のようになります。特に hclust /長方形の描画のプレゼンテーションは便利です。

このパッケージを保証することはできません。これは、「Rプロット相関行列」を検索して見つけたものです。

ヒートマップまたは相関プロットを使用すると、現在樹状図とMDSプロットで行っているように、経路間の類似性を観察できました。ただし、問題は、これらのより代表的な経路をどのように選択するかです。ところであなたの訂正とコメントをありがとう。
#2
+3
benn
2017-12-12 18:38:49 UTC
view on stackexchange narkive permalink

同様の重要な経路をグループ化する1つの方法は、経路間で重複する遺伝子の数を定量化し、これをクラスタリング(ヒートマップ)で使用することです。 GO用語間のオーバーラップインデックスを計算し、その後ヒートマップにクラスター化するツールをRで作成しました。オーバーラップインデックスは、オーバーラップする遺伝子の割合です(0-1の間の数)。また、オーバーラップインデックスの代わりに、ピアソン相関をクラスタリングに使用できます。私のパッケージ( gogadget)はgoseq分析でのみ機能しますが、 goseqはreactomeまたはkeggデータにも使用できます。

このオーバーラップクラスタリングを使用しました現在、さまざまなデータセットに対するアプローチであり、通常、200〜300のGO用語を10〜20の機能グループに減らすことができます。

どのオーバーラップインデックスを使用していますか?いくつかのオーバーラップインデックスがあります。 GOでこのアプローチを使用しないことをお勧めします。2つのGO用語がどれほど類似しているかを測定する特定の方法があります。 [GOSemSim](www.bioconductor.org/packages/GOSemSim/)を参照してください。
オーバーラップインデックスは、オーバーラップする遺伝子の数を2つの遺伝子セットのうち小さい方の遺伝子の数で割って定義されます。これは、[Bioconductor Case Studies](http://www-huber.embl.de/pub/pdf/HahneHuberGentlemanFalcon2008.pdf)の13.3章で説明されています。この本は、バイオインフォマティクスの著名人(R.GentlemanやW.Huberなど)によって書かれています。
新しいオーバーラップインデックスのおかげで、私はそれを知りませんでした。ところで、遺伝子間のこれらの類似性を計算する方法は、他のオーバーラップインデックスを使用しているため、これは役に立ちません。
わかりましたが、私のポイントは使用するインデックスではなく、クラスタリングアプローチです([gringer](https://bioinformatics.stackexchange.com/users/73/gringer)が提案しているのと同じです)。 26-28ページの私のパッケージの[ユーザーガイド](https://sourceforge.net/projects/gogadget/files/gogadget.2.1/)を見ると、ヒートマップが表示されます。通常、Ward.DとEuclideanで良い結果が得られます。ツリーはRでカットできますが、適切なカットオフを見つける前に、最初にどの遺伝子セットがどのブランチにクラスター化されているかを確認して評価することをお勧めします。
申し訳ありませんが、私の最後のコメントは別の質問で考えていました。はい、このアプローチはうまくいく可能性があります
#3
+2
Scott Gigante
2017-05-27 15:43:35 UTC
view on stackexchange narkive permalink

必ずしもリストを削減するのではなく、最も代表的な遺伝子セットのより信頼できるランキングに満足している場合は、EGSEAを試してみてください。アンサンブルアプローチを使用して、最も関連性の高い遺伝子セットのランキングを提供し、統計、ヒートマップ、パスウェイマップ、サマリープロット、およびGOグラフを含むインタラクティブなHTML出力を生成します。これにより、さまざまなレベルの粒度で出力を調べることができます。

bioRxivの論文を読むか、 Bioconductorからパッケージをダウンロードできます。

ランク付けはp値によってすでに行われています(EGSEAによって提案されたようなより精巧なテストの方が良いと主張することができます)が、これはEGSEAまたは他のソフトウェアの出力から関連する経路を選択する方法に答えていないようです/ tools / methods
p値でランク付けするべきではありません。 p値は、観測された変化が統計的に有意であるかどうかを示すだけであり、観測された変化の大きさを示すものではありません。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...