質問:
RNA発現プロファイルの類似性を計算するためにどのような方法が存在しますか
chiffa
2017-06-04 18:50:24 UTC
view on stackexchange narkive permalink

私たちの研究室での作業の中には、いくつかの実験条件にわたるひずみの比較を必要とするものがあります。細胞からの遺伝子転写応答の類似性に基づいて、最も類似した実験条件を特定しようとしています。

それを行うための自家製の方法を簡単に発明して作成することはできますが、その実装とテストは骨の折れるプロジェクトです。それ自体であり、現在の作業の範囲外です。

すでに公開されているRNA発現プロファイルの類似性計算の方法はありますか?はいの場合、それらを使用した経験は何ですか?

四 答え:
#1
+5
gringer
2017-06-05 03:35:10 UTC
view on stackexchange narkive permalink

RNA発現を比較する方法を含め、「比例性」をテーマにしたばかりの新しい論文があります。

これは私にとって新しい概念です。 、そして記事は私が読むのに十分簡単ではないので、簡単な要約を書くことができます。著者は、論文のセクションを「比例性」の定義に当てているようには見えません。ただし、この記事の興味深いチャンクは次のとおりです。

これらのmRNA間の関係のネットワークをグラフ化しました(S5図)。これは、遺伝子共発現ネットワーク[12]または加重遺伝子と同様のアプローチです。共発現分析[13]ですが、比例性に基づいているため、相対データに有効です。ネットワークは、96の1つのクラスターと、条件全体で比例的に動作するmRNAの他の多くの小さなクラスターを明らかにしました。
...
また、相関(および測定値が実際の座標から来ると仮定する他の統計的手法)スペース)は、相対的な存在量に適用されるべきではありません。これは、遺伝子共発現ネットワークに非常に関連しています[12]。相関は、加重遺伝子共発現ネットワーク分析[13]やヒートマップ視覚化[14]などの方法の中心です。これらの方法を相対データに適用すると、誤解を招く可能性があります。

比例性は(1+ beta ^ 2-2 * beta * abs(r))として定義されます。ここで、rはlogxとlogyのピアソン相関であり、beta ^ 2はvar(log(y))/ var(log( x))。著者は次のようにも述べています。「比例性は適切ですが、ϕは距離の特性を満たしていません。最も明白なことですが、β= 1でない限り対称ではありません」。彼らは続けて、「したがって、非類似度行列を形成するための私たちのアプローチは、単純にϕ(log xi、log xj)を操作することです。ここで、i
しかし、なぜそれは「比例性」(非公式用語で)と呼ばれるのですか?その式が式の値に与える影響は何ですか?この文の残りの部分に記入していただけますか:「比例性は、2つの表現がどのように表現されるかを表す尺度です...」
いいえ、そうではありません-私は比例の使用を完全には理解していませんでした。ファイは比例の尺度ではなく、比例への適合度の尺度であることに注意します。
比率は、2つの遺伝子の発現値の比率が一定になることを意味します。回帰で$ y = mx + c $を近似する代わりに、比例は$ y = mx $を近似します
#2
+5
Ian Sudbery
2017-06-06 15:57:35 UTC
view on stackexchange narkive permalink

サンプル間の類似したパターンに関心がある場合は、比例関係を使用することをお勧めします。ただし、絶対的な違いに関心がある場合は違います。

例:次の2つのサンプルはパターンが似ていますが、絶対レベルでは似ていません:

 サンプル1サンプル2サンプル3GeneA 10100 80Gene B 8 80100 Gene C 12 120 120  

サンプル1と2は、完全な比例関係(phiは0)と完全な相関関係を持っています(補足として、完全な比例関係を持つペアは常に完全な比率になります)相関)。ただし、ログフォールドの変更に関しては、サンプル2と3は互いに似ています。

もちろん、実際には、正規化によってスケールの違いが取り除かれるため、サンプル1とサンプル2のような比較は表示されません。これはまさに比例紙によって提起されたポイントでした。ただし、正規化方法は通常、各サンプルの式の合計が同一であることを保証するものではなく、そのような違いが発生する可能性があります。

2番目のケースでより適している可能性がある代替案は、サンプル間のユークリッド距離、または主成分または多次元尺度構成法の最初の2つのコンポーネントのユークリッド距離のいずれかです。後者は、サンプル間の平均logFCを効果的に使用しています。

x が正規化された対数変換された式の値を含む行列であると仮定すると、Rとlimmaを使用して複数の距離を計算できます。次のような次元のスケーリングされた空間:

  library(limma)mds <- plotMDS(x、plot = FALSE)mds <- data.frame(mds $ x、mds $ y)distances <- dist (mds) 
正規化は、大部分の遺伝子にわたって一貫している場合にのみ、スケールの違いを取り除きます。あなたが与えた例では、示された遺伝子のみがアッセイされた場合、これは確かに当てはまりますが、この少数の遺伝子では、総遺伝子発現ではなくハウスキーピング遺伝子に基づいて正規化する方が一般的です。
はい、これが私のポイントでした。したがって、パターンの違いではなく、スケールの違いを測定する距離測定(ユークリッド距離など)を使用する理由があるのはなぜですか。
#3
+3
gringer
2017-06-05 03:42:24 UTC
view on stackexchange narkive permalink

環境条件が大きく異なるサンプルが多数ある場合は、加重遺伝子相関ネットワーク分析( WGCNA)が適切な場合があります。

このタイプの分析では、さまざまな条件で類似した(または反対の)発現パターンを追跡する遺伝子(たとえば、高-中-中-低-不在-高は、低-中-中-高-非常に高-低と非常に負の相関があります)。

その特定の論文では、同様の発現パターンを共有する遺伝子のグループである「モジュール」の概念を紹介しています。さまざまな条件で正規のモジュールメンバーの発現がどのように変化するかをプロットしたり、特定の遺伝子がメンバーである可能性が高いモジュールを特定したりするための関数を使用できます。

WGCNAは次の場合に最適に機能します。さまざまな条件でさまざまな表現が変化します。これは、プロジェクトに適しているように思えます。しかし、それは条件よりも遺伝子に集中します(それはあなたにとってあまり役に立たないようです)。

#4
+2
Daniel Standage
2017-06-07 00:05:40 UTC
view on stackexchange narkive permalink

ユークリッド距離は、概念的にも実装の観点からも、おそらく最も単純です。これは決して洗練された解決策ではなく、特定の状況ではうまく機能しない可能性があります。

ユークリッド距離は、2次元空間内の2点間の距離として概念化するのが最も簡単です。

  Y ^ |||| * p =(3、3)|||| * q =(2、1)| ---------------------------- > X  

この例では、2点間の距離は

  d(p、q)= sqrt((p_x-q_x)^ 2 +(p_y-q_y)^ 2)= sqrt(( 2-3)^ 2 +(1-3)^ 2)= sqrt(5)≈2.24 

2つの遺伝子を持つ遺伝子発現プロファイルの場合、これはまさにユークリッド距離がどのようになるかです。 1つの遺伝子からの発現値をX軸として使用し、他の遺伝子からの発現値をY軸として使用して計算されます。ただし、現実的には、遺伝子発現プロファイルには通常、数千または数万の遺伝子が含まれているため、代わりにN次元の距離計算の一般化を使用します。

  d(p、q)= sqrt( (p_1-q_1)^ 2 +(p_2-q_2)^ 2 + ... +(p_N-q_N)^ 2) 

RおよびPythonのパッケージにより、これらのタイプの計算は簡単になりますデータを正しいデータ構造にロードしたら。 Rコードの例については、Ianの回答を参照してください。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...