質問:
FPKMで使用される「有効長」はどの程度正確に計算されますか?
user172818
2017-06-02 00:49:22 UTC
view on stackexchange narkive permalink

この有名なブログ投稿によると、有効なトランスクリプトの長さは次のとおりです。

$ \ tilde {l} _i = l_i- \ mu $

ここで、$ l_i $はトランスクリプトの長さ、$ \ mu $は平均フラグメント長です。ただし、通常、フラグメントの長さは約300bpです。トランスクリプト$ l_i $が300より小さい場合はどうなりますか?この場合、有効長をどのように計算しますか?

関連する質問:遺伝子のFPKMを計算するとき、転写物を選択する方法は? 「標準的な」転写物を選択しますか(どのように?)、またはすべての転写物からのシグナルを遺伝子レベルのFPKMに結合しますか?

三 答え:
#1
+14
Devon Ryan
2017-06-02 01:03:41 UTC
view on stackexchange narkive permalink

有効な長さは$ \ tilde {l} _i = l_i- \ mu + 1 $(Haroldのブログ投稿の下部にあるRコードに注意)です。これは、$ \ mu < l_i $の場合は1になります。 。理想的には、グローバルな$ \ mu $ではなく、特定の機能にマップされた平均フラグメント長を使用しますが、それはおそらく0の利益のためにはるかに多くの作業です。

特定のトランスクリプトの選択に関して、理想的には、サーモンやカリスト(または殺す時間があればRSEM)のような方法を使用します。それ以外の場合は、(A)主要なアイソフォームを選択する(組織および状態でわかっている場合)か、(B)「ユニオン遺伝子モデル」を使用する(非冗長エクソンの長さを合計する)か、(C)転写産物の中央値を取得します長さ。サンプル間で比較する場合、これら3つのオプションはどれも、サーモン/カリストなどより劣っていますが、大きな違いはありません。メートル法。

なぜサーモンらなのか。より良い方法?フィーチャーの長さを決定するために、サンプル間で同じになる任意のメトリックを使用しません。代わりに、期待値の最大化(または、少なくともサーモンは実際にはEMを使用しないため、同様のもの)を使用して、個々のアイソフォームの使用量を定量化します。サンプルの有効な遺伝子の長さは、相対的な発現を重み付けした後の転写産物の長さの平均です(はい、そこで$ \ mu $を削除する必要があります)。これはサンプル間で異なる可能性があります。これは、上記のACメソッドが失敗するような方法でサンプル/グループ間でアイソフォームを切り替える場合に非常に役立ちます(切り替えが、より高いカバレッジを持つより小さなトランスクリプトへの切り替えである場合を考えてください...その結果、メソッドACのカバレッジ/長さが制限されます。

しかし、 `\ tilde {l}`は分母です。 1に設定すると、短いトランスクリプトの値が劇的に増加します。これは私には危険に聞こえます...また、A / B / Cに対するサーモン/カリストの利点は何ですか?ありがとう。
短いトランスクリプトには、途方もなく高いFPKMがあります。これは、FPKMの役に立たないことの1つです。サーモン/カリストなどに関する質問を更新します。
#2
+10
nomad
2017-06-18 23:04:10 UTC
view on stackexchange narkive permalink

有効な長さ(およびこれらのさまざまな相対存在量の単位)を説明するブログ投稿があります。簡単に説明すると、人々が「有効長」と呼ぶのは、実際には期待される有効長(つまり、統計的な意味での有効長の期待)です。有効長の概念は、実際にはトランスクリプトとフラグメントペアのプロパティであり、特定のトランスクリプト上のこの長さのフラグメントの潜在的な開始位置の数に等しくなります。トランスクリプトにマッピングされているすべてのフラグメント(このマッピングの条件付き確率によって重み付けされている可能性があります)の平均を取る場合、この量はトランスクリプトの予想される有効長です。これは、単純に$ l_i- \ mu $、または$ l_i- \ mu_ {l_i} $ ---として概算されることがよくあります。ここで、$ \ mu_ {l_i} $は条件付きフラグメント長分布の平均です。 (フラグメントの長さが< $ l_i $であることを条件として、発生した問題を正確に説明します)。

#3
+4
Kristoffer Vitting-Seerup
2017-06-16 16:01:15 UTC
view on stackexchange narkive permalink

有効長の部分については、デボンズの回答を参照してください。 Kallisto / Salmon / RSEMは、すべてのバイアス推定値を有効長に組み込みます。つまり、これらのツールから値を取得した場合、有効長は長さのバイアスを表すだけでなく、バ​​イアスアルゴリズムが自然に有効になっている場合に実行されます。 。

遺伝子レベルの推定値の取得に関しては、特定の転写産物を選択しないでください。代わりに、各トランスクリプトのRPKM / FPKM / TxPM(Kallisto / Salmon / RSEMが出力する100万あたりのトランスクリプト)を抽出/計算し、それらを合計して遺伝子レベルの推定値を取得する必要があります。



このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...