質問:
ヌクレオチドベースの系統樹を構築する際にGC含量の変化を説明する最良の方法は何ですか?
Iakov Davydov
2017-05-18 23:52:28 UTC
view on stackexchange narkive permalink

オーソロガスなヌクレオチド配列に基づいて系統樹を構築したいとしましょう。解像度を上げるためにタンパク質配列を使用したくありません。これらの種のGC含量は異なります。

JC69またはその他の古典的なヌクレオチドモデルで最尤法のような単純なアプローチを使用すると、GC含量が類似している離れた種の保存されたタンパク質コード配列が人為的にクラスター化されます。これは、GC含量が主にウォブリングコドンの位置に影響を及ぼし、ヌクレオチドレベルで類似しているために発生します。

これを克服するための可能な方法は何ですか?これまで、次のオプションを検討しました。

  1. タンパク質配列の使用。もちろんこれは可能ですが、近距離で多くの情報を失います。非コーディング配列には適用されません。

  2. 再コーディング。このアプローチでは、CとTを組み合わせて単一のピリミジン状態Yにすることができます(一部の実装では、GとAを組み合わせることもできます)。これは面白そうに聞こえますが、まず、ここでいくつかの情報も失います。結果として得られるプロセスの数学的特性は明確ではありません。結果として、このアプローチは広く使用されていません。

  3. 分析から3番目のコドン位置を除外します。いくつかの近距離情報を再び失います。また、すべての同義置換が3番目のコドン位置に固有であるとは限らないため、ある程度のバイアスがあると予想されます。非コーディング配列には適用されません。

  4. ol>

    理論的には、GC含量のシフトを可能にするモデルを持つことが可能であるはずです。これは、時間可逆的ではないマルコフ過程になります。私が理解している限り、そのようなモデルの可能性を推定するための計算上の問題がいくつかあります。

ここでの設定には重要な仮定があると思うことを付け加えておきます。「より良い解像度を得るためにタンパク質配列を使用したくない」。ここで「より良く」分解することができます-それはより正確である可能性が高いですが、あなたが概説するすべての理由のために後者はより偏っています。
興味があるかもしれない場合のために、私はあなたが言及したいくつかのアプローチに加えて、次の論文でいくつかの他の再コーディングスキーム(http://dx.doi.org/10.6084/m9.figshare.732758)をテストしました:http:// arxiv.org/abs/1307.1586およびhttp://dx.doi.org/10.1093/molbev/msu105
三 答え:
#1
+5
Leo Martins
2017-05-19 03:38:52 UTC
view on stackexchange narkive permalink

最尤法ベイズ法の両方のフレームワークで構成の不均一性を考慮したモデルがあります。置換プロセスは時間可逆ではありませんが、瞬時レート行列が「平衡周波数ベクトル」(不均一)と対称で一定の為替レートに分解できると仮定することで、計算が簡略化されます。マトリックス。

すべての提案も有効だと思います。また、GCコンテンツの偏りを減らすために、再コーディングが正常に使用されたことを覚えています(上記の参照とここの例)。

#2
+3
bli
2017-05-19 14:18:46 UTC
view on stackexchange narkive permalink

次の2004年の論文では、ベイジアンフレームワークでツリー全体の構成の変化をモデル化する方法について説明しています。 https://doi.org/10.1080/10635150490445779

Pythonこれを実装するパッケージ( "p4")、および長年にわたって追加された改善点は、次の場所で入手できます: https://github.com/pgfoster/p4-phylogenetics

はじめに、ここで有用な例を見つけることができます: http://p4.nhm.ac.uk/scripts.html

これは、いくつかの大規模な系統発生分析で使用されています。

#3
+1
Michael
2019-04-09 14:49:39 UTC
view on stackexchange narkive permalink

答えは、logDetアルゴリズムがGC%クラスタリングを克服するために構築されたということです。

当時は距離法しか利用できなかったため、それほど強力ではありませんでした。ここでの投稿は、ベイジアンまたはMLアプローチが利用可能であり、これらがモデルにしっかりと準拠していることを示しています。

元の出版物ここ

出版物やウェブページを考えていますか?リンクできますか?
上記のリンク。長い道のりを遡る... 1996年まで


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...