オーソロガスなヌクレオチド配列に基づいて系統樹を構築したいとしましょう。解像度を上げるためにタンパク質配列を使用したくありません。これらの種のGC含量は異なります。
JC69またはその他の古典的なヌクレオチドモデルで最尤法のような単純なアプローチを使用すると、GC含量が類似している離れた種の保存されたタンパク質コード配列が人為的にクラスター化されます。これは、GC含量が主にウォブリングコドンの位置に影響を及ぼし、ヌクレオチドレベルで類似しているために発生します。
これを克服するための可能な方法は何ですか?これまで、次のオプションを検討しました。
-
タンパク質配列の使用。もちろんこれは可能ですが、近距離で多くの情報を失います。非コーディング配列には適用されません。
-
再コーディング。このアプローチでは、CとTを組み合わせて単一のピリミジン状態Yにすることができます(一部の実装では、GとAを組み合わせることもできます)。これは面白そうに聞こえますが、まず、ここでいくつかの情報も失います。結果として得られるプロセスの数学的特性は明確ではありません。結果として、このアプローチは広く使用されていません。
-
分析から3番目のコドン位置を除外します。いくつかの近距離情報を再び失います。また、すべての同義置換が3番目のコドン位置に固有であるとは限らないため、ある程度のバイアスがあると予想されます。非コーディング配列には適用されません。
ol>
理論的には、GC含量のシフトを可能にするモデルを持つことが可能であるはずです。これは、時間可逆的ではないマルコフ過程になります。私が理解している限り、そのようなモデルの可能性を推定するための計算上の問題がいくつかあります。