質問:
Protein Data Bankから高品質の構造を選択するにはどうすればよいですか?
marcin
2017-06-01 18:04:41 UTC
view on stackexchange narkive permalink

Protein Data Bankに保管されている構造のモデルは、データの品質と、モデルを作成した人の専門知識と忍耐力の両方に応じて、品質が異なります。 「高品質」の構造しかない、広く受け入れられているPDBエントリのサブセットはありますか?理想的には、これらの構造は、PDB全体のタンパク質のクラスを代表するものです。

生物学からの実際の質問に基づいています。SE sub>

二 答え:
#1
+9
Davidmh
2017-06-01 18:55:33 UTC
view on stackexchange narkive permalink

非常に優れたデータベース pdbcull(文献ではPISCESサーバーとも呼ばれます)があります。 PDBをフィルタリングして、高解像度とシーケンスIDの削減を実現します。また、定期的に更新されているようです。カットオフに応じて、3000〜35000の構造が得られます。

特に回転異性体に関心がある場合は、代わりに top8000を確認してください。高解像度、および良好なMolProbityスコア。また、回転異性体データベースも提供します。

PDBは独自のクラスタリングも提供します。最初にシーケンスをクラスタリングし、次に品質係数に基づいて各シーケンスの代表的な構造を抽出します( 1 / resolution-R_value )。これには包括的であるという利点がありますが、良いものが得られなかった場合、悪い構造になります。

#2
+5
Rosalind Was Robbed
2017-06-15 03:56:46 UTC
view on stackexchange narkive permalink

PDBの独自のカリングを実行することを選択した場合、おそらく最初に確認したいのは解像度です。これは、Davidmhが述べているようにPISCESの主な選択基準です。高品質の構造は、より良いR因子値も持ちます。実験手法に基づいて、品質の降順で優先順位を付けることもできます:

中性子回折、X線回折、溶液/固体NMR、電子顕微鏡/結晶学、繊維回折、溶液散乱。 p p>

はい、これらはPISCESの基準ですが、非常に単純に見えます。 R-factorが使用されますが、R-factorとRfreeの間のギャップは無視されます。解像度(おそらくd_min)は、データ品質の唯一の基準です(データの完全性は無視されます)。ジオメトリの検証はありません。
RファクターとRフリーの不一致は注目に値しますが、私の経験では、標準化された方法で両方を報告する構造の数はかなり少ないです。 BioJavaは最近、両方をIIRCで利用できるようにしました。これは、通常、私が使用するツールです。
PDB構造の[80.7%](http://mmcif.wwpdb.org/dictionaries/mmcif_pdbx_v50.dic/Items/_refine.ls_R_factor_R_free.html)は、Rフリーを報告しており、[86.8%](http:// mmcif解像度を報告する.wwpdb.org / dictionaries / mmcif_pdbx_v50.dic / Items / _refine.ls_d_res_high.html)。


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 3.0ライセンスに感謝します。
Loading...