https://ansurr.com/
N.J. Fowler, A. Sljoka, and M.P. Williamson (2021) The accuracy of NMR protein structures in the Protein Data Bank. Structure 29 (12) 1430-1439.e2.
この ANSURR というソフトウェアに関する論文を読んでみた結果、NMR 構造の「正確さ」(精密さではありません)を見積もる手段として、非常に有用であるように思われます。これまで NMR 構造の正確性を評価する指標はあまり存在していませんでした(構造計算に使わない RDC などは良いデータでしょう)。そのような状況において、Ramachandran 解析は geometry を評価する上で最適な手法の一つと考えられます。一方で、例えば 20 個の NMR 構造を計算して得られる重ね合わせ時の rmsd 値は、精密さを示す指標としては適切ですが、正確さを示すものではありません(例えば、20 個全てが同じ間違えた構造に収束していたような場合、rmsd は良い値になりますが、それらは不正確です)。特に、主鎖の重ね合わせが良好な結果を示していても、側鎖がばらついていたり、水素結合が誤っていることも多々あり、これらの問題がその後のドッキングやダイナミクス解析に悪影響を与えている可能性があります。また、距離制限の残基あたりの数も、正確性を評価する上でそれほど良い指標とは言えません。これは、NOE を距離制限に変換する際に user-defined な方法が介入するためであると考えられます(ノイズとピークの判断は主観的ですし、また、大きな NOE は 3 Å程度などと主観的に距離を制限している場合が多い)。
この ANSURR 法の中核は、主鎖の化学シフト値を用いて主鎖の局所的剛性を計算する点にあります。この計算は、ランダムコイル指数(Random Coil Index, RCI)に基づいています。RCI は、6 残基の主鎖化学シフト値それぞれが「ランダムコイルにおける化学シフト」値にどの程度似ているかを評価する指標です。ただし、主鎖の化学シフトの帰属率は少なくとも 75% 以上は必要です。75% 未満の場合、RCI の信頼性が大幅に低下します。
剛性の評価には、Floppy Inclusions and Rigid Substructure Topography (FIRST) というプログラムを使用しました。このプログラムは、rigid cluster decomposition を通じて、どの領域が剛性を持つ(rigid)かを計算します。具体的には、順次水素結合を除去し、Cα 原子がもはや剛性を保たないと判断される時点でのエネルギーを出力します。このプロセスは、熱変性に似ています。すなわち、温度を徐々に上昇させることで水素結合が次々と切れ、最終的に構造が崩壊(unfold)する瞬間の温度を計測する方法と類似しています。
ここでは、FIRST と RCI によって見積もられた flexibility の指標を比較しています。まず、相関スコアを確認します。これは、flexible な領域や rigid な領域が一致しているか、すなわち二次構造が一致しているかを評価するものです。次に RMSD スコアも算出します。このスコアが異なる場合、どちらかの指標が過度に rigid あるいは flexible と判定していることを意味します。このようなケースは、主鎖だけでなく側鎖の位置が不正確であり、水素結合や疎水性相互作用が正しく計算されていない場合に生じます。さらに、これら二つの値はそのままでは直感的に解釈しづらいため、PDB 全体を対象とした基準値で規格化したスコアを表示します。
以下、論文に記載されていた、この ANSURR の評価についてまとめていきたいと思います(非常に分かりにくい文章ですみません)。
水を加えた構造計算(ARIA を使用した refinement)を行うと、主鎖の重ね合わせでは見た目の変化はほとんどありませんでしたが、RMSD スコアは大幅に改善しました。これは、水素結合が修正され、構造がより rigid になったためと考えられます。
Decoy を作成してシミュレーションを行った場合、α -helix が多い蛋白質では「相関スコア値」が更新されていく傾向が見られました。これは、α -helix 領域は常に rigid のままである一方、ヘリックスの範囲が更新されていくためです。逆に、β -sheet が多い蛋白質では RMSD スコアが主に更新されます。これは、β -sheet の位置が正しく予測されているにもかかわらず、水素結合の位置が不安定であることに起因します。
興味深いことに、1bqz (DnaJ)の decoy では、相関スコアは高い一方で RMSD スコアは悪い結果となりました。この decoy を詳しく調べたところ、水素結合の 53% が間違っていましたが、Cα 原子の位置は実験構造とよく一致していました。また、1gh5 においては、実験構造よりも高い相関スコアを持つ decoy が見つかりました(主鎖の重ね合わせでは実験構造と類似していました)。これらの結果を踏まえると、NMR 構造計算では、パッキングや水素結合にもっと重点を置く必要があると考えられます。
Medium-long range の距離制限数と RMSD スコアの間には若干の相関が見られました。また、予想通り total-energy とも相関がありました。したがって、NMR 構造計算において energy の値を基準に最終構造を選択することは合理的であると言えます。Ensemble RMSD についても多少の相関性が認められましたが、Ensemble RMSD が改善するほどその相関性は低下しました。このため、残基あたりの距離制限数および total-energy のみが構造の正確性を評価する適切な指標となると考えられます。一方で、ensemble RMSD, dihedral-angle restraints, violation 数などは信頼性が低い指標と見なされます。なお、Ramachandran plot と RMSD スコアの間には非常に強い相関が認められました。
Medium-long range の距離制限数と RMSD スコアの間には若干の相関が見られました。また、予想通り total-energy とも相関がありました。したがって、NMR 構造計算において energy の値を基準に最終構造を選択することは合理的であると言えます。Ensemble RMSD についても多少の相関性が認められましたが、Ensemble RMSD が改善するほどその相関性は低下しました。このため、残基あたりの距離制限数および total-energy のみが構造の正確性を評価する適切な指標となると考えられます。一方で、ensemble RMSD, dihedral-angle restraints, violation 数などは信頼性が低い指標と見なされます。なお、Ramachandran plot と RMSD スコアの間には非常に強い相関が認められました。
結晶構造との比較では、相関スコアに非常に高い一致が見られました。これは、二次構造の位置が両者で一致していることを意味します。ただし、結晶構造はクライオ温度で解析されることが多く、その結果、ループ部分の構造がやや rigid になり、相関スコアが若干低下する傾向がありました。一方で、RMSD スコアに関しては NMR 構造の方が劣っていました。これは、ループ領域で距離制限が少ないため、必要以上にフレキシブルに計算されることが原因と考えられます。