毎日エネマル: Alphafold の不得意なところこそ NMR にとって得意

題記のような総説が出ましたので、読んでみました。

AlphaFold 2 and NMR Spectroscopy: Partners to Understand Protein Structure, Dynamics and Function

https://www.frontiersin.org/articles/10.3389/fmolb.2022.906437/full
published: 17 May 2022 doi: 10.3389/fmolb.2022.906437

2011 年頃には、蛋白質のフォールドのエネルギーをかなり正確に物理的に計算できるようになってきたが、それは小さい蛋白質に限られ、大きな蛋白質の場合には時間がかかり過ぎた。一方、似た配列があり、その構造がすでに分かっている場合には、それらを利用して構造を予測するという方法もとれたが（ホモロジーモデリング）、結果はどの程度ホモロジーがあるかに左右された。また、新しい蛋白質を設計するという分野からも folding について多くのことが分かった。このような技術の蓄積により、構造を予測するコンテスト（CASP）では、1994 から 2016 年の間、少しずつではあるが進展が見られていた。

しかし、急に AlphaFold2 (AF2) が飛躍的な進歩を見せた。NMR 構造が正解として示されたものの中で、ある蛋白質では AF2 で予測した構造の方が、NMR スペクトルによく合致した。これは NMR 研究者にとってはかなり屈辱的な結果である。AF2 は AI（人工知能）と deep learning（深層学習）を利用している。立体構造上で接触している残基は、進化の過程で共に同時に変異する傾向がある。AF2 はそのような multiple sequence alignment（多重配列アライメント）と接触との関係を学習し、立体構造の予測に利用している。

さて、では天然変性領域はちゃんと予測ができるのかという疑問が生じる。もともと固い構造があるわけではないので、そもそも構造を予測すること自体に意味があるのか？とも思えるが。これは、AF2 の結果で同時に表示される confidence（信頼性）が頼りになる。この値が低い領域は天然変性領域である可能性が高い。なお、後述するように、Fold と unfold した状態が平衡にあり、その fold 状態のモル比が非常に少ない時、AF2 は fold 状態をうまく予測できない。

また、水溶性蛋白質はよいとして、膜蛋白質ではどうかという点も興味深い。膜蛋白質は、PDB には 3% しか登録されていないが、プロテオームの 27% を占めるので、膜蛋白質の構造の予測は重要である。一部、膜に埋もれている部分が薄い蛋白質については失敗例も報告されてはいるが、全体として AF2 はうまく予測している。膜成分を学習には使っていないのに不思議ではある。

AF2 でアミロイド構造を予測するのは難しい。まず、アミロイドをとる配列の多くは少ない種類のアミノ酸からなり複雑性に欠ける。また、病気を引き起こすようなアミロイドの配列は自然選択をあまり受けておらず、これまでランダムに変異してきた。よって、多重配列アライメントによる構造の推測が効かない。さらに、同じ配列でも異なるアミロイド構造をとる場合もある。しかし、本来は内部コアに向いているべき疎水性領域が表面に露出した際にアミロイド構造をとるという傾向が見られることから、それを AF2 が学習していけば、将来は予測が可能になると見る人もいる。

静電的相互作用は、その蛋白質の構造はおろか、他の分子との相互作用にも大いに寄与する。pKa を正確に計算することはまだ難しいが、およその値であれば可能であり、AF2 で予測された構造をもとに、この計算が加速するだろう。

複合体の AF2 構造予測はなかなか難しい。その複合体の接触面が共進化してきた場合には予測が的中するが、蛋白質によっては、同じ面で複数種類の異なる分子と相互作用する場合もあり、AF2 がうまくいかない。そのような中で MSA を改良することにより、ヘテロ複合体の構造予測を進歩させている例も見られる（FoldDock）。

AF2 による構造は、CD や Trp 蛍光のデータの解釈に大きな助けとなる。さらに、X-線結晶構造解析における分子置換法にも役立つ。また、クライオ電顕の構造は低分解能であるが、ここに AF2 による部分構造を当てはめていくことにより、核膜孔のような巨大な構造のモデルも構築できる。また、微結晶の電子線回折は、普通の X 線結晶構造解析では小さ過ぎて解けないような構造でも解析できる。

X 線結晶構造解析やクライオ-EM 解析におけるサンプルの状態に対して、NMR 解析では、かなり生理的な条件を達成できる。とはいえ、NMR 構造よりも AF2 構造の方が正確だという報告もあり、特にループ部分などでは NMR の NOE 距離制限が集まりにくいために、AF2 の方が引き締まった構造をとるらしい。下記のプレプリントには「904 個の構造を比較した結果、3% の NMR 構造のみ AF2 構造より正しかった」との記述があり、これは由々しき事態である。

https://www.biorxiv.org/content/10.1101/2022.01.18.476751v1.full

AF2 は、複合体構造の予測、めずらしい構造の予測が苦手ではあるが、これは数年のうちに克服されるかもしれない。しかし、以下の４つは、機械学習そのものの特徴を考えると AF2 にとって克服が難しい。１）わずかなモル比の別構造が含まれていて、主構造との間で平衡状態になっている場合２）翻訳語修飾の影響３）小さなリガンドとの相互作用４）主には天然変性蛋白質であるが、一瞬部分構造をとる場合（１と似た状況）。何と！これらは NMR の得意とするところである。

AF2 は常に主構造を出そうとする。しかし、蛋白質の中には数パーセントなりとも別（alternative）構造をとる場合もあり、その別構造が病気などに関連した重要な機能をもっていることもある。ヘモグロビンやカルモジュリンなどもそうである。それらの構造や、その間の平衡状態は NMR で解析することができる。H/D 交換実験を行えば、folding 中間体なども解析できる。AF2 の構造を初期構造として MD を動かし、NMR によって解かれた別構造を導き出せるかもしれない。

糖鎖を含め翻訳後修飾の影響も AF2 の不得意な領域であるが、今後 NMR などで翻訳後修飾の構造への影響の解析が進めば、それらを学習して AF2 が対応できるようになるかもしれない。

製薬企業では AF2 の構造をドラッグディスカバリーに役立てようとしている。しかし、活性部位の構造は、folding の規則から外れる場合が多く、AF2 の構造のうち活性部位については疑問が残るらしい（よって、ドッキングが失敗する）。そこで、NMR を使って創薬候補の低分子リガンドと蛋白質との相互作用を検出することの重要性が増す。最初に 1D 1H NMR をとる (STD, WaterLOGSY など）。次に 2D 1H-15N HSQC で蛋白質側を観測することで、結合部位を同定できる（ただし、帰属が必要であるが）。

今後、NMR により IDP の構造がたくさん解析され、Disprot のようなデータベースが拡充すれば、AF2 もそこから学習し、IDP の構造予測が現実化してくるかもしれない。

以上が総説の要約です（ChatGPT に書かせたわけではありませんが、もしかすると、もっと上手く要約してくれるかも）。NMR と AF2 を合わせた使い方としては、個人的には次のような方法もあるのかなと思います。AF2 で複合体構造を予測させると、時々それなりに二つの構造がくっついたような結果を出してきます。これが真か偽かの判定は容易ではありません。そこで、NMR で相互作用部位だけを同定して、AF2 構造がある程度正しいかどうかを検査することができるでしょう。相互作用部位の同定には帰属をするのが一番ですが、あまりに高分子でそれが叶わない場合には、その相互作用部位にちょっとだけ変異を入れて、どの NMR ピークが動くかで部分的に帰属してもよいでしょう。AF2 構造がない場合には、どこに変異を入れればよいか迷いますが、候補と言えども複合体構造が手元にあるのであれば、変異箇所を決めるのに大いに役立ちます。

また、結晶構造解析においても、全長ではなくドメイン構造で解析した方がよい場合もあります。問題は、配列上のどこからどこまでをドメイン範囲とすればよいかです。AF2 構造をもとに rigid な領域を選びだし、flexible な領域を DNA レベルで切り取ってしまえばよいのですが、果たしてそれが本当に結晶に結び付くのかどうかは疑問です。そのような場合、ちょっと NMR で二次元スペクトルを測ってみます。NMR スペクトルでは、rigid な部分と flexible な部分とでピークの線幅がかなり違ってきます。もし、1H/15N HSQC を見て「銀河みたい、美しい！」と感激すれば、その直感こそ正しい場合が多いです。

毎日エネマル

2023年2月26日日曜日

Alphafold の不得意なところこそ NMR にとって得意

0 件のコメント:

自己紹介