2024年11月30日土曜日

リボゾームから出てきた新生鎖の折り畳み

以前にもご紹介したことがあるかもしれません。今回は(熱力学の議論も入り)ちょっと難しい内容で、きっちりとは理解できませんでした。「一応、こうかな?」と自分なりに理解したところを書いてみましたが、間違えているかもしれません。

J.O. Streit, J. Christodoulou (2024) The ribosome lowers the entropic penalty of protein folding. Nature 633(8028): 232-239. doi: 10.1038/s41586-024-07784-4.
PMID: 39112704

普通の水溶液中での単離された蛋白質と比べて、リボゾームから出てきたばかりの(まだリボゾームにつながっている状態での)新生鎖は、以下の点で異なる。

リボゾームの出口から出てきた新生鎖は、比較的のびた構造をとる。そのため広い表面積 SASA が水和し、水和のエントロピーの点からは unfold 状態が不安定になる *1。さらに、揺らぎが制限され、とりうる構造の種類も少なくなるため、新生鎖の構造エントロピーの点でも unfold 状態が不安定になる *2。この構造の制限のために球状の構造をとりにくくなり *3、さらに、リボゾーム表面の負電荷の影響により、エンタルピーの点で fold 状態も不安定になる *4。よって、フリーの蛋白質に比べて |-TΔS| も |ΔH| もともに小さくなる *5。この特徴は配列にあまり依存せず、新生鎖はリボゾームの上では fold 状態も unfold 状態も(フリーに比べて)不安定といえる。この影響はリボゾームから離れるほど弱くなる *6。In vitro では不安定性を起こしてちゃんと fold しないような変異体においても、リボゾームの上ではその unfold 状態も fold 状態も不安定になり、wt と似た folding 中間体を経て、無事に fold される率が上がる(緩衝効果)。

(*番号の注釈)

*1 水は束縛されずに自由に泳ぎ回る方を好む。しかし、unfold した蛋白質では表面積が広がり、より多くの水が表面に水和し束縛されるので(水和エントロピーの低下)、水の立場にたつとこれは嫌なことである。シミュレーションによると、新生鎖はフリーな unfold 蛋白質より大きな SASA(水が接触できる表面積)をもつそうである(誇張すると、リボゾーム上では伸びきっている)。また、水と蛋白質表面が相互作用すると、その間で水素結合が形成されるため、水和のエンタルピーという点でみると、SASA が大きくなることは unfold にとって好ましいといえる。しかし、著者らによると、その寄与は小さい(エントロピー低下に負けてしまう)とのことである。

リボゾームについた状態では folding の熱容量 ΔCp が大きい。ちょっと難しいが、これは unfold 状態で SASA が増えることを意味している。Fold 状態では内部に隠されていた疎水的なアミノ酸が、unfold 状態では表面に露出する。これが ΔCp が大きくなる原因らしい。ただし、ΔCp の温度に対する変化は小さい。

*2 Unfold した蛋白質はその中の原子が自由に動き回れるので、蛋白質の構造エントロピーの点では unfold 状態は好ましい。しかし、リボゾームから出てきたばかりの時は、C 末端側が巨大なリボゾームに掴まれ自由な運動が制限されてしまうため、蛋白質はこの延びたままの unfold 状態を嫌う。

*3 新生鎖は大きなリボゾームにつながっているため、それが邪魔をして丸いコンパクトな構造を取りにくくなると考えられる(立体排除)。すると、本来の fold 状態でとるべき水素結合、静電的相互作用、疎水的相互作用(ファンデルワールス相互作用)がとれないので、エンタルピーの点で好ましくない(エンタルピーの絶対値の低下)。

*4 リボゾーム表面の負電荷の影響により、リボゾームにつながったままの新生鎖の中では、本来 fold 状態でとられるべき静電的相互作用がうまく働かないのだろう。

*5 フリーな蛋白質では |-TΔS| も |ΔH| もともに大きい。しかし、fold 状態と unfold 状態のどちらの分子数が多くなるかは、両者の差 ΔG = ΔH - TΔS で決まり、その差はお互いにかなりがキャンセルしあって、ごく僅かとなる。これを marginal stability とよぶ。もし ΔG が0ならば、fold/unfold は 50:50 である。

新生鎖では、 |-TΔS| も |ΔH| もともに小さくなってしまうが、ΔG が最終的にどうなるかについては明記されていない。いずれにしても、フリーな蛋白質とは異なるエントロピー、エンタルピーの大きさ(絶対値)となるため、フリーな蛋白質ではとらないような folding 中間体の構造をとることがある。この中間体は活性のある酵素にちゃんと fold するために重要な場合がある。例えば HRAS では 1H/15N-HSQC がほとんど同じに観えても、in vitro で refold させた場合は活性がない。おそらく、in vitro の refolding では、途中で inactive な構造にトラップされてしまうのだろう。しかし、ちゃんとリボゾームから出てきた場合にはもちろん活性を維持していることから、active な構造に向かう際の folding の道筋が、リボゾームにつながっている時とそれから離れている時とでは異なっているのかもしれない。

*6 とはいえ、かなり遠くでも効いていることから、新生鎖とリボゾーム表面の負電荷との直接的な相互作用はあってもその寄与は小さい。実際、負電荷だらけの poly-Glu で試しても、WT と大差はなかった。よって、この特徴は配列にあまり依存しない。

(補足)

エンタルピー:水素結合、静電的相互作用、疎水的相互作用(その中のファンデルワールス相互作用)など、お互いに引き合う作用が増えるほど、エンタルピーはより負になり(絶対値が大きくなる)、その状態が安定化してその分子数が増える。これらの相互作用が形成されると熱が放出される。この発熱がエンタルピーに相当すると考えてもよい(熱が外へ逃げていってしまうので負の値になる)。しかし、これがいえるのは定圧条件下だけである。しかし、蛋白質を高圧や低圧の中で実験する例は(高圧 NMR 実験のように)かなり特殊であろう。

エントロピー:原子や分子が自由に動け回れるほど大きくなり、そして好ましくなり、その分子数が増える。つまり、制限や束縛は嫌ということ。蛋白質の fold/unfold を考える時、蛋白質分子の中の原子だけを考えていたらだめ。蛋白質は真空にあるのでなく水中にあるので、水分子の水和エントロピーも考えなくてはならない。これが、疎水的相互作用(その中の水和部分)に相当する。よって、疎水的相互作用と一言にいっても、ファンデルワールス相互作用(エンタルピー的寄与)と水和(エントロピー的寄与)の二つに分けられる。

餃子の漬け汁では、お酢の中にラー油を入れる。すると、いくら箸でかきまぜても1分もするとラー油がお皿の真ん中あたりに寄り集まってしまう。水分子はラー油の周りにトラップされ動けなくなる。これは水にとって大変嫌なことである。よって、水はそこから解放されたい。少しでも水を解放するには、ラー油の集まりができるだけ一つになればよい。集まるほど、表面積の合計が少なくなるのは感覚的につかめるだろうか?

1 cm 辺のサイコロが2個あるとする。その二つの表面積の合計は 12 である。ところが、その二つのサイコロを接触させてしまうと、その直方体の表面積は 10 になるのかな?

話を元に戻そう。よって、水とラー油が反発しあうわけではなく、あくまで自然のなりゆきで気がついたら(水に嫌われた)ラー油が集まってしまう。これが水和エントロピーの効果。ところが、ラー油は集まってみると、お互いラー油どうしで引き合うことに気がつく。そして、がっちりと手を結んでさらに固まってしまう。ファンデルワールス相互作用と呼ぶが、これがラー油のエンタルピー効果。

もうひとつ例を。南極では寒い北風ブリザードが吹くので、ペンギンの子供達は自然に集まってくる。これはペンギンのエントロピー効果。ところが集まってみると、お互い羽がないと思っていたのに手もあることに気づき、手を結びあって団子になり寒さに耐える。これがペンギンのエンタルピー効果。

蛋白質の folding も餃子やペンギン?と同じ原理で進む。

自由エネルギー:ΔG = ΔH - TΔS で表される。厄介なのはマイナス符号である。ΔS というとエントロピーどうしの差であり(論文では S(fold) - S(unfold))、ΔS が増えるほど fold 状態のモル数が増える。しかし、-TΔS と実際にはマイナスの数値として自由エネルギーに寄与するため、自由エネルギーの点ではこれが下がるほど fold 状態が安定になる(論文では unfold 状態が不安定化する)。よって「エントロピー値 S が増減する」と「エントロピー的寄与 -TΔS が増減する」は真逆の状況を指すため、注意が必要である。おそらく「エントロピー的に fold 状態が安定(unfold 状態が不安定)になる」という表現の方が無難と思われる。

エントロピー S は必ず正の数となる。しかし、ΔS は S どうしの差であるため(例えば、論文では fold 状態の S から unfold 状態の S を引き算した値)正負両方の数をとり得る。そこに -T が掛け算されるので、ますます誤解を招きやすい。さらに、S(unfold) - S(fold) で表現する文献もあるので、初心者はさらに混乱する。

なお上記の発熱(エンタルピー)によって、水を含む周りの環境が熱せられ、その結果、水分子の運動性が上がる。これによって、周り(水環境の)エントロピーが上がるわけだが、このような環境のエントロピーも考慮できれば、(蛋白質の)自由エネルギーの代わりに(蛋白質と水の)エントロピーだけで、安定性を議論することができる。エントロピー増大の法則はこのようなケースに使える。

例えば、細胞の中では核やミトコンドリアなど見事な秩序が保たれている。これはこの細胞内オルガネラのエントロピーが下がることを意味する。ここで、自然界はエントロピー増大に向かうはずなのにおかしいなどと思ってはいけない。実は、この秩序を形成する際に熱が出て、細胞質の水分子の運動を激しくしてしまっているのである。このため、水のエントロピーは上がってしまう。では、二つのエントロピーを足し算するとどうなるのか?必ず正の数になる。これがエントロピー増大の法則。この両者の和がもし0になったら、それは永久の命を得たことを意味する(熱力学の教科書では永久機関と称されるが、これを作れたら、ノーベル賞をいっきに百個ほどもらえる)。

熱力学は難しくて、理科の中ではあまり人気がない。しかし、圧力一定という条件を付せば、かなり感覚にマッチしてくる。エントロピー増大は自由が増大(低下は束縛)、エンタルピー低下は熱が逃げる(増大は熱を得る)と覚えれば、学問的には正解とはいいがたいが、まあ使える。

2024年11月21日木曜日

NMR 構造の正確さを評価する

ソフトウェア ANSURR

https://ansurr.com/

N.J. Fowler, A. Sljoka, and M.P. Williamson (2021) The accuracy of NMR protein structures in the Protein Data Bank. Structure 29 (12) 1430-1439.e2.

この ANSURR というソフトウェアに関する論文を読んでみた結果、NMR 構造の「正確さ」(精密さではありません)を見積もる手段として、非常に有用であるように思われます。これまで NMR 構造の正確性を評価する指標はあまり存在していませんでした(構造計算に使わない RDC などは良いデータでしょう)。そのような状況において、Ramachandran 解析は geometry を評価する上で最適な手法の一つと考えられます。一方で、例えば 20 個の NMR 構造を計算して得られる重ね合わせ時の rmsd 値は、精密さを示す指標としては適切ですが、正確さを示すものではありません(例えば、20 個全てが同じ間違えた構造に収束していたような場合、rmsd は良い値になりますが、それらは不正確です)。特に、主鎖の重ね合わせが良好な結果を示していても、側鎖がばらついていたり、水素結合が誤っていることも多々あり、これらの問題がその後のドッキングやダイナミクス解析に悪影響を与えている可能性があります。また、距離制限の残基あたりの数も、正確性を評価する上でそれほど良い指標とは言えません。これは、NOE を距離制限に変換する際に user-defined な方法が介入するためであると考えられます(ノイズとピークの判断は主観的ですし、また、大きな NOE は 3 Å程度などと主観的に距離を制限している場合が多い)。

この ANSURR 法の中核は、主鎖の化学シフト値を用いて主鎖の局所的剛性を計算する点にあります。この計算は、ランダムコイル指数(Random Coil Index, RCI)に基づいています。RCI は、6 残基の主鎖化学シフト値それぞれが「ランダムコイルにおける化学シフト」値にどの程度似ているかを評価する指標です。ただし、主鎖の化学シフトの帰属率は少なくとも 75% 以上は必要です。75% 未満の場合、RCI の信頼性が大幅に低下します。

剛性の評価には、Floppy Inclusions and Rigid Substructure Topography (FIRST) というプログラムを使用しました。このプログラムは、rigid cluster decomposition を通じて、どの領域が剛性を持つ(rigid)かを計算します。具体的には、順次水素結合を除去し、Cα 原子がもはや剛性を保たないと判断される時点でのエネルギーを出力します。このプロセスは、熱変性に似ています。すなわち、温度を徐々に上昇させることで水素結合が次々と切れ、最終的に構造が崩壊(unfold)する瞬間の温度を計測する方法と類似しています。

ここでは、FIRST と RCI によって見積もられた flexibility の指標を比較しています。まず、相関スコアを確認します。これは、flexible な領域や rigid な領域が一致しているか、すなわち二次構造が一致しているかを評価するものです。次に RMSD スコアも算出します。このスコアが異なる場合、どちらかの指標が過度に rigid あるいは flexible と判定していることを意味します。このようなケースは、主鎖だけでなく側鎖の位置が不正確であり、水素結合や疎水性相互作用が正しく計算されていない場合に生じます。さらに、これら二つの値はそのままでは直感的に解釈しづらいため、PDB 全体を対象とした基準値で規格化したスコアを表示します。

以下、論文に記載されていた、この ANSURR の評価についてまとめていきたいと思います(非常に分かりにくい文章ですみません)。

水を加えた構造計算(ARIA を使用した refinement)を行うと、主鎖の重ね合わせでは見た目の変化はほとんどありませんでしたが、RMSD スコアは大幅に改善しました。これは、水素結合が修正され、構造がより rigid になったためと考えられます。

Decoy を作成してシミュレーションを行った場合、α -helix が多い蛋白質では「相関スコア値」が更新されていく傾向が見られました。これは、α -helix 領域は常に rigid のままである一方、ヘリックスの範囲が更新されていくためです。逆に、β -sheet が多い蛋白質では RMSD スコアが主に更新されます。これは、β -sheet の位置が正しく予測されているにもかかわらず、水素結合の位置が不安定であることに起因します。

興味深いことに、1bqz (DnaJ)の decoy では、相関スコアは高い一方で RMSD スコアは悪い結果となりました。この decoy を詳しく調べたところ、水素結合の 53% が間違っていましたが、Cα 原子の位置は実験構造とよく一致していました。また、1gh5 においては、実験構造よりも高い相関スコアを持つ decoy が見つかりました(主鎖の重ね合わせでは実験構造と類似していました)。これらの結果を踏まえると、NMR 構造計算では、パッキングや水素結合にもっと重点を置く必要があると考えられます。

Medium-long range の距離制限数と RMSD スコアの間には若干の相関が見られました。また、予想通り total-energy とも相関がありました。したがって、NMR 構造計算において energy の値を基準に最終構造を選択することは合理的であると言えます。Ensemble RMSD についても多少の相関性が認められましたが、Ensemble RMSD が改善するほどその相関性は低下しました。このため、残基あたりの距離制限数および total-energy のみが構造の正確性を評価する適切な指標となると考えられます。一方で、ensemble RMSD, dihedral-angle restraints, violation 数などは信頼性が低い指標と見なされます。なお、Ramachandran plot と RMSD スコアの間には非常に強い相関が認められました。

結晶構造との比較では、相関スコアに非常に高い一致が見られました。これは、二次構造の位置が両者で一致していることを意味します。ただし、結晶構造はクライオ温度で解析されることが多く、その結果、ループ部分の構造がやや rigid になり、相関スコアが若干低下する傾向がありました。一方で、RMSD スコアに関しては NMR 構造の方が劣っていました。これは、ループ領域で距離制限が少ないため、必要以上にフレキシブルに計算されることが原因と考えられます。

2024年9月1日日曜日

ドイチュのアルゴリズム

有名なドイチュのアルゴリズム(1985)についてです。いろいろな本の中でも「量子アルゴリズム(中山茂著)」がもっとも分りやすいように思います。その本には量子コンピュータでの qubit の流れがほとんど省略されずに書かれているので、数式というよりパズルをしっかりと追いかけることができます。その後で他の本や HP を見ると、後者で省略されている既知の流れの箇所も理解しやすいでしょう。

しかし、一度は理解したように思ったものの、本を閉じると「全体としてこういう原理に基づいているんだよ」という(木ではなく)森の部分がどうしても分からないのです。

ここで、上記の本に基づいて、「ちゃんとしたコイン」と「偽のコイン」を例にとって考えることにしました。偽のコインは、表と裏が同じなのです。両面に 0 が書かれているかもしれないですし、1 かもしれません。 f(0) は「おもて面は何ですか?」 f(1) は「裏面は何ですか?」という問いかけに相当します。ここで 0 が返ってきたら「 f(0)=0 おもて面には 0 が書かれています」「 f(1)=0 裏面には 0 が書かれています」という意味になります。一方、1 が返ってきたら「 f(0)=1 おもて面には 1 が書かれています」「 f(1)=1 裏面には 1 が書かれています」という意味になります。

コインの表と裏が異なる、つまり「ちゃんとしたコイン」であることを確かめようとすると、普通は f(0) と f(1) の両方を尋ねる必要があります。同様にコインが偽造されていて、表と裏が同じであることを確かめようとしても、やはり f(0) と f(1) の両方を尋ねる必要があります。ここで、両面とも 0 であるのか、あるいは 1 であるのかは問題ではなく、両面が "同じ" であること(両面とも 0 か、あるいは両面とも 1 であること)が知りたいことなのです。この場合、古典的な方式ですと、必ず f(0) と f(1) の合計2回尋ねる必要が出てきます。

ところが、量子コンピュータの場合、f(0) と f(1) を同時に尋ねることができます。何故でしょうか?量子の世界では重ね合わせが可能であり、f(0 and 1) と問いかけを共存させることができるためです。ここでの注意点は f(0 or 1) ではないということです。この f(0 or 1) の問いかけは古典的方式であり、量子方式では f(0 and 1) の "共存" という概念が鍵となります。

ちょうど1つの電子(光子)を2本のスリットに通すと背面に縞模様ができる原理と同じです。電子という1つの粒子のように見えますが、これは波動性も持っているため、左と右の両方のスリットを同時にすり抜けます(これが and)。そして、この二つが波としての干渉性をもつために背面に縞模様ができるわけです。多世界解釈では、左のスリットを通る電子の世界と、右のスリットを通る電子の二つの世界があり、それぞれがマクロの世界で観測されない限りは両世界の間で干渉性をもつことができます(これが縞模様)。しかし、どちらかが観測されてしまうと、観測によってマクロの世界に爪痕を残してしまうため、左と右はもはや干渉しあうことができず(デコヒーレンス)、縞模様も消えてしまうのでした。したがって、量子コンピュータでもその縞模様を見ようとすると、オラクル f(x) の中身を観ることができません。そっとしておいて、出てきた結果だけを見て計算結果を知ることになります。

それでは (x=0 and 1) と重ね合わせ状態をとにかく作り、同時におもて面と裏面を尋ねることにしましょう。答として f(0 and 1) = 0+0, 0+1, 1+0, 1+1 が返ってきそうです。f(0) と f(1) の両方を同時に尋ねることができるのだから、もうこれで正常コインか偽コインかは分かりそうなものです。しかし、これが返ってきても、正常コインなのか、それとも偽造コインなのかが分からないのだそうです。私もこの理由はよく分からなかったのですが、一つの考えられる理由として、量子コンピュータは可逆的でないといけないという制約のためです。もし可逆的であるとすると、二回同じ動作をさせると元に戻ります(1回目の出力を2回目の入力にする)。しかし、上記の方法では元に戻らないとのことです。また直接観測してしまうと、波動が収縮して f(0 or 1) と同じ結果となってしまい、ある時は f(0) が、またある時には f(1) が返ってくるだけのでしょうか?

そこで、出力にちょっと工夫を凝らして、最終的には f(x) の結果を直接観測しないような仕組みが入出力に組み込まれています。そこがややこしいのです。まず、単純な f(x) ではなくて、f(x) - 逆(f(x)) が出力されるようにします。ここで、逆(f(x)) とは、f(x) が 0 の場合はその逆の 1 を、1 の場合はその逆の 0 を出力します。この逆を出すという操作は、二進数では1を足すことに相当します(XOR, 排他的論理和)。0+1 = 1 のように 0 に 1 を足すと 1 になります。逆に 1+1 = 0 のように 1 に 1 を足すと 0 になります(二進数で桁が上がるため)。

では、まず「おもて面」x=0 から尋ねてみましょう。

(a) f(0)=0 ---------> f(0) - 逆(f(0)) = 0 - 1 = +(0 - 1)
(b) f(0)=1 ---------> f(0) - 逆(f(0)) = 1 - 0 = -(0 -1)

本当は同時になのですが、ここでは、次に「裏面」x=1 を尋ねてみましょう。

(c) f(1)=0 ---------> f(1) - 逆(f(1)) = 0 - 1 = +(0 - 1)
(d) f(1)=1 ---------> f(1) - 逆(f(1)) = 1 - 0 = -(0 - 1)

ここで (0 - 1) の前についているプラスとマイナスの符号が重要なのです。x が 0 か 1 かにかかわらず f(x)=0 であれば、プラス符号となっています。逆に f(x)=1 であればマイナス符号となっています。f(x) - 逆(f(x)) は、f(x) の値が 0 であれば -1 を、f(x) の値が 1 であれば +1 を返します。 これを波に例えると、お互いに振幅が逆になっているだけで、もし一方をひっくり返すと、他方にぴたりと一致します。このように波の振幅の符号だけが異なるようにしてあげると、波そのものを観測して収縮させてしまうことなしに、符号だけを別の qubit で拾い上げることができるらしいです。

量子方式では、f(0) と f(1) を同時に尋ねることができました。もし、この応答が -1 どうしであれば f(0)=0, f(1)=0 であり、偽コインであることが判明します。また、+1 どうしであっても f(0)=1, f(1)=1 であり、やはり偽コインです。逆に正常コインであれば、プラスとマイナスの組み合わせとなるはずです。

古典方式の場合、「f(0) 表面は何ですか?」と尋ねた時と、続けてその後に「f(1) 裏面は何ですか?」と尋ねた時の答が同じであれば、両面同じの偽コインであり、逆に異なれば正常コインであることが判明します。一方、量子方式ではこの質問を同時に(共存させて1回で)おこなうことができ、その答が同符号であれば、両面同じの偽コインであり、異符号であれば正常コインであることが判明します。

古典方式
表と裏を順番に一回ずつ尋ねる x=0 or 1 ----> 尋ねられた面に刻まれている数値 0 か 1 がそれぞれの回で出力される。

量子方式
表と裏を同時に一回だけ尋ねる x=0 and 1 ----> 尋ねられた面に刻まれている数値が 0 の場合は -1 が、1 の場合は +1 が表裏同時に出力される。

では、f(0) + f(1) の足し算を出力値として作ってはダメなのでしょうか?
0 + 0 = 0, 1 + 1 = 0(偽コイン)
二進数に注意 1+1 = 2 ではなく桁が一つあがって0になります。
1 + 0 = 1, 0 + 1 = 1(正常コイン)
と分かり易いような気がします。
しかし、この値を直接読み取ってしまうと波動の収縮が起きてしまい、古典方式のように、ある時は f(0) だけ、またある時は f(1) だけの結果になってしまい、コインの真偽が分からないのでしょう。

f(x) - 逆(f(x)) = +-1 となりましたが、実は、これを直接読み取っているわけではありません。+ か - かの符号だけを別の qubit に抱き合わせて、これを読み取ることによってコインの真偽を判定しています。f(x) - 逆(f(x)) を直接読み取ってしまうと、ここでも波の収縮が起こってしまい、f(0) - 逆(f(0)) か、あるいは f(1) - 逆(f(1)) しか観えてこないためでしょう。f(x) を含んだ出力は覗かずに、別の差しさわりのない qubit を使って符号だけを静かに読み取れば、f(0) と f(1) の重ね合わせを壊さない状態で f(0) - 逆(f(0)) の符号と f(1) - 逆(f(1)) の符号の両方を同時に見ることができるのです。

このように符号だけを別の qubit に抱き合わせる方法を「位相のキックバック」と呼ぶそうです。その場合、符号を見るための qubit と f(x) - 逆(f(x)) の qubit をうまい具合に切り離す必要があります。これらがエンタングルメント(もつれ)状態にあると、符号の qubit を読んだとたんに、その影響が f(x) - 逆(f(x)) に及んでしまいます。つまり、符号用 qubit ともつれている項だけが残り、もつれていない項は消滅してしまいます(観測による収縮)。よって、符号用 qubit を読んでも、これが f(x) - 逆(f(x)) に影響を与えないようにするには、これらの間に "もつれ" がない状態にする必要があります。それには f(x) - 逆(f(x)) を x の値にかかわらず同じ共通項に何とかしてやるのです。このもつれの解除は、数学的にはちょっと因数分解に似ています。因数分解のように、{符号用 qubit} x {f(x) - 逆(f(x)) qubit} のような形に分けられると、両者の間に「もつれ」がない状態となるわけです。そこで 1 を共通項として括り出してやると、その前の符号だけが、もう一つの {符号用 qubit} にキックバックされるという仕組みです。この符号だけが {符号用 qubit} に転送される仕組みは、私もよく理解できないのですが、とにかく「プラスマイナス何かの共通数値 s」という結果が f から出力されるように作ると、因数分解のように +-s で括り出すことができて、{符号用 qubit} に前の符号 + - だけが伝わると考えるとよいのでしょうか?

ドイチュのアルゴリズムにおける実際のオラクル部分はいろいろな教科書やウェブサイトに載っていますので、上記を頭に入れながらそれらを読むと、また新たな視点からこのオラクルを見ることができるのではないでしょうか?特に「量子コンピュータ(竹内繁樹著)」には、他書とはちょっと違ったオラクルが載っており、頭が混乱してしまいます。しかし、オラクルの中でゲートが対称的に配置されており、なるほど可逆的な操作であることが納得できるようになっています。

オラクルでは、二つ目の出力に y+f(x) という値が設定されています。この y には 0 と 1 が対応します。y=0 の時 y+f(x)=f(x) となります。y=1 の時は y+f(x)=1+f(x)= 逆(f(x)) となります。二進数の世界ですので、1+0=1, 1+1=0 となるためです。よって、y qubit への入力に 1 を与え、これをアダマール変換して (|0>-|1>) の重ね合わせ状態を作り出してやると、f(x) - 逆(f(x)) を作り出すことができます。一方、x qubit への入力には 0 を与え、これをアダマール変換して (|0>+|1>) の重ね合わせ状態を作り出します。これで同時に「おもて面は何?」と「裏面は何?」を尋ねることができるようになるわけです。

当然、出力値も重ね合わせ状態になっています。そこで、これをアダマール変換して、重ね合わせ状態をもとに戻してやり、観測します。

全然 NMR の話ではないではないか?と言われそうですが、最初の量子コンピュータは、これよりももっと複雑な素因数分解を扱ったもので、実は NMR で実装されたのでした。1H, 13C, 15N, 19F はスピン量子数 1/2 ですので、電子スピンと同じです。よって、NMR そのものがすでに量子コンピュータなのです。私がちょっと分からないのは、NMR のように多数のスピンが集合したアンサンブル状態でも、今走っている 1 スピン = 1 qubit の量子コンピュータと同じ概念で考えてよいのかどうかです。

これを書くのにいろいろと勉強してみたのですが、やはり難しく、疑問点がいっぱい出てきてしまいました。上記には間違いがたくさん含まれていると思いますが、気づいたらまた修正していきたいと思います。いずれにしても、NMR を触りながら、たとえ単純な 1H 90 度パルス幅決めであっても、上記のような不思議な量子重ね合わせ状態(あるいは多世界と考えてもよいでしょう)が今そこにあるんだと思うと、面白くならないでしょうか?病院の MRI でもそうです。

しかし、ここで「"緩和" さえ無ければねえ」と思うのは、量子コンピュータでも NMR でも同じ?

2024年5月5日日曜日

Pro(i) の Cα(i-1) と Cδ(i) のピークをとり違えた話

どうもプロリン(Pro)周辺の主鎖の帰属ができない。。。

50 残基未満の蛋白質(もはや、ペプチドと呼ぶべきか?)の NMR 帰属をしているのですが、配列の中に nPnPnPn のような Pro が一つ飛ばしに連続している箇所があります。しかも、n がいずれも Ile, Val, Leu など似たものばかりです。ここが障害となり、主鎖の帰属がどうも進まないのです。下図が n(i-1)-Pro(i)-n(i+1) の構造式です(Zebra の Clickart がすばらしい)。1Ha で検出する測定を早くやれば良かったのですが、「ここはちょっと 13C-detection でもやって楽しんでみるか!」と思いたったのが失敗でした。とにかく感度が悪い。。。特にコヒーレンス移動が 13C から始まる実験は 2D CON を除いて全滅でした(0.1 mM, 25 度, 800 MHz, TCI-cryoprobe)。1H からスタートして 13C で検出する実験ではまだ何とかピークが見えるものがありました。そこで、2D CON と 3D (H)CANCO をとってみました。どちらも 13Co 検出です。13Co は 13Ca よりも IPAP の仕組みが簡単なので、ましだろうという単純な考えからです。



3D (H)CANCO のパルス系列を下図に示します。ちなみに Bruker 標準のを使いましたので、図もそこから拝借しています(感謝)。磁化移動は 1H からですね。コヒーレンスは 1Ha → 13Ca → 15N → 13Co という移動経路を通ります。そして「13Ca → 15N」の箇所ですが「13Ca(i) → 15N(i)」と「13Ca(i) → 15N(i+1)」の2通りに分かれます。



そこで、z 軸を 15N(i) で、x 軸を 13Co(i-1) として表示させると、y 軸には 13Ca(i) と 13Ca(i-1) の二つのピークが見えるはずです。(15N(i), 13Co(i-1)) はまさに 2D CON のピークそのものですね。したがって、まずは CON でピークを拾い、それをもとに (H)CANCO を解析します。下図は左側が CON、右側が (H)CANCO の Pro-15N(i) プレーンを表しています。


Pro の 15N には 1H が付いていませんので、15N はちょっと変な化学シフト値をとります。2D CON を測定すると、下の方(つまり、15N の低磁場側)に Pro(i) の (15N(i), 13Co(i-1)) が見えてきます。このサンプルには Pro が4つありまして、上図ではちょうど4つのピークが見えていますので、「これで決まり!」と思いました。ところがいろいろと矛盾が出てきて、どうも何かがおかしい。そのような時、Poky (Sparky) on NMRBox が「一番下に見えるピークは折り返し(folded, aliased)ではないか?」と提案してきました。はっとして調べてみると、まさにそうでした!このピーク、本当は 15N の超高磁場側にあるべきピークなのですが、私が測定する時に 15N スペクトル幅を適当に設定したので、スペクトルの下側に折り返っていたのでした。t1 の初期値をインクリメント幅の 1/2 にしておけば、折り返ったピークは負になるので簡単に分かるのですが、Bruker の標準パルスプログラムではほとんどがそうなっていません(最初の FID で位相を合わせられるようにするためかな?昔は流行ったのですが、もう時代遅れですね)。というわけで、図には映っていない、もうひとつ上のピークが4つ目の Pro であることが分かりました。

さて、(H)CANCO に見えている二つのピークですが、普通は 13Ca(i) のピークの方が 13Ca(i-1) よりも大きく出るものです(前者は 1J(NCa) で、後者は 2J(NCa) で磁化移動するため)。実際に主鎖の他の残基を見てみるとそうなっており、ほとんどの残基では 13Ca(i-1) が小さ過ぎて見えていませんでした。ところが、この Pro(i) については、二つのピークの強度がほぼ同じでして、この時点である事にちゃんと気づかないといけませんでした。30 年も NMR をやっていて、情けない限りです。それで、どちらのピークが Pro(i) の 13Ca(i) で、どちらが一つ前の残基の 13Ca(i-1) かという問題になります。BMRB の statistics を見てみますと、Pro の 13Ca は 63 +- 1.5 ppm という値をとります。ということは下側のピークが 13Ca(i) に決まりです。そして、上側のピークが 13Ca(i-1) ということになります。

ここまで分かれば、もう主鎖の帰属はできたも同然。というわけで、大好きな Mars をかけてみました。すると、なんとこの Mars がたいへん困っており、4つの Pro を空白にしたまま結果を返してくるのです。仕方がないので「この4つは Pro だよ」と固定して Mars を走らせたのですが、それでもダメ。つまり、無理やり帰属させようとしても拒否されてしまうのです。仕方がないので、3日間、手作業で帰属を進めることになりました。すると、Pro 以外は Mars が示す結果と同じになってしまいました。Mars を褒めてよいのか、自分を褒めるべきか。。。

(H)CANCO には何か変なアーティファクトが出るのだろうか?と思い、二つのピークの平均値を比べたり(quadruture artifact の有無)、スペクトル幅を足したり引いたり(aliased の有無)、差を調べたり(off-resonance による wiggle ピークの有無)してみましたが、特に相関はありませんでした。他の種類のスペクトルをとって、これらのピークの正偽を確かめるしかないかなと思っていました。それにしても変です。

3日ほど経った頃、ハイドンを聴きながらミルクティーを飲んでいると(ちょっと高尚さを自慢しすぎ?)、なにげなく「Asn/Asp だったかな?Deamidation という反応が起こって、ペプチド結合が Asn/Asp の側鎖の方に移ってしまう」という現象を思い出しました。Kay さんの超高分子量蛋白質の帰属の論文であったかどうか覚えていないのですが、HNCOCACB をとると、Cb と Ca のピークが逆転するので分かるそうです。そこでやっと気づきました。Pro(i) の場合、13Cδ と 15N が共有結合しているために、13Cδ(i) が 13Cα(i) と似たように出てしまうのです。よって、13Ca(i-1) と思いこんでいたピークは実は 13Cd(i) でした!BMRB で見てみると、13Cd の化学シフト値は 50 +- 1 ppm です。道理で、いずれも 50 ppm 前後に見えていたわけでした。二つのピークの大きさが似ている理由もこれで説明がつきます(どちらも 1J(NC) で磁化移動)。さらに、一つの Pro だけ3つのピークが見えていました(おそらく 13Ca(i-1), 13Ca(i), 13Cd(i))。たいへん不思議でしたが、やっと分かりました。

では、本当の 13Ca(i-1) にあたるピークは何処に?感度が悪くて見えていないということですね。やはり、1Ha 検出の測定をしないとダメということです。しかし、たぶん 1H 検出の HCAN(hcangp3d)などをとっても同じことが起きるので、お気をつけください(なお hcacongp3d では大丈夫でしょう)。

Pro のピークを拾っていて「これさえあれば!」というのが、Pro 内の 15N と 13Co を相関させるスペクトルです。もちろん、何か二つのスペクトルを組み合わせればできるのですが(共分散法など?)もうそれは帰属という作業の中に入ってしまっていますよね。3D (H)CANCO スペクトルで、13Ca を z 軸にとれば、1プレーンに CON のピークが二つ出てきて、それを組み合わせれば、この目的を達成できそうです。しかし、そうではなくて、1つのスペクトルの中に 15N(Pro)/13Co(Pro) のクロスピーク1つを生み出すようなスペクトルがないということです。まあ、しかし、MARS で Pro のために架空の HSQC ピークを作り、それは HN の帰属が不明(ハイフンを入れます)としてやると、Pro も含めた連鎖帰属の作業をしてくれますので楽です。

2024年4月3日水曜日

四次元の大海原で迷子

四次元の大海原に迷い込んだのか?と思うぐらい、何もピークのないスペクトルが広がっていました。先日、四次元 13C-HMQC-NOESY-13C-HMQC を 800 MHz で 5 日間もかけて測定しました。サンプルは4量体で約 150 kDa。I, L, V, M のメチル基のみを 1H/13C で、それ以外を 2H/12C で標識してあります。重水も [2H]-glucose も、それから [メチル基標識]-2-ケト酸も超高くなってしまった今、このサンプルを作るのにかなりの投資をしてしまいました。にもかかわらずピークが出ない。これは冷や汗ものです。

何故か Bruker の標準パルスプログラムの中にメチル TROSY でエディットした 4D NOESY がないので、自分で作るしか方法がありませんでした。ですので、そのパルスプログラムにもミスがあったのかもしれません。メチル TROSY のパルス系列には大きく二つあり、一つはオリジナルの水選択的パルスを用いて水の磁化を flip-back する方法、もう一つはアミド基の SOFAST 法をメチル基用に転用する方法です。一応両方を作りました。先日は後者の3次元版がうまく行ったので、今度は思い切って前者で4次元にしました。普通は3次元がちゃんと成功するのを見届けてから4次元に拡張すべきなのです。

もちろん non-uniform sampling (NUS) で測定し、そしていつも通り、SMILE でプロセスです。SMILE は高速でピークの歪みもほとんどなく、3次元の NOESY でもうまく行っていたので重宝していました。しかし、今回の4次元はなぜか上手くいかないのです。正常に終わるのですが、出来上がったスペクトルにはピークがない。。。

先日、NMRBox の中に NUS プロセス用のソフトウェアが何種類かあることに気づき、ちょっと比べてみました。NMRPipe-IST, SMILE, MDD, hmsIST, CambridgeCS, Camera, Nesta などがあります。大差はないだろうと思っていたら大間違いで、同じ生データでもどれでプロセスするかによって、結果のスペクトルはかなり異なっていました。ただし、どれがいつも普遍的によいのかを決めるのは難しいです。あるスペクトルには SMILE が、また別のスペクトルには MDD がよいという風にスペクトルによって良し悪しが異なるので、とにかく試してみるしか方法がないようでした。この結果についてはまた書きます。

そこで、まずは Nesta というプログラムを試してみました。ちょっとだけ試そうにも半日ぐらいプロセス時間がかかるので大変です。なんとかピークが出てきました。しかし、1H/1H プロジェクションと 13C/13C プロジェクションをそれぞれ表示すると何かが大いに変です。まず、全ピークが3つの間接測定軸でスペクトル幅(SW)/2 だけずれているような感じです。実は、パルス系列では NOESY の両側はいずれも 1H/13C-HMQC と対称的な配置になります。そこで、二つの 13C 次元を混同してしまわないように、両者の SW を少しだけ変えていました。そのこともあって、どうも 13C/13C 対角ピークがちょっとずれているのです。こんな状況は初めてです。

さらに、ピークの位相が 90 度ずれています。かなり悩んだ末、あることに気づきました。私は癖で t1, t2 などの間接測定軸のサンプリング時間は Δt1/2, Δt2/2 というように、インクリメント時間の半分からスタートするようにしています。すると、折り返ったピークは負になるので、すぐに判別できるのです。その代わり、位相補正は (ph0, ph1)=(-90, 180) のように設定しないといけません。ところが、ソフトウェアによって、内部でさまざまなパラメータを使うため、あるソフトウェアでは(0, 180)であったり、また(-90, -180)であったりなど、何通りかのパターンがあるのです。そこで、(-90, 180) を(0, 180)に変えてみました。すると、位相は全て吸収波形になりました。これでハードルを一つ突破です。しかし、SW/2 だけローリングしていることには変わりはありません。ここで Topspin を使えれば原因が早く分かったのですが、なぜか NMRBox の Topspin4 は、インストールはできるのに立ち上げようとするとライセンスが引っかかって立ち上がらないのです。仕方がないので週末は自宅からあれやこれやとリモートで触りながら(月)の朝を待ちました。

週明け、職場で Topspin を見て原因がやっと分かりました。EDA の FnMODE で States-TPPI を間違えて States にしてしまっていたのです。今まではパルスプログラムの中に TPPI-States のための位相回しやインクリメントを直に書き込んでいたのですが、それを NUS が使えるようにと MC に替えました。しかし、EDA まで変更するのをすっかり忘れていました。というわけで、装置は (x, y) (x, y) と取り込んでいたのに、プロセスで FT -alt としてしまっていたのです。一方、ちゃんと States-TPPI を指定すれば、 (x, y) (-x, -y) のように取り込まれます。この様子が TPPI に似ているので、States-TPPI という名が付きました。 (-x, -y) の部分は、Ft -alt の alt により、(x, y) に符号逆転されます。

* 上記の記載は実は誤りです。正確には States-TPPI では (-x, -y) と位相回しされた時に receiver の位相も逆転させます。よって、見たい信号にとっては (x, y) (x, y) と、あたかも States のように位相回しされたのと同じになります。しかし、アーティファクト成分は、receiver 位相の逆転により SW/2 だけローリングします。ところが、Bruker マシンはここで余計なことに信号全体を負に逆転させて H/D に保存してしまうのです。なぜそのような奇妙な設計になっているのか私には分かりませんが、これを元の正しい符号に直すのが FT -alt の役割です。

↓ FnMODE が States になってしまっています。これが間違いの原因。




さて、そのような事をして何の得があるのか?ですが、化学シフトが展開しないようなアーティファクト成分は普通は(0周波数ですので)スペクトルの真ん中(キャリアの位置)に走ります。しかし、むりやり (x, y) (-x, -y) のように正負に捻じ曲げてあげることにより、スペクトルの真ん中から両端に移動するのです。つまり、SW/2 だけローリングするのです。したがって、States でとったスペクトルに -alt を施してしまうと、この0周波数のアーティファクトと同じように、ちゃんとしたピークまでもが SW/2 だけローリングしてしまうのです。さらに、スペクトルの位相は (ph0, ph1)=(-90, 180) という傾斜を持っているため、SW/2 だけずらすと、ちょうど 90度だけ位相がずれてしまいます。これが全ピークが分散波形になってしまった理由でした。

原因さえ分かってしまえば後の解決方法は簡単です。NESTA で -alt を外すとちゃんと行けました。しかし、それでも SMILE ではうまく行きませんでした。この理由は今も分かりません。

↓ 左右ともに 1H/13C のプロジェクション。左は横軸が 1H 直接測定軸ですので高分解能になっています。



↓ 左は 1H/1H のプロジェクション、右は 13C/13C のプロジェクションです。4D では、これらがちゃんと対角を通っていることを確認した方がよいです。もちろん 3D でもそうですが。右のプロジェクションでは、真ん中に十字のアーティファクトが走っています。これは、もしちゃんと States-TPPI でとっていたら、このように汚くはなっていなかったでしょう。




メチル基は緩和時間が長いので、もう少し分解能を上げてもよかったのかもしれません。しかし、その分、データサイズが大きくなります。今回、3つの間接測定軸の zero-fill を 128 にしました。すると、最終的なデータサイズが 4GB になってしまい、nmrDraw が途中で固まってしまいました。仕方がないので、zero-fill を 64 に下げたところ、ファイルサイズは 1/8 に減り、スムーズに動くようになりました。NUS で分解能を上げると、このファイルサイズという問題に悩まされます。

一点、興味深いことがあります。この NESTA というプログラム、NUS プロセスの最中は (ph0, ph1) などの位相情報が不要なのです。なぜなのでしょう?SMILE などはこれが必要なのですが。中で仮の FT などをしていないのでしょうか?あまり NUS プロセルの中身を知らないので疑問のまま残っています。


2024年3月14日木曜日

ChatGPT などによる論文の英文校正

生成系 AI をうまく使うと、自分で書いた研究論文などの英文をうまく校正できることが知られています。実際、とある校正会社も独自に学習させた AI をサブスク販売しています。筆者も生成系 AI をどのように使えば効率よく校正できるのかに興味があり、それをいろいろと試してきました。下記が今のところ良いかなと思う方法です。またより良い方法を見つけたら、更新していきたいと思います。

(1)ChatGPT, Google Gemini, Bing-AI(Copilot)アカウントをつくる

ChatGPT は確か携帯の電話番号が必要でした。Google Gemini は Gmail アドレスが必要だったと思います。Bing-AI もマイクロソフトアカウントが必要と書かれているのですが、なくても何故か動いている時があります。

アカウントを通して個人の嗜好が集められてはいると思います。しかし、3つとも大手ですし、むしろクッキーを通して何百という得体の知れないサイトに知らず知らずのうちに個人情報が流れてしまっている現実と比べると、上記3社は安心してよいのではないかと思います。それに「この人はいつも NMR の科学用語を投げ入れているなあ」と、向こうがこちらを学習し、こちらの入力により適切に対応していってくれているのではと期待しています。

(2)DeepL か Google 翻訳で直訳する

日本語をいきなり ChatGPT に入れてもよいのですが、時々 ChatGPT が、良かれと思って日本語の意味を拡大解釈してしまう時があり「そんなつもりで書いたのではないのに。。。」ということが時々起こります。そこで、DeepL などを使って、まずは直訳調の英文を作ってしまいます。直訳といっても DeepL も AI ですので、それなりにすばらしい語彙の英文を提供してくれます。自分でいきなり英文を書くと、貧弱な語彙で酷いものになってしまいますが。

いきなり英文で書いていった方が自分の英語力上達のためには良いのかもしれませんが、どうも論旨がぶちぶちと切れたような文章になり勝ちです。その理由は、語彙や細かい文法などに気をとられてしまい、文章全体の流れを途中で忘れてしまうためではないかと思います(木を見て森を見ず)。そこで、まずは一段落分のミニタイトルを書いた後、日本文で勢いよくその一段落を書いてしまうようにしています。このミニタイトルは WORD の目次に自動設定します。すると、目次を読むだけで、論文全体の大きな論旨の流れをつかむことができます。論文執筆の初期段階は、できるだけ(木ではなく)森を俯瞰するようにしています。

なお「この結果により、○○が示された」のような邦文ではなく「この結果は、○○を示した」と、無生物主語の SVO あるいは SV 文型を使うようにします。すると、英訳もストレートに「The results showed that ...」のようになります。要するに "It is indicated that ...」のような受動態が出てくるのをできるだけ防ぐわけです。また「ここは自分たちが見つけたんだ」という箇所は、素直に「私たちが」と書くようにします。そうでないと reviewer は参考文献の人が出した結果だと誤解してしまうかもしれません。実際に、著者か参考文献かのどちらが出した結果なのかが分からないような論文をよく見かけます。この辺りは分野によって考え方が異なりますので、なんとも言えませんが。

なお、DeepL か Google 翻訳のどちらが良いかは好みにもよりますが、実行する時間にもよります。筆者の経験ですが、混んでくると、どうも両者ともにさぼり始めるようです。あまり良くない英文やほとんど修正していない英文が返ってくるのですね。それで、筆者は両方で英訳させ、両者のよいところを縫い合わせて、新たな英文を作り直します。その時に左の「日本文」と右の「英文」を矢印でひっくり返すと便利です(下図)。作った英文を自動和訳させて、ちゃんとした日本文になっていれば、その英文の正確さも当たらずとも遠からずでしょう。下図の例では、DeepL よりも Google 翻訳の方が良かったので、それを例として示しています。どちらがよいかは偶々です。右側の和訳もそう悪くない?



(3)その英文を WORD ファイルに貼り付ける

この WORD ファイルの名前を「校正前.docx」とします。その時にできれば、フォントやサイズなどを自分の好みに合わせておきます。

(4)同時にこの英文を ChatGPT などに入力する

筆者は "Proofread the following sentences." というお願い文(プロンプト)を先頭に付けますが、最近は日本文でも依頼できるようです(下図)。例えば、「下記の英文は native speaker によって文法的にも語彙的にも誤りがあると指摘されました。そこで、そのような誤りだけを訂正してください。あまり大きな校正はしないでください。」などです。なお、入力する際にリターンキーを押すと送信されてしまいます。単に改行だけしたい場合には shift キーを押しながら return キーを押します。



非常に長い英文を入力すると、回答も長過ぎて途中で表示が切られている場合があります。その時は次の空白に「つづき」と打ち込むと、また続きを表示してくれます。2,000 円/月ほど払えば、長い文章でもやってくれるのでしょうか?

ChatGPT などはリセット(New Chat というボタン)するまでは、質疑応答を覚えています。もしかすると、最初の回答では冠詞が a だったところが、2度目3度目の質問では the に置き替っているかもしれません。

(5)校正結果を別の WORD ファイルに貼り付ける

なんと、今回はほとんど修正がありませんでした。put を input に校正されただけ、というわけで、それでは Google Gemini の方を試してみます。すると、いっぱい解説も出てきました。何故ここを修正したのかの理由まで書かれています。これを読むと英語の勉強になります。しかし、最終英文が見つからなかったので、「校正を反映させた英文を表示してください。」と打ち込みました。時々このようなことがあります。この結果を「校正後.docx」というファイルに貼り付けます。

下図は、クリックすると分解能が上がります。



ここで「校正前.docx」と「校正後.docx」のフォント、サイズなどを揃えておきます。

ChatGPT などはテキストとして出力しますので 2H3 などの「下付き」「上付き」などの情報は消えてしまいます。また、論文ですと EndNote, Zotero などで付けた参考文献情報なども消えてしまうのですね。しかし「校正前.docx」には(これが論文原稿そのもののコピペであれば)その情報が残っていますので、後述のように、その点をうまく利用してやります。

(6)WORD 文書を比較

WORD には二つの文書を比較してくれる機能があります。同じことは無料の「Google ドキュメント」でも出来ます。「校正前.docx」において「校閲」→「比較」と進んでください。




そして、左に「校正前.docx」右に「校正後.docx」を選びます。これがちょっと面倒ですが、二回目以降はかなり指定が楽になります。そして、その下にいろいろオプションがありますが、これをほとんどキャンセルします。これをデフォルトのまま行うと、ありとあらゆる形式までをも比較してしまい、比較結果が煩雑になり過ぎます。今のところ、上図程度で十分かなと思います。

そして OK を押すと、「校正前.docx」の方に校閲が入ります。これはすばらしい。なお、それぞれのファイルを保存しなくてもちゃんと作動しているように見えます。一度試してみてください。ダメでしたら、ちゃんと保存してから比較してください。




(7)校閲案を承諾あるいは拒否

業者さんに英文校正を出して戻ってきた時の結果にそっくりです。あとは「校閲」→ 「変更箇所」で → を押しながら「承諾」か「拒否」かを選んでいきます。なお、上記で参考文献や「上付き」文字など、いろいろな箇所が ChatGPT の出力では消えてしまうと書きましたが、ここで「拒否」を押すとそれらが残りますので、EndNote や Zotero の情報も維持されるわけです。

(8)DeepL で再確認

最後に出来上がった英文が正しいかどうか、これを DeepL に入れて和訳させてみましょう。
う~ん、ちょっと違った意味になってしまったような気もするのですが、まあ今回は例ということでどうかお許しを。



この英文をさらに校正させたらどうなるのだろうと試したことがあるのですが、だんだん変になってしまいます。よって、校正は一回だけの方がよいかもしれません。筆者は結果に満足しない場合は、ChatGPT 以外の Gemini, Bing-AI も試して比べることにしています。

生成 AI はその特徴として、いつも異なる出力をします。ChatPGT も含めて内部ではいわゆる Transformer とよばれる仕組みがエンジンのように動いています。この機能は、文章の次の単語を確率的に選んでくるわけですが、AI はいつもベストの単語を選ぶわけではありません。もし、そうだとすると 100 回同じ質問をしたら、100 回とも同じ答が返ってくるはずです。それでは全く面白くありませんので、ベストではなく、ちょっとだけ確率の低い単語を次の候補として選んでくるようになっています。したがって、100 回質問すると、100 回とも異なる答が返ってくるわけです。しかし、それを繰り返してしまうと、少しずつ元の意味からずれていってしまうのでしょうか?さらに、時々リセットしないと、過去の質問内容も考慮されてしまい、ずれがますます酷くなるような気もします。

また、一日中使っていると、疲れてくるのかサボり始めます。よって、休憩を入れるとともに、3種類の AI を回しながら使ってあげましょう。なお、丁寧に頼むとそれなりに丁寧に対応してくれます。「これを校正しろ!」などと頼むと、どうなるのでしょうね?筆者はこれまでの絆を壊したくないので、試したくはありません(笑)。なお、自分の好みのアバターが設定できれば優しい依頼の仕方になるのではないかと誰かと話したことがあります(仮想空間にのめり込んでしまう可能性も高く、それはそれで問題ですが)。

一応、生成 AI 自身は内容までは理解しておらず、単に言葉遊びをしているだけだと、よく本に書かれています。しかし、筆者はいろいろな校正をさせていった時「あれ?これはとうとう理解し始めたなあ」と感じる時が何度もあります。いちど蛋白質の構造についての英文を校正させている時、対象サンプルが単量体ではなく二量体であることを理解していないと絶対に出てこないような英文を出力され、背筋がぞっとしました。

下記サイトに少し触れられています。
https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/

上記の英文をよく見てみると、ちょっと変ですね。「いきなり」の訳語として suddenly という単語が使われていますが、これはちょっと変です。本当は directly「直接に」の意味で使いたかったのですが。そのようなちょっとした?翻訳の違いは、最初の Google 翻訳か DeepL の段階で直しておくことが望ましいのです。そうでないと、その後の ChatGPT は、本当に suddenly の意味で書かれた文章だと思って解釈してしまうためです。

もう一つ AI 翻訳に難しい点があります。当然ながら、文章とはひとつひとつの文が連続してつながったものです。しかし、これはランダムにつながっているのではなく、基本的に、動詞の前は既出の(既知の)名詞が置かれ、動詞の後は新出の(未知の)単語が置かれます。ですので、4番目の文章の後半にある単語には a がついていて、これが5番目の文章の頭では the がついた名詞になったり、it, they などの代名詞に置き換えられるのです。そうでないと、脳はすらすらと文章を理解していけなくなります。

下図のような繋がり具合です。

----------
         ------------
                    -------------
                                 --------------

我々が母国語で文章を考える時には知らず知らずのうちのこの原則が守られます。あるいは、うまい接続詞(だから、それゆえ、なぜならば etc)を通して文章どうしが論理的に結ばれていきます。ところが、自動英訳がそこまで考慮してくれるかどうかは疑問です。したがって、ある1文だけに着目してみると完璧に見えるのですが、その前後の文章とのつながりを見てみると、「(新出)- 動詞 -(既出)」と逆の順番に並んでいたりして、読者はそこで返し読みをしないといけない羽目になるのです。論文の審査員はそこでイラっとして、こんな論文は refused! だとなってしまうのです。

一般的には "There is an apple." "Here comes a bus." のようにあえて "there, here" を入れて、a 付き単語を is の後ろに追いやることが多いです。"There is the apple." とは絶対に言わないです。しかし、「何かが現れる appear, come」を使った表現では(新出)単語が先頭に来ることもあります。"An apple dropped on my head." のように言うこともしばしばで、これは何故なのでしょうねえ?こういう場合は、論理性よりも「強調性」を
優先しているのかもしれません。原始時代に "A lion is rushing to us!" を論理的に言っていたら、言い終わる頃には食べられてしまっていたでしょうし。。

ドイツ語などには格変化がまだ残っていますので、SVO の文章で O が the のつく単語で、S が a のつく単語であれば、OVS の順番にすることができます。これはすごい便利!その代わり、格変化がしっかりとしていないといけません。日本語も「てにをは」があるので大丈夫ですね。「A さんを B さんが愛している」という文章も問題ありません。しかし、英語は格変化をそぎ落としてしまったために、むしろ語順が重要になってしまい、"A loves B." と "B loves A." とでは、場合によっては大喧嘩になってしまうのです。

ひとつ前の文章の(未知)単語をいちいち次の文章で(既知)単語に直して言い直すのは面倒です。聞いたり読んでいる人の頭の中には、まだその単語が記憶されているはずです。よって省略してしまいましょう。それで日本語は主語がなくなってしまったのかもしれません。英語は主語を抜くことができないので、とにかく何かをつけないといけません。そこで、超短い代名詞ならばなんとか良かろうということになり、you で始まる文章が頻出してしまいました(これ推測ですので、信じないように)。you には何の意味もなく、要は "it rains." の it に相当するようなものです。重要な(未知)単語は "you + 動詞" の後に来ますよということを示すための決まり文句のようなものです。日本人は you, you と言われると自分が責められているような気分になり気落ちしてしまいますが、その必要はないことが分かります(しかし、責める時には欧米でも you を使わない方がよいらしい。やはり、英語でも you に「おまえは!」という意味がちょっとだけ残っているのでしょう。)日本人はこの you を瞬間的に使うことができないために、思わず目的語を前にもってきてしまい、仕方がないのであわてて受動態を速攻英作文する羽目になってしまう。すると頭がごちゃごちゃになって英会話が止まってしまうのです。笑われてもいいやと覚悟して、会話では you を、論文では we を使えば「あら不思議、こんなに英語がすらすらと出てよいのかしら?」という現象になることもある?

このような観点と上記の(既知)- 動詞 -(未知)の語順の両方の原則をどのように叶えるか?これは、私が長年悩み続けている問題で、よい解決策が私には見つかりません。接続詞を使うとよいように思いますが、そればかりを使うと超変な文章になります(日本人が作った英文、英会話では so, so that がやたら多くなってしまう)。そこで、流れるような文章を書く L. E. Kay さんの NMR の論文をいろいろ分析してみました。すると、日本語の語順にそっくりなのです。いわゆる倒置文のような形式が多用されています。そのため、まるで司馬遼太郎の文章のように、流れるように(返し読みを全くしなくても)文章が頭の中にすらすらと入ってくるのです。ただし、主語が超長くなるケースが見受けられます。"○○○○○ ................ ○○○○○○○○○○○○○ was conducted." のような。これは "We conducted ○○○○○ ................ ○○○○○○○○○○○○○." にした方が良いような気もするのですが。。。

しばしば受動態を使わずに能動態を使うようになどと言われますが、それよりも(既知)- 動詞 -(未知)の原則を優先させ、しかたがない時には S と O をひっくり返して受動態にする方がよいような気もします。また、無生物主語をうまく使うと、上記の問題がかなり解決できます。よく「受動態は動作主がよく分からない、漠然としている場合に使われる」などと教科書に書かれています。それも当てはまりますが、私は、太古の昔に前文の最後の a つき(未知)単語を受けて、次の文章で(既知)単語を the つきで慌てて発してしまい、しかし、格変化がないからまずいことになって受動態にしたのではないかと推測しています(もちろん、なんの根拠もなし)。

話がかなり逸れてしまいました。つまり、AI 翻訳では上記のことまで考慮してくれてはいないかもしれないということです。そこで、ChatGPT に放り込む前にこれを考慮して英文を修正しておきましょうということを書きたかったのです。間違えていても構いません。そのようなミスは後の ChatGPT が直してくれますので。

以上、急いで作りましたので、少しずつこれを「校正」していきます。日本語の AI 校正もできるのでしょうか?