互変異性体(Tautomers)――すべての化学者が知っている概念ですが、互変異性(tautomerism)は問題として顕在化するまで、往々にして意識されることがありません。
合成化学者あるいは創薬化学者として、NMRスペクトルを確認した際、想定していなかった互変異性体が反応に関与した結果、アルキル化が予期しない位置で起こっていることに気づく場合があります。また、ケトンを探して化合物データベースを検索したところ、ケトンとエノールの2件がヒットすることもあるでしょう。これらは明らかに互変異性体のペアであり、それぞれの化合物について、わずかに異なるアッセイデータが付随しています。
典型的なケースとして、試薬ベンダーのWebショップで検索を行った結果、2件の候補が表示されることがあります。それらは互変異性体のペアのように見えるものの、一方はもう一方の5倍の価格が設定されています。ここで、「これらの構造は実質的には同一の化合物を表しているはずだ。より安価な方を注文しても問題ないのだろうか?」と疑問に思うことになります。
上述のような事例は、実務上の比較的小さな問題であり、経験豊富な有機化学者や創薬化学者であれば対応可能なものです。より深刻なのは、データベース検索の際に互変異性体の一方が取得されない場合であり、これは重要な情報の見落としにつながり、最終的にはデータ、研究作業、あるいは調達の重複を引き起こす可能性があります。そもそも、化学者が2組のアッセイデータを持つことになった背景には、このような経緯があるのかもしれません。
化学者の研究室の外に目を向けると、薬物作用、体内動態、毒性、送達といった要素のすべてが、互変異性の影響を受けていることが分かります。
その代表的な医薬品の例として、warfarin や thalidomide が挙げられます¹˒²。材料科学の分野に目を向けると、アゾ染料は互変異性化の機構を通じて、分子レベルの光スイッチとして機能することが知られています。


互変異性体データの取り扱い
実際にボトルの中にどの互変異性体が存在しているのかを判断することは、場合によってはほとんど不可能です。互変異性は pH や温度に依存するため、冷凍庫内と室温環境とでは、支配的な互変異性体が異なる可能性があります。
化学データを作成、キュレーション、利用する際には、立体化学情報を正確に反映し、互変異性体を適切に対応付けたうえで、化学構造を標準化された形で表現する必要があります。そのため、新たにデータを登録する際には、同一の化合物が異なる表現形式で既にデータベースに存在していないかを把握することが求められます。
本稿では、互変異性体の取り扱いに関する2つのケモインフォマティクス上の観点について検討します。
- 互変異性体の構造を、あいまいさのない形でデータベースに保存するには、どのようにすればよいのでしょうか?すべての互変異性体を代表する単一の構造を選択する必要がある場合、どの構造を採用すべきでしょうか?
- 互変異性体を取りこぼすことなく、データベースから構造を検索するには、どのような方法が考えられるでしょうか?確実な結果を保証する検索手法とは、どのようなものでしょうか?
単一構造による互変異性体の表現
データベースにおいては、考え得るすべての互変異性体を網羅する単一の構造のみを保存することが便利です。どの構造を選択するかは、個人の判断基準やビジネス上のルールに依存する場合があります。
Chemaxon の tautomer generator は、1つの化合物に対して複数の互変異性体を生成することができます。このジェネレーターは、まず分子内に存在するすべてのプロトンドナーおよびプロトンアクセプターを特定し、それらの間の互変異性化経路を探索します。その後、求める互変異性体の形式に応じて、互変異性化アルゴリズムは、すべての可能な互変異性体の集合、または単一の代表構造を出力します。
取得可能な単一構造の表現には、3つの種類があります。
- Generic tautomer は、入力分子に対して理論的に考え得るすべての互変異性体を表現します。この一般化された(すなわち Markush 型の)構造は、あらゆる種類の結合を含み、すべての互変異性体を網羅します。
- Canonical tautomerization は、互変異性体の集合全体を化学的に代表できる単一の互変異性体を生成し、水中で安定なすべての形態を代表する構造を与えます。
- Normal Canonical tautomerization は、Canonical tautomerization と同様の考え方に基づいていますが、Chemaxon の正規化規約により適合させるため、より多くの経験則を取り入れています。

Canonical および Normal Canonical のいずれの互変異性体も、データベースにおける構造表現として非常に適した選択肢に見えるかもしれません。
データベース検索を行う際には、一般にフォールスポジティブはフォールスネガティブよりも望ましいとされています。フォールスポジティブによるヒットであっても、専門家が人間の判断によって適切な結果を選別することが可能だからです。
Chemaxon の検索エンジンは高い設定自由度を備えており、互変異性体検索では、すべての可能なヒットを取得できるという理由から、generic tautomer が用いられることが最も一般的です。例えば、重複検索やフルフラグメント検索の場合には、理論的に考え得るすべての互変異性体を表すクエリ側の generic tautomer と、ターゲット側の generic tautomer が比較されます。一方、サブストラクチャー検索では、クエリそのものがターゲット側の generic tautomer と照合されます。
一般的に用いられる互変異性体表現(すなわち generic、canonical、normal canonical)のいずれの場合においても、どの互変異性体をアルゴリズムに入力しても、同一の出力構造が生成されることを保証する必要があります。以下のケーススタディでは、Chemaxon の互変異性体生成アルゴリズムの有効性を評価するために、Tautobase データベースを使用しました。
互変異性体生成の効率性
Tautobase は、1,680 組の互変異性体ペアを収録したオープンソースの互変異性体データベースです3。本研究では、このデータベースを用いて、当社の tautomer generator のベンチマーク評価を行うことにしました。データのキュレーションには KNIME を使用しました。
元の SMIRKS データは、各ペアの第1および第2の互変異性体を表す2つの SMILES データセットに変換されました。すべての構造に対して、標準化および構造チェックを実施しました。最終的に、水中で検討された変換のみを抽出し、922 組の互変異性体ペアを対象としました。
次に、互変異性体1および互変異性体2のそれぞれを出発点として、3種類の異なる互変異性体生成手法の結果を検証しました。generic tautomer を生成した場合、2つのセット間で 98%超の重複(922 構造中 908 構造)が確認されました。Canonical tautomer では 92% の重複率(922 構造中 844 構造)が得られた一方、Normal Canonical 形式では、この値は 78%(922 構造中 718 構造)でした。
| 一致した互変異性体の数 | 一致した互変異性体の割合 | |
| Generic tautomers | 908/922 | 98% |
| Canonical tautomers | 844/922 | 92% |
| Normal canonical tautomers | 718/922 |
78% |

図: generic tautomers が一致する例および一致しない例を示したもの。
generic tautomer の集合における非常に高い一致率は、検索結果の観点から見て最も重要な点です。これらの結果は、Chemaxon の JChem 2nd Gen 検索エンジンにおいて generic tautomer 検索を適用した場合、クエリやターゲット構造として用いられる互変異性体の形式に依存することなく、適切なヒットを高い信頼性で取得できることを示しています。
技術詳細:
- JChem 25.1.3 を基盤とした Knime JChem Extensions バージョン 4.7.0.v250104。
- Calculator cxcalc 25.1.3。
参考文献: