既知有機化合物の数が1880 年から1960 年にかけて約12,000 化合物から100 万化合物に急増したように、有機化学は20 世紀に急速に発展しました。今日では、ハイスループットスクリーニングやコンビナトリアルケミストリーなどの新たな手法を用いた大規模化合物ライブラリーに対する探索が行われています。また、計算機上で標的構造を特定するために仮想化合物ライブラリーの重要性も増しており、ケミカルスペースは拡大し続けています。
ケミカルスペース1
大量の化学データを扱うための手法も同時に進化しており、化学構造検索エンジンとしてChemAxon社のJChemなどのテクノロジーが発展しました。JChemでは化合物データベースから目的の分子構造を探し出すために、様々な構造検索のオプションが用意されています2。化学者は完全一致検索、部分構造検索を良く使うと思いますが、反応式検索などのその他の種類の検索方法や、ステレオ・同位体原子の検索オプションなどがあります。問い合せされることもありますので、情報をまとめてみました。
構造検索では、検索条件として指定した構造を用いてデータセットを検索し、条件に合致した分子を見つけます。以下、検索条件として使用する構造を「クエリ」、検索対象となる分子を「ターゲット」、クエリ構造にマッチングしたターゲット分子を「ヒット」と定義します。
JChemでは各分子構造に対して以下の要素を比較し、構造検索を行います。
Graph topology
JChem では検索に「グラフマッチング」の手法を用いています。グラフ(Graphs)は、ノード(Node)とエッジ(Edge)から成り立っており、グラフとして表現された構造を比較する場合、お互いのグラフパターンが一致する必要があります。原子はノードに、ボンドはエッジに相当します。
Atom types
分子構造を比較する場合は、単純なグラフパターンの比較だけでは不十分で、原子とボンドの種類も考慮する必要があります。
Stereo configuration
グラフトポロジーと、対応する原子 / ボンドの種類が一致したとしても、さらに立体化学配置を考慮しなくてはなりません。キラル原子に結合しているリガンドの相対的な位置(R/S 異性体)、キラル原子上の立体ラベル、環または二重結合に結合する原子の相対的な位置(cis/trans またはE/Z 異性体) が考慮されます。
2つの分子構造を比較して条件に一致するか調べる方法(Atom-by-atom structure search)は確実ですが、計算コストがかかるためターゲットが増えるにつれて検索時間が指数関数的に増加します。高速な検索を実現するため、データベースを検索する際にはChemical Hashed フィンガープリントを用いた、クエリにマッチしない多くのターゲットをふるい落とすスクリーニングが行われます。この段階についての詳細やフィンガープリント作成の微調整の方法が知りたい場合は以下の資料が参考になります。
日本語では部分構造検索。
これはクエリ構造がターゲットの部分構造として含まれているかを判断します。一部の構造だけ描画してその構造を有する全ての分子をヒットさせる検索方法であり、化学者にはおなじみの検索方法だと思います。
標準設定ではクエリに特別な分子の特徴(価数の指定、Wedgeボンドによるステレオ中心の指定)が存在する場合、それらの特徴も有するターゲットのみが一致するとみなされます。逆に、クエリがそれらの特徴を持たない場合、その有無にかかわらずターゲットを一致させます。
以下に検索結果の具体例を図示しており、クエリーとターゲットの間にある矢印がヒットすることを示しています。
日本語では完全一致検索、または重複検索。
クエリと全ての構造式の特徴が完全に等しいターゲットがヒットします。余分なフラグメントや同位体も許容しません。JChem BaseではFull Structure Searchという、立体化学などの条件が緩い検索方法も存在しますが、新しい世代のJChem Engineでは廃止の方向(検索オプションの設定で対応)にあります。
スーパーストラクチャー検索は、部分構造検索と対照な関係にある検索方法です。クエリ構造がターゲット分子を含んでいるかを判断します。部分構造検索とはクエリとターゲットの関係が単純に逆になるため、構造上の特徴(価数・立体化学など)はターゲット上に規定されたものがクエリとの一致を判断する際に用いられます。
日本語ではフラグメント一致検索。
ターゲットが複数のフラグメントで構成される(塩・錯体・溶媒和物・混合物)場合、クエリがターゲットの1つのフラグメントに一致していればヒットします。部分構造検索と完全一致検索の間の厳密さで比較されるため、立体化学などの特徴は完全一致検索程厳密には評価されず、立体異性体などもヒットします。この検索タイプは、ターゲットのメイン構造に付属する塩や溶媒を無視して一致する化合物を検索する際によく使われます。
日本語では類似構造検索。
クエリ構造と似ているターゲット分子を探索するために使われる検索方法で、これまで紹介した検索方法とはその性質が異なります。創薬研究において、リードディスカバリーのための化合物ライブラリのスクリーニングや、リード化合物の最適化などの段階において類似構造検索が活躍します。一方で、構造類似度の評価方法は様々あるため、検索方法により結果は異なります。
JChemの標準設定では、構造を2進数に変換したChemical Hashed フィンガープリントをTanimotoメトリクスを用いて比較し、構造類似度を評価します。具体例に用いている1-chloroethanolをクエリとして同じ1-chloroethanolと1-chlorobutanolを評価すると、Dissimilarity Scoreはそれぞれ「0」(=一致)と「0.444」と評価されます。
JChemではその他にも様々な検索方法があります。それぞれ細かな検索の仕様がありますので、ChemAxon社Documentationサイトを参照するか、パトコアまでご相談ください。
構造式を使って検索する際に指定できる検索の種類についてまとめてみました。JChem Engine以外の、オープンソースの構造式検索エンジンでもおおよそ同様な検索タイプが用意されていると思います。JChem Engineは検索条件のカスタマイズが容易にできる点、Markush構造などの複雑な条件の構造検索を高速にハンドリングできる点に定評があります。多くの製薬企業様において基幹研究管理システムに導入されているChemAxon社のテクノロジーについて、ご理解いただけましたら幸いです。
最後に、Substructure, Duplicate, Full Fragment, Superstructure Searchについて模式図にまとめました。Similarity Searchは概念が少し異なりますので、別のトピックとしてご紹介いたします。
The next level in chemical space navigation: going far beyond enumerable compound libraries
T. Hoffmann, et.al, Drug Discov. Today, 24, 1148-1156, 2019↩
JChem Query Guide: https://docs.chemaxon.com/display/docs/query-guide.md↩