【PAT】信頼のおける「高類似化合物」検出アルゴリズムの実装における挑戦サムネイル画像

信頼のおける「高類似化合物」検出アルゴリズムの実装における挑戦

Ákos Papp

Ákos Papp

規制対象化合物に対して「かなり類似した(substantially similar)」分子を見つける課題は(米国のFederal Analogue Act(連邦アナログ法)に記載されているように)非常に複雑です。したがって、高い類似性をもつ分子構造ペアを効率よく識別できるシステムを設計する際に検討すべき妥当な戦略を評価することが重要です。
どの方法論や計算ツールがこのタスクに最も適しているのでしょうか。実環境で速度と精度を両立させるには、これらのシステムをどのように最適化すべきでしょうか。
化学的類似性の概念はケモインフォマティクスの鍵概念ですが、その本質は主観的であり、定量化が難しいままとなっています。いかなる分子類似性解析においても、次の二つの基本要素が必要となります。

  1. 類似性に関係する特徴を捉える分子表現
  2. 選択した表現を定量比較するための類似度関数(しばしば「類似度係数」と呼ばれる)

加えて、分子表現内の個々の特徴に異なる重みやスケールを与える重み付けスキームを組み込むことで、類似性計算に特化させることもできます。
類似性指標としては、最も一般的に好まれるTanimoto(Jaccard)係数(Tc)の利用が適切ですが、この係数には、より小さな化合物を選択するという固有の偏りがあります。
計算手段としては、分子構造や性質をフィンガープリントで表すのが最も一般的です。単一の化学フィンガープリントだけでは化合物の重要な構造や特性をすべて捉えることはできません。
したがって、適切な分子記述子を選ぶことの重要性が強調されます。各種フィンガープリントの有効性は、要件や背景データセットの性質に依存して変わります。

適切な分子記述子の選択

類似性計算における分子構造表現として、Extended Connectivity FingerPrint(ECFP)は多くのSARモデルで堅実な出発点であることが示されています。ECFPは環状(circular)フィンガープリントで、原子種、結合、結合性を考慮しつつ各原子の周辺化学環境を捉えます。 類似性指標としては、一般に最も用いられるTanimoto(Jaccard)係数(Tc)が適切ですが、前述のとおりこの係数には、より小さな化合物を選択するという固有の偏りがあります。

学習データセットの準備

フィンガープリントを生成する前に、初期フィルタリングを行う必要があります。すなわち、非常に大きな分子は除外します。これは、規制物質関連法が低分子医薬のみを対象としているためです。さらに、立体化学情報は除去します。というのも、Schedule II(b)に列挙された物質(モルヒネおよび関連化合物)を除き、他のすべての物質では立体異性体も規制対象とされるためです。

入力処理の一環として、規制対象分子と入力構造の双方を標準化します:

  • 塩を剥離し、主フラグメントを中性化する
  • 官能基を正規化する
  • 優勢な互変異性体を選択する

ECFPフィンガープリントの性能を最大限に引き出すには、ベクトル長と直径を最適化する必要があります。また、前述のとおりTanimoto係数は低分子にバイアスがあるため、低分子の類似度を補正する重み付け関数を適用するのが実用的です。

単一フィンガープリントでの結果

以上はECFP表現を適切に用いるための手順ですが、依然として単一のフィンガープリントに過ぎません。その有効性を確認するため、ChEMBL v34データベースで類似性計算を実施しました。その結果を解析したところ、対称な分子が一貫して高い類似度を示すという興味深いパターンが見つかりました。

1-3

フィンガープリント生成の逐次過程を詳細に調べると、この過大な類似値は、各原子の局所近傍および分子内の結合連結性を符号化した後に行う重複排除(deduplication)のステップに本質的に起因していることが分かりました。この欠陥は、ECFPのカウント版を適用することで緩和できます。ビットベクトルが分子内の特徴の有無だけを追跡するのに対し、カウントベクトルは各特徴が何回出現するかを追跡するため、より精妙で正確な表現が得られます。
この時点で、分子構造を包括的に表現できたように思えます。しかし、本当にこれで二つの分子が類似かどうかを判断するのに十分でしょうか。
以下に示す変化を検討すると、何か重要な要素が取りこぼされているという印象を受けます。

2-3

ごく小さな構造変化でも、機能的属性に大きく影響しうるのは明らかです。この問題に対処するには、分子内の官能基どうしの類似性を考慮できる追加の分子記述子を用いるべきです。

分子記述子の拡張

Compliance Checkerでは、高類似分子の検出に、この目的のためラグメントベースのファーマコフォア・フィンガープリントを適用しています。 ファーマコフォア・フィンガープリントは、厳密な構造同一性ではなく機能的類似性に焦点を、当て、水素結合供与体/受容体、芳香環、疎水領域などの主要官能基を同定します。
ChEMBLデータセットのヒット解析に基づき、官能基定義を最適化しました。
これにより、三つのフィンガープリント表現(ECFPビット/カウント、ファーマコフォアなど)がコンセンサスモデルを構成し、米国およびカナダで直接規制対象となっている物質に高類似な分子構造を信頼性高く識別できるようになりました。

最終バリデーション結果

本類似性検出アルゴリズムの信頼性を測るため、米国Controlled Substances Act(規制物質法)Schedule 1に掲載された化合物に対して高類似と判定された200個の分子ペアをランダムに選びました。
さらに多様性解析に基づき、このセットの3分の1は少数の骨格を過度に代表していたため除外し、本手法で非類似と判定された構造のランダム集合で置き換えました。その結果、最終的な分子ペア集合は、高類似134ペア、非類似66ペアとなりました。
これら200組の分子ペアを6人のメディシナルケミストに提示し、次の問いに対する判断を求めました:
「“substantially similar”という用語に照らして、一方が規制物質に掲載されていると分かっている状況で、もう一方(入力構造)も規制対象とみなすべきか?」

3-3

Compliance Checkerの判定と6人のメディシナルケミストの判定の相関

本稿で示したアプローチ――複数フィンガープリントとヒューリスティックな重み付け関数の組み合わせは、化合物コンプライアンスにおける「substantially similar」探索に特化しており、偽陽性の発生率を大幅に低減します。
これにより、ある物質がアナログとして専門家見解を要するかどうかの判断に向けて、個別評価に時間を費やす必要性を最小化できます。

バナー

今後の開発計画

本手法の改善・洗練に向け、現在二つの主要戦略を検討しています。
第一に、マルチ・フィンガープリント手法を用いた新たな一連の実験を行う計画です。
これに加えて、機械学習の適用と統合にも取り組み、コンセンサス類似モデルを構築します。これは、フィンガープリント法の解釈容易性と蓄積された実績を生かしつつ、機械学習の適応性と予測力を活用するものです。

Ákos Papp
執筆者:Ákos Papp
シニア プロダクトマネージャー アーコシュ・パップは化学工学を専攻し、ブダペスト工科大学の化学工学科を卒業した化学エンジニアです。 彼のキャリアを通じて、一貫してケモインフォマティクスの分野に携わり、ソフトウェア開発の立場とユーザーの立場の両面から経験を積んできました。 2008年にChemAxonへ入社して以来、Marvin、化合物登録、バイオロジクス登録など複数のプロジェクトに関わり、現在はCompliance Checker、cHemTS、そしてJChem for Officeのプロダクトマネージャーを務めています。

一覧ページへ戻る

RELATED

関連記事はこちら

Contact

お問い合わせ

製薬・バイオテクノロジーのDXならパトコアにおまかせください