低分子の物性を予測するためのローカルモデルとグローバルモデル

2023.05.23

Design Hub

Calculator Plugins

最も成功するためには、どのようなタイプのモデルを構築すべきか

明白な答えは、前向きに予測できるすべてのモデルです。また、特性が改善された新規化合物の設計を容易にするために、モデルが解釈可能であれば、非常に価値があります。

もう一つの重要なパラメータは、適用領域の大きさです。ドメインが大きいと、入力化合物が非常に多様であっても、モデルによって認識され、正しく予測されるため、より有望な化学空間に外挿することができます。

薬学者や計算化学者は、どのようなタイプのモデルを構築すれば最も成功するのか、どのように判断するのでしょうか?

 

ローカルモデルとグローバルモデルの選択

通常、適用範囲と予測力の間にはバランスがあります。より広範な範囲(グローバルモデル)では予測の正確性が低下する傾向があり、より局所的なモデルではより正確な予測が容易になります(図1)。

 

図1:グローバルモデルとローカルモデルの適用領域の大きさは相対的なものであり、使用するトレーニングセットに依存します。重要なのは、ドメインの広さではなく、そのモデルが対象となる分子に対して有効かどうかです。

 

予測モデル作成のためのワークフローと、新しいデータを継続的に追加することの利点

医薬品化学者のためのモデル公開

 

図2. 統合の概要。検証された生産グレードの予測は、Design HUBプラグインとして利用でき、最も実行可能なアイデア分子や新規デザインの選択を促進します(図2.)。

 

 

限られたデータセットでトレーニングされたローカルモデルは、より多くのデータポイントで構築されたグローバルモデルよりも、類似したものに対して高い精度を提供し、利益を得ることができます。Design HUBの新しいトレーナーツールをお試しください。

Design HUBの詳細

ローカルモデルとグローバルモデルの比較

図3.ローカルモデルとグローバルモデルの構築と再学習、比較のシミュレーション。

  • 初期データセット(2029件)から「ランダムテスト」セット(203件)を選択[1]
  • ステップ2では、スキャッフォールドクラスター(146ケース)を選択し、残りの化合物(1680ケース)を「グローバル」セットとして提供する。スキャフォールドセットとグローバルセット間の最大の谷本類似度は0.784
  • スキャフォールドセットはトレーニングセット(102ケース)に分割され、連続したステップで「アップデート」セットと「最終テスト」セット(各22ケース)に分割
    図3. データ作成ワークフロー

 

観察結果

  • ランダムフォレストの2値分類モデルは、各セットで選択された19個の記述子を用いて構築
  • ランダムに選択された外部テストセット(図4)では,グローバルモデルの方がローカルモデルよりも優れた性能を示した
  • ローカルモデルは16倍少ないデータでトレーニングされているが、スキャッフォールドセットの類似品ではグローバルモデルよりも優れていた(図5)
  • スキャッフォールドの類似物を追加して両モデルを再トレーニングすると、スキャッフォールドの派生物の第2テストセットでのパフォーマンスが向上します(図6.)

 

図4. 外部データに対するローカルモデルとグローバルモデルの性能

 

 

図5.スキャッフォールドとなる類似体についてテストした性能

 

 

図6. 足場アナログの第2ラウンドでテストされた再トレーニングされたモデルの性能

 

Posted by Ákos Tarcsay, Chemaxon on 28 04 2023

 

 

関連ブログ

RELATION BLOG

 

 

 

 

 

お問合せフォーム以外にも、電話やE-mailでのお問い合わせも受け付けています

03-6256-0331

(平日 9:00 ~ 17:00)

info@patcore.com