最も成功するためには、どのようなタイプのモデルを構築すべきか
明白な答えは、前向きに予測できるすべてのモデルです。また、特性が改善された新規化合物の設計を容易にするために、モデルが解釈可能であれば、非常に価値があります。
もう一つの重要なパラメータは、適用領域の大きさです。ドメインが大きいと、入力化合物が非常に多様であっても、モデルによって認識され、正しく予測されるため、より有望な化学空間に外挿することができます。
薬学者や計算化学者は、どのようなタイプのモデルを構築すれば最も成功するのか、どのように判断するのでしょうか?
ローカルモデルとグローバルモデルの選択
通常、適用範囲と予測力の間にはバランスがあります。より広範な範囲(グローバルモデル)では予測の正確性が低下する傾向があり、より局所的なモデルではより正確な予測が容易になります(図1)。
図1:グローバルモデルとローカルモデルの適用領域の大きさは相対的なものであり、使用するトレーニングセットに依存します。重要なのは、ドメインの広さではなく、そのモデルが対象となる分子に対して有効かどうかです。
予測モデル作成のためのワークフローと、新しいデータを継続的に追加することの利点
医薬品化学者のためのモデル公開
図2. 統合の概要。検証された生産グレードの予測は、Design HUBプラグインとして利用でき、最も実行可能なアイデア分子や新規デザインの選択を促進します(図2.)。
限られたデータセットでトレーニングされたローカルモデルは、より多くのデータポイントで構築されたグローバルモデルよりも、類似したものに対して高い精度を提供し、利益を得ることができます。Design HUBの新しいトレーナーツールをお試しください。
➡Design HUBの詳細
ローカルモデルとグローバルモデルの比較
図3.ローカルモデルとグローバルモデルの構築と再学習、比較のシミュレーション。
- 初期データセット(2029件)から「ランダムテスト」セット(203件)を選択[1]
- ステップ2では、スキャッフォールドクラスター(146ケース)を選択し、残りの化合物(1680ケース)を「グローバル」セットとして提供する。スキャフォールドセットとグローバルセット間の最大の谷本類似度は0.784
- スキャフォールドセットはトレーニングセット(102ケース)に分割され、連続したステップで「アップデート」セットと「最終テスト」セット(各22ケース)に分割
図3. データ作成ワークフロー
観察結果
- ランダムフォレストの2値分類モデルは、各セットで選択された19個の記述子を用いて構築
- ランダムに選択された外部テストセット(図4)では,グローバルモデルの方がローカルモデルよりも優れた性能を示した
- ローカルモデルは16倍少ないデータでトレーニングされているが、スキャッフォールドセットの類似品ではグローバルモデルよりも優れていた(図5)
- スキャッフォールドの類似物を追加して両モデルを再トレーニングすると、スキャッフォールドの派生物の第2テストセットでのパフォーマンスが向上します(図6.)
図4. 外部データに対するローカルモデルとグローバルモデルの性能
図5.スキャッフォールドとなる類似体についてテストした性能
図6. 足場アナログの第2ラウンドでテストされた再トレーニングされたモデルの性能
Posted by Ákos Tarcsay, Chemaxon on 28 04 2023