低分子の物性を予測するためのローカルモデルとグローバルモデル

2023.05.23

Design Hub

Calculator Plugins

最も成功するためには、どのようなタイプのモデルを構築すべきか

明白な答えは、前向きに予測できるすべてのモデルです。また、特性が改善された新規化合物の設計を容易にするために、モデルが解釈可能であれば、非常に価値があります。

もう一つの重要なパラメータは、適用領域の大きさです。ドメインが大きいと、入力化合物が非常に多様であっても、モデルによって認識され、正しく予測されるため、より有望な化学空間に外挿することができます。

薬学者や計算化学者は、どのようなタイプのモデルを構築すれば最も成功するのか、どのように判断するのでしょうか？

通常、適用範囲と予測力の間にはバランスがあります。より広範な範囲（グローバルモデル）では予測の正確性が低下する傾向があり、より局所的なモデルではより正確な予測が容易になります（図1）。

図3.ローカルモデルとグローバルモデルの構築と再学習、比較のシミュレーション。

初期データセット（2029件）から「ランダムテスト」セット（203件）を選択[1]
ステップ2では、スキャッフォールドクラスター（146ケース）を選択し、残りの化合物（1680ケース）を「グローバル」セットとして提供する。スキャフォールドセットとグローバルセット間の最大の谷本類似度は0.784
スキャフォールドセットはトレーニングセット（102ケース）に分割され、連続したステップで「アップデート」セットと「最終テスト」セット（各22ケース）に分割

図3. データ作成ワークフロー

Posted by Ákos Tarcsay, Chemaxon on 28 04 2023

関連ブログ