-
2024.10.08
Design Hubに化合物ライブラリ生成機能が統合
Design Hubに化合物ライブラリ生成機能が追加され、反応ベースの列挙が可能に。創薬ワークフローがさらに強化されました。
-
2024.07.26
Marvin Sketchダウンロード方法
今回は、ChemaxonのMarvin Sketchのダウンロード方法について、解説します。 この記事をきっかけに、これからMarvin Sketchをご利用いただくお客様のお手伝いができればいいなと思います。
-
2023.11.02
DMTAリード最適化: 科学とプロジェクト管理の統合
DMTAリード最適化についての重要性と成功要因について解説します。科学とプロジェクト管理の統合がプロジェクトの成功率を高め、コスト削減と時間効率の向上を実現します。Chemaxonの専門知識を活用し、化合物のデザインと最適化を行いましょう。
低分子の物性を予測するためのローカルモデルとグローバルモデル
2023.05.23
Design Hub
Calculator Plugins
最も成功するためには、どのようなタイプのモデルを構築すべきか
明白な答えは、前向きに予測できるすべてのモデルです。また、特性が改善された新規化合物の設計を容易にするために、モデルが解釈可能であれば、非常に価値があります。
もう一つの重要なパラメータは、適用領域の大きさです。ドメインが大きいと、入力化合物が非常に多様であっても、モデルによって認識され、正しく予測されるため、より有望な化学空間に外挿することができます。
薬学者や計算化学者は、どのようなタイプのモデルを構築すれば最も成功するのか、どのように判断するのでしょうか?
ローカルモデルとグローバルモデルの選択
通常、適用範囲と予測力の間にはバランスがあります。より広範な範囲(グローバルモデル)では予測の正確性が低下する傾向があり、より局所的なモデルではより正確な予測が容易になります(図1)。
予測モデル作成のためのワークフローと、新しいデータを継続的に追加することの利点
医薬品化学者のためのモデル公開
限られたデータセットでトレーニングされたローカルモデルは、より多くのデータポイントで構築されたグローバルモデルよりも、類似したものに対して高い精度を提供し、利益を得ることができます。Design HUBの新しいトレーナーツールをお試しください。
ローカルモデルとグローバルモデルの比較
図3.ローカルモデルとグローバルモデルの構築と再学習、比較のシミュレーション。
- 初期データセット(2029件)から「ランダムテスト」セット(203件)を選択[1]
- ステップ2では、スキャッフォールドクラスター(146ケース)を選択し、残りの化合物(1680ケース)を「グローバル」セットとして提供する。スキャフォールドセットとグローバルセット間の最大の谷本類似度は0.784
- スキャフォールドセットはトレーニングセット(102ケース)に分割され、連続したステップで「アップデート」セットと「最終テスト」セット(各22ケース)に分割
観察結果
- ランダムフォレストの2値分類モデルは、各セットで選択された19個の記述子を用いて構築
- ランダムに選択された外部テストセット(図4)では,グローバルモデルの方がローカルモデルよりも優れた性能を示した
- ローカルモデルは16倍少ないデータでトレーニングされているが、スキャッフォールドセットの類似品ではグローバルモデルよりも優れていた(図5)
- スキャッフォールドの類似物を追加して両モデルを再トレーニングすると、スキャッフォールドの派生物の第2テストセットでのパフォーマンスが向上します(図6.)
Posted by Ákos Tarcsay, Chemaxon on 28 04 2023
関連ブログ
RELATION BLOG