logP予測精度の限界に挑む。SAMPL 6ブラインドチャレンジの結果

作成者: Patcore｜Jun 14, 2021 7:00:00 AM

SAMPL (Statistical Assessment of the Modeling of Proteins and Ligands) チャレンジは、合理的な薬物設計のための生体分子および物理モデリングの精度を評価することを目的としています。

最近発表されたSAMPL 6の評価では、オクタノール-水分配係数（log P）の予測に焦点が当てられました。このブラインドチャレンジの11化合物に対して、17の研究グループから91の予測が提出され、量子力学（QM）、分子力学（MM）、知識ベース、経験的、混合的な手法が用いられました。

その中から精度の高い手法が特定され、10種類の手法でRMSEが0.5 log P単位以下に留まりました。最も精度の高かった5種類のアプローチにおける精度の順位は、MMベース、混合、QMベース、Empiricalであり、RMSE値はそれぞれ0.92±0.13、0.50±0.06、0.48±0.06、0.47±0.05でした。

　SAMPL 6の結果に触発されて、我々は最近、この比較的小さいが正確に測定されたデータセットを用いてChemAxonのlog P予測ツールの精度を確認しました。ChemAxon logP法は，Viswanadhanらが発表したatomic log P increments法に独自の大幅な拡張を加えて改良したものです。

　logP予測は、JChem Base Ver.19.2（SAMPL 6の提出期限よりかなり前の2019年1月23日にリリース）を用いて、Cxcalcコマンドラインツールで次のオプションを設定することにより行われました。: “cxcalc logp -m chemaxon logp_sampl6.sdf”

　結果は，ChemAxon社（CXN）からの期限切れ後の提出物をシミュレートして，オリジナルのスクリプトで分析しました．SAMPL 6チャレンジで評価されたすべての指標によると，ChemAxon社のlog Pは，0.31 RMSE（Fig 1.），0.23平均絶対誤差（MAE，Fig 2.），-0.02平均誤差（ME），0.82決定係数（R2，Fig 3.），0.95 Kendall tauとなり，最も高い精度を示しました。さらに、チャレンジ分子を用いたブートストラップ法で作成した95％信頼区間は合理的でした。

図1.メソッドタイプごとに色分けされたRMSE値。エラーバーは、チャレンジ分子のブートストラップによって得られた95％信頼区間を示しています。

図2.メソッドタイプごとに色分けされた平均絶対誤差。エラーバーは、チャレンジ分子のブートストラップによって得られた95％信頼区間を示しています。

図3.メソッドタイプごとに色分けされたR2値。エラーバーは、チャレンジ分子のブートストラップによって得られた95％信頼区間を示しています。

SAMPL 6データセットには，参照計算としてMOE，MoKa，BioByteの3つの商用ベンダーの計算値が含まれていました（表1. このブラインドチャレンジにおけるCXNの結果は，選択されたリファレンスを上回るものであった。CXNは低い平均誤差（-0.025）と高いR2 (0.825)を示し，予測値にバイアスやオフセットが含まれていないことを示しています。

表1. リファレンスの計算結果

ID name MAE RMSE ME R2 Kendall tau

CXN ChemAxon 0.232 0.314 -0.025 0.825 0.855 REF11 logP(o/w) (MOE) 0.388 0.543 0.190 0.587 0.673 REF13 SlogP (MOE) 0.473 0.552 -0.273 0.686 0.600 REF12 MoKa_logP 0.520 0.597 -0.082 0.665 0.550 REF10 h_logP (MOE) 0.507 0.605 -0.044 0.377 0.345 NULL0 mean clogP of FDA approved oral drugs (1998-2017) 0.660 0.789 0.422 0.000

REF09 clogP (Biobyte) 0.683 0.822 -0.257 0.463 0.477

個々の化合物の結果を詳しく分析したところ、絶対誤差が0.5を超えたのは、11例中1例（Fig 4-5.）のSM11のみでした。この分子は、経験的手法の平均誤差が最も大きいことが判明しました。元の出版物の図7. Bを参照ください。したがって、このモデリング手法の複雑なケースを代表しています。この例では、さらなる調査と最適化が必要です。

　要約すると、ChemAxon log Pの計算により、SAMPL6チャレンジのこれまでに見たことのない分子で高い精度の予測ができました。この発見は、本モデルが一般的な予測力を持っていることを示しており、創薬プロジェクト全体で新規分子または実験条件の最適化に貢献する示唆しています。

ChemAxon社が提供する豊富なオプションにより、分子のlog P精度を評価し、次世代の化合物を設計することができます：

インターラクティブユーザーインターフェースでの利用

Marvin Sketch ：デスクトップ構造式エディター
Design Hub：化合物デザインプラットフォーム
Play Ground：Webインターフェース
Chemicalize SaaS：SaaSサービス

Integrations

Chemicalize Pro API as a service
JChem: Microservices, Command Line Interface, Java API, .Net API and SQL cartridges
JChem for Office: MS Office add-on
Workflow tools (KNIME, Pipeline Pilot）

図4.観測値と予測値。

図5.分子あたりの絶対誤差。

※本稿はChemAxon公式ウェブサイトに掲載された下記の記事の日本語訳です。

Pushing the limit of logP prediction accuracy: ChemAxon’s results for the SAMPL 6 blind challenge

完全な記事を表示