化合物データベースを作成する(Excel編)

2020.12.01

Calculator Plugins

JChem for Office

化学構造情報と物性値・アッセイデータ・スペクトルデータなどを紐づけたデータベースは多数存在しており、公的・私的な様々な目的で利用されています。特に製薬企業では保有する化合物データベースはR&Dの要であり、数百万もの化合物情報が情報資産として厳重に管理されています。最近ではAstraZenecaとBayerのパートナーシップの事例のように、オープンイノベーションの動きを受けて保有するデータを相互に参照可能とする動きがあるようですね。

本格的な化合物データベースを作ろうとした場合、データベース管理システム(DBMS)の専門知識と共に、構造正規化ルールやステレオ情報・塩・溶媒の取り扱いなど、化学ならではの条件を考慮する必要があります。実験を主に行う化学者にとっては大変な作業です。

この一見すると難しいトピックですが、ChemAxon社のJChem for Excelを使うと、身近なツールExcelを用いて簡単なデータテーブルを作成することができます。Excelシートとして作成した化合物データテーブルに対して構造検索も行うことができます。

今回の記事では、このExcelアドインツールについて紹介します。ChemAxonのYouTubeチャネルにはHow Toビデオのプレイリストも用意されているため、併せて見てみてください。

 

 


How to download JChem for Office add-in from the ChemAxon website & install it for Microsoft Office


JChem for Excel

ライセンスを取得後、JChem for Officeのページからインストーラーをダウンロードします。JChem for OfficeにはExcel以外のMicrosoft Officeツール用アドインが含まれていますので、Excelアドインのみ利用する場合はチェックを外してください。

 

f:id:patcore:20201201153043p:plain

 

最近の32bit版か64bit版のWindows OSにインストールされているMicrosoft Excelでは、おおよそ対応しています。

 

f:id:patcore:20201201153019p:plain

 

※本記事が執筆された現在における対応表です。
 Office 365への対応状況は公式ページを参照してください。

 

sdfファイルからデータをインポートする

インストールに成功すると、Excelに新たな「JChem」タブが現れます。このタブを開いたリボン上から、化学情報を扱うための様々な機能を利用できます。早速データをインポートしてみます。

 

f:id:patcore:20201201155440p:plain

 

化合物データベースを作るため、ChEMBL ActivityデータベースのSARS-CoV-2データソースから、高いpChEMBL Valueを示す250化合物のデータをダウンロードしました。sdf形式であればそのまま化合物情報を読み込めますが、ダウンロードした形式がcsv形式なため、一旦データテーブルとして読み込みました。構造情報はSMILESとして提供されています。

 

f:id:patcore:20201201153008p:plain

 

JChemに構造として認識させるため、SMILESの列を選択して「From SMILES」のボタンをクリックします。構造が認識され、セル内に表示されました。

 

f:id:patcore:20201201153013p:plain:w600

 

構造を使ってフィルター(部分構造検索)する

化合物データベースとして必要な機能の一つに、構造式検索があげられます。JChem for Excelではその簡易的な機能として、構造を使って行をフィルターする機能が備わっています。

JChemタブから「Filter」をクリックすることにより、条件を指定する画面が現れます。

 

f:id:patcore:20201201153029p:plain:w500

 

部分構造(Substructure)検索以外にも、完全一致などの検索条件を指定できます。とりあえずイメージの構造を描画し、部分構造検索を行いました。250の化合物の内、78件がヒットしました。

 

f:id:patcore:20201201153033p:plain:w600

 

Excel関数として構造類似度を計算する

構造検索を行う上で構造類似度(Similarity)による検索は外せません。しかし、簡易機能であるJChem for ExcelではSimilarity Searchのオプションはありません。困ってしまいましたね。

ここで、JChem for Excelの機能としてある、化学計算用の関数について紹介します。ExcelではSUM関数やAVERAGE関数などをセルに入力して計算を行うことができますが、JChem for Excelアドインは同様な化学計算用の関数を提供しています。Calculator Pluginsと組み合わせて様々な計算を行うことができます。

 

f:id:patcore:20201201153047p:plain

 

この関数の中に、「Dissimilarity Score」を計算する関数があります。分子記述子を使ってタニモトやユークリッドDissimilarity Scoreを計算してくれます。構造の列の横にタニモト係数を求める列を作り、「1 - Dissimilarity Score(query,target)」の条件で値を求めました。後は列の類似度の値でソートすることにより、簡易的な構造類似度検索を行うことができます。

 

f:id:patcore:20201201153107p:plain:w600

 

テーブルデータをエクスポートする

作成したExcelのテーブルは様々な化学フォーマットでエクスポートすることができます。

ChEMBL IDや活性値などの情報と共にエクスポートしたいので、SDF形式を選択し、構造情報を持つ列を指定してエクスポートします。250化合物の構造情報とその他のデータが共にファイル(69 MB)として出力されました。

 

f:id:patcore:20201201153023p:plain

 

SAR(構造活性相関)テーブルを作る

JChem for Excel上の人気の高い機能として、Rグループで構造を分解して、構造活性相関を分析する機能があります。骨格の構造をクエリとして指定し、化合物情報を読み込ませると自動で構造分析してテーブル形式で出力してくれる便利機能です。

これまでに使用したChEMBLのデータをMCS分析しても良いのですが、重複構造の削除など処理が面倒ですので、JChem for Excelのダウンロードページにあるデモファイルにある構造情報を使います。JChemタブから「R-group Decomposition」をクリックし、共通の骨格とそれ以外をR1, R2, R3グループとしてクエリ構造を描画します。「Generate SAR table」のオプションを付け、比較する活性値を選択します。後は自動で解析してくれます。

 

f:id:patcore:20201201153101p:plain

 

R1とR2グループのSARテーブルが自動生成されました。後はExcelの機能である条件付き書式で色付けして、分析のため見やすくしました。

 

f:id:patcore:20201201153055p:plain

 

Beyond JChem for Excel

普段使い慣れているExcelにアドインとして導入できるJChem for Excelを利用することにより、化学情報の取り扱いがずいぶんと楽になります。簡易的な構造検索機能も備わっているため、簡単な化合物データベースを作ることができました。この他にも作成したテーブルの共有機能など、ChemAxonの様々な機能を利用できるとても便利なツールです。

一方で、本格的な化合物データベースを作成しようとすると、テーブルのリレーションを定義することができない点や、外部サービスとの連携が難しい点等の拡張性の問題が出てきます。また、構造検索のパフォーマンスについても、通常はインデックスの作成や、プロキシサーバーに検索履歴をキャッシュとして残して高速化を図りますが、Excel上では利用できません。JChem for Excelで扱える化合物数は数千が限度です。

次回は数百万以上の化合物数を扱うことができる本格的な化学データベースエンジンである、JChem Baseについて紹介します。

 


公式ユーザーガイド:

https://docs.chemaxon.com/display/docs/jchem-for-excel-user-s-guide.md

 

 

 

 

関連ブログ

RELATION BLOG

 

 

 

 

 

お問合せフォーム以外にも、電話やE-mailでのお問い合わせも受け付けています

03-6256-0331

(平日 9:00 ~ 17:00)

info@patcore.com