化学構造情報と物性値・アッセイデータ・スペクトルデータなどを紐づけたデータベースは多数存在しており、公的・私的な様々な目的で利用されています。特に製薬企業では保有する化合物データベースはR&Dの要であり、数百万もの化合物情報が情報資産として厳重に管理されています。最近ではAstraZenecaとBayerのパートナーシップの事例のように、オープンイノベーションの動きを受けて保有するデータを相互に参照可能とする動きがあるようですね。
本格的な化合物データベースを作ろうとした場合、データベース管理システム(DBMS)の専門知識と共に、構造正規化ルールやステレオ情報・塩・溶媒の取り扱いなど、化学ならではの条件を考慮する必要があります。実験を主に行う化学者にとっては大変な作業です。
この一見すると難しいトピックですが、ChemAxon社のJChem for Excelを使うと、身近なツールExcelを用いて簡単なデータテーブルを作成することができます。Excelシートとして作成した化合物データテーブルに対して構造検索も行うことができます。
今回の記事では、このExcelアドインツールについて紹介します。ChemAxonのYouTubeチャネルにはHow Toビデオのプレイリストも用意されているため、併せて見てみてください。
How to download JChem for Office add-in from the ChemAxon website & install it for Microsoft Office
ライセンスを取得後、JChem for Officeのページからインストーラーをダウンロードします。JChem for OfficeにはExcel以外のMicrosoft Officeツール用アドインが含まれていますので、Excelアドインのみ利用する場合はチェックを外してください。
最近の32bit版か64bit版のWindows OSにインストールされているMicrosoft Excelでは、おおよそ対応しています。
※本記事が執筆された現在における対応表です。
Office 365への対応状況は公式ページを参照してください。
インストールに成功すると、Excelに新たな「JChem」タブが現れます。このタブを開いたリボン上から、化学情報を扱うための様々な機能を利用できます。早速データをインポートしてみます。
化合物データベースを作るため、ChEMBL ActivityデータベースのSARS-CoV-2データソースから、高いpChEMBL Valueを示す250化合物のデータをダウンロードしました。sdf形式であればそのまま化合物情報を読み込めますが、ダウンロードした形式がcsv形式なため、一旦データテーブルとして読み込みました。構造情報はSMILESとして提供されています。
JChemに構造として認識させるため、SMILESの列を選択して「From SMILES」のボタンをクリックします。構造が認識され、セル内に表示されました。
化合物データベースとして必要な機能の一つに、構造式検索があげられます。JChem for Excelではその簡易的な機能として、構造を使って行をフィルターする機能が備わっています。
JChemタブから「Filter」をクリックすることにより、条件を指定する画面が現れます。
部分構造(Substructure)検索以外にも、完全一致などの検索条件を指定できます。とりあえずイメージの構造を描画し、部分構造検索を行いました。250の化合物の内、78件がヒットしました。
構造検索を行う上で構造類似度(Similarity)による検索は外せません。しかし、簡易機能であるJChem for ExcelではSimilarity Searchのオプションはありません。困ってしまいましたね。
ここで、JChem for Excelの機能としてある、化学計算用の関数について紹介します。ExcelではSUM関数やAVERAGE関数などをセルに入力して計算を行うことができますが、JChem for Excelアドインは同様な化学計算用の関数を提供しています。Calculator Pluginsと組み合わせて様々な計算を行うことができます。
この関数の中に、「Dissimilarity Score」を計算する関数があります。分子記述子を使ってタニモトやユークリッドDissimilarity Scoreを計算してくれます。構造の列の横にタニモト係数を求める列を作り、「1 - Dissimilarity Score(query,target)」の条件で値を求めました。後は列の類似度の値でソートすることにより、簡易的な構造類似度検索を行うことができます。
作成したExcelのテーブルは様々な化学フォーマットでエクスポートすることができます。
ChEMBL IDや活性値などの情報と共にエクスポートしたいので、SDF形式を選択し、構造情報を持つ列を指定してエクスポートします。250化合物の構造情報とその他のデータが共にファイル(69 MB)として出力されました。
JChem for Excel上の人気の高い機能として、Rグループで構造を分解して、構造活性相関を分析する機能があります。骨格の構造をクエリとして指定し、化合物情報を読み込ませると自動で構造分析してテーブル形式で出力してくれる便利機能です。
これまでに使用したChEMBLのデータをMCS分析しても良いのですが、重複構造の削除など処理が面倒ですので、JChem for Excelのダウンロードページにあるデモファイルにある構造情報を使います。JChemタブから「R-group Decomposition」をクリックし、共通の骨格とそれ以外をR1, R2, R3グループとしてクエリ構造を描画します。「Generate SAR table」のオプションを付け、比較する活性値を選択します。後は自動で解析してくれます。
R1とR2グループのSARテーブルが自動生成されました。後はExcelの機能である条件付き書式で色付けして、分析のため見やすくしました。
普段使い慣れているExcelにアドインとして導入できるJChem for Excelを利用することにより、化学情報の取り扱いがずいぶんと楽になります。簡易的な構造検索機能も備わっているため、簡単な化合物データベースを作ることができました。この他にも作成したテーブルの共有機能など、ChemAxonの様々な機能を利用できるとても便利なツールです。
一方で、本格的な化合物データベースを作成しようとすると、テーブルのリレーションを定義することができない点や、外部サービスとの連携が難しい点等の拡張性の問題が出てきます。また、構造検索のパフォーマンスについても、通常はインデックスの作成や、プロキシサーバーに検索履歴をキャッシュとして残して高速化を図りますが、Excel上では利用できません。JChem for Excelで扱える化合物数は数千が限度です。
次回は数百万以上の化合物数を扱うことができる本格的な化学データベースエンジンである、JChem Baseについて紹介します。
公式ユーザーガイド:
https://docs.chemaxon.com/display/docs/jchem-for-excel-user-s-guide.md