JChemエンジンは、化学構造の表現および検索を扱うためにケモインフォマティクス業界全体で広く使用されており、ELN(電子実験ノート)や化合物登録システムなどのエンドユーザーアプリケーションで利用されています。
これらの機能に関するさまざまな設定が多数存在しますが、そのすべての例を文書外で網羅的に示すのは現実的ではありません。
したがって、本資料では ChemaxonのCompound Registration(化合物登録)アプリケーション における設定および動作に焦点を当てます。
JChemエンジン上で動作する他のアプリケーションを使用している場合も多くの情報は当てはまりますが、必ずご自身で確認してください。
読者には、ChemaxonのCompound Registrationおよび拡張立体化学ラベル(enhanced stereochemistry labels) の目的と使い方についての基本的な理解が推奨されます。
重要な点として、Compound Registrationのデフォルト設定は「絶対立体化学を仮定(Assume Absolute Stereochemistry)」であることに注意してください。
これは、旧V2000形式の「Chiral」フラグが不要であり、V3000形式の表現では「Abs」ラベルが自動的に仮定されることを意味します。
記載されている多くの機能は、特定のユーザー権限に関連しています。特定のオプション/設定/ビューが見つからない場合、最初にアプリケーション管理者に連絡し、権限不足が原因であるかを確認することをお勧めします。
以下に示す化合物とそれらの登録時の挙動は、基本機能の良い例となります。
同一の親IDに登録される化合物は、絶対値フラグが付与された化合物と、追加フラグのないウェッジ結合化合物のみである。
フラットボンド
多くのユーザーは、なぜ平面結合(flat bond)が OR 結合や AND 結合のくさび結合(wedge bond)とは別に登録されるのかについて、最初に疑問を持ちます。
立体中心上の平面結合は、さまざまな目的で使用されますが、最も一般的なのはラセミ混合物(racemic mixture)、または未知もしくは未指定の立体化学を表す場合です。
Compound Registration では、この点について特定の立場を仮定しない「最も安全なアプローチ」を取ることを目指しています。
これは、利用組織の歴史的な仕様に大きく依存するためです。
そのため、立体中心に平面結合を含む構造と、くさび状の AND ラベルを持つ構造を別々に登録するように制約を設けています。
もし拡張立体化学ラベル(enhanced stereochemistry labels)の採用を推奨する場合は、
-
平面結合は「未知または未指定の立体中心」を示すためだけに使用し、
-
AND ラベルは「両方の立体配置が存在することがわかっている」ことを示すために使用することをお勧めします。
平面結合や AND ラベルの使用を避けたい場合は、統合された標準化機能または構造修正(structure fixing)アクションを利用し、登録時に望ましくない特徴を自動的に検出・修正することが推奨されます。
一方、OR ラベルは「単一の立体配置が存在するが、どちらであるかはまだ不明である」ことを意味します。
したがって、これは「未知」「未指定」「ラセミ混合物」といった平面結合の一般的な使用目的とは一致せず、登録時にこれらの構造を一致させるのは不適切です。
また、Advanced Registration(高度登録)モードでは、手動の Structure Fixer(構造修正ツール)を使用して、特定の異性体が主要な形態であることを示すことができます。
この点については、Advanced Registration に関するセクションで詳しく説明されています。
さらに、構造を「単一化合物(Single Structure)」としてではなく、混合物(Mixture)または製剤(Formulation)として登録することも可能です。
構造は単一構造ではなく、混合物または製剤(Mixtures or Formulations)として登録することもできます。
製剤(Formulation)は、特定の量比で複数の物質が一緒に存在する場合に使用できます。
ただし、その比率を化学者が管理できる場合に限って使用すべきです。
一方、混合物(Mixture)は、組成が可変な異なる構造が共存する場合を表すために使用できます。
これは例えば、化学者が反応結果を厳密に制御できない合成プロセスの生成物などが該当します。
これらの特別な登録タイプ(Formulation や Mixture)は、拡張構造表現機能を用いた単一構造での表現が不可能な場合の最終手段としてのみ使用すべきです。
OR構造ウェッジタイプ
1つまたは複数の OR ラベルを使用して化合物を描く際、ユーザーからよく「実線のくさび結合(solid wedge bond)」と「破線のくさび結合(dashed wedge bond)」のどちらを使うべきかという質問が寄せられます。
もし立体中心(stereogenic center)が1つしか存在しない場合、くさび結合を使った構造と破線結合を使った構造は、どちらも同じ可能な立体構造を表しています。
Compound Registration では、OR ラベルと組み合わせて使用する場合、実線のくさび結合と破線のくさび結合の間に区別はありません。
したがって、どちらの形式を使用するかはユーザー自身の判断に委ねられます。
ただし注意点として、複数の OR ラベルを含む構造では、使用されるくさび結合の種類が重要になる場合があります。
この点については、以下で説明します。
OR構造の重複登録
多くの人が、「なぜ OR 構造の複製が異なる親化合物番号(Parent Compound Number)で登録されるのか」と質問します。
OR 構造の複製は同じ化学空間を表しているのだから、同じ親化合物に割り当ててもよいのではないか、という疑問です。
しかし、OR ラベルは不確定性の度合いを示すものであり、その立体中心の立体化学的配置が完全には特定できないことを意味します。
したがって、将来的な研究や解析によって、より詳細な構造決定が行われ、立体化学的に異なる構造であることが判明する可能性を考慮する必要があります。
もし同じ化合物 ID が、後に異なる構造であることが分かった二つの化合物に使われていた場合、多くの組織にとってこれは大きな問題となります。
逆に、後になって同一化合物であることが判明した場合に複数の ID が存在していることは、比較的問題が少なく、これらはエイリアス ID(Alias ID)として扱うことが可能です。
一部の組織では、OR ラベルを持つ化合物を常に同じ親化合物(Parent Compound)として登録することを強く希望する場合があります。
もしあなたの組織でも同様の方針を取る場合は、この動作を変更するための設定が用意されています。
管理者インターフェースで
「Chemistry >> General(化学 >> 一般設定)」に進み、「Allow isomer identifier generation(異性体識別子の生成を許可)」を OFF に設定してください。
ただし、この設定を有効にすると、すべての OR 化合物に対して同じ挙動が適用されることに注意が必要です。
後のセクションで説明するように、OR 化合物をより選択的に照合するための別のアプリケーション機能も存在します。
複数の OR ラベル
一部の構造では、複数の OR ラベルを含む場合があります。
このような場合、OR の後に付く番号に注意することが重要です。
以前説明した「拡張立体化学ラベル(enhanced stereochemistry labels)」の基本を思い出してください。
-
異なる OR 番号(例:OR1 と OR2、または OR4 と OR7)は、それぞれの立体中心が互いに独立していることを意味します。
-
一方、同じ OR 番号(例:OR1 と OR1、または OR3 と OR3)は、両方の立体中心が連動して変化することを意味します。
このため、見た目がほぼ同一に描かれている2つの構造でも、実際には異なる化学空間を表していることになります。
デフォルト設定(「Allow isomer identifier generation(異性体識別子の生成を許可)」が ON の状態)では、いずれにしてもそれぞれの構造が別の親化合物(Parent)として登録されるため、結果として違いは生じません。
しかし、前の段落で説明したようにこの設定を OFF にしている場合でも、構造が異なる化学空間を表していることから、やはり別々の親識別子(Parent Identifier)として登録されることになります。
マッチング時の構造標準化
これから、登録しようとしている化合物を既存の化合物と照合するいくつかの方法について説明します。重要な点として、もし一致が見つかった場合は「新しいロット(Lot)」のみが作成されます。既存の構造と新しく登録しようとしている構造の間に違いがある場合、Compound Registration はすでに保存されている構造を登録・表示します。
ただし、元々描かれた構造は化合物の履歴で確認することができます。
また、候補リストの中からいずれかのエントリを選んで登録した場合でも、元の構造は保持されます。
異性体番号(Isomer Number)と Chemically Significant Text
ORラベル付き化合物を強制的にマッチングさせる方法はいくつかあります。主な方法としては、化合物に付与されたISOMERラベルの照合、化学的に意味のあるテキストフィールド(CST: Chemically Significant Text)の追加と照合、または単一構造登録時の「高度登録モード(Advanced Registration Mode)」の利用などがあります。
以前の分析で、Compound Registration は OR ラベルを持つ化合物を個別の親化合物(Parent Compound)として保存する挙動を示すことを確認しました。見た目が同一であっても、システムは区別を明確にするため、異なる化合物に ISOMER ラベルを付与します。(ISOMER ラベルは付随データ S-group として保存されます。ISOMER 情報の削除については「Structure Revisions(構造リビジョン)」の項を参照してください。)
同様の操作は、個別登録や一括アップロードの際にフィールドマッピングを用いて、「化学的に意味のあるテキスト(CST)」フィールドを使うことで手動でも実施できます。
これらのフィールドは、登録時に化合物の化学構造とともにマッチング処理の対象となります。
CST は ISOMER 番号付けよりも汎用的な機能とみなされており、さまざまな用途に利用できます。例えば、化学構造が同一でも、出所(社内合成品、外部購入品、高スループット合成品など)によって区別したい場合に使用できます。
また、CST を利用することで、OR フラグ付き化合物を同一の PCN(Parent Compound Number)の下に登録することも可能です。この場合、ユーザーは CST に「Primary Isomer(主要異性体)」などの識別名を設定し、以降の登録でも同じ CST を使用する必要があります。
Advanced Registration Mode
単一構造登録を行う際には、「高度モード(Advanced Mode)」を有効にすることができ、これにより追加機能が利用可能になります。このモードでは、今回のトピックに関連する2つの重要な機能が有効になります。
1つ目は「ステレオアナライザー(Stereo Analyzer)」です。これは、Compound Registration が構造中の立体化学をどのように解釈したかを確認できる機能です。
ここでは、「未解決の未知立体中心(Resolved Unknown)」や「未解決だが相対関係が既知の立体中心(Resolved Unknown, known relative)」の数(同じ番号付きの OR フラグ)などが示されます。
この機能は、強化された立体化学ラベルの使用を始めたばかりのユーザーが、正しく情報を指定できているか確認する際に有用です。
2つ目の重要な機能は、「候補マッチポップアップ(Suggested Matches Popup)」です。化合物を登録すると、類似する化合物が表示され、ユーザーは自分の構造を新しい親化合物(Parent Compound)として登録するか、既存化合物の新しいロットとして登録するかを選択できます。
さらに便利な機能として「Major 構造フィクサー(Major Structure Fixer)」があります。これを使用すると、その構造が「主要立体異性体(Major Stereoisomer)」であることを示すデータが構造に付加されます。
正確な比率の指定は必須ではありませんが、必要に応じてその情報を編集して反映させることも可能です。
異なる範囲や主要エナンチオマー(Major Enantiomer)を指定した構造は、それぞれ別のツリー(登録階層)に登録され、異なる化合物IDが生成されます。
通常、ORラベル付きの化合物はそれぞれを個別の親化合物として登録しますが、場合によっては同一の親化合物の下に複数のロットとしてまとめたいこともあります。
このような場合、最も推奨される方法は CST(Chemically Significant Text)フィールド を利用することです。CSTを使えば、同一の親化合物番号(PCN)の下で異なるORラベル化合物を区別して管理できます。
もしCSTの使用が適さない場合は、前述の 高度登録モード(Advanced Registration Mode) を代替手段として利用することが可能です。
ただし、この方法には注意点があり、該当する化合物を一つずつ手動で登録しなければならない点に留意する必要があります。
No Structure
Compound Registration では、構造情報を持たない化合物を登録することも可能です。
これは「立体中心の確定ができない」という概念の自然な拡張であり、構造の一部または大部分について確実な情報がない場合にも対応できるようになっています。
この機能を利用するには、管理画面で設定を変更する必要があります。
「Administration >> Chemical Structures >> Structure Types」に進み、「No Structure」の項目を 「ON」 に設定してください。
「No Structure」として登録された化合物は、構造情報が存在しないため、それぞれが固有の親化合物番号(Parent Compound Number) の下に保存されます。
これは、複数の構造未確定化合物が存在しても、それらが共通の構造的特徴を持つとは限らないためです。
ただし、OR構造の場合と同様に、この制限を回避することも可能です。
化学的に意味のあるテキスト(CST)を追加したり、一括アップロード時に親化合物番号をマッピング**することで、「No Structure」化合物を新しい親としてではなく、既存化合物のロットとして登録することができます。
構造の変更
登録済み構造の編集方法について説明します。
構造を編集するには、Compound Registration の構造ツリー画面で対象の化合物を開き、「Edit」を選択して構造を修正し、「Save」で保存します。
ここで重要なのは、「ツリーのどの階層(Parent・Version・Lot)」で編集を行うかを正しく判断することです。
Parent(親化合物)を変更する場合
既存の親に一致するものがない場合、変更内容はツリー内のすべての Version と Lot に反映されます。これらのIDは保持されますが、Parent レベルの変更は、Version に含まれる追加情報(例:塩情報など)の整合性に影響する可能性があるため注意が必要です。
Lot(ロット)を変更する場合
変更後に別ツリーと一致するようになった場合、そのLotは再登録されます。既存の親化合物に一致する場合はその新しいLotとして、そうでない場合は新しいParentの下に登録されます。この再登録によってLot IDも変更されます。
Version(バージョン)を変更する場合
Version の変更は、Parent と Lot の両方の性質を持ちます。変更内容はVersion配下のLotに伝播し、そのVersionとLotは新しいParentの下に移動します。
ただし、化合物そのものを変更せずに塩情報のみ変更する場合は、同じツリー内でIDを保持したまま更新されます。
変更履歴を確認したい場合は、「More actions >> View history」を選択すると、構造変更やID変更の履歴を確認できます。
誤って割り当てられたLotを別のParentに再割り当てする場合
Advanced Registration Modeで手動でParentを割り当てた際などに、Lotが誤ったParentに登録されることがあります。
その場合は、該当Lotの画面で「More Actions >> Move this Lot」を選択し、別のVersion(つまり別のParent)に移動させます。
この操作の履歴も前述の「View history」から確認可能です。
多数のLotをまとめて移動したい場合は、「Bulk move lots」機能を使用します。ただし、Bulk moveは立体化学的に一致する単一構造間でのみ実行可能で、個別Lot移動は全構造で利用できます。
構造解析が進み、新しい情報を親化合物に反映したい場合
親化合物の更新もLotと同様に行えます。構造ツリーに移動して「Edit」を選択し、必要な変更を加えます。
Parentレベルで行った変更は、そのツリー内のすべてのVersionとLotに自動的に反映されます。
ORラベル化合物を基本的には別々の親として登録し、一部だけマッチングさせたい場合
この場合は2つの方法があります:
-
CST(Chemically Significant Text)を使用する方法
既存の親化合物にCST情報をあらかじめ設定しておき、同じCSTで登録することでマッチングを制御します。 -
高度登録モード(Advanced Registration Mode)を使用する方法
登録時に手動でマッチング先を選択します。
これらの方法については、それぞれ専用のセクションで詳しく説明されています。
ISOMER番号を削除してCSTに置き換える場合
ISOMER番号は構造フィールド内の「Attached Data(付随データ)」として保存されています。削除するには構造編集モードに入り、ISOMERラベルが付与されている原子を右クリックし、「Attached Data」→「すべてのデータをクリア」を選択します。
編集時には必ず「ツリーのどの階層を編集しているか」を確認してください。
その後、通常の手順でCST値を追加できます。