化合物データベース移行のベストプラクティスサムネイル画像

化合物データベース移行のベストプラクティス

Chemaxon

Chemaxon

ステージ1:プロジェクト計画とデータ評価

はじめに ― なぜ化合物データベースを移行するのか?

化学研究開発(R&D)に携わる組織は、いつかは必ずデータを移行しなければならない時を迎えます。移行の必要性は、企業買収、テクノロジーの刷新、データベースアーキテクチャのアップグレード、あるいは複数の研究所やオフィスに分散したデータの集約など、さまざまな理由から生じます。化学データの移行が単なるコピー&ペースト作業ではないことは明白なはずですが、このプロセスはコスト・期間・スコープのいずれにおいても過小評価されがちです。プロジェクト計画の初期段階では見落とされる作業も多く、問題が実際に発生して初めて気づくということが少なくありません。

本ホワイトペーパーの目的は、ベストビジネスプラクティスをまとめたガイドを提供することです。具体的には、計画フェーズ(チームの編成、ビジネスルールの定義、データ評価)、データクリーニングとマージに関わるデータキュレーションの課題の特定、そしてデータ移行の実施について解説します。

本ホワイトペーパーは、以下のグループの方々に有益な内容となっています。

役割 主な責務 職種例
ケモインフォマティクス専門家 データキュレーションに関するシステム設定とビジネスルールへの指導・貢献 ケモインフォマティシャン、化学データサイエンティスト、アプリケーションサイエンティスト
エンドユーザー ・レガシーシステムおよび最終システムの主要ユーザー
・(場合によっては)移行対象ソリューションの下流プロセスにおけるデータの利用者
・ユーザー受け入れテストへの参加
・システム設定やキュレーション後のデータに対するフィードバックの提供
メディシナルケミスト、合成化学者、CROケミスト、計算化学者、分析化学者、インベントリマネージャー
IT専門家 ・アプリケーション、データベース、ネットワーク、その他インフラの展開・保守・カスタム開発・サポート
・必要なテクノロジーが正常に機能していることの確認、プロジェクトメンバーへの必要なアクセス権の保証
・(場合によっては)データのインポート・エクスポートプロセスへの関与
リサーチIT、プロダクト/リソースオーナー、データベース管理者、システム管理者、データプロダクトマネージャー、データアーキテクト、ソフトウェアエンジニア、ソリューションアーキテクト
人材・プロジェクト管理 ・プロジェクトおよび関係チームの統括
・期待値の明確化、プロジェクトの進捗管理、各担当チームへのリソース確保
プロジェクトマネージャー、ビジネスアナリスト、プリンシパルサイエンティスト、ディレクター、エグゼクティブ

データ移行は、多くの人が「とにかく乗り越えたい」と感じるプロセスです。本ホワイトペーパーが、ただ生き残るだけでなく、プロジェクトを成功へと導く一助となることを願っています。


化学データ移行プロジェクトを成功させるためのフレームワーク

プロセスの概要

化合物データベースの移行を計画する際に、多くの組織がぶつかる最も大きな壁は、「移行作業そのものはプロセス全体のごく一部にすぎない」という事実を認識できていないことです。プロジェクトの成否は、組織的・化学的・ビジネス的な観点からの適切なプロジェクト計画とデータ評価に大きく依存しています。このプロセスの複雑さを正しく理解するために、作業全体を以下の4つのステージに分けて解説します。各ステージでは、そのステップで考慮すべき事項を取り上げるとともに、起こりがちな問題とその予防・是正策についても提案します。

  

ステージ1:プロジェクト計画とデータ評価

初期計画フェーズでは、化学データの移行を適切に実施するために必要なすべてのタスクを洗い出すことが重要です。タスクの実施順序と担当者の割り当ては、プロセスの早い段階で決定しておく必要があります。実施中の混乱や遅延を防ぐために、各タスクの意思決定者を明確にしておくことも必要です。さらに、各ステージの完了判定とプロジェクトの次ステージへの移行基準となる成功指標をあらかじめ定義しておくことが求められます。

組織の業務上のビジネスニーズと基礎となるデータの理解は、プロセス全体の根幹をなすステップであり、最初に取り組むべき課題です。チームは以下のトピックに対応できる体制で組成する必要があります。

  • プロジェクト管理
  • ビジネスルールの策定
  • データアーキテクチャ
  • 化学データ分析

なお、これらのタスクは互いに切り離すことができず、必ずしも固定した順序で実施されるものではありません。各セクションでの発見や決定事項は、他のセクションにも影響を与えます。化合物データベースの移行プロジェクトはそれぞれ固有であるため、各タスクを個別に取り上げ、他のタスクとの関係についても適宜触れていきます。

最後に強調しておきたいのは、化合物データベースの管理は組織における継続的なプロセスであるべきということです。化学データの整合性を維持するために、データプロダクトマネージャーを置くか、少なくとも維持管理プロセスを整備することを推奨します。構造チェッカー、標準化ツール、データベースカートリッジなど、化学的整合性の維持とデータ処理の自動化を支援するツールを導入し、ユーザーを適切にトレーニングすることは、将来の移行プロジェクトにおける大きなアドバンテージとなり、コスト削減にもつながります。

プロジェクト管理

化学データの移行管理は、専門性が大きく異なる分野のメンバー間の協力が必要となるため、困難を伴います。理想的には、化学バックグラウンドを持つプロジェクトマネージャーがこのプロジェクトをリードすることが望まれます。計画・データ評価フェーズでは、アジャイルなどの反復型プロジェクト管理手法の採用が推奨されます。「ビジネスルールの策定」「データアーキテクチャ」「化学データ分析」の3つの主要タスクは相互依存しているからです。たとえば、ビジネスルールは構造の標準化方法に影響を与えますが、一方で化学データの分析によって新たなビジネスルールの策定や既存ルールの修正が促されることもあります。また、慎重な計画には移行後のデータキュレーションへの対応策も含めておく必要があります。そのため、プロジェクト目標の設定時に成功指標を定義することが重要です。 

ビジネスルールの策定

ビジネスルールは一般的にビジネスアナリストが定義・文書化します。ビジネスアナリストが化学の知識を持つことは一般的ではないため、経営陣、IT部門、その他のチームメンバーとのコミュニケーションが不可欠です。

アクセス制御に関するルール: プロジェクトグループおよびユーザーグループの作成と、セキュリティ・データアクセスの全体像を定義・文書化することが重要です。データベース内のさまざまなオブジェクトに対する読み取り・書き込み・編集権限の設定も含まれます。

保存対象に関するルール: 最初に決定すべき重要な問いは、データベースに保存するエンティティの種類です。個々の低分子化合物以外に、化学的または生物学的なエンティティも同じシステムに登録するのかを検討する必要があります。製剤、混合物、(生体)高分子、抗体薬物複合体などは追加の複雑性を伴うため、ベストプラクティスとしてはデータセット内に含まれる単一成分化合物の組み合わせとして記述する方法が推奨されます。ビジネスルールでは、各エンティティに付随するデータフィールドも定義する必要があります。各フィールドについて、必須か任意か、値が自動生成されるか手動入力か、バリデーションルールの有無を文書化してください。また、バッチ(物質のサブミットサンプル)に関する情報を同じデータベースに保存するかどうかも決定しておく必要があります。

構造表現ルール: 化学構造は複数の方法で表現できますが、これは分子のグラフィカルな見た目だけでなく、化合物の同定や重複チェックを困難にするトポロジー的な問題にまで影響することがあります。基本的な化学描画ルールに加え、以下のような複雑なシナリオへの対応も必要です。

  • 対イオンと溶媒和物の記録: 対イオン・溶媒とその量論比の記録は不可欠ですが、その表現方法には大きなばらつきが生じやすいため、描画するか別フィールドに持つか、中性か酸・塩基対か、量論比の表現方法、同一親構造で塩や溶媒和物が異なる場合に別IDを付与するかどうかを明確に定義したルールを設けることが推奨されます。
  • 立体化学的特徴: キラル中心の立体配置、E/Z異性体、アトロプ異性体は製薬業界における分子の重要な属性です。業界のベストプラクティスである拡張立体表記法の使用を推奨します。平結合で描かれた単一の立体中心が「不明な立体配置」か「ラセミ混合物」かなど、曖昧なシナリオに関する描画ルールを文書化することが重要です。また、各分子の立体化学的特徴を明確に定義するためのテキストフィールドを別途設けることもベストプラクティスの一つです。

ステージ2:データキュレーション

前ステージでは、データ移行プロジェクトの計画立案、ビジネスルールの定義、化学データの分析を実施しました。これらの準備が整ったところで、いよいよステージ2であるレガシーデータのキュレーションに進みます。このフェーズの主な目的は、化学構造とその付随データを含む既存データを最新のビジネスルールに適合させることです。具体的には以下を行います。

  • 適切なレベルの複雑性で分子を記述すること
  • 既存レコードをクリーニング・標準化し、化学構造の表現と非化学データの命名法を統一すること
  • レガシーデータ中の描画上のエラーやその他の誤りを特定・修正すること
  • あらかじめ定義された一意性ルールに基づいて重複を除去し、必要に応じて重複レコードをマージすること

適切なレベルの複雑性で構造を記述する

フォーマット変換: すべてのレガシー化合物を同一のフォーマット(できればMOL V3000)に変換し、変換後の構造を以降の工程の入力として使用する必要があります。

立体化学: 拡張立体表記法は業界標準となっていますが、立体情報をテキストフィールドに保存する方法が今日でも珍しくありません。レガシーシステムで使用されているすべての立体表記法を特定し、標準的な構造ベースの立体化学的特徴にマッピングすることが推奨されます。

塩と溶媒和物: 対イオンと溶媒の情報はデータベースによってさまざまな形式で存在しているため、各データキュレーションプロジェクトでは異なる記述を単一の統一された表現に変換する必要があります。レガシーデータで対イオンと溶媒が分子構造の一部として描かれている場合、それらのフラグメントを切り離し、主分子とは別に保存します。テキストベースの場合はテキストラベルを対応する化学構造に変換し、データ評価ステージで作成した塩・溶媒和物辞書にマッピングします。

同位体異性体: 分子の同位体バリアントを区別するためのベストプラクティスは、すべての同位体関連情報を化学構造自体に付加することです。その後、新しいビジネスルールを使用して、同位体異性体を新システムでどのように整理・保存するかを決定します。

構造が不明または部分的にしか分かっていない化合物: レガシーデータセットには構造が不明または完全に定義されていない分子が含まれることがあります。静的な構造画像の移行には通常、分子の再描画が必要で、光学的構造認識(OSR)ソフトウェアがある程度プロセスを自動化するのに役立ちますが、認識された構造は経験豊富なユーザーによるレビューが依然として必要です。

構造のクリーニングと標準化

構造標準化の主な目的は、化学構造を統一されたカノニカルな表現に変換することで、構造の重複や分子のグラフィック表示の差異を回避することです。典型的な標準化には、明示的に描画された水素原子の除去、芳香族化解除(dearomatization)、中和・塩ストリッピングなどが含まれます。データキュレーション時と移行後の新規化合物追加時に同じ自動化された構造標準化ワークフローを使用することで、すべての化合物が同じ方法で表現されることを保証できます。

構造エラーの特定と修正

化学データセットには、描画ミス、フォーマット変換の失敗などに起因するさまざまな構造エラーが含まれる可能性があります。一部のエラーは自動的に修正できますが(例:共有結合している対イオンを構造から除去して塩修飾子として追加する)、原子価エラーなどは手動で修正する必要があります。自動構造チェックと部分的に自動化された構造修正を、内部描画ガイドラインや適切にトレーニングされた社内パワーユーザーと組み合わせることで、より高いデータ品質を実現できます。

重複の管理

重複エントリの除去またはマージは、あらゆるデータキュレーションプロジェクトの一部です。重複の定義は組織のビジネスルールによって異なります。データのクリーニングと重複問題の解決において、順序が重要です。まず誤りのある構造をクリーニングして標準化し、次に新しいビジネスルールのもとで重複とみなされるすべての分子を特定し、重複をどう処理するかを決定します。

これらの問題を解決するために、移行計画の一部として「信頼できる唯一の情報源(Source of Truth)」を確立することが不可欠です。最新のビジネスルールに従って重複排除を行わずにレガシーデータを新システムに移行すると、新しい分子を追加し始めたときに構造照合の問題が生じる可能性があります。

おめでとうございます!ここまでで、レガシーデータを最新のビジネスロジックと互換性のある形式に変換しました。化学構造と必要な他のデータフィールドを標準化し、重複レコードを除去し、データ内のエラーを修正しました。次のステップ、すなわちレガシーデータを元のデータソースから新しい場所へ実際に移動する準備が整いました。

ステージ3:データ移行

これまでは、すべてのデータ移行プロジェクトに共通するタスクと目標に焦点を当ててきました。プロジェクト計画、データ分析、ビジネスルールの策定、レガシーデータのキュレーションが完了したら、データを元のデータソースから新しい移行先に移動する必要があります。このプロセスは主に「ETL(抽出・変換・ロード)」プロセスとして分類されます。化学データの移行は容易ではなく、実際にはプロジェクト全体の中で最も時間のかかるステップであることが多いです。

   

タイムライン

予期せぬ出来事がプロジェクトのタイムラインを狂わせることはありますが、適切な計画が行われなかったことが原因でスケジュールが遅れるケースも多くあります。内部準備に充てた時間が不十分であったり、要件が未完成であったり、データ分析のレベルが不十分であったりすることが主な原因です。不十分な計画のネガティブな影響は、実際のデータ移行中にのみ明らかになることが多いため、移行チームはプロジェクトの各フェーズの繰り返しのために十分な時間を確保しておく必要があります。

定義されたタスク、マイルストーン、成果物、依存関係を含むプロジェクトタイムラインを可視化するには、ガントチャートの使用が推奨されます。

  

データソース

データ移行計画の最初のステップの一つは、レガシーデータのソースを特定して理解することです。理想的には、それらのソースが組織の化合物ライブラリ全体を表し、前述のデータキュレーションステップで検証・確認されているべきです。化学データ移行の主な2つのアプローチは以下の通りです。

ファイルエクスポート・インポート: レガシーソースからファイルにデータをエクスポートし、新しい環境にインポートする方法は、移行するデータセットが比較的シンプルで小規模から中規模の場合に最も簡単なソリューションです。化学構造と関連データを保存するための一般的な形式はSDF(Structure-Data File)です。SDFは分子量、化学式、化合物名などのメタデータとともに化学構造のコレクションを含むフラットファイルです。SMILESなどの単純な行表記法ベースの表現は、拡張立体表記など必要なすべての化学機能をサポートしていないため推奨されません。

直接データ移行: ソースデータベースとターゲットデータベース間のライブ接続を使用した直接データ転送は代替方法です。フラットファイル形式からデータを抽出する必要なく、ソースデータベースから直接レコードを読み取ることができます。このアプローチはデータの不必要な複製を避けられますが、移行プロセス全体を通じて継続的なデータベース接続が必要です。なお、データ移行全体を通じて、ソースとターゲット間のデータの不整合を避けるために、元のデータソースはエンドユーザーが完全にアクセスできない状態にする必要があります。

データインポート

データのインポートは、通常、自動化またはプログラムによる方法で実行されますが、監視と時折の人手による介入が必要です。データ転送の自動化は時間効率のために不可欠ですが、データの移動・監視・エラー処理を担当するスクリプトや特別なアプリケーションを開発するデータエンジニアやIT専門家が必要となります。

非常に大規模なデータセット(複数のソース、数百万レコード)の場合、プロセスに中間ステップを追加することが検討されます。レガシーデータセット全体を最初に「メインステージテーブル(MST)」に転送し、MSTをデータの処理・ログ記録・追跡の基盤として活用する方法です。MSTは元のメタデータ、識別子、構造データを不変データとして保持し、そこからデータ処理と修正ステップを実行します。

 

バリデーション

データがソースから別の場所に移動された場合、移動後にデータバリデーションを実行することが不可欠です。バリデーションの目的は、データの品質と正確さを確保し、データが無傷のままであることを確認することです。化学構造データを移動する際には、すべての構造が新しい場所に移行されたかどうかを確認することが必須タスクとなります。これには、ChemaxonのJChemカートリッジ技術のような化学検索エンジンを使用して、ソースデータベースからすべての分子を対象データベースに対してクエリします。

移行されたデータセットに内部階層(例:親化学構造とそのバッチ)がある場合、この階層情報がソースからターゲットに正しく転送されたかどうかを確認することも強く推奨されます。

  

テスト環境と本番環境

バリデーションの成功後、移行されたデータはテストフェーズの準備が整います。このフェーズには、自動テストとユーザー受け入れテスト(UAT)の両方が含まれます。ビジネスアナリストが詳細な分析を実施してテストケースを作成し、これらを自動テストスクリプトに変換して実行します。自動テストに十分な時間を確保することが重要です。失敗したテスト結果があればデータの修正、スクリプトの更新、テストのやり直しが必要となる反復プロセスだからです。

UATチームはデータオーナーとエンドユーザーで構成されます。UATチームがこれ以上未解決の問題がないことを確認したら、テストフェーズを終了し、データは本番環境への移行の準備完了となります。

  

すばらしい!移行プロジェクトの第3の主要ステップが完了しました。レガシーソースから最終的な移行先にデータを移動し、プロジェクトチームと主要なデータユーザーが移行されたデータが本番環境で使用する準備ができていることを確認しました。

ステージ4:移行後のバリデーションとサポート

前章で概説したステップが完了すると、移行プロジェクトの成功完了はもう手の届くところにあります。しかし、新しいシステムの長期的な成功と組織内での採用を確保するために、オンボーディング、継続的なサポート、変更管理についても考慮する必要があります。

変更管理

オンボーディング

  移行後の問題を回避または最小化するための最初のステップは、オンボーディング計画を持つことです。オンボーディング計画とそのタイムラインは、将来の新しいシステムの主要ユーザーを巻き込んで初期プロジェクト計画フェーズで作成することが理想的です。基本トレーニングは、エンドユーザー・開発者・データエンジニア・管理者など、何らかの形で新しいシステムを扱う必要があるすべての人に推奨されます。基本トレーニングの後、パワーユーザーや管理者など、異なるユーザーグループの特定のニーズに応えるより高度なトレーニングセッションを計画できます。

トレーニングに加えて、システムの使用方法・ビジネスルール・旧システムと新システムの違いを説明する詳細なハウツーガイド、FAQなどの包括的なドキュメントも成功したオンボーディングの重要な要素です。

継続的なサポート

最高のトレーニングとオンボーディング計画でも、ユーザーが新しいソフトウェアに適応し、日常業務に組み込むことができるとは限りません。人には生来の変化への抵抗があるため、移行と新しいシステムのメリットを明確に説明することが重要です。よりスムーズな移行のために、新しいシステムの利点を明確に伝え、チームの質問や懸念に答える専任の窓口担当者を任命することが有益です。また、オンボーディング中に高度なトレーニングを受け、定期的なアップデートを受け取る主要ユーザー(内部チャンピオン)の育成も、長期的なサポートに効果的です。

データ統合

  理想的な世界では、データ統合とクリーニングのすべては新しい本番システムへのインポート前に完了しますが、実際の移行プロジェクトでは常にそんなに単純ではありません。公式なゴーライブ後もテストを継続することをお勧めします。欠落したレコードの移行は、元のデータソースがまだ利用可能な場合に比較的シンプルな作業ですが、データベースに追加する前に重複検索を実行することが依然として推奨されます。

プロジェクト評価

  移行後の評価は、移行チームがプロジェクト中に何がうまくいき、何がうまくいかなかったかを評価する機会を与えます。評価の結果として、チームは要件・ビジネスルール・ステップバイステップのガイド・トラブルシューティングのヒント・データキュレーションプロセスとその結果の説明を含む包括的なドキュメントを作成する必要があります。

継続的な改善

  データ移行プロジェクトを公式に終了した後でも、新しいシステムのユーザーベースとの定期的なチェックインとフォローアップ会議を開催し、変更にうまく適応していることを確認する価値があります。ユーザーフィードバックと継続的なパフォーマンス監視の結果を組み合わせることで、最も影響力の高い改善領域を明らかにできます。


結論 ― 一般的なベストプラクティス

化学データの移行とは、レガシーデータの実際のエクスポートとインポートをはるかに超えるものです。他のプロジェクトと同様に扱いましょう。目標と成功指標を定義し、ステークホルダーと必要なリソースを特定し、タイムラインとコミュニケーション計画を設定し、潜在的なリスクと軽減計画を持つことが基本です。

  1. キャプチャされた化学的複雑さのレベル、一意性ルール、データ階層、既存のエラータイプを含む、レガシーデータとそのアーキテクチャを理解するための化学データ分析に十分な時間とリソースを割り当てる。
  2. 組織のビジネスニーズと連動したレガシーデータの理解を最初の優先事項とする。レガシーシステム・データ・ビジネスロジックを熟知した社内専門家と協力し、必要に応じて外部専門家の支援を得る。
  3. 最初の分子を新しい本番システムに追加する前に、明確に定義・文書化されたビジネスルールと化学構造表現定義を用意しておく。
  4. 分子の化学的特徴を記述・保存するために、利用可能な場合は業界標準の構造ベースの表現を使用する。
  5. 自動化された構造チェックと標準化ワークフローを内部の描画規則と組み合わせることで、化学データの品質と精度を最大化する。
  6. 化学構造チェック・構造修正・標準化ルール、および内部描画ガイドラインの文書化を確実に行い、それらの規則に精通した訓練された社内専門家を育成する。
  7. レガシーデータを移行した後、データのバリデーションとテストに十分な時間とリソースを割り当てる。
  8. 初期プロジェクト計画フェーズでチームのオンボーディングプロセスを計画し、将来のユーザーも参加させる。
  9. オンボーディング期間中に主要ユーザーを新しいシステムでトレーニングし、定期的なアップデートを確実に提供することで、社内チャンピオンとして活躍できるようにする。
  10. ユーザーの質問や懸念に対応できる専任の窓口担当者を配置し、チームや部門が情報を共有できる内部フォーラムを促進する。
  11. プロジェクトを終了した後でも、ユーザーチームとの定期的なチェックインとフォローアップ会議を開催し、フィードバックの収集とシステムのパフォーマンス監視を継続する。
  12. そして最も重要なこととして、化合物データベースの管理は継続的な取り組みであるべきです。組織が化学データの整合性を維持するために、データプロダクトマネージャーとデータガバナンスプロセスを持つことを推奨します。

化学データ移行プロセスの各ステップに関心がある方は、本シリーズのプロジェクト計画とデータ評価、データキュレーション、データ移行に関するベストプラクティスについてもぜひご覧ください。

 

 

Dora Barna
Director of Application Science
 

 Dora Barna (ドーラ・バルナ)は、2009年にハンガリー・セーゲド大学理学部情報科学科にて化学の修士号を、2013年には理論化学の博士号を取得いたしました。2012年にはChemaxonの開発部門にビジネスアナリストとして参画し、複数のChemaxonソフトウェア製品の開発計画立案に携わりました。その後、Chemaxonのアプリケーションサイエンティストチームに加わり現在では、ケミインフォマティクスソリューションの設計におけるクライアントサポートと、アプリケーション研究の実施を担当しております。 

Chemaxon
執筆者:Chemaxon

一覧ページへ戻る

RELATED

関連記事はこちら

Contact

お問い合わせ

製薬・バイオテクノロジーのDXならパトコアにおまかせください