【PAT】Fairification:科学データの相互接続への道筋サムネイル画像

Fairification:科学データの相互接続への道筋

excelra

FAIRificationの概念の誕生

情報化時代(20世紀半ば以降)は、データ生成とデジタル化の急速な拡大を経験しました。21世紀の現在は、データを生み出すだけでなく、その真の価値を引き出すためのデータ分析の時代でもあります。すべての人にとってデータの価値を高めるための効果的な活用は進化し続けており、その流れの中で「FAIR」データの実践が誕生しました。FAIRificationは、Wilkinsonら(2016年)によって策定された15の原則から成り、データの発見容易性(Findability)、アクセス可能性(Accessibility)、相互運用性(Interoperability)、再利用性(Reusability)の向上を目的としています。これは、生成されるデータを相互に結び付け、その力を引き出すことで、最大限に活用するためのアプローチです。

それぞれの原則には、その有用性を反映する核心的な価値があります。発見容易性は、データやメタデータに普遍性を付与し、研究に対する認知を高めます。アクセス可能性は説明責任に基づき、データ提供者がデータへのアクセスを開放する姿勢を示します。相互運用性は、データへの容易かつ公平なアクセスを可能にします。再利用性は、データの多用途利用を可能にし、その影響力を拡大します。これらの核心的価値によって、FAIRificationはデータ創出者の意識に大きな好影響を与え、より有意義なデータ活用のために、コミュニティをより包括的なものへと変えていくことができます。

Blog-charts-2-

Wilkinsonら(2016年)によって示されたFAIRの指針原則

今求められるもの(課題、必要性、そして現在のアプローチ)

従来、高品質なデータを一貫して容易に管理・配信するために、データレイクやデータウェアハウスが構築されてきました。しかし、保護され孤立したデータは、関係者間での知識発見やイノベーションにおける大きな障害となっていました。異種データを正規化するためのコミュニティ標準オントロジーの欠如、デジタルプロセスやリソースを規制するために必要な高コストと膨大な労力も、生産性や分野横断的な協力の重要な妨げとなっていました。今求められているのは、効率的なデータ管理、ガバナンス、そして利用可能性の実現です。FAIRの指針原則を実装することで、データサイロを解消し、人間と機械の双方が利用できるデータ環境を構築することができます。

FAIR化されたデータの整合性を図ることは、複数のレベルで必要であり、以下の優先事項があります。

  • 科学的変革の促進 – 「自分のデータ」から「企業の価値ある資産」への意識転換を労働文化として採用し、複数の利害関係者間でのFAIRデータ共有を促進することで、データの変革を実現します。これにより、科学的な問いに対して、臨機応変かつ柔軟に、より迅速な回答が可能になります。

  • コスト削減 – 欧州連合(EU)の最新報告によると、FAIRデータを持たないことによる経済的損失は年間約102億ユーロに達すると推定されています。そのため、コストとデータ発見に伴うリスクを削減し、成果を高め、長期的な投資収益率(ROI)を生み出すために、FAIR化は喫緊の課題です。

  • 戦略的価値の向上 – FAIRデータにAIや機械学習(ML)の力を活用することで、新たな価値あるデータ資産や関連性の創出を加速させます。これにより、研究開発(R&D)から成果に至るまでのバリューチェーン全体の期間が大幅に短縮され、生産性が向上し、創薬パイプラインの加速が可能になります。

  • データ整理の最小化 – FAIR化されたデータを利用することで、生データの収集、選別、クリーニング、そして高品質かつ標準化された分析用フォーマットへの変換に要する時間、コスト、労力を削減できます。
FAIR原則は経験則的なものであり、FAIR化プロセスにおけるガイドラインとして機能します。現在のアプローチでは、データ、メタデータ、および関連インフラに適用される重要な成熟度指標や定量的指標を用いて、FAIR性を評価します。発見容易性とアクセス可能性のスコアは、メタデータレベルで一度に取得できますが、相互運用性と再利用性の評価には集中的な反復作業が必要となる場合があります。FAIR化プロセスは、以下のステップに大別されます。
  • 非FAIRデータの取得:FAIR化対象となるデータへアクセスする

  • 取得データの分析:概念、構造、異なるデータ要素間の関係、異なるデータ識別方法とその分析、由来情報(プロベナンス)などの観点からデータ内容を調査する

  • データのセマンティックモデル定義:コミュニティ、目的、ドメイン固有のオントロジーや管理語彙を用いて、データセットのエンティティ、概念、関係を正確かつ明確で機械可読な形式で記述・定義する

  • ータのリンク可能化:ステップ3で定義したセマンティックモデルを、セマンティックWebやリンクドデータ技術を使って適用することで、非FAIRデータをリンク可能なデータに変換する。これにより相互運用性と再利用性が確保され、他種のデータやシステムとの統合が容易になる 

  • ライセンスの付与:データライセンス情報を必ず含める。そうしないとデータ再利用が妨げられる可能性がある

  • データセットのメタデータ定義:適切で豊富なメタデータでデータを記述し、FAIRデータ評価のあらゆる側面をサポートする

  • FAIRデータリソースの展開:関連するメタデータとライセンスを付与したFAIR化データを展開または公開し、検索エンジンでメタデータがインデックス化され、認証や認可が必要な場合でもデータにアクセスできるようにする

Blog-charts-2

図2:GO FAIR(脚注4)から引用したFAIR化ワークフロー

 

有用性と利点

FAIR化によるデータの利点は多方面にわたります。研究コミュニティにとっては、シームレスなデータ取得、セマンティックキャリブレーション、統合、そしてデータ分析といった明確な利点があります。これにより、研究開発期間の短縮や、科学コミュニティ内での仮想的な知識ネットワークの促進など、多面的な有用性が得られます。その結果、比較的短期間で各分野の知識が大きく進展します。バイオ医薬品分野にとってもその恩恵は非常に大きく、データ共有や明確なデータ再利用ポリシーによる創薬期間の短縮、リアルワールドデータの活用による個別化医療の革新、高品質なデータを用いたAI/ML分析の可能性向上が挙げられます。

ビジネスの観点から見ると、その影響は財務面、運営面、顧客志向の3つに分類されます。

  • 財務面の影響: Baruaらによる、効果的なデータがビジネスに与える影響を測定した研究によれば、データの有用性をわずか10%向上させるだけで、従業員1人あたりの売上が約14.4%増加すると推定されています。また、ユーザーがデータを有効活用できるようにするための労力と時間を削減することで、従業員1人あたりの生産性が大幅に向上します。

  • 運営面の影響: 資産の効果的な活用、正確な計画策定、予測が含まれます。

  • 顧客志向の影響: 比較的短期間でのイノベーション能力の向上が可能になります。

したがって、データ共有と有用性の向上に密接に関わるFAIR化のようなプロセスは、ビジネス全体に長期的かつ肯定的な影響をもたらします。

これらの利点は、現在さまざまな業界で認識されており、多くの組織が長期的かつ的確な目標を見据えてFAIR化に時間と労力を投資しています。

 

Excelraのアプローチ

Excelraは、データのFAIR化が持つ重要性と価値を深く理解しています。FAIR化に向けた基本ステップは、FAIR適合性の評価です。バイオ製薬分野への利点を踏まえ、Excelraは第一段階として、カスタマイズ可能な質問票と標準作業手順書(SOP)を用いた、特定データベースのFAIR原則への適合性評価のための効率的なプロセスを策定しました。データベースおよびその関連データとメタデータは、ドメインの専門家によって評価されます。専門的な定量評価により、パートナーは適合度の程度をより正確に把握できます。FAIR指針への適合性向上のための手順を理解できるよう、詳細な報告書と推奨事項が提供されます。

Schema-for-FAIR-evaluation-of-a-given-database-1

図3:特定データベースのFAIR評価スキーマ

 

ケーススタディ

既存データベースのFAIR適合性を理解する第一歩として、タンパク質、医薬品、遺伝子、パスウェイ、および疾患を対象とする12の公開データベースについて、FAIR原則への適合性評価を実施しました。評価は、前節で説明したExcelraが開発した方法論に基づいて行いました。評価対象となったデータベースは以下の通りです。

  • タンパク質 – PDB、Binding DB、UniProt
  • 医薬品/化学物質 – PharmGKB、ChEMBL、PubChem、DrugBank
  • 遺伝子 – NCBI Gene、Ensembl、GWAS catalog
  • パスウェイ – Reactome
  • 疾患 – DisGeNET

各データベースのスコアリングと評価には、質問票とSOPを活用しました。評価とスコアリングに基づき、結果を集計しました。

Summary-of-the-quantitative-assessment-of-12-public-databases-for-FAIR-compliance-1

図4:FAIR適合性に関する12の公開データベースの定量評価概要

 

分析から得られた主な特徴は以下の通りです。

  • すべてのデータベースは、15の原則のうち13以上に適合しています。

  • テーマに関わらず、すべてのデータベースには関連する記述的メタデータ要素が組み込まれており、通常、メタデータおよび関連識別子に関するFAIR原則に適合しています。

  • Findable(発見可能性) – 評価対象の12データベースはいずれも公開されており、「Findable」原則に適合しています。ただし、PharmaGKBとGWAS catalogは、特定のメタデータタイプが不足しているため、F2に部分的にしか適合していません。

  • Accessible(アクセス可能性) – 評価対象のほとんどのデータベースはデータダンプへのアクセスが可能で、「Accessibility」原則に適合しています。しかし、5つのデータベースはA2原則に適合していません。この原則は、データが利用できなくなった後もメタデータが利用可能であることを求めています。一部のデータベースは、過去のバージョンを提供していないことが示され、過去データの欠如や存在証明の不足がA2非適合の原因となっています。

  • Interoperable(相互運用性) – 本調査で評価したデータベースは「Interoperability」原則に適合しています。ただし、ChEMBLは化学物質エンティティの出力に関連するメタデータ参照が含まれていないため、I3には適合していません。

  • Reusability(再利用性) – 一部のデータベースはR1に部分的にしか適合していません。これらのデータベースの「About」ページには必要な情報がすべて記載されていないことが確認されました。一方で、すべてのデータベースはR1.1、R1.2、R1.3原則には適合しています。

FAIRは過去10年間で登場した新しい進化中の概念であり、多くのデータベースはまだ完全なFAIR適合には至っていません。しかし、学術界や産業界で頻繁に利用されるライフサイエンス分野のほとんどのデータベースは、概ねFAIRに適合していることが確認されています。長年にわたる広範な利用実績と有効性は、FAIR適合がいかに役立ってきたかを示す証拠でもあります。

 

Excelraの強み

ExcelraがFAIR適合性評価の他の専門家と差別化される主なポイントは、以下の通りです。

  • Excelraはデータサイエンス分野で18年以上の経験を有し、600名以上の人材プールには60名以上の博士号取得者がいます。世界90社以上のクライアントと提携し、上位20の製薬会社のうち15社に対してさまざまな形で専門的サポートを提供しています。

  • 組織はデータ、深いドメイン専門知識、データサイエンス能力を備えています。

  • 関連サービスにおける豊富な経験を有しており、データキュレーション、データ注釈、データ検証、オントロジー管理、データ整形、データ管理・統合などに対応しています。

  • ドメイン専門家は、探索段階から実世界データまで、さまざまなデータソースにおける多様なデータタイプに精通しています。

  • Excelraは幅広い社内データ分析ツールを保有しています。

  • Excelraは製薬、バイオテック、ヘルスケア、AI/ML企業向けにカスタマイズされたエンドツーエンドのデータベースソリューションの提供にも精通しています。

  • 最後に、数学、計算科学、生命科学の専門知識を1つの組織内に融合させているため、Excelraは迅速な対応でカスタマイズされたFAIR化ソリューションを提供できます。

 

将来展望

このように、データのFAIR化は、データ駆動型の科学的および知識の発見を加速させます。FAIRデータを採用することで、学術界および産業界は、AI/MLなどの新しい技術を活用し、さらなるコスト削減と時間短縮のメリットを享受できるようになります。

 

関連製品

執筆者:excelra

一覧ページへ戻る

RELATED

関連記事はこちら

Contact

お問い合わせ

製薬・バイオテクノロジーのDXならパトコアにおまかせください