Document to Structure

作成者: Patcore｜Apr 18, 2024 5:16:41 AM

Document to Structure（D2S）は、ドキュメント中からあらゆる化学情報を簡単に抽出するためのツールです。
特許文書の解析、文献の解析、ウェブサイトの解析、その他MS Officeドキュメントの解析などの用途にご利用いただけます。

とくに化学特許の文書は、ページ数が多いうえ、Non-searchable PDF（スキャンで生成されたPDF）の形をとっているため、その中に含まれる化学情報の取り出しや、特定の化学構造の記載位置を探すには多大な労力がかかっていました。D2Sは、そのような“Non Text PDF”にも対応しているので、化学特許の解析業務を一気に効率化することができます。

D2Sの特長

幅広い化学情報を認識
幅広いドキュメントフォーマットに対応
OCRの典型エラーを自動修正する独自のアルゴリズムで、より正確な変換を実現
ドキュメント中の記載位置まで特定できる
画像PDFに対応することで、特許文書の解析で特に威力を発揮（外部ツールとの連携）
Instant JChemやJChem for EXCELなど幅広いアプリケーションから利用可能

D2Sが認識する化学情報

化学名（IUPAC名、体系名、一般名、商品名など）
CAS番号、自社化合物ID
線形表記（SMILES、SMARTS、InChi）
埋め込み構造式オブジェクト
画像の構造式（外部ツールと連携）
キャラクター化されていないPDF（イメージ文書）

D2Sで変換できる文書フォーマット

PDF（Text PDF, Non-searchable PDF）
TXT
HTML
XML
Microsoft Officeドキュメント（DOC, DOCX, PPT, PPTX, XLS, XLSX）

D2Sが利用できるソフトウェア

さまざまなソフトウェアを介して、化学情報の読み込み・閲覧・解析・加工などを行えます。

Instant JChem
JChem for EXCEL
MarvinView
Pipeline Pilot
KNIME

関連リンク（英文）

完全な記事を表示