Document to Structure
ドキュメント中の化学情報を簡単に抽出
データサイエンス
開発ツールキット
Document to Structure(D2S)は、ドキュメント中からあらゆる化学情報を簡単に抽出するためのツールです。
特許文書の解析、文献の解析、ウェブサイトの解析、その他MS Officeドキュメントの解析などの用途にご利用いただけます。
とくに化学特許の文書は、ページ数が多いうえ、Non-searchable PDF(スキャンで生成されたPDF)の形をとっているため、その中に含まれる化学情報の取り出しや、特定の化学構造の記載位置を探すには多大な労力がかかっていました。D2Sは、そのような“Non Text PDF”にも対応しているので、化学特許の解析業務を一気に効率化することができます。
D2Sの特長
-
幅広い化学情報を認識
-
幅広いドキュメントフォーマットに対応
-
OCRの典型エラーを自動修正する独自のアルゴリズムで、より正確な変換を実現
-
ドキュメント中の記載位置まで特定できる
-
画像PDFに対応することで、特許文書の解析で特に威力を発揮(外部ツールとの連携)
-
Instant JChemやJChem for EXCELなど幅広いアプリケーションから利用可能
D2Sが認識する化学情報
-
化学名(IUPAC名、体系名、一般名、商品名など)
-
CAS番号、自社化合物ID
-
線形表記(SMILES、SMARTS、InChi)
-
埋め込み構造式オブジェクト
-
画像の構造式(外部ツールと連携)
-
キャラクター化されていないPDF(イメージ文書)
D2Sで変換できる文書フォーマット
-
PDF(Text PDF, Non-searchable PDF)
-
TXT
-
HTML
-
XML
-
Microsoft Officeドキュメント (DOC, DOCX, PPT, PPTX, XLS, XLSX)
D2Sが利用できるソフトウェア
さまざまなソフトウェアを介して、化学情報の読み込み・閲覧・解析・加工などを行えます。
- Instant JChem
- JChem for EXCEL
- MarvinView
- Pipeline Pilot
- KNIME