パトコアの技術ブログ

化学情報管理・創薬支援のためのケモインフォマティクス製品を扱うパトコアです。本ブログは技術チームにより運営されており、各種ツールを使うとどんなことができるの?という観点から、技術情報をお届けします。

パトコアの技術ブログ

最新の構造活性相関データを迅速に入手するには

構造活性相関データ(構造式VS活性などの特性データ)は創薬研究において、ドラッグデザインやパテンタビリティーの調査、AI/MLモデルの構築などに不可欠です。 過去に広く研究されたターゲットや適応症については、使用できる既存のデータが大量に存在します。

多くの企業で用いている公的データベースや自社で長い間収集されたデータセットが用いられていますが、これらの古いデータセットには、最近公開された特許情報や最新の論文データがなど、研究科学の進展に関する情報が含まれていないという課題があります。

近年はデータ処理の技術が飛躍的に向上し、所定のサイトからデータを抽出して、データのクレンジングや、同一の情報を集約する名寄せなどがある適度自動化できるようになってきました。実世界のデータは想定されるパターンの範疇を超えるものも少なくなく、高品質なデータセットを整備するためには、エキスパートの目によるマニュアルキュレーションが依然として不可欠です。

インドExcelra社が構築している世界最大のSARデータベース「GOSTAR」のデータセットは定期的に更新され、複数のソースからマニュアル作業によりキュレートされています。Excelraでは業界内で認められたオントロジーを用いて、ノイズの多い公開データからから、解析に適したデータセットを構築しています。

GOSTARのデータソース

GOSTARの最終的な目標は、化学者やデータサイエンティストが最新の正確なSARデータを利用できるようにすることで、創薬を加速させることです。 GOSTARに関する詳細はGOSTARのWebページをご覧ください。