パトコアの技術ブログ

化学情報管理・創薬支援のためのケモインフォマティクス製品を扱うパトコアです。本ブログは技術チームにより運営されており、各種ツールを使うとどんなことができるの?という観点から、技術情報をお届けします。

パトコアの技術ブログ

低分子の物性を予測するためのローカルモデルとグローバルモデル

最も成功するためには、どのようなタイプのモデルを構築すべきか

明白な答えは、前向きに予測できるすべてのモデルです。また、特性が改善された新規化合物の設計を容易にするために、モデルが解釈可能であれば、非常に価値があります。

もう一つの重要なパラメータは、適用領域の大きさです。ドメインが大きいと、入力化合物が非常に多様であっても、モデルによって認識され、正しく予測されるため、より有望な化学空間に外挿することができます。

薬学者や計算化学者は、どのようなタイプのモデルを構築すれば最も成功するのか、どのように判断するのでしょうか?

ローカルモデルとグローバルモデルの選択

通常、適用範囲と予測力の間にはバランスがあります。より広範な範囲(グローバルモデル)では予測の正確性が低下する傾向があり、より局所的なモデルではより正確な予測が容易になります(図1)。

図1:グローバルモデルとローカルモデルの適用領域の大きさは相対的なものであり、使用するトレーニングセットに依存します。重要なのは、ドメインの広さではなく、そのモデルが対象となる分子に対して有効かどうかです。

予測モデル作成のためのワークフローと、新しいデータを継続的に追加することの利点

医薬品化学者のためのモデル公開

図2. 統合の概要。検証された生産グレードの予測は、Design HUBプラグインとして利用でき、最も実行可能なアイデア分子や新規デザインの選択を促進します(図2.)。

限られたデータセットでトレーニングされたローカルモデルは、より多くのデータポイントで構築されたグローバルモデルよりも、類似したものに対して高い精度を提供し、利益を得ることができます。Design HUBの新しいトレーナーツールをお試しください。

Design HUBの詳細

ローカルモデルとグローバルモデルの比較

図3.ローカルモデルとグローバルモデルの構築と再学習、比較のシミュレーション。

  • 初期データセット(2029件)から「ランダムテスト」セット(203件)を選択[1]
  • ステップ2では、スキャッフォールドクラスター(146ケース)を選択し、残りの化合物(1680ケース)を「グローバル」セットとして提供する。スキャフォールドセットとグローバルセット間の最大の谷本類似度は0.784
  • スキャフォールドセットはトレーニングセット(102ケース)に分割され、連続したステップで「アップデート」セットと「最終テスト」セット(各22ケース)に分割
    図3. データ作成ワークフロー

観察結果

  • ランダムフォレストの2値分類モデルは、各セットで選択された19個の記述子を用いて構築
  • ランダムに選択された外部テストセット(図4)では,グローバルモデルの方がローカルモデルよりも優れた性能を示した
  • ローカルモデルは16倍少ないデータでトレーニングされているが、スキャッフォールドセットの類似品ではグローバルモデルよりも優れていた(図5)
  • スキャッフォールドの類似物を追加して両モデルを再トレーニングすると、スキャッフォールドの派生物の第2テストセットでのパフォーマンスが向上します(図6.)

図4. 外部データに対するローカルモデルとグローバルモデルの性能

図5.スキャッフォールドとなる類似体についてテストした性能

図6. 足場アナログの第2ラウンドでテストされた再トレーニングされたモデルの性能

Posted by Ákos Tarcsay, Chemaxon on 28 04 2023