パトコアの技術ブログ

化学情報管理・創薬支援のためのケモインフォマティクス製品を扱うパトコアです。本ブログは技術チームにより運営されており、各種ツールを使うとどんなことができるの?という観点から、技術情報をお届けします。

パトコアの技術ブログ

pKaや溶解度の予測値は、現実と比較してどうなのか?

pKa予測ツールの精度を創薬セットで評価した結果、RMSEは1.11、ピアソン相関係数は0.88となりました。また、希少元素、多成分構造、4級窒素原子を含むデータセットで溶解度予測ツールを評価した結果、RMSEは1.16、ピアソン相関係数は0.84を達成しました。適用領域外の構造をフィルタリングするためにリガンドプレパレーションを実施した結果、6,886件のサブセットでより高い精度を達成しました。本研究は、ユーザーコミュニティに透明性を提供し、議論のきっかけを作るとともに、未知の化学空間に対するトレーニングによってモデルを改善することを目的としています。著者らは、実験的に決定された物理化学データを共有できる貢献者との共同研究を歓迎します。

正確に計算された分子特性は、化合物の測定された属性との関係の理解、新規ターゲットのモデルのトレーニング、新規エンティティの特性の予測に大きな影響を与えます。Chemaxonの予測、特にイオン化親油性溶解度など、より複雑な分子特性は、産業界と学術研究の両方で受け入れられ、広く使用されています。これらのアルゴリズムの開発中、継続的な精度評価が私たちの戦略の一部となっています。このステップを自動化し、再現性と透明性を持たせるために、私たちは精度レポートを生成し、それを公開するための小さなコードを構築しました。

まず、AstraZeneca社が公開している創薬セット(ChEMBL assay ID: CHEMBL3301362)でpKa予測ツールの評価を行いました。このデータセットでは、最も基本的なpKa値は、261化合物についてSirius Analytical社の標準的な方法論を用いて、吸収と電位差滴定によって決定されました。そのうち、12件は値がなく、2件の実験は>関係で示され、4件の化合物は0-14の範囲で予測されたpka値を持たなかった。最終セット(243件)において、既成の予測ではRMSEが1.11、ピアソン相関係数(r)が0.88でした(図1.)。

図1. CHEMBL3301362アッセイデータに対する基本的なpKaの精度評価

測定値の48%が0.5pKa単位以内、73%が1pKa以内に予測された。このレポートはドキュメントページにアップロードされ、こちらからも入手可能です。

また、私たちは、私たちの溶解度予測ツールがどの程度正確なのかに興味があったので、Hongping Zhaoらによって最近発表されたデータセットを選びました(DOI: 10.3389/fonc.2020.00121 )。標準的な固有溶解度モデルは、これらの9390構造に対して1.16 RMSEと0.84 Pearson相関係数(r)を達成しました。42%が0.5 logS unit以内に、71%が1 logS unit以内に予測されました(図1.) 化学空間の解析の結果、この集合には希少元素、4級窒素原子、多成分構造などが含まれており、溶解度予測器の設計した適用範囲から外れていることがわかりました。そこで、多成分、永久帯電分子、希少元素を含む構造を排除するリガンド調製を実施した。

DMTAサイクルにおけるCalculatorsとPredictorsのさらなる活用については、当社の仮説追跡プラットフォームであるDesign HUBについてご覧ください。

Design Hubの詳細

図2. Hongping Zhaoのセット(10.3389/fonc.2020.00121)に対する溶解度予測評価。 左(a)は元のセット、右(b)はフィルタリングされたサブセットである。

正確に計算された分子特性は、化合物の測定された属性との関係の理解、新規ターゲットのモデルのトレーニング、新規エンティティの特性の予測に大きな影響を与えます。特にイオン化、親油性、溶解度などの複雑な分子特性に関して、Chemaxonの予測は広く受け入れられ、産業界と学術研究の両方で広く使用されています。これらのアルゴリズムの開発中、私たちの戦略の一部として継続的な精度評価が行われています。このステップを自動化し、再現性と透明性を確保するために、私たちは精度レポートを生成し、それを公開するための簡単なコードを作成しました。

まず、AstraZeneca社が公開した創薬セット(ChEMBL assay ID: CHEMBL3301362)を使用して、pKa予測ツールを評価しました。このデータセットでは、261化合物について、Sirius Analytical社の標準的な方法論を用いた吸収と電位差滴定によって最も基本的なpKa値が決定されました。そのうち12件の化合物は値が存在せず、2件の実験結果は関係が示されていませんでした。また、4件の化合物は0-14の範囲内で予測されたpKa値を持ちませんでした。最終的なセット(243件)において、既存の予測モデルではRMSEが1.11、ピアソン相関係数(r)が0.88でした(図1参照)。

基本的なpKaの精度@72x-100-1図1. CHEMBL3301362のアッセイデータに対する基本的なpKaの精度評価。

測定値の48%が0.5pKa単位以内に予測され、73%が1pKa以内に予測されました。このレポートは、ドキュメントページにアップロードされ、こちらからも入手できます。

また、私たちは、私たちの溶解度予測ツールがどの程度正確であるかに興味を持っていたため、最近Hongping Zhaoらによって発表されたデータセットを選びました(DOI: 10.3389/fonc.2020.00121)。このデータセットに対して、標準的な固有溶解度モデルは1.16のRMSEと0.84のピアソン相関係数(r)を達成しました。予測された溶解度が0.5 logS unit以内に42%、1 logS unit以内に71%の化合物に対して予測されました(図1参照)。化学空間の解析の結果、このデータセットには希少元素、4級窒素原子、多成分構造などが含まれており、溶解度予測モデルの設計した適用範囲から外れていることがわかりました。そのため、多成分、永久帯電分子、希少元素を含む構造を排除するために、リガンドプレパレーションを実施しました。

DMTAサイクルにおけるCalculatorとPredictorのさらなる応用については、当社の仮説追跡プラットフォームであるDesign HUBについて学んでください。

溶解度予測@72x-100-1図2. Hongping Zhaoのセット(10.3389/fonc.2020.00121)に対する溶解度予測評価。 左(a)は元のセット、右(b)はフィルタリングされたサブセットである。

6886件を数えるサブセットでは、少し高い精度(RMSE:1.04、ピアソン相関係数(r)0.86、0.5および1 logSユニット以内のケースがそれぞれ46%および75%)が観察されました。

1log単位(logSまたはpKa)は5.9kJ/molの自由エネルギー変化に相当することを考慮すると、1RMSE(中央値δ〜0.5)は新規化合物の設計をサポートする正確な予測値とみなすことができます。しかし、未知の化学空間に対するトレーニングによって、このモデルを改善することに興味があります。実験的に決定された物理化学データを共有できる貢献者を募集しています。共同研究や公正な報酬に関するディスカッションを始めるために、私たちにご連絡ください。

この小さな研究には2つの側面があります:(i) 私たちのツールの適用範囲と予測力について、ユーザーコミュニティに高い透明性を提供し、議論を促すことです。(ii) モデルトレーニングのユースケースのために自動QC分析機能をパッケージに追加し、各評価と新しいデータポイントが改善のきっかけとなるようにしています。2つ目の評価と1つ目の評価についてのご意見をお聞かせいただければ幸いです。

Posted by Ákos Tarcsay, Chemaxon 27 04 2023