f:id:patcore:20211105121111p:plain

icon by twemoji / CC-BY

Yuichiro Abe

分子が似ているということは性質も似ている可能性が高く、創薬研究の場合ではリード化合物の最適化、ケミカルスペースの探索等の用途に類似構造検索によるスクリーニングが欠かせないツールとなっています。一般的に構造類似度が0.7を超えると構造が似ていると判断できますが、この値は使うパラメータや計算方法により変わってきます。また、構造が似ていると計算された場合でも、実際に似ているかどうかの判断は評価する人や目的により変わりますので、正しい計算ができているか明確にわからない点も特徴です。部分一致検索や完全一致検索のように正解・不正解が明らかな検索方法との違いです。

この様な背景により、一口に類似構造検索といっても様々な仕組みにより類似度が計算されています。本記事ではその類似構造検索について、計算方法などの仕組みをまとめました。網羅的に説明しようと思うと長くなってしまいますので、ChemAxon検索エンジンで構造検索を行う場合を想定して解説しています。

また、ChemAxonは類似構造検索に特化した超高速検索システムMadFast¹をリリースしています。MadFastの紹介も最後に追加しました。このMadFastですが、実はナミキ商事様に採用していただいており、Enamine社のカタログを無料で検索することができます。ナミキ商事様はChemCupid²などオンライン試薬カタログ検索サービスを運営されていますが、そのサービスの一つとしてMadFastをご利用いただいています。

ナミキ商事様MadFastサイト

※構造検索の種類について前回の記事で紹介しました。本記事はその続きとなります。

構造類似性

分子Aと分子Bが似ているかどうかを評価するためにはどうすればよいでしょうか。

分子の特徴を取り出して比べてみることが思い浮かぶかと思います。

その分子の特徴についてですが、一般的には化学構造が要素となります。構造情報を要素として取り出すアルゴリズムには様々な種類があり、官能基・トポロジー・隣接する原子等の特徴に対して異なるアプローチがなされます。

このようにして求めた分子Aと分子Bのフィンガープリント同士を使って、構造の類似度を計算します。その際に用いられる計算式がメトリクスであり、計算された数値が構造の類似度になります。

フィンガープリント

ChemAxonでは独自にフィンガープリントをメンテナンスしています。また、GenerateMDというコマンドラインツールも提供されており、パラメータのチューニングや統計情報を表示させることができます。ChemAxonの検索エンジンに最適化されていますので、普通に構造検索をする分には使うことはないと思いますが。

Chemical Hashed Fingerprint

ChemAxonの構造検索ではDaylightタイプのpath-basedフィンガープリントが用いられます。以下に説明されている様に、分子構造の経路をハッシュ化してビットに格納していきます。

The process of fingerprint generation goes as follows:

Up to a given a bond number all linear paths (linear patterns) consisting bonds and atoms of a structure are detected.

Branching points at the end of each linear pattern are also detected.

All cycles (cyclic patterns) are detected.

Using a proprietary hashing method, a given number of bits in the bit string are set for each pattern. It is possible, that the same bit is set by multiple patterns. This phenomenon is called bit collision. Few bit collisions in the fingerprint is tolerable, but too many may result in losing information in the fingerprint.

f:id:patcore:20211105121115p:plain

アルゴリズムの詳細は企業秘密になるためか説明されておらず、よく理解できないです。コンセプトはDaylightのものと同じようです。ChemAxonの検証によると、通常の構造検索では大規模データベースであっても512bitのビット長で十分な一方、類似構造検索では1024bitのビット長が推奨されています。

Extended Connectivity Fingerprint

Chemical Hashed Fingerprint以外にも原子同士の隣接を特徴として抽出したフィンガープリントであるECFPも使われます。Morganアルゴリズムを基にしていますが、ChemAxonが独自にメンテナンスしています。こちらは生成方法が詳しく説明されているため、興味のある方には参考になるのではないかと思います。

f:id:patcore:20211105121107p:plain:w250

ECFPの特徴として、類似構造検索に対してより良い結果を与えます。このため、スクリーニング用途で使われる他、QSAR解析、モデリングにもECFPが記述子として使用されます。ChemAxonの物性値計算プラグインのモデル生成ではECFPが使われているようです。

メトリクス

生成したフィンガープリント同士をメトリクスを用いて比較することにより、構造類似度を算出します。

Tanimoto (Jaccord)

ChemAxonの標準ではTanimoto係数が類似度として求められます。他の検索エンジンでも同様なので、構造の類似度と言えばTanimoto係数のことですね。以下の計算式を使って分子Aと分子BのフィンガープリントのIntersectに対するUnionの割合を求めます。


Tanimoto coefficient = 
 : number of bits set in the fingerprint of molecule A
 : number of bits set in the fingerprint of molecule B
 : number of bits set in the fingerprint of both molecules A and B

余談ですが、Tanimoto係数の名前の元になった方を調べてみました。てっきり日本人だと思っていましたが、Taffee T. Tanimoto（UMass Bostonの名誉教授）という日系アメリカ人の方のようです。ずっと気になっていたのですっきりしました。

Tversky

Tanimotoメトリクスに分子Aと分子Bの重みづけ係数（α, β）を追加したものがTverskyメトリクスです。以下の計算式となります。


Tversky index = 
 : coefficient representing the weight of properties of molecule A, its value is between 0 and 1
 : coefficient representing the weight of properties of molecule B, its value is between 0 and 1

類似構造検索ではクエリとターゲットの類似度を求めますので、この場合αがクエリ構造を、βがターゲット構造の重みづけを行います。ChemAxonでは（α ≈ 1, β ≈ 0）の条件でsuperstructure-like、（α ≈ 0, β ≈ 1）の条件でsubstructure-likeな構造式検索として使われます。

MadFast Similarity Search

ChemAxonの構造検索エンジンにはいくつか種類があります。その中でも類似構造検索に特化した検索エンジンを備えたMadFast³という製品がリリースされています。構造を読み込ませてフィンガープリントを計算させると、専用のUIから超高速の類似構造検索を行うことができます。ベンチマークとして検索スピードが計測されていますが、1600万レコードに対して~80 ms、1億レコードに対して~5 sという脅威的な検索速度を示します。

このMadFastですが、現在ナミキ商事様に採用されており、Enamine社の試薬ライブラリーを類似構造検索できるようになっています。クエリを描画した後リアルタイムに結果が返ってくる類似構造検索を体験してみて下さい。

ナミキ商事様MadFastサイト

フィンガープリントとしてはChemAxonのChemical Hashed Fingerprint（1024bit）を使用しています。メトリクスは画面上から変更できるようになっており、Tanimoto（デフォルト）以外にもtversky、euclidean、diceなどが選べます。

f:id:patcore:20211105121100p:plain

類似度とケミストの評価

ちょうどChemAxonからMadFastを使ったケミカルスペース探索事例に関する記事⁴が出ていました。薬物のアナログ構造をテンプレートとして市販化合部ライブリーをスクリーニングした結果が紹介されています。この中で、2つのテンプレートの類似度の結果が示されています。

f:id:patcore:20211105121103p:plain

上の図において、RIPK1プロジェクトのテンプレートから得られた化合物はSMN2プロジェクトの結果より全体的に低い構造類似度を示しています。この結果についてケミストの方々はどう評価するでしょうか。個人的な意見としてはRIPK1プロジェクトの結果の方がより元構造に似た構造であると感じます。使ったフィンガープリントの詳細は描かれていませんが、おそらくデフォルトのCFPだと思いますので、ECFPを使うと違った結果になるのではないかと思います。構造類似度の算出はこの様に使う方法によりケミストの感覚と合わない結果が得られるので、注意が必要ですね。