分子生成モデルの学習・推論で使われる文字列表現は、SMILES と SELFIES の二択が長らく続いてきた。SMILES は人間可読で多様性に富む一方、文法的に正しく見えるトークン列でも有効分子を表さないケースが多発する。これに対し SELFIES は全文字列が必ず有効分子に対応する設計だが、語彙拡張による副作用が見過ごされてきた。
既存研究は validity 単独で表現を比較しており、生成の「使える化合物率」と「学習分布との一致度」を分離評価する枠組みが不在だった。
→ 表現が信頼できない限り、下流の REINVENT・Transformer 系生成モデルの設計判断は揺らぎ続ける。
SELFIES 文法単純化(アルコール・アミン特化制約の緩和)も検討したが fidelity 改善は限定的。表現の修正よりも SMILES 拡張のほうが効果が大きい。
canonical SMILES は 5本に1本が無効。ClearSMILES は約 1/9 に削減。SELFIES は文法保証で 0%。
SELFIES は MW・logP・QED の 分布が学習データから逸脱。ClearSMILES は SMILES 同等の高忠実度を保つ。
3 段の前処理だけで既存生成モデルにそのまま接続可能。モデル本体の変更は不要。
| 指標 | 定義 | 狙い |
|---|---|---|
| validity | RDKit でパース可能な SMILES の割合 | 文法的正しさ |
| uniqueness | 重複を除いた分子の割合 | 多様性確保 |
| novelty | 学習データに含まれない分子の割合 | 新規生成 |
| viability | validity × uniqueness × novelty | 使える化合物率 |
| KL(MW) | 分子量分布の KLダイバージェンス | 物性整合 |
| KL(logP) | logP 分布の KLダイバージェンス | 物性整合 |
| KL(QED) | QED 分布の KLダイバージェンス | 薬らしさ整合 |
| fidelity | FCD (Frechet ChemNet Distance) | 分布忠実度 |
validity 単独評価では SELFIES の fidelity 低下が見えない。viability×fidelity の二軸評価で両表現の長短を初めて分離できる。