A Geometria dos Penhascos de Atividade: Dependência da Representação e Caracterização Multiescala de Paisagens de Atividade
Penhascos de atividade, que são compostos estruturalmente semelhantes com grandes diferenças de potência, são frequentemente abordados como propriedades intrínsecas de conjuntos.
Pontos-chave
- Em foco: Penhascos de atividade, que são compostos estruturalmente semelhantes com grandes diferenças de potência, são frequentemente abordados como
- Detalhe: Resultado ainda sem revisão por pares
- Leitura editorial: resultado provisório, ainda sem revisão por pares formal.
Penhascos de atividade, definidos como compostos estruturalmente semelhantes que exibem grandes diferenças de potência, são frequentemente considerados propriedades intrínsecas de conjuntos de dados químicos. Contudo, argumentamos que, para além da biologia alvo, uma parcela significativa da nossa compreensão desses penhascos deriva da geometria induzida pela representação molecular selecionada, e não de uma propriedade inerente ao par de moléculas em si.
Para testar sistematicamente essa hipótese, desenvolvemos um pipeline de seis etapas. Este processo inclui a avaliação da geometria da distância aos pares, o enriquecimento do penhasco, a análise da distribuição do gradiente de atividade, a homologia persistente do subespaço do penhasco e, por fim, o benchmarking preditivo para um par específico de incorporação e métrica. Essa abordagem metodológica visa desvendar a influência da representação molecular na caracterização dos penhascos de atividade, fornecendo uma estrutura robusta para a investigação.
O pipeline foi aplicado a um total de quinze configurações distintas de incorporações e métricas. Essa aplicação permitiu a construção de um benchmark abrangente em três conjuntos de dados específicos, todos reconhecidos por apresentarem desafios significativos relacionados aos penhascos de atividade. A diversidade das configurações e dos conjuntos de dados garantiu uma avaliação rigorosa e multifacetada da dependência da representação.
Os resultados revelaram que nenhuma representação molecular se destacou uniformemente em todos os critérios avaliados. A representação Morgan Tanimoto demonstrou o mais forte enriquecimento de penhasco e uma notável capacidade de generalização entre diferentes estruturas. Por outro lado, o cosseno MolFormer foi a única abordagem a fornecer sensibilidade estereoquímica significativa, um aspecto crucial para a compreensão de interações moleculares específicas. As impressões digitais MACCS e RDKit Dice mostraram-se particularmente sensíveis às transformações de pares moleculares correspondentes, indicando sua utilidade em cenários onde pequenas modificações estruturais são relevantes. Em contraste, a representação ChemBERTa falhou de maneira uniforme, atribuída ao colapso de sua incorporação, o que limita sua aplicabilidade neste contexto.
É fundamental compreender que essas descobertas não devem ser interpretadas como uma classificação definitiva das representações moleculares. Pelo contrário, elas refletem a realidade de que diferentes representações codificam aspectos distintos do reconhecimento molecular. Consequentemente, a escolha de uma representação específica define implicitamente a própria natureza e percepção do que constitui um penhasco de atividade. Este estudo sublinha a importância crítica de considerar a dependência da representação ao analisar e interpretar paisagens de atividade, sugerindo que a otimização da representação é tão vital quanto a própria análise dos dados.
Fonte original: arXiv Chemical Physics