Predição Interpretável da Função Enzimática por Meio de Recursos Esparsos de Autoencoder ESMC no Universo de Proteínas Microbianas
Milhões de proteínas em genomas e metagenomas microbianos possuem funções enzimáticas ainda desconhecidas, constituindo a chamada 'matéria escura enzimática'.
Pontos-chave
- Em foco: Milhões de proteínas em genomas e metagenomas microbianos possuem funções enzimáticas ainda desconhecidas, constituindo a chamada 'matéria escura
- Detalhe: Resultado ainda sem revisão por pares
- Leitura editorial: resultado provisório, ainda sem revisão por pares formal.
Neste contexto, apresentamos uma metodologia inovadora que utiliza recursos esparsos de autoencoder (ESMC-SAE) para permitir a predição precisa e interpretável do número da Comissão Enzimática (EC). Uma das principais vantagens dessa abordagem é a sua capacidade de operar sem a necessidade de treinamento específico para cada tarefa ou de computação intensiva em unidades de processamento gráfico (GPU), tornando-a altamente escalável e acessível. Os recursos ESMC-SAE são projetados para capturar informações essenciais sobre as proteínas de forma eficiente, permitindo uma análise mais profunda e mecanisticamente compreensível das suas funções.
A eficácia dos recursos binários ESMC-SAE foi rigorosamente avaliada em um conjunto de referência equilibrado, composto por 4.868 enzimas microbianas do SwissProt, distribuídas em 161 subclasses EC3. Os resultados demonstraram um desempenho notável, com uma precisão top-1 de 78, 9% e uma precisão top-5 de 88, 5%. Esses valores representam um avanço significativo, superando em 37, 6% as linhas de base baseadas em 3-mer, que alcançaram 57, 3% de precisão. Essa melhoria substancial sublinha a superioridade do método ESMC-SAE na identificação e classificação de funções enzimáticas em um cenário complexo e diversificado.
Para simular a descoberta de novas classes de enzimas, realizamos uma avaliação de "deixar uma classe EC3 de fora" (leave-one-class-out). Nesse cenário desafiador, os recursos SAE foram capazes de recuperar a superclasse EC1 em 47, 7% dos casos, o que representa um aumento de 3, 3 vezes em relação a uma predição aleatória (14, 3%). Em contraste, os métodos baseados em sequência alcançaram apenas 26, 6% de recuperação. Esse resultado é particularmente relevante, pois demonstra a robustez e a capacidade do ESMC-SAE de generalizar para funções enzimáticas ainda não caracterizadas, abrindo caminho para a identificação de atividades catalíticas verdadeiramente novas.
A interpretabilidade é um pilar central da nossa abordagem. As características discriminativas identificadas pelo ESMC-SAE correspondem a conceitos mecanicamente compreensíveis, fornecendo insights valiosos sobre os mecanismos de ação enzimática. Por exemplo, a geometria da tríade catalítica foi associada a hidrolases, enquanto as dobras de Rossmann, que se ligam a NAD(P)H, foram correlacionadas com oxidoredutases. Da mesma forma, as alças P, responsáveis pela ligação a fosfato, foram consistentemente ligadas a transferases. Essa correspondência direta entre as características do modelo e os princípios bioquímicos conhecidos reforça a confiança nas predições e facilita a compreensão dos fundamentos moleculares da função enzimática.
A escalabilidade do método foi demonstrada pela sua aplicação ao Atlas ESM, um vasto repositório contendo 7, 7 milhões de clusters de proteínas. Por meio dessa análise em larga escala, identificamos 169.859 candidatos a "enzimas escuras" em todos os principais filos microbianos. Essa descoberta massiva de potenciais novas enzimas sublinha o poder do ESMC-SAE em explorar o vasto e inexplorado universo de proteínas microbianas, fornecendo um recurso valioso para futuras investigações experimentais e para a expansão do nosso catálogo de funções enzimáticas.
Em suma, nossos resultados estabelecem um novo paradigma para a descoberta da função enzimática na matéria escura microbiana. Este paradigma é notável por ser interpretável por design, escalável sem a necessidade de clusters de GPU e aplicável aos bilhões de proteínas presentes no Atlas ESM. A capacidade de prever funções enzimáticas de forma precisa e compreensível, mesmo para classes desconhecidas, representa um avanço significativo no campo da bioinformática e da biologia enzimática, prometendo acelerar a caracterização de novas atividades catalíticas e a exploração do potencial biotecnológico dos microrganismos.
Fonte original: arXiv Quantitative Biology