Evo 2: la IA generativa que puede reescribir el ADN de todas las especies vivas

Evo 2: la IA generativa que puede reescribir el ADN de todas las especies vivas

Un equipo de investigadores de Stanford, NVIDIA y el Arc Institute presentó Evo 2, una herramienta de inteligencia artificial de código abierto capaz de predecir la forma y función de proteínas codificadas en el ADN de prácticamente cualquier forma de vida sobre la Tierra y de generar secuencias genéticas completamente nuevas que nunca han existido en la naturaleza.

Evo 2 fue desarrollada por un equipo multidisciplinario co-liderado por Brian Hie, profesor asistente de ingeniería química en Stanford y afiliado al Stanford HAI, con financiamiento parcial de los Hoffman-Yee Grants del Instituto.

La herramienta funciona de manera análoga a un modelo de lenguaje como ChatGPT, pero en lugar de predecir la siguiente palabra de una oración, predice el siguiente nucleótido en una secuencia de ADN. Al igual que un procesador de lenguaje natural completa texto a partir de patrones aprendidos, Evo 2 completa y genera código genético tomando como base los patrones que identificó en miles de genomas.

Lo que distingue a Evo 2 de su predecesor es la escala de su entrenamiento. Mientras que Evo 1 fue entrenado con alrededor de 113,000 genomas de organismos simples como bacterias y arqueas, Evo 2 incorpora los genomas de unas 15,000 plantas y animales, incluidos los humanos, expandiendo el conjunto de datos de aproximadamente 300 mil millones de nucleótidos a casi 9 billones. Por razones de seguridad, los genomas de virus fueron excluidos deliberadamente para evitar que el modelo pudiera usarse para crear enfermedades nuevas o más peligrosas.

Una de sus capacidades más relevantes es la ventana de contexto: Evo 2 puede procesar secuencias de hasta un millón de nucleótidos, lo que permite explorar interacciones de largo alcance entre genes que no están físicamente cercanos en la molécula de ADN. Esto abre la posibilidad de detectar conexiones entre genes que trabajos anteriores simplemente no podían ver.

En el terreno clínico, el modelo ha demostrado ser capaz de distinguir entre mutaciones genéticas aleatorias e inofensivas y aquellas que pueden derivar en cáncer u otras enfermedades, una distinción que hoy requiere procesos de laboratorio lentos y costosos.

El flujo de trabajo que propone Evo 2 es el siguiente: el modelo genera una secuencia genética candidata, predice si existe en la naturaleza y estima cómo se comportaría en un organismo vivo; luego los investigadores sintetizan el ADN en el laboratorio y lo insertan en células reales mediante herramientas como CRISPR para validar los resultados. Lo que en condiciones normales podría tomar años, o milenios, en el caso de la evolución natural, puede hacerse ahora en minutos u horas.

Evo 2 está disponible como herramienta de código abierto y acceso libre, lo que, según sus creadores, era una condición necesaria dado su potencial impacto en la investigación sobre enfermedades humanas.