OpenAI cuestiona cómo evaluar modelos de IA superhumanos y garantizar seguridad en sistemas

OpenAI cuestiona cómo evaluar modelos de IA superhumanos y garantizar seguridad en sistemas

OpenAI realizó dos publicaciones en las que expuso las problemáticas que enfrenta la IA en cuanto a su seguridad en dos aspectos: la evaluación de futuros modelos que rebasen  las capacidades humanas y el uso seguro de sistemas complejos que realicen tareas más allá de las capacidades de los usuarios. En ninguno de los casos lograron obtener respuestas concretas. 

Investigadores de OpenAI están preocupados por la autonomía y los riesgos que puede implicar una Inteligencia Artificial (IA) superhumana, es decir cuando un modelo llega a ser superior al coeficiente y las habilidades humanas, y cómo garantizar que su uso será seguro. Este 14 de diciembre, la compañía publicó dos papers en los que abordó estas problemáticas.

El equipo de investigadores planteó en el documento titulado «Generalización débil-a-fuerte: obteniendo capacidades fuertes con supervisión débil», la posibilidad de que un modelo hipotético de IA superior a la inteligencia humana sea entrenado por otros modelos menos desarrollados, un método al que llamaron «generalización de débil-a-fuerte», que permitiría que modelos superhumanos fueran entrenados de manera segura, toda vez que la supervisión humana o retroalimentación humana [RLHF, Reinforcement learning from human feedback] fuera rebasada o ya no fuera confiable, como es el caso de la supervisión de extensas líneas de código.

En campo que desarrolla al IA, el término «alienar» [alignment] significa que los modelos sean capaces de desarrollar las tareas para los que fueron desarrollados; cuando el modelo es competente pero no logra cumplir con los objetivos de sus creadores, se considera que el modelo «no está alineado». El término «superalineado» [superalignment], se aplica de la misma manera a modelos que son superiores a la inteligencia humana.

Los modelos actuales son alineados a través de métodos como la RLHF, a través de esta técnica, algunas personas realizan evaluaciones de los modelos de IA aprobando el comportamiento deseado y rechazando el indeseado. Esta retroalimentación permite después al modelo reproducir el mismo tipo de evaluaciones. Modelos como GPT han sido exitosos en implementar este método de alineación. Sin embargo, surge un problema, cuando el modelo ya no puede ser evaluado de manera certera por un ser humano al ser rebasado en sus capacidades. Los investigadores de OpenAI son conscientes de que este es un problema para los modelos superhumanos que habrá en el futuro, porque no existen herramientas disponibles para evaluarlos.

En un experimento los investigadores de IA propusieron utilizar modelos previamente entrenados para observar si un modelo menos desarrollado puede entrenar a un más sofisticado. Para esta tarea, pusieron en observación al modelo GPT-2, considerado débil, a supervisar al modelo GPT-4, considerado fuerte al ser de una generación más reciente. En este experimento probaron a GPT-2  evaluar a GPT-4 en tres entornos: un gran conjunto da datos de lenguaje natural, acertijos de ajedrez y un conjunto de datos de modelo de recompensas ChatGPT.

Los investigadores encontraron que los modelos fuertes entrenados con etiquetas generadas por modelos débiles pueden superarlos. Sin embargo, continúa existiendo una brecha sustancial y en ninguna de las pruebas funcionó por completo el método de entrenamiento de débil-a-fuerte. El modelo GPT-4 no logró superar al modelo GPT-2 en muchos aspectos, sobre todo en la prueba de ajedrez.

GOVERNANZA DE LA IA
OpenAI publicó un segundo documento titulado «Prácticas para gobernar agentes con sistemas de IA», en el que los investigadores exponen su preocupación por la seguridad y el uso responsable de la IA.

Los investigadores propusieron una definición para los agentes con sistemas de IA, los cuales explicaron, son más complejos que los modelos limitados que se centran, por ejemplo en la generación de imágenes o la resolución de respuestas. Estos agentes pueden completar tareas que están por encima de las habilidades de los usuarios. Sin embargo, existe una limitante, ya que estos sistemas deben apegarse a estándares de seguridad y ética.

OpenAI propone resolver la vulnerabilidad de estos sistemas a fallos mediante la creación de «incentivos» que implican que una entidad humana sea responsable de posibles daños. El documento también menciona otras alternativas propuestas por otros expertos, consideradas como más radicales. Entre estas propuestas destacan la creación de una personalidad jurídica de los agentes junto con el empleo de un seguro obligatorio y el empleo de regímenes regulatorios. Sin embargo, los investigadores sugirieron que estas medidas pueden ser insuficientes para promover compensaciones, sobre todo en el ámbito de la seguridad, la usabilidad, la privacidad y el costo.

Los investigadores admitieron que estas cuestiones no pueden ser resueltas únicamente por los desarrolladores de los sistemas y requieren de ser abordadas por la sociedad.