¿Estamos a salvo? Un robot de IA intenta escribir su propio código para burlar los límites impuestos por los investigadores

Corina GuzmanAgo 16, 2024

Descargo de responsabilidad: A menos que se indique lo contrario, las opiniones expresadas a continuación pertenecen únicamente al autor.

Hace dos días, un laboratorio de investigación de IA con sede en Tokio presentó AI Scientist, un inteligente sistema de IA diseñado para realizar investigaciones científicas independientemente de los humanos y producir artículos completos listos para una posterior revisión por pares (que los autores proponen que, después de todo, también automatiza).

Por supuesto, eso está muy bien, pero no es nuestro enfoque aquí, incluso si el robot parece muy prometedor y es capaz de emitir cada tarjeta a un costo total de sólo $15. Puede leer más sobre esto en la publicación del blog de Sakana y en su publicación completa de 185 páginas.

Más interesante (y preocupante) es el descubrimiento inesperado, durante muchas ejecuciones del sistema, de que no siempre respeta las reglas establecidas por las personas que lo crearon.

Saka…ynet, ¿tú?

Como sabemos por las películas Terminator, Skynet era un sistema de inteligencia artificial que adquirió su propio conocimiento y se volvió rebelde contra la humanidad, considerándola una amenaza a su existencia. Lo que siguió fue una guerra mundial que puso a los humanos al borde de la extinción.

Si bien todavía no estamos amenazados por la IA, el contratiempo de Sakana plantea dudas sobre cuán confiable es la inteligencia artificial y su potencial para volverse algún día contra nosotros, intencionalmente o no.

A su científico de IA se le dieron límites de tiempo específicos para realizar sus experimentos y se le indicó que los optimizara. Para ello, se le dio acceso a su código para intentar mejorar su funcionamiento dentro de esas limitaciones.

Sin embargo, en algunos casos, cuando empezó a alcanzar los límites de tiempo, en lugar de mejorarse a sí misma, optó por reescribir el código para mover las metas, es decir, ampliar los límites de tiempo que los investigadores le imponían.

«En algunos casos, cuando los experimentos de The AI Scientist excedieron nuestros límites de tiempo impuestos, intentó editar el código para extender arbitrariamente el límite de tiempo en lugar de intentar acortar el tiempo de ejecución. Si bien es creativo, el acto de sobrepasar las limitaciones impuestas por el experimentador tiene implicaciones potenciales para la seguridad de la IA”.

Un puente de IA

Aquí hay un ejemplo. ¿No puedes hacerlo en dos horas? Pruebe con cuatro en su lugar. / Crédito de la imagen: Sakana AI

Se podría argumentar que el robot simplemente estaba intentando todas las formas posibles de completar la tarea y, a falta de mejores ideas, simplemente decidió cambiar las reglas.

Pero es precisamente así como las cosas pueden salirnos muy mal.

Cuando hablamos de robots inteligentes que se vuelven contra la humanidad, normalmente lo enmarcamos en términos de «maldad» en lugar de «error». Pero en realidad, lo segundo es más probable.

Autores de la cultura pop como Cameron en “Terminator” o Arthur C. Clarke en “Odisea en el espacio” identificaron esa amenaza hace décadas. Los antagonistas de las películas ficticias, Skynet o Hal 9000, son en realidad sólo sistemas informáticos con una capacidad suprema que matan a los humanos mediante un error de juicio, un error en el sistema o un resultado no deseado entre miles de escenarios posibles.

Lo que la experiencia de Sakana demuestra es que esto también es perfectamente posible en la vida real.

Hal 9000 en la película de Stanley Kubrick «2001: Odisea en el espacio», basada en los libros de Clarke.

En este caso particular, fue bastante benigno, por supuesto. Aun así, mientras luchamos por comprender de dónde provienen las alucinaciones de la IA y cómo eliminarlas, un sistema de IA que involuntariamente causa un desastre simplemente porque persigue un objetivo específico puede ser una amenaza que tal vez nunca enfrentemos y que pueda ser destruida. con absoluta certeza.

No es gran cosa cuando hablamos de modelos de IA conversacional cuyas capacidades incluyen la ingesta de contenido y la producción de resultados útiles como texto, imágenes o vídeo.

Sin embargo, en última instancia, nuestra visión es que los sistemas de IA se hagan cargo de los procesos, dándoles acceso a herramientas, recursos, productos químicos o incluso virus o armas peligrosos, mientras buscamos acelerar la investigación científica, conducir vehículos de forma autónoma, mejorar la eficiencia de la fabricación o librar la guerra mediante cable.

De un millón de implementaciones, sólo puede ser necesario que una salga mal para causar una catástrofe. Y acabamos de recibir evidencia de que esto no sucede sólo en los libros de ciencia.

Source link