La IA no puede decir lo que estás pensando (todavía)

Conchita GarciaOct 15, 2024

Una nueva investigación muestra que la inteligencia artificial no puede percibir los deseos y objetivos tácitos de los humanos tan bien como nosotros.

Como seres inherentemente sociales, los humanos pueden inferir las emociones y los estados mentales de los demás a partir de una variedad de fuentes: observar sus acciones, escuchar sus conversaciones, aprender de su comportamiento pasado, etc.

Los investigadores cognitivos llaman a esto “Teoría de la Mente” o ToM: la capacidad de atribuir estados mentales latentes, como metas, creencias y deseos, a otros individuos en función del comportamiento observado.

Aunque sobresale en muchas áreas, la inteligencia artificial no es rival para los humanos en este sentido, al menos no todavía, según un equipo de investigación que incluye a Tianmin Shu, profesor asistente de ciencias de la computación en la Escuela de Ingeniería Whiting de Johns Hopkins.

«Comprender lo que otros piensan o sienten es crucial para desarrollar máquinas que puedan interactuar con las personas de una manera socialmente inteligente», dice Shu, que ocupa un puesto secundario en el departamento de ciencia cognitiva de la Escuela Krieger de la Universidad Johns Hopkins.

«Por ejemplo, un robot doméstico necesita esta capacidad de comprender lo que alguien quiere o necesita para poder ayudarle de forma más eficaz en la vida cotidiana».

Para explorar si los modelos de IA pueden comprender a los humanos utilizando información de múltiples fuentes, Shu y su equipo crearon el primer conjunto de datos estandarizado que refleja las verdaderas complejidades de las tareas de razonamiento que enfrentan los sistemas de IA del mundo real, como los asistentes de IA y los robots cuidadores. El conjunto de pruebas del equipo incluye 134 vídeos y descripciones de texto de personas que buscan objetos comunes en un entorno doméstico.

Los investigadores probaron modelos de lenguaje grande multimodales avanzados y humanos sobre su capacidad para predecir qué objetos querían encontrar las personas en los videos y dónde creían que los encontrarían.

El equipo descubrió que los humanos comprendían mejor los pensamientos y las intenciones de los demás cuando tenían acceso a diversas fuentes de información. En contraste, incluso los modelos de IA más avanzados, como el GPT-4V de OpenAI, han tenido problemas con tales tareas, confundiendo a menudo lo que realmente está sucediendo con lo que una persona cree que está sucediendo y teniendo dificultades para rastrear los cambios en los pensamientos de las personas a lo largo del tiempo.

Basándose en estos hallazgos, los investigadores crearon su propio modelo ToM, que logró resultados mucho mejores. Su enfoque primero traduce las entradas de video y texto en una notación comprensible, capturando la escena física y las acciones de la persona dentro de ella. Luego, en lugar de relacionarlos directamente con las creencias y objetivos de la persona, el modelo utiliza una combinación de planificación inversa bayesiana (un método de ToM basado en la cognición diseñado originalmente para datos visuales) y modelos lingüísticos más pequeños refinados en datos de actividad humana para deducir al máximo. acciones probables posibles debido al hipotético estado mental de una persona y al estado de su entorno.

«Nuestro método muestra resultados prometedores porque utiliza representaciones simbólicas que funcionan bien con diferentes tipos de información», afirma Chuanyang Jin, estudiante de doctorado de primer año asesorado por Shu.

«También es poderoso gracias a un enfoque de planificación inversa que imita el razonamiento humano y puede escalar bien y adaptarse a nuevos escenarios debido a la flexibilidad inherente a los modelos de lenguaje».

Todo esto da como resultado un mejor rendimiento en el conjunto de pruebas principal del equipo y permite que el modelo generalice al comportamiento humano real en situaciones en las que no ha sido entrenado. Los investigadores planean ampliar su trabajo para incluir escenarios, emociones humanas y limitaciones situacionales más diversos para imitar mejor las tareas de razonamiento que los sistemas de IA probablemente encuentren en la vida real.

«Nuestra investigación destaca importantes fallos en los modelos actuales de IA y sugiere formas prometedoras de mejorarlos», afirma Shu.

«Al compartir estos conocimientos, nuestro objetivo es ayudar a otros a crear modelos de IA que puedan comprender mejor y trabajar junto a las personas, lo que en última instancia conducirá a máquinas que realmente pongan a los humanos en el centro de su diseño».

Para obtener más información sobre su trabajo, visite el sitio web del proyecto del equipo.

Los investigadores presentaron su trabajo en la 62ª Reunión Anual de la Asociación de Lingüística Computacional el mes pasado.

Otros autores de este trabajo provienen de la Universidad de Harvard; el Instituto de Tecnología de Massachusetts; la Universidad de California, San Diego; y la Universidad de Virginia.

Fuente: Jaimie Patterson para la Universidad Johns Hopkins

Source link