El robot impulsado por chatbot DeepMind de Google es parte de una revolución más grande

Corina GuzmanJul 11, 2024

En una ruidosa oficina de planta abierta en Mountain View, California, un robot alto y delgado con ruedas estaba ocupado haciendo de guía turístico y ayudante de oficina informal, gracias a una importante mejora en el modelo de lenguaje, reveló hoy Google DeepMind. El robot utiliza la última versión del modelo de lenguaje Gemini de Google tanto para analizar comandos como para encontrar su camino.

Cuando un humano me dice «Encuéntrame en algún lugar para escribir», por ejemplo, el robot despega obedientemente y lleva a la persona a una pizarra blanca impecable ubicada en algún lugar del edificio.

La capacidad de Gemini para manejar vídeo y texto, además de su capacidad para ingerir grandes cantidades de información en forma de recorridos por la oficina en vídeo pregrabados, permite que el robot «Ayudante de Google» tenga sentido de su entorno y navegue correctamente cuando se le dan órdenes que lo requieren. algún razonamiento de sentido común. El robot combina Gemini con un algoritmo que genera acciones específicas que debe realizar el robot, como girar, en respuesta a órdenes y lo que ve frente a él.

Cuando se presentó Gemini en diciembre, Demis Hassabis, director ejecutivo de Google DeepMind, dijo a WIRED que sus capacidades multimodales probablemente abrirán nuevas capacidades robóticas. Añadió que los investigadores de la empresa están trabajando arduamente para probar el potencial robótico del modelo.

En un nuevo artículo que describe el proyecto, los investigadores detrás del trabajo dicen que su robot demostró ser hasta un 90 por ciento confiable en la navegación, incluso cuando se le dieron comandos complicados como «¿Dónde dejé mi montaña rusa?» El sistema de DeepMind «mejoró significativamente la naturalidad de la interacción entre humanos y robots y aumentó considerablemente la usabilidad del robot», escribe el equipo.

Foto de un empleado de Google DeepMind interactuando con un robot de IA.

La demostración realmente muestra el potencial de los modelos de lenguaje grandes para llegar al mundo físico y realizar un trabajo útil. Gemini y otros chatbots operan principalmente dentro de los límites de un navegador web o una aplicación, aunque son cada vez más capaces de manejar información visual y auditiva, como han demostrado recientemente tanto Google como OpenAI. En mayo, Hassabis mostró una versión actualizada de Gemini capaz de dar sentido al diseño de una oficina vista a través de la cámara de un teléfono inteligente.

Los laboratorios de investigación académicos e industriales están compitiendo para ver cómo se pueden utilizar los modelos de lenguaje para mejorar las capacidades de los robots. El programa de mayo para la Conferencia Internacional sobre Robótica y Automatización, un evento popular para investigadores de robótica, enumera casi dos docenas de artículos que involucran el uso de modelos de lenguaje visual.

Los inversores están invirtiendo dinero en nuevas empresas que pretenden aplicar los avances de la IA a la robótica. Desde entonces, varios de los investigadores involucrados en el proyecto de Google dejaron la compañía para fundar una startup llamada Physical Intelligence, que recibió una financiación inicial de 70 millones de dólares; está trabajando para combinar grandes modelos lingüísticos con entrenamiento en el mundo real para brindar a los robots habilidades generales de resolución de problemas. Skild AI, fundada por expertos en robótica de la Universidad Carnegie Mellon, tiene un objetivo similar. Este mes anunció una financiación de 300 millones de dólares.

Hace apenas unos años, un robot necesitaba un mapa de su entorno y comandos cuidadosamente seleccionados para navegar con éxito. Los grandes modelos de lenguaje contienen información útil sobre el mundo físico, y las versiones más nuevas que se basan en imágenes y videos, así como en texto, conocidas como modelos de lenguaje de visión, pueden responder preguntas que requieren percepción. Gemini permite que el robot de Google proporcione instrucciones visuales y habladas, siguiendo un boceto en una pizarra que muestra una ruta hacia un nuevo destino.

En su artículo, los investigadores dicen que planean probar el sistema en diferentes tipos de robots. Añaden que Géminis debería poder entender preguntas más complejas, como «¿Tienen mi bebida favorita hoy?» por un usuario con muchas latas de Coca-Cola vacías en su escritorio.

Source link