Google Duplex: realismo «humano» en una conversación automática

Corina GuzmanAbr 20, 2024

Google Duplex, un salto de gigante para la IA… ¿u otro paso hacia el deep fake definitivo?

A principios de mayo, en Conferencias magistrales de Google I/O 2018 Sundai Pichard presentado Google Dúplex.

Ése es un pequeño paso para un hombre, un gran salto para la humanidad. Neil Armstrong, 20/7/1969

Como puede ver en el vídeo a continuación, Duplex no sólo es capaz de imitar (casi) perfectamente el habla natural, sino que también es capaz de comprender el contexto del discurso y adaptarse al interlocutor.

En publicaciones anteriores, hablando de GAN y Deep fakes, informé de la capacidad de los sistemas de IA actuales para reconstruir rostros con mímicas faciales y sincronización de labios, aprendí de videos de la persona en cuestión y lo hice dar casi todos los discursos gracias a Wavenet. tecnología de prueba a voz.

Pero parece que la generación de audio a partir de textos preempaquetados ya es historia: ahora Wavenet ha sido equipada con voces humanas, como la de John Legend (abajo), para que suene aún más natural.

En los ejemplos relatados por Pichard en la conferencia, Duplex pudo realizar varios tipos de reservas, al mismo tiempo que podía interactuar adecuadamente. El resultado (al menos en estos contextos) es indistinguible de una voz humana. Por supuesto, actualmente la clave era limitar el campo a un dominio específico como las reservas. Estamos (por ahora) lejos de un sistema capaz de iniciar y mantener conversaciones de naturaleza más general, incluso porque la conversación humana requiere cierto nivel de puntos en común entre los interlocutores, para poder anticipar la dirección de la conversación.

Después de todo, incluso los humanos tienen grandes dificultades para mantener conversaciones en áreas totalmente desconocidas. Claro, el que tiene más confianza en sí mismo puede improvisar, pero la improvisación no es más que un intento de devolver el diálogo a un camino más «cómodo».

Cómo funciona

Arquitectura

En el corazón de Duplex, hay una red neuronal recurrente (RNN) construida con TensorFlow Extended (TFX), que según Google es una plataforma de aprendizaje automático de «propósito general». Ese RNN fue entrenado en un conjunto de conversaciones telefónicas adecuadamente anónimas.

La conversación se transforma previamente en texto mediante el ASR (Reconocimiento automático de voz). Este texto luego se suministra como entrada al RNN Duplex, junto con la estructura de audio y los parámetros contextuales de la conversación (por ejemplo, el tipo de cita deseada, la hora deseada, etc.). El resultado será el texto de las frases a pronunciar, que luego serán «leídas en voz alta» de forma adecuada a través de TTS (Text-To-Speech).

Google Duplex funciona utilizando una combinación de Wavenet para la parte ASR (reconocimiento automático de voz) y Tacotron para TTS.

Arquitectura dúplex de Google — Google Dúplex – arquitectura

Naturaleza

Para sonar más natural, Duplex inserta pausas ad hoc, como «mmh», «ah», «oh!», que reproducen las mismas «faltas de fluidez» humanas, que suenan más familiares a la gente.

Además, Google también ha trabajado en la latencia de las respuestas, que deben alinearse con las expectativas del interlocutor. Por ejemplo, los humanos tendemos a esperar latencias bajas en respuesta a estímulos simples, como saludos, o frases como «no entiendo». En algunos casos, Duplex ni siquiera espera el resultado de RNN, sino que utiliza aproximaciones más rápidas, quizás junto con respuestas más inciertas, para simular dificultades de comprensión.

Cuestiones éticas y morales.

Si bien esta tecnología y estos resultados sin duda han causado asombro, también es cierto que esta precisa indistinción virtual de la voz humana suscita perplejidad a más de uno.

Por un lado, está sin duda la potencial utilidad de este sistema, como la posibilidad de realizar reservas de forma automática cuando no sea factible (por ejemplo cuando estás en el trabajo), o como ayuda a personas con discapacidad como sordera o disfasia. . Por otro lado, sobre todo teniendo en cuenta los avances de las tecnologías complementarias como la síntesis de vídeo, queda claro que el riesgo de crear deepfakes tan realistas que sean totalmente indistinguibles de la realidad se está convirtiendo en más que una posibilidad.

Muchos argumentan que es necesario advertir al interlocutor que está hablando con una inteligencia artificial. Sin embargo, este enfoque parece poco realista (¿deberíamos hacerlo obligatorio por ley? ¿Qué ley? ¿Con qué jurisdicción? ¿Y cómo implementarlo de todos modos?), pero también puede socavar la eficacia del sistema, ya que las personas tienden a comportarse de manera diferente. . una vez que saben cómo hablar con una máquina, no importa cuán realistas sean.

Notas

Según Google, esto permite tener menos de 100 ms de latencia de respuesta en estos casos. Paradójicamente, en otros casos se descubrió que introducción una mayor latencia (por ejemplo, en el caso de respuestas a preguntas particularmente complejas) ayudó a que la conversación pareciera más natural.

ENLACES

Google Duplex: un sistema de inteligencia artificial para realizar tareas del mundo real por teléfono

Comentario: Google Duplex no es lo único anunciado en I/O que tiene implicaciones para la sociedad

Las rutinas del Asistente de Google comienzan la implementación inicial y reemplazan ‘Mi día’

Google I/O es un festival para desarrolladores que se celebra del 8 al 10 de mayo en el Shoreline Amphitheatre de Mountain View, CA.

El futuro del Asistente de Google: ayudándote a hacer cosas para devolverte el tiempo

¿Es Google Duplex ético y moral?

Decida si temer o celebrar la demostración de Brain AI de Google

Google Duplex pasó la prueba de Turing: ¿estamos condenados?

Andrea ha trabajado en TI durante casi 20 años, cubriendo todo, desde desarrollo hasta análisis de negocios y gestión de proyectos.
Hoy podemos decir que es un gnomo desenfadado, apasionado de las Neurociencias, la Inteligencia Artificial y la fotografía.

Source link

Hi, I’m Corina Guzman

All My Articles

Google Duplex: realismo «humano» en una conversación automática