Mochis NoticiasCienciaEsta IA te permite escuchar a una persona y silenciar a todos en una multitud
Mochis NoticiasCienciaEsta IA te permite escuchar a una persona y silenciar a todos en una multitud
Ciencia

Esta IA te permite escuchar a una persona y silenciar a todos en una multitud

Esta IA te permite escuchar a una persona y silenciar a todos en una multitud

Imagina que estás en un concierto con tu pareja y quieres decir algo especial cuando empieza a sonar su canción favorita. Sin embargo, te das cuenta de que la música está tan alta que no puedes escuchar tus palabras especiales. ¿Qué puedes hacer?

Probablemente tendrás que posponerlo porque hablar y escuchar a alguien en un ambiente ruidoso y lleno de gente suele ser un desafío. Pero, ¿sabes qué? La IA también puede resolver este desafío.

Un equipo de investigadores de la Universidad de Washington (UW) ha desarrollado un interesante sistema de inteligencia artificial que le permite escuchar a la persona específica que desea en un ambiente lleno de gente utilizando auriculares comunes con cancelación de ruido.

Niño usando auriculares
Niña con auriculares. Créditos de la imagen: Alireza Attari/Unsplash

Todo lo que tienes que hacer es mirar a la persona, presionar un botón y registrarla. El sistema de inteligencia artificial, llamado «Target Speech Hearing» eliminará todos los ruidos y sonidos circundantes. Ahora puedes hablar y escuchar a la persona grabada incluso cuando no esté frente a ti o perdida en algún lugar entre la multitud.

«A medida que los entornos urbanos se vuelven más ruidosos, esta tecnología nos devuelve cierto control sobre nuestra escena acústica y en qué queremos centrarnos. Esto también podría ser muy beneficioso para los audífonos de las personas con pérdida auditiva», afirmó Shyam Gollakota, uno de los investigadores y jefe del Laboratorio de Inteligencia Móvil de la Universidad de Washington. Ciencia ZME.

¿Cómo funciona la escucha de voz dirigida?

Los auriculares con cancelación de ruido disponibles comercialmente eliminan el ruido de su entorno y le permiten escuchar canciones sin ser molestado. Sin embargo, no puede utilizarlos para escuchar un sonido de una persona u objeto en particular. Aquí es donde la escucha del habla objetivo (TSH) puede ayudarle.

¿Alguna vez te has preguntado por qué voces familiares, como las de un querido amigo o de un padre, nos llaman la atención en ambientes llenos de gente? Esto se debe a que nuestro cerebro puede concentrarse en los sonidos de una fuente objetivo, debido al conocimiento previo de cómo suena la fuente.

Por tanto, la TSH funciona de forma similar al cerebro humano. Permite que los auriculares aprendan la voz de un hablante objetivo y en qué se diferencian de otras voces humanas en el entorno. A continuación te explicamos paso a paso su mecanismo de funcionamiento:

  • Un usuario que usa auriculares equipados con TSH hace clic en un botón de los auriculares y mira al hablante objetivo durante unos segundos (de dos a cinco).
  • Durante este tiempo, el sistema captura una muestra de audio ruidosa del objetivo en los micrófonos izquierdo y derecho.
  • El sistema utiliza esta grabación para extraer las características de la voz del hablante incluso cuando hay altavoces y otros sonidos cerca. A esto se le llama etapa de registro.
  • Luego, la red neuronal se entrena según las características de la voz en un período de tiempo de dos a cinco segundos.

Una vez que la IA aprende las características de la voz, cancela todos los demás sonidos del entorno y reproduce solo la voz grabada del hablante en tiempo real, incluso cuando el oyente se mueve en lugares ruidosos y ya no mira al hablante.

«Dado que todo esto sucede en tiempo real, suprimimos efectivamente todos los sonidos excepto, por ejemplo, el canto de los pájaros», dijo Gollakota.

A diferencia de ChatGPT, TSH no necesita centros de datos

Según los investigadores, cuando la gente suele hablar de redes neuronales e inteligencia artificial hoy en día, se refieren a grandes modelos de lenguaje como ChatGPT. Estos modelos funcionan en enormes centros de datos. Sin embargo, la instalación de centros de datos para ejecutar TSH hará que la tecnología no sea práctica.

«Así que tuvimos que diseñar redes neuronales especiales que puedan funcionar en un teléfono inteligente y puedan extraer el sonido que nos interesa en tiempo real. Esto se debe a que el tipo de buena inteligencia que uno necesita para esto probablemente sea algo que incluso los insectos pequeños tienen. Entonces, lo que estamos mostrando aquí es que no necesitamos un modelo neuronal grande para lograr estas tareas», dijo Gollakota. Ciencia ZME.

Los investigadores demostraron la acción de la IA con un par específico de auriculares comerciales con cancelación de ruido. Pero esto puede funcionar con la mayoría de los auriculares con cancelación de ruido. Además, esta tecnología también se puede utilizar para auriculares y audífonos.

Sin embargo, la IA también tiene algunas limitaciones. Por ejemplo, el sistema TSH solo puede grabar un hablante a la vez, y solo puede grabar a un hablante cuando no hay otra voz fuerte proveniente de la misma dirección que la voz del hablante objetivo.

Los investigadores están trabajando para superar estas limitaciones y planean hacer que el sistema de IA esté disponible comercialmente a través de una startup.

“Estamos trabajando para llevar esto a un factor de forma mucho más pequeño, por ejemplo, un auricular inalámbrico o un audífono. Esto sería transformador, ya que podría incluirse en miles de millones de auriculares que la gente usa hoy en día», afirmó Gollakota.

El estudio se publica en Biblioteca Digital ACM.

¡Gracias por tus comentarios!

Source link

Hi, I’m Conchita Garcia

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *