Mochis NoticiasCienciaEstudio: a menudo falta transparencia en los conjuntos de datos utilizados para entrenar modelos de lenguaje grandes
Mochis NoticiasCienciaEstudio: a menudo falta transparencia en los conjuntos de datos utilizados para entrenar modelos de lenguaje grandes
Ciencia

Estudio: a menudo falta transparencia en los conjuntos de datos utilizados para entrenar modelos de lenguaje grandes

Estudio: a menudo falta transparencia en los conjuntos de datos utilizados para entrenar modelos de lenguaje grandes

Para entrenar modelos de lenguajes grandes más sólidos, los investigadores utilizan vastas colecciones de conjuntos de datos que combinan datos diversos de miles de fuentes web.

Pero a medida que estos conjuntos de datos se combinan y recombinan en múltiples colecciones, a menudo se pierde o se pierde en la confusión información importante sobre sus orígenes y las limitaciones sobre cómo pueden usarse.

Esto no sólo plantea preocupaciones legales y éticas, sino que también puede dañar el rendimiento de un modelo. Por ejemplo, si un conjunto de datos está mal categorizado, alguien que entrene un modelo de aprendizaje automático para una determinada tarea puede, sin saberlo, terminar utilizando datos que no están diseñados para esa tarea.

Además, los datos de fuentes desconocidas pueden contener sesgos que hacen que un modelo haga predicciones injustas cuando se implementa.


Abraza el encanto de la nostalgia con nuestra camiseta con gráfico de Pooh-Bear de inspiración vintage. El «Winnie» de Winnie-the-Pooh se basó en un oso pardo canadiense, también conocido como Ursus americanus, llamado Winnipeg.

Para mejorar la transparencia de los datos, un equipo de investigadores multidisciplinarios del MIT y otros lugares lanzaron una auditoría sistemática de más de 1.800 conjuntos de datos de texto en sitios de alojamiento populares. Descubrieron que más del 70 por ciento de estos conjuntos de datos omitían alguna información de licencia, mientras que alrededor del 50 por ciento tenía información que contenía errores.

Con estos conocimientos, desarrollaron una herramienta fácil de usar llamada Data Provenance Explorer que genera automáticamente resúmenes fáciles de leer de los creadores, fuentes, licencias y usos permitidos de un conjunto de datos.

«Este tipo de herramientas pueden ayudar a los reguladores y profesionales a tomar decisiones informadas sobre la implementación de la IA y promover el desarrollo responsable de la IA», dice Alex «Sandy» Pentland, profesor del MIT, líder del Grupo de Dinámica Humana en el MIT Media Lab, y co -autor de un nuevo artículo de acceso abierto sobre el proyecto.


Al hacer clic en enviar, acepta compartir su dirección de correo electrónico con el propietario del sitio y Mailchimp para recibir marketing, actualizaciones y otros correos electrónicos del propietario del sitio. Utilice el enlace para cancelar la suscripción en esos correos electrónicos para cancelar su suscripción en cualquier momento.

Tratamiento…

¡Éxito! Estás en la lista.

¡Vaya! Se produjo un error y no pudimos procesar su suscripción. Vuelva a cargar la página e inténtelo de nuevo.


Data Provenance Explorer puede ayudar a los profesionales de la IA a crear modelos más eficaces al permitirles seleccionar conjuntos de datos de entrenamiento que coincidan con el propósito previsto de su modelo. A largo plazo, esto podría mejorar la precisión de los modelos de IA en situaciones del mundo real, como las que se utilizan para evaluar solicitudes de préstamos o responder a las consultas de los clientes.

“Una de las mejores formas de comprender las capacidades y limitaciones de un modelo de IA es comprender con qué datos se entrenó. Cuando hay una atribución errónea y confusión sobre el origen de los datos, surge un grave problema de transparencia», afirma Robert Mahari, estudiante de posgrado del MIT Human Dynamics Group, candidato a doctorado en Derecho en la Facultad de Derecho de Harvard y coautor principal del estudio. papel.

A Mahari y Pentland se unen en el artículo la coautora principal Shayne Longpre, estudiante de posgrado en el Media Lab; Sara Hooker, que dirige el laboratorio de investigación de IA Cohere; así como otros en el MIT, la Universidad de California en Irvine, la Universidad de Lille en Francia, la Universidad de Colorado en Boulder, Olin College, la Universidad Carnegie Mellon, Contextual AI, ML Commons y Tidelift. La investigación se publica hoy en La inteligencia artificial de la naturaleza.

Centrarse en terminar

Los investigadores suelen utilizar una técnica llamada ajuste para mejorar las capacidades de un modelo de lenguaje grande que se implementará para una tarea específica, como la respuesta a preguntas. Para realizar ajustes, construyen cuidadosamente conjuntos de datos seleccionados diseñados para mejorar el rendimiento de un modelo para esta tarea.

Los investigadores del MIT se centraron en estos conjuntos de datos de ajuste, que a menudo son desarrollados por investigadores, organizaciones académicas o empresas y tienen licencia para usos específicos.

Cuando las plataformas de colaboración colectiva agregan estos conjuntos de datos en colecciones más grandes para que los profesionales los utilicen para perfeccionarlos, parte de esa información de licencia original a menudo se deja atrás.

«Estas licencias deben ser importantes y deben poder hacerse cumplir», afirma Mahari.

Por ejemplo, si los términos de licencia de un conjunto de datos son incorrectos o faltan, alguien puede gastar mucho dinero y tiempo desarrollando un modelo que puede verse obligado a eliminar más adelante porque algunos datos de entrenamiento contenían información privada.

«Las personas pueden terminar entrenando modelos en los que ni siquiera comprenden las capacidades, preocupaciones o riesgos de esos modelos, que en última instancia surgen de los datos», añade Longpre.

Para comenzar este estudio, los investigadores definieron formalmente la procedencia de los datos como la combinación de la herencia de fuentes, la creación y licencia de un conjunto de datos, así como sus características. A partir de ahí, desarrollaron un procedimiento de auditoría estructurado para rastrear la procedencia de los datos de más de 1.800 colecciones de conjuntos de datos de prueba de repositorios en línea populares.

Después de descubrir que más del 70 por ciento de estos conjuntos de datos contenían licencias «no especificadas» que omitían mucha información, los investigadores trabajaron hacia atrás para llenar los vacíos. Gracias a sus esfuerzos, han reducido el número de conjuntos de datos con licencias «no especificadas» a aproximadamente el 30 por ciento.

Su trabajo también demostró que las licencias correctas eran a menudo más restrictivas que las asignadas por los repositorios.

Además, descubrieron que casi todos los creadores del conjunto de datos se concentraban en el norte global, lo que puede limitar las capacidades de un modelo si está capacitado para su implementación en una región diferente. Por ejemplo, un conjunto de datos en idioma turco creado principalmente por personas de Estados Unidos y China puede no contener ningún aspecto culturalmente significativo, explica Mahari.

«Casi nos engañamos pensando que los conjuntos de datos son más diversos de lo que realmente son», afirma.

Curiosamente, los investigadores también observaron un aumento dramático en las restricciones impuestas a los conjuntos de datos creados en 2023 y 2024, lo que puede deberse a la preocupación de los académicos de que sus conjuntos de datos podrían usarse con fines no comerciales.

Herramienta fácil de usar

Para ayudar a otros a obtener esta información sin la necesidad de verificación manual, los investigadores crearon el Explorador de procedencia de datos. Además de seleccionar y filtrar conjuntos de datos según ciertos criterios, la herramienta permite a los usuarios descargar una hoja de procedencia de datos que proporciona una descripción general breve y estructurada de las características del conjunto de datos.

«Esperamos que esto sea un paso, no sólo para comprender el panorama, sino también para ayudar a las personas en el futuro a tomar decisiones más informadas sobre los datos con los que están entrenando», dice Mahari.

En el futuro, los investigadores quieren ampliar su análisis para investigar la procedencia de los datos multimodales, incluidos el vídeo y la voz. También quieren estudiar cómo se muestran en los conjuntos de datos los términos de servicio de los sitios web que sirven como fuentes de datos.

A medida que amplían su investigación, también se acercan a los reguladores para discutir sus hallazgos y las implicaciones únicas de los derechos de autor que tiene el ajuste de datos.

«Necesitamos transparencia y procedencia de los datos desde el principio, cuando las personas crean y publican estos conjuntos de datos, para que a otros les resulte más fácil obtener estos conocimientos», afirma Longpre.



Source link

Hi, I’m Conchita Garcia

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *