Un río para el aprendizaje automático en línea en Python

Corina GuzmanAbr 28, 2024

30 de septiembre de 2021

publicado por Dr. Nidhi Arora en Inteligencia Artificial, Programación | 2 comentarios

River es una biblioteca de Python para el aprendizaje automático en línea. La biblioteca le permite entrenar modelos de aprendizaje automático en transmisión de datos.

Introducción

Todos los algoritmos tradicionales de aprendizaje automático, ya sean tan simples como la regresión lineal o potentes algoritmos de aprendizaje como xgboost, todos los algoritmos procesan datos en lotes. Esto significa que estos algoritmos analizan el conjunto de datos completo y coinciden con el modelo. En caso de que haya nuevos datos disponibles, se requiere ajustar el modelo desde cero considerando ambos; los datos nuevos y los antiguos.

Puede haber muchos desafíos al volver a entrenar el modelo. A veces, se requiere mucha memoria para guardar todos los datos, lo que puede afectar negativamente al entrenamiento y hacer que el proceso sea más lento. En algunos otros casos, puede limitarse a la infraestructura de almacenamiento de datos. Es casi imposible recuperar los datos más antiguos en algunas aplicaciones que continúan generando datos nuevos.

Una de las soluciones para afrontar los desafíos anteriores es realizar formación online con datos en streaming. Los datos generados continuamente se consideran un flujo, lo que los convierte en un flujo de aprendizaje o aprendizaje incremental. Este método generalmente es adecuado para aplicaciones de IoT en las que se recopilan datos en tiempo real a partir de sensores.

¿Qué es el aprendizaje automático en línea?

El aprendizaje automático en línea es una técnica utilizada para entrenar modelos de aprendizaje automático en aquellas aplicaciones en las que implica cálculos poco prácticos para entrenar el modelo en todo el conjunto de datos o en las que los datos están disponibles de vez en cuando en orden secuencial. Dado que los datos están en movimiento y cambian continuamente, es necesario capturar el comportamiento de la transmisión de datos para poder procesarlos siempre que estén disponibles. El método es útil en entornos donde se requiere que el algoritmo se adapte dinámicamente a nuevos patrones disponibles en los datos durante un período de tiempo.

River: la biblioteca en línea de aprendizaje automático

Un rio es un paquete de Python para el aprendizaje automático en línea. Proporciona una variedad de algoritmos de aprendizaje incremental que incluyen aprendizaje supervisado y no supervisado. Es un paquete combinado que consta de Creme y Scikit-Multiflow.

Una crema como un río tiene una API similar a la de Scikit-learn, por lo que también se la conoce como Scikit-learn para el aprendizaje automático en línea. Es compatible con casi todos los diferentes estimadores y transformadores de ML creados específicamente para la transmisión de datos. Tiene una amplia gama de modelos compatibles, incluidos Bayes ingenuos, modelos de conjuntos de árboles, motores de factorización, modelos lineales y muchos más. Una lista completa de algoritmos está disponible. aquí.

Algunas de las diferencias entre las bibliotecas y los marcos utilizados para entrenar modelos sobre datos y transmisión de datos son las siguientes: