Modelos de lenguajes grandes en computadoras pequeñas

Corina GuzmanSep 7, 2024

A medida que avanza la tecnología, generalmente esperamos que aumenten las capacidades de procesamiento. Cada año, obtenemos más potencia de procesador, velocidades más rápidas, mayor memoria y menores costos. Sin embargo, también podemos utilizar actualizaciones de software para que todo funcione en lo que de otro modo se consideraría hardware inadecuado. Llevando esto al extremo, mientras los grandes modelos lingüísticos (LLM) como GPT se están quedando sin datos para entrenar y tienen dificultades para ampliarlos, [DaveBben] en su lugar, está experimentando con la reducción de escala, ejecutando un LLM en la computadora más pequeña que pueda ejecutarlo razonablemente.

Por supuesto, se deben hacer algunas concesiones para que LLM se ejecute en hardware con poca potencia. En este caso, la computadora elegida es una ESP32, por lo que el conjunto de datos se reduce de billones de parámetros de algo como GPT-4 o incluso cientos de miles de millones para GPT-3 a solo 260.000. El conjunto de datos proviene del punto de control de tinyllamas y llama.2c es la implementación que [DaveBben] Opté por esta configuración, ya que se puede simplificar para que funcione un poco mejor en algo como el ESP32. El modelo específico es el ESP32-S3FH4R2, que fue elegido por la gran cantidad de RAM en comparación con otras versiones, ya que incluso este modelo pequeño necesita un mínimo de 1 MB para funcionar. También tiene dos núcleos, los cuales trabajan lo más duro posible bajo cargas (relativamente) pesadas, y la velocidad del reloj de la CPU se puede maximizar en alrededor de 240 MHz.

ciertamente, [DaveBben] principalmente simplemente hacerlo para ver si se puede hacer, ya que incluso los procesadores ESP32 más potentes no podrán realizar mucho trabajo útil con un modelo de lenguaje grande. Sin embargo, resulta posible y algo impresionante, considerando que el ESP32 tiene tanta capacidad de procesamiento como un 486 o quizás uno de los primeros chips Pentium, para poner las cosas en perspectiva. Sin embargo, si está dispuesto a dedicar algunos recursos más a LLM, puede alojarlo y usarlo de la misma manera que un modelo en línea como ChatGPT.

Source link