Desde que el modelo ChatGPT 3.0 fue lanzado al público en noviembre del 2022, la popularidad de los modelos de lenguaje natural ha crecido a pasos agigantados, mejorando la productividad de escritores, programadores, estudiantes, entre otros. Tanto así, que hoy en día resulta casi imposible moverse en las áreas de TI, Machine Learning o Innovación y no encontrarse con al menos un plan o proyecto que incluya algún modelo de generación de texto, conocido comúnmente como LLM por sus siglas en inglés (Large Language Model).
Dada la importancia actual y el crecimiento esperado para esta área (llegando a 1.3 trillones para 2032), es importante entender como funcionan estos modelos, que son los modelos fundacionales y algunas de las soluciones que se pueden realizar con estos.
¿Cómo funcionan los LLMs?
En el corazón de estos modelos se encuentra una tecnología conocida como transformers, la cual fue inicialmente presentada el 2017 en un paper llamado Attention Is All You Need escrito por trabajadores de Google, buscando conseguir mejorar su sistema de traducción. Sin embargo, prontamente se descubrió que estos “motores” eran capaces de generar nuevo texto de forma muy buena. Entonces, ¿cómo funcionan estos?
Los Transformers constan de dos partes principales:
Encoder: mapea la oración de input a un espacio vectorial continuo, generando representaciones internas de cada palabra en contexto.
Decoder: genera la traducción o texto output, una palabra a la vez, basándose en la salida del encoder.
La comunicación entre el encoder y el decoder es donde ocurre la magia: el decoder atiende a las partes relevantes del vector del encoder para generar cada nueva palabra.
Pero, ¿cómo podemos saber que partes son las relevantes?
A diferencia de modelos recurrentes como LSTM, los Transformers no procesan el texto secuencialmente. En cambio, utilizan un mecanismo de atención que les permite enfocarse en partes relevantes del texto input.
La atención funciona asignando un peso a cada palabra en la oración input, donde el peso refleja la relevancia de esa palabra para generar la siguiente. Esto le permite al modelo “atender” a las partes más importantes en lugar de procesar todas las palabras por igual.
Solo con esto la idea de entrenar este modelo con información con etiquetas puede sonar como una tarea hercúlea. Sin embargo, el proceso de entrenamiento es autosupervisado, lo que es la clave del éxito de los Transformers, se entrenan para reconstruir partes enmascaradas del texto input, en lugar de requerir datos etiquetados manualmente.
Por ejemplo, en una tarea de lenguaje a lenguaje, el modelo podría recibir esta oración con algunas palabras enmascaradas: “El gato [MASK] sobre la [MASK]” y se le pide reconstruir las palabras faltantes.
Al hacer esto a escala masiva (billones de parámetros), el modelo desarrolla una comprensión increíblemente profunda del lenguaje, permitiendo los resultados “mágicos” que observamos al hacer una pregunta a estos modelos.
¿Qué son los modelos fundacionales?
Si ya tenemos una idea de la estructura de estos modelos, o hasta repositorios abiertos con soluciones de empresas como OpenAI con su modelo GPT-2 ¿por qué no todos tenemos nuestro propio LLM basado en información de nuestra empresa?
Existen un par de razones por las cuales esto es complicado, dentro de las cuales se encuentran:
Costo: El proceso de entrenamiento de estos modelos requiere un gran número de unidades de procesamiento, por lo que no solo requiere mucho tiempo, sino que también mucho hardware.
Conocimiento: El conocimiento requerido para entrenar estos modelos, con el nivel de paralelismo requerido para que el tiempo de entrenamiento no este en los cientos de años no es fácil, ni barato, de conseguir.
Datos: Estos modelos requieren de cantidades gigantes de texto antes de ser capaces de responder de forma coherente, por lo que difícilmente una sola empresa va a llegar al volumen de procesos escritos como para poder entrenar un modelo desde 0. Por ejemplo, el tamaño del set de datos utilizado para entrenar GPT-3 es de 570 GB.
Entonces, dadas estas grandes barreras a la entrada al mundo de los LLM, es que nacen los modelos fundacionales. Estos son modelos gigantes, que son capaces de resolver múltiples tipos de problemas desde exactamente el mismo modelo, la cual se abren al público para que sean utilizados como base para soluciones para problemas de lenguaje natural.
¿Cómo se pueden ocupar los modelos fundacionales?
Entonces, aquí es donde entra el verdadero trabajo de realizar soluciones con LLMs. Ya tenemos la base del modelo, pero como vamos a lograr que responda solamente dentro de un contexto específico, brindarle información específica de la empresa, etc. Algunas de las soluciones son las siguientes:
Prompt Engineering: Entregar junto a la pregunta del usuario un prompt o contexto específico que trate de restringir las respuestas que debe dar el modelo, sus áreas de expertise, etc. Por ejemplo, podríamos decirle al modelo que es un experto en recetas de cocina y que solo debe responder dentro de su dominio, restringiendo así sus respuestas.
Retrieval Augmented Generation: Si queremos que el modelo nos responda basado en información específica, podemos entregar junto a la pregunta del usuario la información con la que queremos que nos responda. Esto va a asegurar que el modelo solo nos responda basado en información interna.
Agentes: Si queremos que el modelo logre responder preguntas más complejas, podemos tratar de realizar un proceso iterativo con el modelo, donde este mismo vaya a buscar la información que requiere. Por ejemplo, podríamos querer conseguir información del clima de mañana. El modelo podría darse cuenta de que no sabe como va a estar el clima, ir a buscarlo a Google y luego responder al usuario basado en la información que consiguió. Estas soluciones son particularmente buenas cuando tenemos datos, los cuales cambian constantemente con el tiempo.
Fine Tuning: Finalmente, podríamos realizar una última iteración de re-entrenamiento al modelo con documentos específicos de la empresa. Esta solución no necesariamente va a dar mejor resultados que la segunda propuesta (Retrieval Augmented Generation), dependerá del tipo de documentos con los que se esté trabajando, el número de datos que tengamos, etc. Por otro lado, esto también puede implicar un mayor costo, ya que los modelos deben ser self hosted.
El desarrollo de soluciones de inteligencia artificial generativa basadas en las estrategias previamente mencionadas implican complejos desafíos en diseño de arquitectura, interfaz de usuario, flujos de trabajo, seguridad de datos, entre otros.
Conclusión
Desde la llegada de ChatGPT 3.0 en 2022, los Modelos de Lenguaje Natural (LLMs) han revolucionado la eficiencia en escritura y programación, con tecnología como transformers y modelos fundacionales como GPT-2, más accesibles.
En ARKHO ofrecemos guía para modernizar su empresa y destacar en la competencia. En un mundo desafiante, tomar la iniciativa es clave para descubrir nuevos caminos. Tome acción, contáctenos y avancemos hacia el progreso juntos. ¿Listo para explorar nuevas oportunidades? ¡Hablemos ahora!
Comments