4-Funcionamiento de un LLM

 

Funcionamiento de un LLM: ¿Cómo interactuamos con estos modelos?

Cuando interactuamos con modelos de machine learning tradicionales, el proceso suele ser técnico: necesitamos escribir código, importar librerías, transformar datos a formatos específicos y seguir un flujo estructurado. Sin embargo, con los Modelos de Lenguaje Grandes (LLM, por sus siglas en inglés), la experiencia es radicalmente diferente.

Interactuar con un LLM: lenguaje natural en lugar de código

La principal ventaja de los LLM es que no requieren preparación técnica compleja para usarlos. En lugar de enviar datos estructurados o matrices numéricas, simplemente proporcionamos instrucciones en lenguaje natural, de la misma manera en que le hablaríamos a una persona.

Esta entrada de texto se conoce como "prompt", y aunque parece informal, su redacción es clave para obtener buenos resultados. De hecho, existe toda una disciplina dedicada a optimizar estos inputs: el prompt engineering (o ingeniería de prompts), uno de los campos más estudiados en la inteligencia artificial generativa.

Limitaciones: el tamaño del contexto

Eso sí, los prompts no son infinitos. Cada modelo tiene lo que se llama una "ventana de contexto" (context window), que limita la cantidad de texto que puede procesar en una sola interacción. Esta ventana puede variar entre unos pocos miles de palabras (1K, 2K, 4K…) según el modelo que estemos utilizando.

¿Cómo genera respuestas un LLM?

Una vez que introducimos el prompt, el modelo comienza a generar texto palabra por palabra, basándose en el contexto proporcionado. Este proceso se llama inferencia, y funciona así:

  1. El modelo predice la primera palabra más probable según el prompt.

  2. Luego, usa esa palabra para predecir la siguiente.

  3. Repite el proceso hasta que considera que la respuesta está completa o encuentra una condición de parada.

El resultado final (el texto generado más el prompt original) se conoce como "completion" (finalización).

¿Y cómo se entrenan estos modelos?

Es una pregunta común, y la responderemos en detalle más adelante en el curso. Por ahora, lo importante es entender los conceptos básicos: prompt, inferencia y completion.

En la próxima entrada, veremos ejemplos prácticos de cómo funcionan estos modelos en acción. ¡No te lo pierdas!

Comentarios

Entradas más populares de este blog

LLMs Open Source

Cómo crear tu primer LLM local con Ollama

¿Qué es un "Agente" en el contexto de IA?