LLMs Open Source

julio 05, 2025

📌 Curso Rápido de LLMs Open Source

(Large Language Models de Código Abierto)

1️⃣ Introducción a los LLMs

🔹 ¿Qué es un LLM?

Modelos de lenguaje entrenados con grandes cantidades de texto.
Capaces de generar texto, traducir, responder preguntas, etc.

🔹 Open Source vs. Privativos

Open Source: Puedes descargarlos, modificarlos y ejecutarlos localmente.
- Ejemplos: LLaMA (Meta), Mistral, Falcon, Bloom (BigScience).
Privativos: Requieren API (ej: GPT-4 de OpenAI, Claude de Anthropic).

2️⃣ Modelos Open Source Populares

Modelo	Desarrollador	Características
LLaMA 2	Meta (Facebook)	Varios tamaños (7B, 13B, 70B parámetros).
Mistral 7B	Mistral AI	Más eficiente que LLaMA 2 en algunos benchmarks.
Falcon 40B	TII (UAE)	Modelo potente con licencia Apache 2.0.
Bloom	BigScience	Multilingüe (soporta español bien).

📌 Requisitos:

Hardware: GPU (NVIDIA) para modelos grandes (ej: 16GB+ RAM para 7B parámetros).
Alternativa: Usar APIs como Hugging Face Inference API o Google Colab (T4 GPU gratis).

3️⃣ Cómo Usar un LLM Open Source

Opción 1: Hugging Face 🤗 (Fácil)

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "mistralai/Mistral-7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

input_text = "¿Qué es un LLM?"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

⚠️ Necesitas una GPU potente o usar Google Colab Pro.

Opción 2: GGML (CPU + RAM)

Modelos optimizados para CPU (ej: llama.cpp, Ollama).
Descargas un .bin del modelo (ej: TheBloke/Mistral-7B-GGML).

Ejemplo con llama.cpp:

./main -m mistral-7b.ggml -p "¿Qué es un LLM?"

4️⃣ Fine-Tuning (Ajuste Fino)

🔹 ¿Por qué? Para especializar el modelo en tu tarea (ej: chatbot médico, asistente legal).
🔹 Herramientas:

LoRA: Técnica eficiente para ajustar modelos grandes.
Hugging Face Trainer + datasets personalizados.

📌 Ejemplo con PEFT (Parameter-Efficient Fine-Tuning):

from peft import LoraConfig, get_peft_model

config = LoraConfig(task_type="CAUSAL_LM", r=8, lora_alpha=32, lora_dropout=0.1)
model = get_peft_model(model, config)
model.train()  # ¡A entrenar con tus datos!

5️⃣ Despliegue (Deployment)

🔹 Opciones:

Local: Usar FastAPI + modelo GGML.
Cloud: Hugging Face Spaces, AWS/GCP con GPU.
Ollama: Facilita ejecución local (ej: ollama run mistral).

📌 Ejemplo con FastAPI:

from fastapi import FastAPI
app = FastAPI()

@app.post("/generate")
def generate_text(prompt: str):
    inputs = tokenizer(prompt, return_tensors="pt")
    outputs = model.generate(**inputs)
    return {"response": tokenizer.decode(outputs[0])}

🚀 Recursos Útiles

Hugging Face (modelos y datasets).
TheBloke (modelos GGML optimizados).
LlamaIndex (para RAG: Retrieval-Augmented Generation).
Ollama (ejecución sencilla de LLMs local).

🎯 Conclusión

✅ Puedes usar LLMs open source sin depender de OpenAI/Gemini.
✅ Mistral y LLaMA 2 son excelentes opciones para empezar.
✅ Fine-tuning + RAG te permite crear asistentes personalizados.

¿Quieres profundizar en algún tema? ¡Dímelo! 🚀

Buscar este blog

SOTELO-IA

LLMs Open Source

(Large Language Models de Código Abierto)

1️⃣ Introducción a los LLMs

2️⃣ Modelos Open Source Populares

3️⃣ Cómo Usar un LLM Open Source

Opción 1: Hugging Face 🤗 (Fácil)

Opción 2: GGML (CPU + RAM)

4️⃣ Fine-Tuning (Ajuste Fino)

5️⃣ Despliegue (Deployment)

🚀 Recursos Útiles

🎯 Conclusión

Comentarios

Publicar un comentario

Entradas más populares de este blog

Cómo crear tu primer LLM local con Ollama

¿Qué es un "Agente" en el contexto de IA?