Memoria de Proyecto Final

Implementación y Entrenamiento de un Modelo de Lenguaje Causal (LLM)

Desarrollo integral de una solución de IA para asistencia culinaria mediante arquitecturas GPT optimizadas.

Resumen Técnico: Este proyecto documenta el proceso completo de ingeniería para crear un modelo de lenguaje autoregresivo. Se aborda desde la generación de un dataset sintético en formato JSONL, pasando por la definición de una arquitectura Transformer personalizada, hasta la optimización del modelo final en formato GGUF para entornos de baja latencia.

1. Introducción y Objetivos

El objetivo principal de este proyecto es demostrar la viabilidad de entrenar modelos de lenguaje específicos de dominio sin depender de infraestructuras de cómputo masivas. A diferencia de las soluciones de "caja negra", este desarrollo permite un control total sobre el vocabulario y la lógica de respuesta del asistente.

2. Arquitectura del Modelo: El Cerebro Digital

Se ha implementado una variante de la arquitectura Transformer Decoder-Only. Esta arquitectura se basa en el mecanismo de atención para calcular la relevancia de cada palabra en relación con las demás dentro de una secuencia culinaria.

Self-Attention
Permite al modelo entender que en la frase "Bate el huevo hasta que esté espumoso", la palabra "espumoso" se refiere al "huevo".

Causal Masking
Asegura que el modelo solo aprenda a predecir la palabra siguiente basándose en las anteriores, nunca en las futuras.

Feed-Forward Networks
Capas densas que procesan las representaciones obtenidas por la atención para extraer patrones complejos.

3. Ciclo de Vida del Dato (Data Engineering)

La base del conocimiento reside en generate_dataset.py. El proceso de ingeniería de datos se divide en:

Estructuración: Conversión de diccionarios de recetas en pares instruction-output.
Serialización JSONL: Uso de líneas JSON para permitir el streaming de datos durante el entrenamiento, optimizando el uso de memoria volátil.

4. Proceso de Entrenamiento

El entrenamiento se realizó bajo un esquema de entrenamiento desde cero. Esto significa que el modelo comenzó con una distribución de pesos aleatoria (Ruido Gaussiano).

Configuración	Valor	Propósito
Capas (Layers)	6	Balance entre profundidad semántica y velocidad.
Épocas	100	Garantizar la convergencia en un dataset de nicho.
Learning Rate	5e-4	Ajuste dinámico de pesos para evitar mínimos locales.
Precision	FP16	Uso de tensores de media precisión para aceleración en GPU.

5. Inferencia y Despliegue (GGUF)

El hito final del proyecto es la conversión al formato GGUF. Este paso es vital para la democratización de la IA, ya que permite:

Cuantización: Reducción del tamaño del modelo de 32 bits a 4 u 8 bits con mínima pérdida de precisión.
Inferencia en CPU: Eliminación de la dependencia de tarjetas gráficas costosas.
Portabilidad: Un único archivo binario que contiene pesos, metadatos y tokenizador.

6. Conclusiones y Resultados