Especificación Técnica de IA

Desarrollo del Modelo Mini-GPT para Asistencia Culinaria

1. Resumen Ejecutivo del Proceso

El script train_from_scratch.py representa la implementación de un pipeline completo de Deep Learning. A diferencia de los modelos pre-entrenados comerciales, este proyecto se enfoca en la inicialización desde cero, lo que implica que el modelo no posee conocimientos lingüísticos previos. Su aprendizaje se basa enteramente en las asociaciones estadísticas presentes en el dataset de entrenamiento.

2. Ingeniería de la Arquitectura (Transformer)

Se ha diseñado una arquitectura basada en el modelo Generative Pre-trained Transformer (GPT). El objetivo es optimizar la capacidad de representación frente a la eficiencia de cómputo.

        Componentes Estructurales
        Mecanismo de Auto-Atención (Self-Attention): Permite que cada token de una receta (por ejemplo, "horno") mantenga una relación matemática con tokens distantes ("precalentar"), permitiendo una coherencia estructural en el texto generado.
Bloques de Capas (6 unidades): Se ha reducido la profundidad para facilitar la convergencia. En un modelo entrenado desde cero, demasiadas capas pueden introducir inestabilidad en los gradientes durante las primeras fases.
Normalización de Capas (LayerNorm): Se aplica para estabilizar la dinámica de entrenamiento, asegurando que las activaciones neuronales no saturen las funciones de transferencia.

    

3. Tratamiento de Datos y Tokenización

El éxito del modelo reside en cómo se "traduce" el lenguaje humano a vectores numéricos. Se utiliza el archivo recetas_extended.jsonl, que contiene pares de instrucción y respuesta.

Algoritmo de Codificación

Se utiliza Byte-Pair Encoding (BPE). Este método es robusto frente a errores ortográficos o términos técnicos culinarios, ya que si no reconoce una palabra completa, la descompone en unidades sub-palabra que sí conoce.

        # Ejemplo de flujo de datos:
        Instrucción: "¿Cómo hago un huevo frito?"
        Tokenización: [34, 120, 45, 89, 210, ...]
        Pad Token: Los espacios vacíos hasta 128 se rellenan con EOS para mantener tensores uniformes.
    

4. Estrategia de Hiper-parametrización

La configuración del entrenamiento ha sido ajustada para forzar una memorización profunda de los patrones del dataset culinario.

Parámetro Critico	Valor Seleccionado	Justificación Técnica
Epochs	100	Ciclo extendido para asegurar que el modelo pase de la generación de ruido a la estructura lógica en un conjunto de datos limitado.
Learning Rate	5e-4	Una tasa elevada para permitir que el optimizador AdamW encuentre rápidamente la dirección del gradiente en un paisaje de pérdida inexplorado.
Weight Decay	0.01	Penalización de pesos para evitar que el modelo se vuelva "rígido" y solo pueda repetir las recetas del dataset.
FP16 (Mixed Precision)	Activado	Optimización de hardware que permite procesar más datos por segundo sin comprometer la precisión de los resultados.

5. Pipeline de Ejecución Paso a Paso

Instanciación de la Configuración: Se define el "esqueleto" del cerebro digital sin neuronas conectadas.
Mapping de Dataset: Se inyectan las marcas de control (User/Assistant) para que el modelo aprenda cuándo debe escuchar y cuándo debe hablar.
Optimización (Backpropagation): Por cada receta, el modelo intenta predecir la siguiente palabra, se equivoca, y el optimizador ajusta los 50-80 millones de parámetros para reducir el error.
Serialización: Se consolidan los pesos finales en un archivo .bin para su posterior uso en inferencia.

6. Conclusiones y Futuro

Al finalizar las 100 épocas, el modelo habrá desarrollado un "entendimiento" estadístico de la estructura de las recetas. Este modelo es ahora capaz de generar respuestas autónomas siguiendo el formato aprendido, representando un hito fundamental en el desarrollo de soluciones de Inteligencia Artificial personalizadas.

Generado para: Departamento de Ingeniería de Software / Proyecto IA Culinaria. Fecha: Febrero 2026.